Recomendación de noticias (5): Introducción a los conjuntos de datos convencionales
Los datos de Adressa se establecieron durante un período de 10 semanas, según la revista del sitio web adreseavisen, que contó con 48.486 artículos de noticias, 3.083.438 usuarios y 27.223.576 eventos de clic. Cada evento de clic contiene varios atributos, como tiempo de sesión, título de noticia, categoría de noticia e ID de usuario. Cada artículo de noticias está asociado con detalles como autor, entidad y tema. Los artículos de noticias de este conjunto de datos están escritos en noruego. Todo el conjunto de datos se divide en dos versiones de escala diferentes.
En conjunto, Addresssa es la más completa en términos de contenido y puede usarse para recomendaciones de noticias periódicas, recomendaciones basadas en sesiones y recomendaciones basadas en gráficos de conocimiento.
2018) estableció un conjunto de datos de recomendación de noticias de globo, un popular portal de noticias brasileño. Este conjunto de datos contiene aproximadamente 365.438+04.000 usuarios, 46.000 artículos de noticias y 3 millones de clics. Cada registro de clic contiene campos como ID de usuario, ID de noticias y tiempo de sesión. Se abrió por primera vez en la plataforma Kaggle y proporciona incrustaciones de noticias capacitadas sin la necesidad de información de artículos de noticias originales.
Contiene 14180 noticias y 34022 eventos de clic. Cada artículo de noticias está representado por una identificación de palabra y no se proporciona el texto de la noticia original. Se desconoce la cantidad de usuarios en este conjunto de datos porque no hay ID de usuario.
Si lo encuentras útil, dale me gusta y síguenos.
Si está interesado en hacer recomendaciones, no dude en comunicarse en el área de comentarios/mensajes privados~ ~ ~