En este artículo, vamos a aplicar Inteligencia Artificial a todas las noticias de portada de meneame.net en 2018. Empezaremos realizando un análisis estadístico y visualización de datos. Después usaremos Procesamiento del Lenguaje Natural y Aprendizaje Automático.
Quisiera agradecer a Alfonso Martínez Heras su colaboración en este proyecto. Alfonso se ha encargado de crear un web scrapper para obtener las historias de portada de meneame.net automáticamente.
Índice
¿Qué es meneame.net?
A lo mejor nunca has visto Menéame y te estás preguntando qué es. Aquí tienes una definición:
Menéame es un sitio donde compartir enlaces que creas interesantes.
Menéame es un sitio social: funciona gracias a las aportaciones de los usuarios (como tú)
En menéame, los usuarios registrados comparten enlaces. Otros usuarios registrados o visitantes votan (menean) estos enlaces para hacerlos más visibles. Puedes acceder a las historias que hay tras estos enlaces haciendo click en el título. Para acceder a la sección de comentarios, donde los usuarios registrados comentan la historia, puedes hacer click en el número de meneos.
Datos básicos
Si nos fijamos todas las noticias que se han publicado en la portada de meneame en 2018, podemos extraer los siguientes datos:
- 12.332 noticias
- 45.254.081 visitas a la noticias (clicks)
- 5.764.374 meneos
- 1.103.313 comentarios
- 1.746 autores.
Análisis Estadístico de todas las noticias en portada de Menéame en 2018
Distribuciones
Una forma de entender mejor los datos es visualizando las distribuciones de datos. En esta sección vamos a visualizar la distribución de clicks, de meneos y la distribución conjunta de clicks y meneos.
Distribución de visitas a las noticias (clicks)
Como podemos ver, el número de visitas a las noticias de menéame, sigue una distribución exponencial. Podemos observar, tal y como cabe esperar de una distribución exponencial, que:
- La mayoría de las noticias reciben un número relativamente pequeño de visitas
- Hay muy pocas noticias que reciban un número alto de visitas
Distribución de meneos
La distribución de meneos también sigue una distribución exponencial. Hay una minoría de noticias con un número alto de meneos.
Distribución de comentarios
La distribución del número del número de comentarios es también exponencial. Hay una minoría de noticias con un número alto de comentarios.
Distribución de clicks y meneos
En este gráfico quería representar cómo los meneos afectan al número de clicks. Hay dos cosas que me han sorprendido de este gráfico y que he destacado en el siguiente:
- Hay un suelo en el número de clicks que va creciendo con el número de meneos. Investigando un poco, ya sé por qué ocurre esto. Menéame implementa un sistema que asegura que una noticia no puede tener más meneos que visitas. Dicho de otra forma, menéame requiere un cierto número de visitas (clicks) antes de aceptar otro meneo.
- Lo más sorprendente para mi es que parece que el número de clicks decrece con el número de meneos! Cuantos más meneos tiene una noticia, menos visitas recibe (salvo excepciones, claro está). Me esperaba que las noticias más visitadas serían aquellas con más meneos. Aunque también hay una explicación para esto… Lo vemos en un momento.
Los top 11
Vamos a ver unas estadísticas simples. En casi todos los análisis estadísticos, siempre se habla de los top 10. A mi siempre me queda el gusanillo de saber si había tanta diferencia entre el 10 y el 11. Siempre me da un poco de pena que el 11, estando muchas veces tan cerca del 10, no salga nunca. Así que vamos a hablar de los top 11.
Las 11 noticias más visitadas
Número de visitas para cada noticia:
- 85.211 – No, Arabia Saudí NO ha decapitado a la activista Esra al-Ghamgam
- 61.162 – Cosas que Franco no hizo por mucho que se repitan…
- 40.622 – Factura de la luz del año 2001 vs 2017
- 35.778 – Contemos chistes sobre gitanos
- 35.582 – La mentira del twerking y el balón de oro
- 33.442 – Sentencia de La Manada ¿Cómo puede absolvérseles de violación con semejantes Hechos Probados?
- 31.218 – Al primer ministro eslovaco se le cae la coca durante una entrevista en la televisión
- 27.118 – La Policía Nacional avisa: Si ves estos testigos en tu puerta, en la del vecino o caídos en el suelo, llámanos #091
- 26.949 – Por qué la izquierda no gana las elecciones
- 26.874 – El truco ganador del Campeonato Mundial de Magia te dejará seis minutos con la boca abierta
- 26.034 – Estas son las empresas que más facturan en cada provincia española
Las 11 noticias con más meneos
Número de meneos para cada noticia:
- 3.791 – Senadores del PP, ovacionándose y en pie, tras conseguir paralizar con sus votos la subida de las pensiones
- 2.922 – Hola: soy Diputada y necesito ayuda
- 2.904 – Fallece Stephen Hawking
- 2.722 – Cristina Cifuentes obtuvo su título de máster en una universidad pública con notas falsificadas
- 2.436 – Cristina Cifuentes se matriculó en su máster tres meses después de que empezaran las clases
- 2.406 – La indignación de Pablo Iglesias ante la decisión del Supremo sobre el impuesto hipotecario
- 2.355 – Sánchez, presidente: la moción de censura tumba a Rajoy
- 2.231 – Pedro J. Ramírez aporta 21 pruebas que implican a Rajoy en la caja B del PP
- 2.220 – Jueces de mierda y católicos de mierda
- 2.169 – El Supremo concluye por 15 votos a 13 que es el cliente el que debe pagar el impuesto hipotecario
- 2.168 – Lo de Rajoy es mucho peor que lo de Cifuentes
Las 11 noticias más comentadas
Número de comentarios para cada noticia:
- 1.397 – Ciudadanos pide que conocer las lenguas cooficiales no sea obligatorio para trabajar en la administración autonómica
- 1.013 – Iglesias y Montero anuncian una consulta en Podemos sobre la compra de su casa: si pierden, dimitirán
- 913 – La Justicia alemana deja en libertad a Puigdemont y descarta delito de rebelión
- 886 – El detenido por la muerte de Laura Luelmo confiesa el asesinato
- 788 – Paso en firme en materia de violencia contra la mujer: desaparece el abuso; todo delito sexual será agresión o violación
- 764 – Torrent pospone la investidura hasta que se pueda celebrar «sin injerencias»
- 755 – Sentencia de La Manada ¿Cómo puede absolvérseles de violación con semejantes Hechos Probados?
- 744 – La policía alemana detiene a Puigdemont cuando entraba desde Dinamarca
- 724 – La Guardia Civil detiene a una líder de los CDR por terrorismo y rebelión
- 714 – Dos transexuales ganan a mujeres en competición de atletismo [eng]
- 699 – El actor Willy Toledo, detenido en Madrid
Los 11 usuarios que más veces han llegado a portada
Número de noticias en portada por usuario:
- 495 – ccguy
- 240 – Ripio
- 201 – Ratoncolorao
- 198 – Danichaguito
- 190 – –550559–
- 174 – Joya
- 169 – Wurmspiralmaschine
- 162 – Cubillina
- 152 – rataxuelle
- 151 – Quinqui
- 147 – Meneador_Compulsivo
Después de este análisis estadístico simple, vamos a utilizar técnicas de Inteligencia Artificial para hacer un análisis más concienzudo. En particular, vamos a usar técnicas de Machine Learning, que es el área de la Inteligencia Artificial que permite aprender de los datos.
Inteligencia Artificial para el Modelado de Temas
El Modelado de Temas es una técnica de aprendizaje automático no-supervisado. Con esta técnica asumimos que cada historia en menéame se compone de una combinación de varios temas. Veamos un ejemplo con las últimas noticias del 2018 (si haces click en la imagen, deberías verla ampliada).
Los temas que la Inteligencia Artificial ha encontrado automáticamente son:
- historia, vida, guerra, siglo, primera,
- cifuentes, máster, cristina, presidenta, universidad,
- pp, partido, popular, cospedal, corrupción,
- años, edad, últimos, niño, menor,
- euros, mes, pagar, salario, sueldo,
- casado, pablo, máster, jueza, trabajos,
- españa, país, países, española, europa,
- policía, nacional, detenido, villarejo, agentes,
- madrid, comunidad, ayuntamiento, carmena, metro,
- mujer, hombre, joven, víctima, madre,
- rey, juan, carlos, universidad, corinna,
- tribunal, supremo, sentencia, sala, impuesto,
- rajoy, mariano, moción, censura, presidente,
- china, trump, unidos, eeuu, aranceles,
- civil, guardia, detenido, agentes, guerra,
- datos, google, facebook, usuarios, web,
- sistema, tierra, nuevo, espacial, planeta,
- trabajo, trabajadores, laboral, horas, empresa,
- precio, alquiler, mercado, vivienda, precios,
- europea, unión, ue, brexit, reino,
- personas, menos, número, miles, muertos,
- gobierno, sánchez, pedro, presidente, ejecutivo,
- saudí, arabia, khashoggi, periodista, armas,
- agua, ciudad, mar, río, potable,
- ley, ciudadanos, podemos, congreso, psoe,
- prisión, cárcel, caso, delito, audiencia,
- publicado, visible, vídeo, enviado, wideonly,
- sanidad, pública, salud, ministra, hospital,
- franco, dictador, valle, caídos, francisco,
- mundo, país, mayor, países, grande,
Seguramente te estás preguntando que dónde están los temas que faltan. La verdad es que no están todos los temas, ni mucho menos. Pero tampoco era lo que pretendíamos. El modelado de temas es útil para entender cuáles son los temas de los que más se habla en menéame. Además nos va a permitir hacer otro tipo de análisis como son la correlación entre temas y la predicción de clicks y meneos.
Correlación entre temas
Al analizar la correlación entre temas, podemos averiguar qué temas ocurren a la vez en la mayoría de los casos. En la siguiente figura, puedes ver la correlación entre los temas de menéame en 2018 (si haces click en la imagen, deberías verla ampliada).
Por ejemplo, si te das cuenta, los temas «trabajo, trabajadores, laboral, horas, empresa,» y «europea, unión, ue, brexit, reino,» están bastante correlados. Así que esperamos que, en la mayoría de los casos, cuando haya más artículos sobre uno de los temas, habrá más artículos sobre el otro tema. Con un gráfico quedará más claro (recuerda que haciendo click puedes ampliarlo).
La Inteligencia Artificial averigua qué afecta al número de meneos, al de clicks y al de comentarios
La Inteligencia Artificial nos va a ayudar a averiguarlo! En particular, los modelos supervisados de machine learning.
Enfocando el problema como un problema de clasificación
En vez de predecir cuántos meneos / clicks / comentarios tendrá una historia, vamos a intentar predecir si una noticia tendrá un número alto o bajo de meneos / clicks / comentarios. Esto hace el problema más fácil. Por ejemplo, sería muy difícil predecir cuántos meneos tendrían los top 11 meneos. Es mucho más fácil predecir que los top 11 tendrán un número alto de meneos. De esta forma, transformamos un problema de regresión en uno de clasificación.
Para saber si un número de meneos / clicks / comentarios es alto o bajo, nos vamos a fijar en todas las historias del 2018. Las historias cuyo número de meneos / clicks / comentarios sean mayores que su valor mediano, estarán en la categoría de «alto»; las otras en el «bajo». Dicho de otra forma, ordenamos las historias por el número de meneos de menos a más. La mitad más alta tiene se clasifica como «alta» y la mitad más baja como «baja». También hacemos lo mismo para el número de clicks.
De esta forma, consideramos que:
- Una historia con más de 385 meneos, tiene un número alto de meneos
- Una historia con más de 2.655 clicks, tiene un número alto de clicks
- Una historia con más de 63 comentarios, tiene un número alto de comentarios
Modelos de Machine Learning
He construido varios modelos de aprendizaje automático supervisados para estudiar qué influye en el número de meneos:
- para entender qué temas tienen más / menos meneos, clicks, comentarios
- para entender qué palabras tienen más / menos meneos, clicks, comentarios
Hay varios tipos de modelos que podría haber utilizado. Como el objetivo de este proyecto es entender las influencias, he usado modelos de Inteligencia Artificial explicables. En particular he experimentado con árboles de decisión y regresión logística. La regresión logística parece dar mejores resultados. Así que usaremos este modelo para el resto del artículo.
¿Qué influye en el número de meneos?
Vamos a ver como los temas y las palabras de la historia afectan al número de meneos.
¿Qué temas son los mejores y peores para tener más meneos?
El modelo de de inteligencia artificial para predecir meneos a partir de temas, tiene un F1 de 0.72 en entrenamiento y un F1 de 0.70 en testeo.
Nota: Uso las historias publicadas entre enero y noviembre para construir los modelos de IA. Los datos del mes de diciembre 2018 lo uso para medir la generalización del modelo.
F1 es una medida de rendimiento de modelos de machine learning para problemas de clasificación binaria. El valor de F1 va del 0 al 1, siendo 1 lo mejor. F1 combina las medidas de precisión y exhaustividad.
Consideramos que una historia tiene un número de meneos alto si tiene más de 385 meneos (que es el valor mediano de número de meneos)
Los temas que obtienen más meneos
Estos son los temas que favorecen un número alto de meneos. Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, más meneos):
- pp, partido, popular, cospedal, corrupción,
- cifuentes, máster, cristina, presidenta, universidad,
- prisión, cárcel, caso, delito, audiencia,
- sanidad, pública, salud, ministra, hospital,
- trabajo, trabajadores, laboral, horas, empresa,
- casado, pablo, máster, jueza, trabajos,
- tribunal, supremo, sentencia, sala, impuesto,
- rajoy, mariano, moción, censura, presidente,
- euros, mes, pagar, salario, sueldo,
- gobierno, sánchez, pedro, presidente, ejecutivo,
- ley, ciudadanos, podemos, congreso, psoe,
- rey, juan, carlos, universidad, corinna,
- madrid, comunidad, ayuntamiento, carmena, metro,
- saudí, arabia, khashoggi, periodista, armas,
- españa, país, países, española, europa,
- franco, dictador, valle, caídos, francisco,
- precio, alquiler, mercado, vivienda, precios,
- europea, unión, ue, brexit, reino,
- civil, guardia, detenido, agentes, guerra,
- policía, nacional, detenido, villarejo, agentes,
- mujer, hombre, joven, víctima, madre,
- china, trump, unidos, eeuu, aranceles,
Los temas que obtienen menos meneos
Estos son los temas que favorecen un número bajo de meneos. Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, menos meneos):
- historia, vida, guerra, siglo, primera,
- sistema, tierra, nuevo, espacial, planeta,
- agua, ciudad, mar, río, potable,
- mundo, país, mayor, países, grande,
- publicado, visible, vídeo, enviado, wideonly,
- datos, google, facebook, usuarios, web,
¿Qué palabras son las mejores y peores para tener más meneos?
El modelo para predecir meneos a partir de palabras, tiene un F1 de 0.89 en entrenamiento y un F1 de 0.75 en testeo.
Las 11 palabras que obtienen más meneos
- pp
- cifuentes
- rajoy
- máster
- gobierno
- euros
- franco
- casado
- españa
- denuncia
- ciudadanos
Las 11 palabras que obtienen menos meneos
- historia
- siglo
- guerra
- arte
- espacial
- tecnología
- época
- imágenes
- ciudad
- mapa
- kilómetros
¿Qué influye en el número de clicks?
Vamos a ver como los temas y las palabras de la historia afectan al número de visitas (clicks). Consideramos que una historia tiene un número de clicks alto si tiene más de 2.655 visitas (que es el valor mediano de número de clicks)
¿Qué temas son los mejores y peores para tener más clicks?
El modelo para predecir clicks a partir de temas, tiene un F1 de 0.65 en entrenamiento y un F1 de 0.65 en testeo.
Los temas que obtienen más clicks
Estos son los temas que favorecen un número alto de visitas (clicks). Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, más clicks):
- historia, vida, guerra, siglo, primera,
- mujer, hombre, joven, víctima, madre,
- mundo, país, mayor, países, grande,
- publicado, visible, vídeo, enviado, wideonly,
Los temas que obtienen menos clicks
Estos son los temas que favorecen un número bajo de visitas (clicks). Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, menos clicks):
- prisión, cárcel, caso, delito, audiencia,
- sanidad, pública, salud, ministra, hospital,
- gobierno, sánchez, pedro, presidente, ejecutivo,
- tribunal, supremo, sentencia, sala, impuesto,
- ley, ciudadanos, podemos, congreso, psoe,
- sistema, tierra, nuevo, espacial, planeta,
- europea, unión, ue, brexit, reino,
- pp, partido, popular, cospedal, corrupción,
- china, trump, unidos, eeuu, aranceles,
- madrid, comunidad, ayuntamiento, carmena, metro,
- euros, mes, pagar, salario, sueldo,
- franco, dictador, valle, caídos, francisco,
- civil, guardia, detenido, agentes, guerra,
- trabajo, trabajadores, laboral, horas, empresa,
- policía, nacional, detenido, villarejo, agentes,
- datos, google, facebook, usuarios, web,
- rey, juan, carlos, universidad, corinna,
- cifuentes, máster, cristina, presidenta, universidad,
- saudí, arabia, khashoggi, periodista, armas,
- personas, menos, número, miles, muertos,
- casado, pablo, máster, jueza, trabajos,
¿Qué palabras son las mejores y peores para tener más clicks?
El modelo para predecir clicks a partir de palabras, tiene un F1 de 0.87 en entrenamiento y un F1 de 0.68 en testeo.
Las 11 palabras que obtienen más clicks
- vídeo
- aquí
- imágenes
- imagen
- foto
- fotos
- mentiras
- peor
- coche
- viñeta
- problema
Las 11 palabras que obtienen menos clicks
- gobierno
- ministerio
- muere
- justicia
- tribunal
- investigación
- estudio
- investigadores
- ley
- ing
- ministra
¿Qué influye en el número de comentarios?
Vamos a ver como los temas y las palabras de la historia afectan al número de comentarios en menéame. Consideramos que una historia tiene un número de comentarios alto si tiene más de 63 comentarios (que es el valor mediano de número de comentarios)
¿Qué temas son los mejores y peores para tener más comentarios?
El modelo para predecir el número de comentarios a partir de temas, tiene un F1 de 0.64 en entrenamiento y un F1 de 0.67 en testeo.
Los temas que obtienen más comentarios
Estos son los temas que favorecen un número alto de comentarios en menéame. Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, más comentarios):
- mujer, hombre, joven, víctima, madre,
- ley, ciudadanos, podemos, congreso, psoe,
- precio, alquiler, mercado, vivienda, precios,
- gobierno, sánchez, pedro, presidente, ejecutivo,
- españa, país, países, española, europa,
- china, trump, unidos, eeuu, aranceles,
- trabajo, trabajadores, laboral, horas, empresa,
- casado, pablo, máster, jueza, trabajos,
- prisión, cárcel, caso, delito, audiencia,
- personas, menos, número, miles, muertos,
- euros, mes, pagar, salario, sueldo,
- europea, unión, ue, brexit, reino,
- franco, dictador, valle, caídos, francisco,
- madrid, comunidad, ayuntamiento, carmena, metro,
Los temas que obtienen menos comentarios
Estos son los temas que favorecen un número bajo de comentarios en menéame. Están ordenados de mayor a menor influencia (cuanto más arriba en la lista, menos comentarios):
- historia, vida, guerra, siglo, primera,
- sistema, tierra, nuevo, espacial, planeta,
- agua, ciudad, mar, río, potable,
- pp, partido, popular, cospedal, corrupción,
- mundo, país, mayor, países, grande,
- rey, juan, carlos, universidad, corinna,
¿Qué palabras son las mejores y peores para tener más comentarios?
El modelo para predecir comentarios a partir de palabras, tiene un F1 de 0.87 en entrenamiento y un F1 de 0.72 en testeo.
Las 11 palabras que obtienen más comentarios
- mujer
- puigdemont
- ciudadanos
- podemos
- mujeres
- precio
- joven
- gobierno
- país
- violencia
- sánchez
Las 11 palabras que obtienen menos comentarios
- historia
- siglo
- investigadores
- obras
- espacial
- arte
- obra
- corrupción
- ii
- documental
- época
Análisis de los resultados de la Inteligencia Artificial
En la tabla podemos ver el rendimiento F1 de cada modelo ya sea para la predicción de meneos, clicks o comentarios, usando temas o palabras. Se muestran los valores F1 para entrenamiento / testeo, para considerar la generalización.
F1 (1.0 es lo máximo) | Temas | Palabras |
Predicción de meneos | 0.72 / 0.70 | 0.89 / 0.75 |
Predicción de visitas (clicks) | 0.65 / 0.65 | 0.87 / 0.68 |
Predicción de comentarios | 0.64 / 0.67 | 0.87 / 0.72 |
Según los resultados, parece que las palabras funciona mejor que los temas tanto para predecir meneos como visitas como comentarios. Los temas funcionan algo peor pero son más fáciles de interpretar.
También podemos concluir que los meneos son más fáciles de predecir que los clicks. Esto lo sabemos porque el rendimiento del modelo de predicción de meneos generaliza mejor que el de predicción de clicks.
¿Por qué a más meneos, menos clicks?
Con respecto a la pregunta que nos hacíamos al principio, que corresponde a «2» en el siguiente gráfico … ¿por qué a más meneos, menos clicks?
Para contestar a la pregunta de por qué las historias que más meneos tienen reciben menos clicks, tenemos que mirar esta tabla. La tabla compara los 11 temas con más meneos con los 11 temas con menos clicks. Me he permitido tachar aquellos temas que simultáneamente están en ambas categorías.
Temas para más meneos | Temas para menos clicks |
cifuentes, máster, cristina, presidenta | |
trabajo, trabajadores, laboral, horas | |
casado, pablo, máster, jueza | sistema, tierra, nuevo, espacial |
europea, unión, ue, brexit | |
rajoy, mariano, moción, censura | |
china, trump, unidos, eeuu | |
madrid, comunidad, ayuntamiento, carmena | |
Si te das cuenta, muchos de los temas que más influencian el número de meneos, también son los que influencian que hayan pocas visitas (clicks), según los modelos de inteligencia artificial.
¿Pero por qué los temas que tienen más meneos son los que menos clicks reciben?
Explicación de por qué el número de visitas decrece con el número de meneos
La inteligencia artificial no nos da una respuesta clara en este punto. Así que echar mano de la inteligencia humana asistida por la inteligencia artificial.
La inteligencia artificial nos ha dicho que muchos de los temas de los que cabe esperar muchos meneos, también cabe esperar pocos clicks. Y ahí se queda.
Así que he estado mirando las noticias para varios temas clave y palabras clave para ofreceros mi interpretación humana.
Interpretación humana
Muchas noticias de actualidad (política, la muerte de alguien, la decisión de un tribunal, etc.) están autocontenidas.
Con autocontenidas quiero decir que mirando la información que hay en la portada menéame, es decir, el título y el resumen, es suficiente para estar informado.
Otras historias, en cambio, realmente necesitan que hagamos click. Sin hacer click no seremos capaces de saber qué ha pasado. Esto es evidente en palabras tales como: vídeo, imágenes, imagen, foto, fotos, viñeta, etc. Aunque también para noticias de historia, cultura, etc.
Dicho esto, encuentro muy útil que muchas historias estén autocontenidas. Así podemos informarnos rápidamente de lo que está ocurriendo. Las historias no-autocontenidas nos permiten profundizar más en los temas que nos interesen.
Ejemplo de noticias autocontenidas y no-autocontenidas
Por ejemplo, en la figura anterior vemos 2 historias:
- La primera historia no está autocontenida. Si queremos saber «por qué cayó el imperio romano», necesariamente tendremos que visitar (hacer click) en la noticia. Tiene pocos meneos y muchos clicks.
- La segunda historia está autocontenida. Para saber lo que pasó con la causa de Dani Mateo no es imprescindible visitar la noticia. Tiene muchos meneos y pocos clicks.
¿Cuántos clicks, meneos y comentarios tendrá este artículo según la Inteligencia Artificial?
Después de este análisis, podríamos preguntarnos ¿cuántos clicks y meneos tendrá este artículo?
Lo primero de todo, es que para que tenga alguna oportunidad, debería llegar a portada de meneame.net. Como a la Inteligencia Artificial le hemos dado sólo los datos de artículos que ya estaban en portada, seguramente la predicción será más optimista de lo normal. Así que no debemos fiarnos ciegamente.
Además, la predicción está basada en el título y el resumen que se use para enviar la historia. Imaginando que tuviésemos lo siguiente:
Título: Una Inteligencia Artificial analiza la portada de menéame de 2018
Resumen de la historia: Una Inteligencia Artificial analiza todas las historias de portada de menéame en 2018. Averigua por qué las historias que más meneos tienen son las que menos visitas (clicks) reciben. También descubre cuáles son los temas principales del año 2018. Además del análisis de inteligencia artificial hay un análisis estadístico de la distribución de meneos, clicks, meneos y clicks, y los top 11 de menéame en 2018.
Si has seguido este artículo, verás que al transformar el problema de regresión en uno de clasificación, no puedo decir cuántos clicks y meneos tendrá este artículo. Lo que sí puedo hacer es predecir la probabilidad de estar en la parte alta de meneos y clicks. Para ello, voy a usar el modelo basado en palabras, ya que daba mejores resultados.
Predicción de probabilidades
Asumiendo que este artículo llegue a la portada de menéame, estas son las probabilidades que nos da la inteligencia artificial:
- 21% de que este artículo tenga un número alto (más de 385) de meneos
- 72% de que este artículo reciba un número alto (más de 2.655) de clicks
- 42% de que este artículo tenga un número alto (más de 63) de comentarios
La rama de Machine Learning de la Inteligencia Artificial da resultados probabilísticos. En general, es muy difícil estar seguro de algo. Así que estos resultados son lo mejor que puedo ofrecer.
Resumen
En este artículo hemos visto los resultados del análisis de todos los artículos que han salido en la portada de menéame en 2018.
Hemos comenzado con un análisis estadístico para ver las distribuciones de clicks, meneos, comentarios y clicks / meneos. Analizando estas distribuciones nos hemos dado cuenta que cuantos más meneos tiene una historia, menos clicks recibe en la mayoría de los casos.
También hemos hecho la lista de los top 11 para meneos, clicks, comentarios y los top 11 usuarios que más veces han llegado a portada.
Hemos usado Inteligencia Artificial para descubrir cuáles son los temas de los que más se ha hablado en menéame en 2018 y cómo están relacionados entre ellos.
La Inteligencia Artificial (IA) también nos ha ayudado a descubrir qué temas y qué palabras influyen en el número de meneos, de clicks y de comentarios. La IA ha puesto de manifiesto que los temas que favorecen un mayor número de meneos, también son los que producen un menor número de clicks.
Aquí nos ha hecho falta tirar de Inteligencia Humana (IH). Me he aventurado a postular que la razón por la que muchas de las noticias muy meneadas tienen pocos clicks, es porque están autocontenidas.
Finalmente, me he atrevido a predecir que esta historia, que estás leyendo ahora mismo, recibirá pocos meneos pero muchos clicks … en el hipotético caso que llegue a la portada de menéame.
Gracias
Gracias por leer este artículo, espero que te haya resultado interesante. Si tienes un momento, me gustaría pedirte tu ayuda. Aquí tienes para elegir:
- ¿Conoces a alguien que le interese la Inteligencia Artificial? Recoméndale este blog.
- Menea este artículo en menéame … a ver si conseguimos pasar de los 385 meneos (que según la predicción, va a ser bastante difícil)
- Deja un comentario
- Suscríbete
Sería interesante añadir el tiempo que tarda en llegar a portada. Las autocontenidas llegan rapidísimo, mientras las no autocontenidas pueden pasarse días en candidatas. En la última imagen, la no autocontenida se sube el 15 y llega el 17 del mismo mes. La autocontenida se sube por la noche y a la madrugada siguiente ya está en portada.
Muy interesante la observación. Acabo de entrenar otro modelo de machine learning para saber qué temas pasan más rápido a portada. Estos son los temas son los que más rápido llegan a portada (de mayor a menor influencia):
-mujer, hombre, joven, víctima, madre,
-prisión, cárcel, caso, delito, audiencia,
-casado, pablo, máster, jueza, trabajos,
-cifuentes, máster, cristina, presidenta, universidad,
-madrid, comunidad, ayuntamiento, carmena, metro,
-pp, partido, popular, cospedal, corrupción,
-gobierno, sánchez, pedro, presidente, ejecutivo,
-civil, guardia, detenido, agentes, guerra,
-rey, juan, carlos, universidad, corinna,
-saudí, arabia, khashoggi, periodista, armas,
-ley, ciudadanos, podemos, congreso, psoe,
-rajoy, mariano, moción, censura, presidente,
-policía, nacional, detenido, villarejo, agentes,
Así es tienes razón, las autocontenidas llegan más rápido a portada
Son muchos años en Menéame. Eso se nota :P.
La veteranía es un grado