Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

"Analytics" de noticias #3

Open
luisfarzati opened this issue Jun 24, 2017 · 3 comments
Open

"Analytics" de noticias #3

luisfarzati opened this issue Jun 24, 2017 · 3 comments

Comments

@luisfarzati
Copy link
Member

Me extrañaría que ya no se haya hecho es más de una hackathon, pero bueno como nunca fui de frecuentar muchas si pasó no me enteré.

La idea básicamente es scrapear los diarios cada x minutos y detectar algunas características de las noticias publicadas en la home a través del tiempo. Por ejemplo:

  • ediciones de una misma nota
  • desplazamientos (noticias que empiezan en primer scroll y luego caen, o al revés)
  • relevancia (posición en el scroll, tamaño)
  • ciclo de vida de la nota
  • mapa de calor de la home (% que ocupa algún topic -- Política, Policiales, Elecciones)

Hace muy poquito empecé a trabajar en recolección y storage de la data pero no hice nada de visualización todavía.

@palamago
Copy link
Member

Relacionado, hice esto hace unos años y sigue andando aunque con menos features porque me bajaron varias APIs TopRanking.Link

La idea es simple: lee RSS's y muestra los links de noticias "más compartidos" en cada hora (tiene filtros de tiempo).

Antés tenía y sumaba a todas las redes sociales, ahora sólo anda con twitter.

@luisfarzati
Copy link
Member Author

Sí, me acuerdo Pala! Estaba bueno. Quizás da para que lo postees acá como otra de las ideas (aunque ya esté hecha) para ver si alguno se prende a resucitar algunas APIs o agregarle features.

@luisfarzati
Copy link
Member Author

Adjunto archivo con lo scrapeado desde el viernes 23 hasta el día de hoy. Por si alguno quiere jugar o algo. Por ahora sólo estoy scrapeando la home del gran diario argentino, y no toda; sólo la primer sección que viene pre-rendereada; en un futuro voy a agregar el resto de las notas que se cargan con el scroll.

Estructura del CSV:

Last-Modified header devuelto por el server, convertido a unix timestamp
Last-Modified header original
posición visual de la nota en el scroll de la home
id de la nota
título de la nota
tamaño horizontal (en unidades de grilla)
tamaño vertical (en unidades de grilla)
sección de la nota
url de la nota

El bot hace request de la home cada 2 minutos; si el Last-Modified cambió, snapshotea todo al CSV. De esta manera se puede ver entre snapshot y snapshot si una nota cambió de título, de posición, de tamaño, etc.

Por el momento no estoy chequeando que realmente haya cambios; esto quiere decir que si el server entrega un Last-Modified distinto pero no hubo cambios (en las notas que estoy trayendo), el bot igual dumpea todo al CSV.

history.csv.zip

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants