-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
"Analytics" de noticias #3
Comments
Relacionado, hice esto hace unos años y sigue andando aunque con menos features porque me bajaron varias APIs TopRanking.Link La idea es simple: lee RSS's y muestra los links de noticias "más compartidos" en cada hora (tiene filtros de tiempo). Antés tenía y sumaba a todas las redes sociales, ahora sólo anda con twitter. |
Sí, me acuerdo Pala! Estaba bueno. Quizás da para que lo postees acá como otra de las ideas (aunque ya esté hecha) para ver si alguno se prende a resucitar algunas APIs o agregarle features. |
Adjunto archivo con lo scrapeado desde el viernes 23 hasta el día de hoy. Por si alguno quiere jugar o algo. Por ahora sólo estoy scrapeando la home del gran diario argentino, y no toda; sólo la primer sección que viene pre-rendereada; en un futuro voy a agregar el resto de las notas que se cargan con el scroll. Estructura del CSV: Last-Modified header devuelto por el server, convertido a unix timestamp El bot hace request de la home cada 2 minutos; si el Last-Modified cambió, snapshotea todo al CSV. De esta manera se puede ver entre snapshot y snapshot si una nota cambió de título, de posición, de tamaño, etc. Por el momento no estoy chequeando que realmente haya cambios; esto quiere decir que si el server entrega un Last-Modified distinto pero no hubo cambios (en las notas que estoy trayendo), el bot igual dumpea todo al CSV. |
Me extrañaría que ya no se haya hecho es más de una hackathon, pero bueno como nunca fui de frecuentar muchas si pasó no me enteré.
La idea básicamente es scrapear los diarios cada x minutos y detectar algunas características de las noticias publicadas en la home a través del tiempo. Por ejemplo:
Hace muy poquito empecé a trabajar en recolección y storage de la data pero no hice nada de visualización todavía.
The text was updated successfully, but these errors were encountered: