Big Data & Data Scraping

Sir Arthur Conan Doyle, creador de Sherlock Holmes, hablaba hace más de cien años atrás acerca de la importancia de la información, los datos y cómo trabajar con ellos de forma científica. En “Escándalo en Bohemia” el autor escribe:

“Es un error capital teorizar antes de tener datos. Sin darse cuenta, uno empieza a deformar los hechos para que se ajusten a las teorías, en lugar de ajustar las teorías a los hechos”

Cuando se habla a profundidad del impacto de la información generada en internet, la conectividad que lo acompaña, así como las redes y dispositivos móviles no es posible separar el diálogo del poder que tiene el análisis de los datos que se generan en estos espacios.

Data Scraping

Actualmente la información es el recurso más valioso con el que contamos. Entender datos, información y la evidencia que éstos nos revelan es una de las habilidades más importantes con la que se puede contar en la Era de la Información.

En NOSTRODATA nos interesa hacer uso de la “Ciencia de Datos” de forma estricta y el primer paso para hacer ciencia es observar un fenómeno que pueda ser cuantificable. El Big Data es el término que se utiliza en las ciencias de datos para referirse a los conjuntos que se analizarán para encontrar patrones, tendencias y asociaciones especialmente relacionados con las interacciones del comportamiento humano.

Existen dos formas principales para generar datos a partir de información publicada en internet. El data mining y el data scraping. La diferencia entre ambos se reduce a que el scraping se puede realizar manualmente por una persona y el data mining lo llevan a cabo robots programados especialmente para eso.

Nos dimos a la tarea de hacer un scraping de las conferencias matutinas que lleva a cabo el presidente Andrés Manuel López Obrador. La finalidad es poner a disposición de la comunidad transcripciones de las versiones estenográficas de las conferencias matutinas desde su inicio en Diciembre de 2018.

Cada transcripción está separada por participante en la conferencia. Y como ejemplo del trabajo de análisis que es posible hacer realizamos un mapa de las palabras más utilizadas por cada participante en la conferencia.

El repositorio con los archivos CSV puede encontrarse aquí:
https://github.com/NOSTRODATA/conferencias_matutinas_amlo

El caso de las conferencias matutinas es un ejemplo de cómo se pueden utilizar los datos para observar los temas que son relevantes durante las mismas. Nos interesa que la comunidad participe haciendo sus propios análisis asi que hemos publicado la base de datos en un repositorio para generar análisis de un año de conferencias matutinas.

Si te interesa colaborar con NOSTRODATA contáctanos haciendo clic aquí.

Nostrodata

All author posts

Big Data & Data Scraping

Data Scraping

Nostrodata

¿Quiéres comenzar un proyecto?

Entregamos valor a compañías y organizaciones utilizando ciencia de datos, aprendizaje automático, inteligencia artificial y tecnologías de visualización de datos a través de nuestros servicios de consultoría.