Explorando la Culturomics

Explorando la Culturomics

Mis primeras lecturas sobre ¿qué es el Big Data?, y en especial todos sus logros y anécdotas me atraparon. Pero cuando quise profundizar aparecieron palabras que no sabía en qué diccionario buscarlas: “Informático-Chino”, “Inglés-Esquimal” o “Kangxi-Hebreo”.

Esto no es algo nuevo para quienes somos admiradores de la tecnología pero no hicimos cursos de programación, ni somos informáticos nativos (léase somos mayorcitos). Por eso con mucha valentía , decidí estudiar el significado de algunos de los términos más usados en Big Data.  Recorrí desde “AID” hasta “Weka” y de “Machine Learning” a “HortonWorks” pero todo parecía difícil. Hasta que encontré la palabra mágica,“Culturomics”. No había duda que esto debería referirse a los dibujos animados y sería bien fácil.

Empecé a navegar por Wikipedia, Google y alguno que otro post y lamentablemente entendí que  Culturomics no tiene nada de parecido con los dibujitos animados, pero el concepto es  interesante y por lo tanto paso a contarles la historia.

Parece ser que en el año 2004 a Google le sobraba mucha plata, y como quería apoyar a la cultura decidió digitalizar millones de libros y documentos, lo que lo llevó a tener la friolera de 95 billones de líneas de texto procesadas. Para darnos una idea, si ponemos sobre la línea del ecuador una al lado de la otra las páginas en tamaño A4, daríamos 236.917 vueltas al mundo.

Al principio la idea era sólo poner a disposición del público esos libros; pero dos estudiantes de Harvard (Erez Lieberman Aiden y Jean-Baptiste Michel) crearon una forma sencilla de explorar el texto de estos libros permitiendo que otros estudiosos también pudieran analizarlos. El análsis de estos textos arrojó datos como los siguientes:

* la lengua inglesa crece a un ritmo de 8.500 palabras por año.

* existen muchas más palabras que las que aparecen en cualquier diccionario.

* los efectos de la censura en la supresión de sucesos y personas se observa de forma evidente en el desarrollo de las sociedades.

* el recuerdo de los sucesos pasados se desvanece a un ritmo cada vez más rápido.

* la religión pierde día a día su influencia.

*el tiempo de los famosos es cada vez mas corto.

y la lista es muy larga.

La cosa no quedó ahí, luego vinieron profesionales que usando esa información crearon algoritmos y quisieron adivinar el futuro:

* predecir la duración de ciertos “éxitos”

* estimar el impacto de leyes ambientales,

* medir la sensación de seguridad ciudadana,

* monitorizar los impactos económicos ,etc.

 

En resumen, la Culturomics nace como  una nueva disciplina de estudio que la podemos definir como:

El estudio del comportamiento humano y de tendencias culturales a partir del análisis cuantitativo de texto digitalizado.

 

Luego de leer sobre Culturomics entendí un par de conceptos que se manejan en el BigData.

* No es lo mismo tener datos, información o conocimiento sobre un problema

Existen tres estadios con tres clases de profesionales distintos. Los primeros son los que juntan masivamente los registros, los acontecimientos o sea guardan los datos. Otros los que procesan estos datos en un contexto y los transforman en información Y por último están aquellos que analizan la información, crean algoritmos generando conocimiento.

Datos-Info-Conocimiento

3V+V=Big Data

Me di cuenta que el volumen de información debe se muy grande, como los documentos procesados por Google. Debe existir un acceso veloz a la información, como es la herramienta creada por los estudiantes de Harvard. Y de origen variado, ya que los documentos provinieron de bases de datos tradicionales (datos estructurados), de Internet ( semi-estructurados) y de textos e imágenes antiguas (no-estructurados).

Estas son las famosas V de BIG DATA Volumen, Velocidad, Variedad y como yo soy hincha de Google también voy a agregar una cuarta V (que según algunos entendidos está en duda) que es la Veracidad del dato.

 

Esto ya se hizo largo así que la semana que viene en mi segundo post hablaré de Ngram Viewer y fútbol.

Byte Byte

 

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *