¿Peñarol o Nacional?: un enfoque basado en Datos

En el post anterior hablamos de la  “Culturomics” o sea, del estudio de las tendencias culturales gracias a la digitalización de libros hecha por Google. Dijimos que el problema era como poder manejar esa montaña de  datos sueltos y generar información. Indicamos también que dos estudiantes de Harvard crearon una forma sencilla de explorar estos datos y junto a Google crearon el Ngram Viewer y es  eso de lo que vamos a tratar hoy.

Ngram Viewer es una herramienta de Google que te permite escribir términos o frases y muestra a través de un gráfico las tendencias de uso de ese término/frase a lo largo del tiempo. Para esto hace un match del término con una base de datos que va desde 1800 hasta 2008  basada en el corpus seleccionado (inglés, español, inglés británico, etc).

A los efectos de nuestro post, vamos a comparar la popularidad de los dos equipos más grandes del Uruguay, entiéndose por popularidad cuanto más veces aparecen estos nombres en diarios, revistas y documentos digitalizados.

 

Manos a la obra

Ingresamos a Ngram Viewer a través de este link, seleccionamos el corpus español (si quieres saber mas, este link puede ser útil)  y generamos la gráfica correspondiente.

Nos aparece un sistema de coordenadas  donde el eje horizontal representa los años y el vertical el porcentaje de apariciones.  Para nuestra consulta colocamos  las frases “Club Nacional de Fútbol”y “Club Atlético Peñarol”. El período de cálculo fue  desde 1920 a 2000 y el corpus, Español. Mirando la gráfica podemos decir que a principios de siglo Peñarol fue más popular que Nacional, revirtiéndose esta situación en la década de los 70. A principio de Milenio ambos clubes parecen tener popularidad similar.

 

Si incluimos a los dos grandes de Argentina, la situación cambia bastante:

En el gráfico anterior buscamos solamente en el corpus español, le dejamos la tarea de ver la popularidad de ambos clubes en el exterior cambiando el idioma seleccionado y  también buscar los documentos donde se hacen las primeras referencias a ambos clubes.

Por supuesto que las conclusiones de nuestro experimento y de cualquier otro utilizando esta herramienta no tienen ningún tipo de rigurosidad y es muy sencillo encontrarle errores y sesgos.  El Ngram Viewer es muy usado por los estudiosos de la lengua, los sociólogos, los historiadores  pero para divertirse alcanza con un poco de sentido común y buen humor.

Otras comparaciones:

Desde cuando empezamos a relacionar cáncer con fumar? Se puede buscar alguna asociación entre ambos términos? Abajo les dejamos las curvas correspondientes.

Y qué tal la relación entre Drogas y Accidentes?

Los escritores en habla hispana, escriben más sobre amor o sobre odio?

Les dejamos la tarea para ver quién es más popular Pelé o Maradona. Smith o Marx? Bill Gates o Steve Jobs? buscar la evolución de nuestro nombre o ver qué súper héroe es más famosos.

Consejos para mejores resultados

Ngram permite el uso de comodines que facilitan y expanden el análisis:

  • Variaciones en Mayúsculas y minúsculas son permitidos. Click derecho en una linea de la gráfica usando el comando “case insensitive” permite saber las variaciones más importantes del término.
  • El asterisco funciona como comodín y permite desplegar los 10 resultados más comunes de acuerdo a la frase buscada. Ejemplo : Universidad de *
  • Se puede combinar asterisco y NOUN para encontrar solamente los sustantivos que pueden aparecer en la sequencia que estamos buscando. En inglés buscar “*_NOUN ‘s theorem” va a retornar una gráfica con los diez nombres de teoremas más comunes.
  • Se puede saber cuál es el adjetivo más frecuente que sigue a determinada palabra usando “término + adjective”
  • Se puede saber cuál es el verbo más frecuente que sigue a determinada palabra usando “término + verb”
  • Distintas terminaciones o variantes de un verbo se pueden dividir o combinar por ejemplo -s-ed-ing utilizando _INF. Ejemplo: Sola_INF
  • Si queremos buscar por una palabra que se usa como sustantivo y verbo, pero nos intersa solamente su uso como verbo usamos _VERB. Ejemplo:  fish_VERB

 

Otras consideraciones:

  • Claramente Google Books no representa el universo de todos los libros impresos. Los ejemplares vienen de bibliotecas públicas de prestigio, y tienden a incluir muchos libros académicos y que se pueden catalogar como “cultos”, cualquier libro que no se encuentre en sus catálogos está subrepresentado.
  • Google scanea las palabras de libros muy antiguos y tiende a equivocarse frecuentemente al no reconocer correctamente los caracteres.
  • La indexación de los libros para el buscador no está actualizada a la fecha, en español está solamente hasta 2009.
  • Hay una sobrerepresentación de libros en inglés en detrimento de otros idiomas.
  • En este link puede encontrar las razones de por qué Google liberó gratuitamente Ngram Viewer en vez de cobrar por él.
  • Ngram Viewer es un proyecto del tipo 20% en Google, por lo cual no es de alta prioridad.

Bueno si descubren algo interesante colaboren y pónganlo en los comentarios.

Hasta la semana que viene!

Byte byte.

 

 

 

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *