Big Data- Guía de términos para principiantes

Big Data- Guía de términos para principiantes

El mundo del Big Data y Ciencia de datos está plagado de términos complejos, técnicos y jerga que muchas veces intimidan a cualquier interesado en el tema. En este artículo compilamos las definiciones más usadas cuando hablamos de Big Data.

 

Análisis Descriptivo: El primer paso en el análisis de datos. Busca responder a la pregunta ¿Qué pasó? También es el tipo de análisis más fácil y al que todos hemos estado expuesto alguna vez en el trabajo. Busca consolidar los datos en su estado más puro en información fácilmente digerible para la audiencia.

Analisis Predictivo: Busca responder a la pregunta ¿Qué pasará? A través del estudio de los datos históricos y actuales busca predecir el futuro o un evento desconocido. Es el siguiente paso después del análisis predictivo. Utiliza modelos predictivos, estadística, machine learning y minería de datos.  El análisis predictivo se utiliza en muchos sectores como, aseguradoras, telecomunicaciones, agencias de viaje, farmacéuticas, médicas, etc. Entiéndase que no puede predecir el futuro, sino que indica qué es lo más probable que ocurra basado en los datos disponibles.

Analisis Prescriptivo: Busca responder la pregunta ¿cómo optimizamos lo que pasará?, se los suele llamar modelos de decisión porque a diferencia del análisis predictivo, tiene un llamado a la acción. Va más allá que el análsis descriptivo y predictivo porque recomienda un curso de acción y analiza el resultado probable de esa acción.

Aprendizaje automático: En inglés, machine learning. Es una rama de la Inteligencia Artificial inmensamente popular en la actualidad aunque no es nueva. Permite a las máquinas aplicar modelos y mejorar sus resultados gracias al entrenamiento. Se dice que las máquinas aprenden. Por más detalles visita nuestro artículo: Machine Learning, qué es y por qué importa.

Aprendizaje Profundo: Es un término similar a las redes neuronales. Se refiere a una rama de la inteligencia artifical que a través de diferentes algoritmos busca resolver problemas  utilizando varias capas de procesamiento. Es una palabra que está de moda recientemente y generalmente se refiere a resolución de temas más complejos donde los otros algoritmos no dan buenos resultados.

DaaS: Por sus siglas en inglés, Data-as-a-service.  Sigue el paradigma de SaaS software as a service y trata a los datos como un producto. Los proveedores de DaaS usan la nube par dar acceso a datos a sus clientes independientemente de su locación geográfica. DaaS es un término que se estableció en 2015 y el acceso a los datos se puede cobrar de acuerdo a dos modelos. Se cobra por volúmen de datos o se cobra por el tipo de datos a los que se quieren acceder. Ejemplos interesantes de empresas qu proveen estos datos son, Urban MappingXigniteHoover’s.

Datos oscuros (Dark Data): Gartner define a la data oscura como la información que las empresas recolectan, procesan y guardan durante las actividades regulares de negocio pero que generalmente fallan en utilizar para otros propósitos. Son los datos que esperan en la oscuridad a ser utilizados para análisis. Las empresas los mantienen generalmente por obligaciones regulatorias.

Hadoop (Apache Hadoop): es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos. Soporta aplicaciones distribuidas bajo una licencia libre. Es muy popular por su gran capacidad de procesamiento debido a su sisteme de archivos distribuidos  (en inglés -Hadoop Distributed File System-HDFS) escalable y portátil. Hace parte del Hadoop Ecosystem junto a otros programas populares como  Pig, Hive y Spark.

IoT: El Internet de las cosas, se refiere a la interconexióndigital de objetos cotidianos con internet. El concepto surgió en 1999.  Es la conexión en red de objetos como los teléfonos, refrigeradores, aires acondicionados, lámparas, autos, etc que envian constantemente información por red sobre miles de variables sin intervención humana.

IoE (Internet of Everything): Internet de todas las cosas. Es un sub-concepto del anterior y se refiere a la interconexión de productos, personas  y procesos para generar incluso más interconectividad.

MapReduce: Es una método de programación para procesamiento de grandes cantidades de datos inventado por Google en 2004 y replicado por varios en la posterior.  Surgió de la necesidad de procesar más eficientemente el gran volúmen de datos que Google manejaba con su búscador. Hadoop (ver arriba) es el ejemplo más claro de su adoptadación y tiene más éxito en la actualidad por ser OpenSource. El modelo hace 2 procesos en sequencia, perimero hace Map que obtiene un set de datos y lo convierte en otro set de datos donde cada elemento individual se divide en tuplas (llave/valor). El segundo paso es el Reduce que toma como entrada la salida del trabajo Map y combina esas tuplas en otro set de tuplas reducido. El sistema MapReduce corre todas las tareas en paralelo en un sistema distribuido, maneja todas las comunicaciones entre las partes y está construido para tender redundancia y tolerancia a fallas.

Minería de datos: Explora grandes volúmenes de datos tratando de encontrar patrones hasta ahora desconocidos. Utiliza métodos estadísticos, machine learning e inteligencia artificial.

Redes Neuronales: las redes neuronales artificales son un paradigma dentro del aprendizaje automático inspirado por la forma como funcionan las redes neuronales de los seres vivos. El objetivo es alimentar a las redes neuronales con gran volumen de datos y conseguir que la red aprenda sobre las variables que estamos interesados. Se usan para reconocer escritura manual, compresión de imágenes, predicción en bolsa de valores y aplicaciones varias en medicina.

NoSQL: “Non-relational SQL” o también llamado “No solamente  SQL” se refiere a la gestión de base de datos que no usa la estructura clásica de tablas, filas y columnas.  Estos sistemas crecieron enormente con la explosión de datos en internet (ver artículo Cuantos datos hay en internet ). Son mejores que las bases relacionales para el manejo de grandes cantidades de datos porque no generar cuellos de botellas y son escalables más fácilmente. Por el contrario no son tan maduras como las bases de datos más tradicionales y no todas garantizan el ACID: Atomicidad, Consistencia, Aislamiento y Durabilidad. Los más populares son BigTable de Google, HBase, Cassandra y MongoDB.

Nube: Permite ofrecer servicios de computación, almacenamiento o acceso de datos  a través de una red, que usualmente es Internet. Evita el uso de servidores propios o discos locales.

R: Es el lenguaje para procesamiento estadístico más popular entre los científicos de datos. Por más detalles, lee nuestro artículo R: el lenguaje estadístico más popular.

SaaS: Software como servicio. Es un modelo de distribución de software donde el usuario no require instalar u obtener una copia del programa. La aplicación está almacenada en un servidor de un tercero, junto con los datos que ingresa el usuario.  Utiliza la nube para distribuirse.

Spark (Apache Spark): Al igual que Hadoop es un sistema de código abierto gestionado por la fundación Apache. Se usa mayoritariamente para aprendizaje automático y analítica. Tiene muchas funciones similares a Hadoop, pero no son lo mismo y no son mutuamente excluyentes. A diferencia de Hadoop, Spark no tiene un sistema distribuido de archivos, pero puede funcionar sobre éste. Desde 2009 más de 100.000 desarrolladores an contribuido con Sparks y rapidamente se posiciona como el software más popular en Big Data. Su capacidad de procesamiento es mucho mayor que MapReduce.

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *