Desde el punto de vista puramente técnico, se denomina Big Data a los sistemas de información que sobrepasan las capacidades de las tecnologías tradicionales basadas principalmente en base de datos relacionales. Las características de la información que hace que se requiera esta nueva tecnología son principalmente 3: Volumen, Velocidad y Variedad.
Podemos encontrar en otros textos nuevas “Vs” añadidas en esta definición (por ejemplo Valor, Veracidad, Variabilidad…) pero a nivel tecnológico, las 3 Vs originales son las importantes:
- Volumen: Hace referencia al tamaño de los datasets a manejar. Actualmente es habitual tener que procesar cantidades de datos en la escala de los Gigabytes o Terabytes por lo que las técnicas de almacenamiento en memoria no son viables.
- Velocidad: Se refiere no solo a la alta frecuencia con la que se generan nuevos datos, sino a la necesidad de dar respuesta a la información en tiempo real.
- Variedad: Se refiere a la naturaleza diversa de la información a manejar. Venimos de información estructurada que encajaba perfectamente en el modelo relacional pero ahora nos encontramos con información semi- y des-estructurada (video, audio, imágenes, redes sociales, etc.) que requiere de nuevos métodos de persistencia y consulta.
¿Dónde entra en el concepto de Data Science?
Para dar respuesta a esa pregunta tenemos que incluir una 4 V en la ecuación: Valor. De nada sirve procesar más cantidad de información, información de diferente naturaleza, o de forma más rápida, si con ello no conseguimos un valor extra para nuestros intereses. Es ahí donde entran los procesos analíticos de datos.
Data Science es un concepto acuñado recientemente para agrupar estrategias de análisis de datos que beben de diferentes campos incluyendo matemáticas, estadística, aprendizaje automático y minería de datos.
Por Rubén Casado,
@ruben_casado
Texto extraído de la Guía INKS2015, descarga gratuita https://bit.ly/1LnZelH