En esta conferencia sobre Data Science el consultor Hector Cuesta explica cuáles son los orígenes del Data Science, en qué consiste, y cuáles son los pasos de resolución de un problema de Ciencia de Datos:
- Definir el problema
- Obtener los datos
- Limpiar y formatear los datos
- Explorar (Distribuciones, patrones y tendencias)
- Modelar (Escoger algoritmos)
- Escalar la solución (Infraestructura)
- Visualizar e interpretar los resultados
También repasa las principales que se suelen utilizar, como R, Python, Hadoop, mongoDB, Cassandra, weka, D3js.., explica cómo se procesan los datos con MapReduce, y menciona problemas que puede resolver el Data Science como los de los sistemas de recomendación, sistemas basados en grafos, mejora de la experiencia en tiempo real, o la creación de aplicaciones Quantified Self, o de cuantificación de datos sobre uno mismo.
Termina la conferencia explicando qué es y qué no es el Big Data, y qué relación tiene con la Ciencia de los Datos.