Bases de datos analíticas columnares. HP Vertica y Monet DB

Ver vídeo

Presentación de bases de datos de tecnología columnar, orientadas a la analítica.
Las bases de datos columnares son muy efectivas, especialmente en cuanto a velocidad de respuesta, en proyectos de Business Intelligence que gestionen una gran cantidad de datos. También pueden utilizarse de forma híbrida en proyectos de Big Data.
Se explica el funcionamiento de dos bases de datos columnares más utilizadas: Monet DB y HP Vertica.
 

Introducción a Apache Cassandra en entornos Big Data

Ver vídeo

Introducción a las Bases de datos NoSQL, entre las que se encuentra Apache Cassandra
Cassandra es un sistema NoSQL de software libre, distribuído y preparado para Big Data que emplea Big Table y Dymano, y proporciona un lenguaje de consultas CQL (Cassandra Query Language).
Se explica la arquitectura y el sistema de funcionamiento de Cassandra, cómo se mueven los datos entre los diferentes nodos y cómo funciona del modelado de datos y qué consideraciones hay que tener en cuenta a la hora de trabajar con esta base de datos orientada a Big Data.
Se incluye un pequeño ejemplo de modelización de datos para Cassandra.
Algunas de las empresas más conocidas que utilizan Cassandra son Netflix, Spotify y Twitter. 

Qué es Data Mining, y cómo se relaciona con Data Science y Big Data

Ver vídeo

Introducción al data mining, comenzando desde sus inicios allá por 1960. Cómo ha ido evolucionando la minería de datos hasta el día de hoy, y cómo se relaciona con el data warehousing, el business intelligence, el aprendizaje automático (machine learning), y en el momento actual con el data science y con big data.
Se explica cuáles son las tipologías de técnicas de minería de datos, como los algoritmos supervisados y no supervisados, clustering, de clasificación, de segmentación, regresiones lineales y cuadráticas, redes neuronales, árboles de decisión..
También se enumera software específico para Data mining: Weka, R, Matlab, Clementine, RapidMiner, Knime..
 

Explicación sobre qué es Big Data

Ver vídeo

BIG DATA es un concepto que hace referencia a grandes cantidades de información, disponibles en diversos formatos y tipos de estructuras, recopilada principalmente a través de Internet mediante la interacción de los usuarios de computadores, teléfonos móviles y dispositivos GPS, entre otros.
Así, las dimensiones o características principales de un sistema Big Data son:

  1. Gestión de grandes Volúmenes de Información
  2. Velocidad para manipular los datos, incluso en tiempo real
  3. Variedad o diversidad de formatos
  4. Veracidad o confiabilidad de los datos, debido a su origen diverso y desestructurado

Procesamiento y análisis de mensajes geoposicionados

Ver vídeo

Presentación de proyecto de procesamiento con tecnologías Big Data de datos o mensajes de la red social GPMESS.
En este proyecto se almacenaron en Hadoop datos de esta red social y se realizaron procesos de analítica y procesamiento de los datos con herramientas open source para extraer y agrupar los temas más relevantes.
Se obtienen los lugares más populares y se detectan localizaciones en las que se comienzan a crear yipies con analítica de crowdd place, y notificaciones automáticas. 
 
Por Ángel J. Rey, Ingeniero Informático especialista en Big Data.