Apache Hadoop | Dataprix

Lee más sobre Analítica BigData sobre Hadoop en Taller Big Data de Open Analytics

Introducción a Hadoop y reflexión sobre lo que implica a nivel tecnológico y analítico trabajar con Big Data y datos distribuidos. Presentación de MapReduce, de herramientas del entorno BigData Open Source y de los paquetes necesarios para trabajar con Hadoop desde R, así como la ejecución algoritmos distribuídos para la ejecución en paralelo sobre diferentes máquinas.
Por Santiago Basaldúa, doctor en Informática y Estadístico. PhD Senior Data Scientist en Sinergic Partners.

Lee más sobre Explicando Big Data

Explicación de las características de Big data, en qué consiste, que lo diferencia del almacenamiento y tratamiento de la información 'tradicionales', qué tecnologías utiliza, como Apache Hadoop y qué oportunidades representa para el futuro.

Lee más sobre Introducción a Spark en Taller BigData de Open Analytics

Presentación de Spark en el taller de BigData de OpenAnalytics, por Francisco Javier Pulido, de ExploraData.

Comienza presentando Hadoop como la tecnología más asociada a BigData, y algunos de los problemas que presenta, y que en parte se pueden evitar con Spark.

Spark es un motor para el procesamiento de grandes volúmenes datos que gracias a interactividad hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y se puedan realizar más operaciones (mappers, reducers, joins, groups by, filtros...).

También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.

Suscribirse a Apache Hadoop