Introducción a Spark en Taller BigData de Open Analytics
Presentación de Spark en el taller de BigData de OpenAnalytics, por Francisco Javier Pulido, de ExploraData.
Comienza presentando Hadoop como la tecnología más asociada a BigData, y algunos de los problemas que presenta, y que en parte se pueden evitar con Spark.
Spark es un motor para el procesamiento de grandes volúmenes datos que gracias a interactividad hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y se puedan realizar más operaciones (mappers, reducers, joins, groups by, filtros...).
También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.