Presentación de Spark en el taller de BigData de OpenAnalytics, por Francisco Javier Pulido, de ExploraData.
Comienza presentando Hadoop como la tecnología más asociada a BigData, y algunos de los problemas que presenta, y que en parte se pueden evitar con Spark.
Spark es un motor para el procesamiento de grandes volúmenes datos que gracias a interactividad hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y se puedan realizar más operaciones (mappers, reducers, joins, groups by, filtros...).
También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.