Introducción a Spark en Taller BigData de Open Analytics

Ver vídeo

Presentación de Spark en el taller de BigData de OpenAnalytics, por Francisco Javier Pulido, de ExploraData.

Comienza presentando Hadoop como la tecnología más asociada a BigData, y algunos de los problemas que presenta, y que en parte se pueden evitar con Spark.

Spark es un motor para el procesamiento de grandes volúmenes datos que gracias a interactividad hace que el paradigma MapReduce ya no se limite a las fases Map y Reduce y se puedan realizar más operaciones (mappers, reducers, joins, groups by, filtros...).

También proporciona API´s para Java,Scala & Python. Es preferible que se programe en Scala ya que el código se verá reducido y todo parecerá más limpio.

Analítica de los discursos del rey - Taller Data Mining Open Analytics

Ver vídeo

En este taller de DataMining, o más bien de TextMining, se presenta un estudio de analítica de textos con R sobre los discursos de Navidad del Rey.

Para estos discursos, que se emiten de forma ininterrumpida desde 1975, ¿qué nos puede decir la lingüística acerca de ellos? ¿y desde un punto de vista estadístico? ¿aparece toda la sociedad española representada? ¿evolucionan en el tiempo?

 

Presentado por:

Carlos Ortega
Licenciado en físicas y vinculado al mundo de la estadística y R por pasión. Es coordinador del grupo de usuarios de R en la comunidad de Madrid y participa activamente en la comunidad de R. Compagina su tiempo colaborando como profesional en diversas empresas como el Banco Santander y es profesor del Master online de CEPADE (UPM).

 

Procesos de Minería de datos con Knime - Taller DataMining OpenAnalytics

Ver vídeo

En este taller, Diego García, Ingeniero informático e investigador en la Universidad de Cantabria, explica cómo realizar con Knime un proyecto de minería de datos y análisis con algoritmos conocidos para clasificación, asociación o predicción de datos empresariales.

Knime es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual y amigable.

ETL's de Facebook con Talend - Taller Business Intelligence de OpenAnalytics

Ver vídeo

Presentación en el taller de BI de OpenAnalytics de la herramienta de ETL Open Source Talend, y comparativa con Kettle (Pentaho Data Integration). Ejemplo de uso de Talend para preparar procesos de ETL con datos de Facebook, a través de la API de esta red social.

Por Eduardo Fernández, especialista en desarrollo de procesos ETL en Stratebi.

Introducción a Cassandra en el taller Big Data de Open Analytics

Ver vídeo

Charla de introducción a Cassandra impartida, en el taller BigData de Open Analytics, por José Hernández, miembro de Isthari, el primer partner en España de Cassandra.

José explica porqué Cassandra es la mejor elección para aplicaciones para el modelado de series temporales, y su aplicación en Smart Cities. También hace una introducción al datamining sobre Cassandra.

 

 

Cómo instalar y utilizar Putty para conectar por SSH desde Clientes Windows

Ver vídeo

Putty es una utilidad gratuíta para establecer conexiones remotas por SSH. Se puede utilizar para conectar con instancias de Amazon, pero hay que saber configurarlo.

En este video se explica cómo:

  • Configurar el terminal Putty para una conexión por SSH
  • Obtener una dirección pública de DNS para la instancia de Amazon
  • Configurar el cliente SSH Putty para conectar con Amazon

Este video forma parte del video curso de Packt 'Building Hadoop Clusters', en el que se detalla cómo iniciarse con Hadoop y sus servicios, conocer su arquitectura, deployar instancias de Amazon con clusters de Hadoop, y configurar una instalación de Linux optimizada para Hadoop.

 

Este es el temario del curso:

BI y Data quality Open source con Pentaho y DataCleaner

Ver vídeo

Cómo se utiliza DataCleaner con Pentaho Data Integrator para integrar funcionalidades de calidad de datos en procesos de ETL

  • Utilizar DataCleaner para incorporar data profiling en los procesos ETL
  • Orquestar, programar y monitorizar los jobs de la ETL de Pentaho utilizando DataCleaner
  • Ejecutar jobs de DataCleaner como parte del proceso de la ETL