Cada vez más es necesario analizar grandes cantidades de datos. Aquí se habla del funcionamiento de Pentaho y Hadoop.
Apache Hadoop es un marco para ejecutar grandes aplicaciones. El entorno de Hadoop es transparente y proporciona aplicaciones fiables y con grandes movimiento de datos. Hadoop implementa un paradigma computacional llamado Map Reduce, donde se divide la aplicación en muchos fragmentos pequeños de trabajo, cada uno de los cuales pueden ser ejecutados o reejecutados en cualquier nodo del clúster.
Además, proporciona un sistema de archivos distribuido (HDFS) que almacena los datos en los nodos de cómputo, proporcionando ancho de banda agregado muy alto en todo el clúster. Tanto Map Reduce, como el sistema de archivos distribuidos están diseñados para que los fallos de nodo se gestiona automáticamente por el framework.
Las nuevas aplicaciones web actuales (redes sociales, marketing y venta online, etc...) están generando una 'explosión' en la cantidad de información y datos para almacenar y, obviamente, para analizar: log files, clickstream data, social media data, call logs, fraud detection....
Enlaces a los principales recursos sobre Pentaho y Hadoop:
- Descargar Datasheet.
- Descargar Pentaho Enterprise con Hadoop integration.
- Ver video presentaciones.
Comentarios en las noticias:
- Pentaho Brings Business intelligence to Hadoop ECRMGuide, Paul Shread - October 15, 2010
- Pentaho brings BI, integration to Hadoop New Statesman - October 15, 2010
- Hadoop Is the Elephant in the Room Ventana Research - David Menninger , October 14, 2010
- Pentaho brings BI, integration to Hadoop October 12, 2010
- Hadoop pitched for business intelligence October 12, 2010
- Pentaho Adds Hadoop Support October 12, 2010
- Hadoop World: Cloudera Makes More Big Data Friends October 12, 2010