Consideraciones procesos ETL en entornos Big Data: Caso Hadoop

Procesos de ETLEn el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas.. 

Construyendo un Sistema de Business Intelligence con datos estructurados y no estructurados

Hadoop y KettleUno de los puntos que han cambiado la forma en que se hace y hará Business Intelligence es la eclosión de una gran cantidad de datos que anteriormente no se analizaban. Ahora es posible combinar y analizar de forma conjunta, tanto datos estructurados (relacionales, legacy, dbcolumn, etc...) con no estructurados (Hadoop, MapReduce, NoSQL), permitiendo alcanzar cantidades enormes de datos.

A las Vegas con Apache Hadoop e IBM

Hola Gente,

 

quería recomendarles a aquellos interesados por la programación y las nuevas tecnologías relacionadas con el data análisis. En este caso una invitación a participar en un desafío de de programación MapReduce, el premio es un viaje  a las Vegas todo pago a la conferencia IOD (Information on Demand) que patrocina IBM.

Aquí están las Bases.

Pero les adelanto que se trata de realizar un curso corto para aprender la tecnología, luego un examen online muy sencillo y luego el challenge.

Enjoy

 

Saludos

Mariano

iWay Software implementa el estilo de procesamiento MapReduce en su plataforma Parallel Service Manager

Way Software ha anunciado hoy la implementación de MapReduce en su plataforma Parallel Service Manager, que ofrece integración de información altamente escalable para un amplio rango de fuentes de información.

MapReduce, muy popular gracias a Google, es un concepto en el que una acción conocida como un “map” es aplicada a cada elemento (item) de una lista. La salida que produce cada “map” puede ser acumulada o modificada en un proceso conocido como “reduce”. Este modelo ayuda a las empresas a gestionar eficazmente la abundancia de datos que existe en las organizaciones, facilitando el cálculo y procesamiento distribuido de grandes conjuntos de datos.

RHIPE: Utilizar Hadoop para analizar grandes cantidades de datos con R

 

Video Link

Hadoop es el proyecto de Apache que proporciona un entorno que soporta la gestión de grandes cantidades de datos. Este tipo de sistemas se suelen utilizar para soportar la gran cantidad de información que generan las grandes redes sociales, sobretodo cuando las bases de datos relacionales comienzan a presentar problemas de escalabilidad, o el coste del crecimiento es demasiado elevado.

Una buena aplicación de Hadoop la encontramos en el proyecto RHIPE, una interfaz entre Hadoop y R, la herramienta open source de procesamiento estadístico, que permite utilizar Hadoop para soportar de manera eficiente sobre grandes cantidades de datos los análisis estadísticos que se pueden realizar con R..