Consideraciones procesos ETL en entornos Big Data: Caso Hadoop

Procesos de ETLEn el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas.. 

Reseña de Big Data Analytics with R and Hadoop

Big DataEstos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..

Microsoft SQL Server 2014, a la venta desde el 1 de abril, con mayor rendimiento, nuevas funciones e integración con Windows Azure

Microsoft SQL Server 2014 saldrá a la venta el 1 de abril con un mayor rendimiento, nuevas funciones e integración con Windows AzureMicrosoft ultima el lanzamiento de SQL Server 2014, la nueva versión de su popular sistema de gestión de bases de datos. Saldrá a la venta el 1 de abril y promete un mayor rendimiento, capacidades de almacén de datos, Business Intelligence y Big Data, e integración con la nube mediante Windows Azure.

 

Facebook publica Presto, su motor de búsqueda para Big Data, como código abierto

Facebook publica Presto, su motor de búsqueda para Big Data, como código abiertoLa red social Facebook ha decidido "regalar" a la comunidad del software de código abierto su motor de búsqueda Presto. Esta herramienta gratuita permite realizar consultas SQL rápidas en fuentes de datos de todos los tamaños empleando la tecnología Hadoop y sin requerir grandes despliegues de hardware.

Amazon Web Services arrebata a IBM un contrato de cloud computing con la CIA valorado en 455 millones

Amazon Web Services arrebata a IBM un contrato de cloud computing valorado en 455 millones con la CIAAmazon Web Services, la filial de cloud computing del gigante del comercio electrónico, se ha adjudicado un contrato de 455 millones de euros para prestar servicios en la nube a la Agencia Central de Inteligencia (CIA) de Estados Unidos. IBM, que era el otro finalista, ha recurrido la decisión.

Amadeus muestra en un informe cómo los Big Data están transformando el sector de los viajes

Amadeus muestra en un informe cómo los Big Data están transformando el sector de los viajesEl proveedor de soluciones tecnológicas para el sector de los viajes Amadeus ha publicado un estudio encargado a la universidad de Harvard que analiza el impacto que están teniendo los Big Data en este mercado. Para ello, repasa casos de éxito de aerolíneas, centrales de reservas y cadenas hoteleras.

Introducción a Hadoop y su ecosistema

Ecosistema de HadoopSi miramos alrededor nuestro, vemos que cualquier dispositivo que usamos genera datos, estos pueden ser analizados actualmente. De esta gran cantidad de datos que tenemos a nuestro alcance, sólo el 20% se trata de información estructura y el 80% son datos no estructurados. Estos últimos añaden complejidad en la forma que se tienen que almacenar y analizar.

Hadoop aparece en el mercado Big Data como una solución para estos problemas, dando una forma de almacenar y procesar estos datos..