Reseña del libro Pentaho Data Integration Cookbook (Second Edition)

Sobre Pentaho Data Integration Cookbook (segunda edición del libro Pentaho Data Integration 4 Cookbook), nos encontramos ante un libro en formato "recetas" escrito por María Carina Roldán, Alex Meadows y Adrian Sergio Pulvirenti, todos ellos con más de 10 años como profesionales en el mundo del Business Intelligence. El libro esta organizado de tal manera que para cada una de las soluciones propuestas podemos ver de forma clara:

  1. Pentaho Data Integration CookbookQue vamos a hacer, mediante una introducción
  2. Que nos hace falta para llevarlo a cabo (Getting Ready)
  3. Que pasos se han de seguir (How to do it)
  4. Que esta ocurriendo internamente en PDI (How it works)
  5. Qué problemas o mejoras podemos esperar (There's more & See also)...

Es un libro muy recomendable para cualquier perfil que ya lleve un tiempo trabajando sobre ETL y PDI (se presuponen unos conocimientos básicos). Esta muy bien estructurado y desde el primer momento se convertirá en una referencia en cuanto a best-practices sobre Pentaho Data Integration (PDI). A continuación enumero las categorías que agrupan las más de 100 recetas que contiene el libro (la primera edición contenía 70 recetas) y que podreis encontrar:

  • WORKING WITH DATABASES (conexiones a base de datos, parametrizadas, CRUD, queries en runtime)
  • READING AND WRITING FILES (lectura y escritura de ficheros simples, estructurados y en AWS S3)
  • WORKING WITH BIGDATA AND CLOUD SOURCES (lectura y escritura cloud y NoSQL como Salesforce.com, Hadoop, HBase y MongoDB)
  • MANIPULATING XML (lectura, escritura y validacion de ficheros XML, DTD, XSD y generacion via transformaciones XSL)
  • FILE MANAGEMENT (copia, borrado, renombrado,compresion y encriptado de ficheros en local o remoto)
  • LOOKING FOR DATA (busquedas simples o fuzzy sobre base de datos, streams o webservices)
  • UNDERSTANDING AND OPTIMIZING DATA FLOWS (division y union de flujos, ejecucion en paralelo...)
  • EXECUTING AND REUSING JOBS AND TRANSFORMATIONS (todas las posibilidades en cuanto a ejecucion de trabajos o transformaciones, con argumentos estáticos o dinámicos, ejecución múltiple, en tiempo de ejecución)
  • INTEGRATING KETTLE AND THE PENTAHO SUITE (ejecutar reports desde PDI, configurar Pentaho BI Server)
  • GETTING THE MOST OUT OF KETTLE (envio de emails con adjuntos, uso de JSON, logs y herramientas de optimizacion)
  • UTILIZING VISUALIZATIONS TOOLS IN KETTLE (uso de otras herramientas como DataCleaner, AgileBI o Instaview)
  • DATA ANALYTICS (lectura de ficheros SAS, uso de calculos estadisticos sobre los flujos y envio de datos a Weka)

En resumen, un libro muy interesante que facilita mucho la resolución de problemas o dudas concretas ya que con tan solo mirar el indice puedes acceder directamente a la solución propuesta por los autores del libro, aunque para aprovecharlo al máximo y entenderlo desde el primer minuto son necesarios unos conocimiento básicos sobre ETL, Datawarehouse, Business Intelligence, etc. Personalmente algunas de la recetas que he encontrado más interesantes son las relacionadas con el tratamiento de ficheros XML y lectura y escritura en Hadoop/HBase/MongoDB y especialmente la de optimización de flujos de trabajo.

 

Disponible en Amazon: Pentaho Data Integration Cookbook Second Edition: 2

 

Como ya dije en Linkedin, me parece un libro muy bueno, una guía inseparable para el diseñador de ETL's.

 

La parte que ahora mismo más me interesa, es la de integración con otras herramientas. Concretamente con DataCleaner

ya que justamente estoy en un proyecto de DataCleansing.

 

Saludos,

Javier