Pentaho Kettle Solutions: Reseñas

Buenas..

Acabo de concluir la lectura de Pentaho Kettle Solutions. Este libro tan extenso como interesante, me ha llevado más tiempo de lectura de lo que había pensado, pero también me ha sorprendido con la calidad de su contenido y la diversidad de temas que abarca.   A continuación las reseñas:     1) Reseña general: es un libro muy ameno de leer, que profundiza muchos temas complejos manteniendo explicaciones sencillas de entender. Lo más destacable de este libro, es que ha sido escrito por profesionales que han trabajado con PDI (a.k.a. Kettle) durante muchos años, realizando numerosos aportes e incluso que han llevado a cabo su desarrollo (en el caso de Matt Casters). Es decir, hay una brecha muy grande entre conocer para qué sirve un 'paso', y saber por qué se creó ese 'paso'; y esta diferencia se nota por doquier en este libro.   Aunque Pentaho Kettle Solutions no esta pensado para principiantes, es ideal para cualquier persona que este trabajando con PDI actualmente o que desee hacerlo en un futuro, ya que cubre temáticas que son de vital importancia tenerlas en mente al momento de emplear esta herramienta.     2) Reseña detallada: este libro inicia con una introdución acerca de los ETL y las particularidades que debería tener una herramienta ETL; luego presenta Kettle y describe sus características, cómo instalarlo y ejecutarlo, y cómo está diseñado, es decir, detalla sobre Transformaciones, Trabajos, Saltos, tipos de datos, tipos de repositorio, párametros, variables, etc.   Seguidamente plantea ejemplos para tomar los datos de una base de datos transaccional y cargar un Data Warehouse, abordando temas complejos relacionados con dimensiones lentamente cambiantes, detección de cambios en los datos (CDC - Change Data Capture), desnormalización, etc.   Sigue con la explicación de los 34 subsistemas del proceso ETL definido por Ralph Kimball, para luego abordar cada subsistema desde Kettle, haciendo énfasis en la forma en que éste resuelve cada situación y ejemplificando en cada caso. Las temáticas cubiertas a destacar son las siguientes:
  • Ejecución de Trabajos, backtracking, en paralelo, con Slave servers (mediante Carte).
  • Ejecución de Transformaciones multi-thread, distribución de filas, clustering y manejo de particiones en transformaciones.
  • Conexiones a bases de datos: opciones generales y avanzadas, pooling, clustering, manejo de conexiones y transacciones.
  • Performance y escalabilidad.
  • Extracción de datos, Data Profiling (utilizando DataCleaner), CDC.
  • Data Cleasing, manejo de los diferentes tipos de errores, auditorias, datos duplicados, scripting.
  • Manejo de claves, carga de tablas de dimensión (esquema copo de nieve y en estrella), implementación de diferentes tipos de tablas de dimensión.
  • Diferentes tipos de tablas de hechos, Bulk Load, carga y manipulación.
  • Extraer datos desde diversas tecnologías OLAP.
  • Ciclo de vida de desarrollo de ETLs, buenas y malas prácticas, desarrollo agil, test, debug y documentación.
  • Scheduling (cron, at, xaction, PDS y Pentaho) y monitoreo.
  • Utilización de Clusters dinámicos (Amazon EC2).
  • Integración de datos en tiempo real.
  • Manipulación de formatos de datos complejos (no relacionales, no estructurados).
  • Empleo de Web Service, ejemplos de XML, SOAP y RSS.
Ya llegando al final se detalla cómo obtener y compilar Kettle, cómo utilizar Kettle Java API a través de ejemplos, y cómo extender Kettle desarrollando plugins propios!   Pentaho Kettle Solutions aborda la integración de datos (los 34 subsistemas) en su totalidad y sistematiza gran cantidad de conceptos, ejemplos, buenas prácticas, cuestiones de diseño y performance, lo cual lo hace una opción enteramente recomendable para quienes pertenecemos al mundo BI, como para quienes necesiten realizar algún tipo de integración de datos.     3) Reseña final: sin duda, este es otro libro de indispensable lectura, ya sea que se este trabajando con Pentaho, implementando soluciones BI o sistemas transaccionales. Debido a que la integración de datos abarca muchos tópicos y resuelve muchas situaciones que están presentes en cualquier empresa/organización que posea sistemas transaccionales, sistemas BI, utilice SGBD o simples hojas de cálculo.     Salud.