Integracion de datos

Herramientas de Integración, ETLs y Pipelines de datos

Pentaho 3.2 Data Integration: Beginner's Guide (fin de lectura)

Estimados,

luego de un tiempo considerable he finalizado la lectura de  "Pentaho 3.2 Data Integration: Beginner's Guide" escrito por María Carina Roldán.

En pocas palabras, un muy buen libro!

La cantidad de ejemplos, sobre todo de procesos no triviales y poco utilizados, hacen de este libro una opción inteligente a la hora de aprender sobre PDI e integración de datos.

Uno de los capítulos que más ha llamado la atención es el dedicado a Javascript embebido.

También podrán leer sobre como armar datamarts mediante la utilización de los pasos necesarios y su configuración.

No intento hacer un resumen del libro ni mucho menos, pero considero que su lectura es fundamental para aquellos que se inician con PDI e integración de datos y muy recomendable para aquellos que ya lo conocen y quieren profundizar.

Saludos

Mariano García Mattío

Sobre el evento Informatica Day 2010

La semana pasada asistí al Informatica Day 2010, evento que cada año organiza Informatica en el que se habla principalmente sobre Integración de Datos, que para eso es la especialidad de esta compañía.

Estos son los principales contenidos que se presentaron en las ponencias (consultar la agenda del evento para más detalles):

  • Ponencia principal sobre Gestión de Datos Maestros
  • Caso Occidental Hoteles
  • Integración Lean
  • Mejores prácticas para la retirada de aplicaciones legacy
  • La Plataforma Informatica para facilitar la migración de datos
  • Archivo de aplicaciones Oracle – E-Business Suite, PeopleSoft y Siebel
  • Mejores prácticas para utilizar el data warehouse en estrategias de fidelización de clientes

Master Data Management en el Informatica Day 2010

 

De las presentaciones, quiero destacar las 4 que me gustaron más:

SSIS: Solución a dos errores sin motivo aparente cuando insertamos datos en MySql

SSIS: Solución a dos errores sin motivo aparente cuando insertamos datos en MySqlPor la razón que sea puede que tengamos que desarrollar un paquete de Microsoft Integration Services que nos mueva datos de cualquier origen a una tabla que se encuentra en una base de datos MySQL.
La primera intención será hacerlo mediante una ADO.NET Destination y el provider de MySQL para la conexión. Si lo hacemos así para insertar los datos directamente, al crear el destino, seleccionar la conexión y luego seleccionamos la tabla aparecerá un error como el siguiente al comprobarlo todo con la vista previa o al intentar hacer las asignaciones.

Este error se debe a al modo de compatibilidad sql ansi de la base de datos mysql donde intentamos cargar los datos. Para solventarlo debemos conectarnos al servidor de MySQL y cambiar la compatibilidad ansi de sql de la base de datos*...

 

Ejemplo Kettle para conectarnos a Sap (con el plugin ProERPConn)

Ejemplo Kettle para conectarnos a Sap (con el plugin ProERPConn)En una entrada anterior del blog vimos que con Talend nos podiamos conectar a Sap sin necesidad de comprar ningún plugin o complemento adicional en la versión Open Studio. Tan solo habia que disponer del conector Java sapjco.jar, que Sap ofrece libremente a sus clientes, y utilizar los componentes de Talend tSapInput y tSapOutput. La comunicación con Sap era en ambas direcciones, permitiendo tanto la lectura como la escritura en el través de los módulos de función (las llamadas RFC). Ademas, en las versiones de pago de Talend, hay funciones adicionales que incluyen asistentes, la lectura directa del metadata de Sap (diccionario de datos, módulos de función y bapis, recuperación de la documentación de las RFC y su test online) y por tanto, una mayor facilidad de uso, ya que en la versión Open es muy dificil de configurar el componente y la documentación al respecto brilla por su ausencia...

Integración de Soluciones en la Pyme

Las empresas Pequeñas y Medianas, se encuentran ante el reto de adoptar tecnologias que soporten su crecimiento, flexibilicen sus modelos de negocio y les permitan automzatizar sus ventajas competitivas. En Celeritech entendemos que dichas soluciones deben atender las necesidades de Incremento de las Ventas, Reducción de Costos mediante un mejor control del Negocio y herramientas que faciliten a la Dirección y la gerencia el Proceso de Toma de Decisiones. Es por ello que nuestro enfoque se centra en la "Gestión Inteligente de la Pequeña y Mediana Empresa".

La tecnología para soportar la cadena de valor de cualquier empresa, incluye soluciones de back office (gestión administrativa, financiera y logística), soluciones de front office (atención al cliente vía telefónica, Puntos de Venta, Fuerza de Venta Móvil), más las soluciones propias de su sector de industria (soluciones a medida, soluciones de nicho).

¿ Cómo abordar este mapa de soluciones? La palabra clave es "Integración", la cual viene dada por plataformas como SAP, Oracle, Microsoft, que en la mayoría de los casis ofrecen una suite de productos, que minimicen el costo de integrar los diferentes tipos de tecnología.

Modelo de Datos y Procesos de Carga del DW de datos públicos de Londres.

Modelo de Datos y Procesos de Carga del DW de datos públicos de Londres.Durante estos días hemos estado analizando los diferentes ficheros de datos que proporciona la autoridad de Londres para preparar su “normalización” y procesamiento y definir también el modelo de datos del DW que vamos a construir. Tal y como nos recordaba la gente de BI Fácil, nos hemos encontrado con que la información estaba en unos “estándares muy poco estándares”. Cada fichero esta construido de una manera y no siguen una linea para construir de la misma forma los ficheros de datos. Eso nos ha complicado un poco el procesamiento de la información.
Para que entendamos mejor el ejemplo, anotar que los datos con los que hemos trabajado corresponden a la región de Londres (Greater London o Gran Londres), que incluye la Ciudad de Londres y Westminster, asi como otros 31 distritos. Es una de las nueve regiones de Inglaterra.Desde el año 2000, la región está administrada por la Autoridad del Gran Londres y tiene un alcalde controlado por la Asamblea de Londres. El estatus del Gran Londres es algo inusual. Es la única región de Inglaterra con un amplio poder, una asamblea regional electa y un alto cargo elegido también por elección directa.

Comparativa ETL´s OpenSource vs ETL´s Propietarias

La elección de una herramienta ETL puede ser una tarea compleja que va a tener mucha repercusión en el desarrollo posterior de un proyecto. Podeis ver la comparativa de ETL´s OpenSource vs ETL´s Propietarias a continuación ( gracias a https://www.jonathanlevin.co.uk/). Aqui se habla de que las herramientas OpenSource ya estan empezando a ser una alternativa real a los productos existentes y se estan desarrollando con rapidez.
[slideshare id=1497055&doc=etl-124344719247-phpapp01]
Igualmente, os dejo el link a un documento donde se habla de todo lo que tendremos que tener en cuenta a la hora de realizar la selección de una herramienta ETL (características que habrán de tener, criterios para la evaluación, etc). Acceder al documento aquí...

 

 

Análisis del sistema Operacional para identificación de Dimensiones, Atributos e Indicadores. Preparación de los procesos ETL.

Una vez disponemos del módelo lógico completo y revisado, vamos a analizar cada una de las dimensiones, sus atributos e indicadores de negocio para identificar en los sistemas operacionales de la empresa el origen de los datos. Es decir, el lugar en las tablas de las aplicaciones ( aquí también caben otros origenes de información, como aplicaciones web, hojas excel, ficheros planos, etc), desde los cuales vamos a obtener los datos para llenar de manera efectiva nuestro DataWarehouse.

Este proceso de análisis será el punto de partida para la construcción de los procesos ETL ( Extraction, Transform and Load ) que nos permitirán automatizar la carga de nuestro sistema BI. Los procesos ETL  seran un conjunto de trabajos o jobs, con diferentes pasos de diferentes tipos ( extracción de datos, filtrado, transformación, mapeo, verificación de errores, logs, etc), que provocaran que nuestro modelo lógico sea llenado con los datos de los sistemas de gestión de la empresa y de esa manera permitir su analisis según los requerimientos establecidos utilizando las herramientas de Business Intelligence.

ETL Talend Dimension Cliente.Tipos de Mapeo para lookup. Gestión de SCD (Dimensiones lentamente cambiantes).

ETL Talend Dimension Cliente.Tipos de Mapeo para lookup. Gestión de SCD (Dimensiones lentamente cambiantes).El proyecto ENOBI sigue avanzando en la parte mas compleja y que seguramente mas recursos consumira, los procesos ETL. Como ya indicamos, en algunos proyectos puede suponer hasta el 80% del tiempo de implantación. Y no solo eso, el que los procesos esten desarrollados con la suficiente consistencia, rigor, calidad, etc. va a determinar el exito posterior del proyecto y que la explotación del sistema de Business Intelligence sea una realidad. Seguramente si los procesos de extraccion, transformación y carga no esta bien desarrollados, eso pueda acabar afectando al uso correcto del sistema
Para concluir los procesos ETL de las Dimensiones del proyecto, vamos a abordar la carga de la Dimensión Cliente, que incluye todos los atributos por los que analizaremos a nuestros clientes. Vamos a obviar la publicación de los proceso de carga de la Dimensión Logistica y Promoción, pues son muy sencillos y no aportan nada nuevo.
Al detallar los procesos de la carga de la Dimension Cliente, entraremos en detalle en las diferente formas que tiene Talend de realizar los mapeos de tablas de lookup. Es decir, cuando tenemos un valor para el que tenemos que recuperar un valor adicional en otra tabla de la base de datos (por ejemplo, para un código de cliente recuperar su nombre; para la familia de producto, introducida en el maestro de materiales, recuperar de la tabla de parametrización su descripción, etc ), ver de que maneras Talend nos permite realizar dicha consulta...