Integracion de datos

Herramientas de Integración, ETLs y Pipelines de datos

Pentaho 3.2 Data Integration: Beginner's Guide (fin de lectura)

Estimados,

luego de un tiempo considerable he finalizado la lectura de  "Pentaho 3.2 Data Integration: Beginner's Guide" escrito por María Carina Roldán.

En pocas palabras, un muy buen libro!

La cantidad de ejemplos, sobre todo de procesos no triviales y poco utilizados, hacen de este libro una opción inteligente a la hora de aprender sobre PDI e integración de datos.

Uno de los capítulos que más ha llamado la atención es el dedicado a Javascript embebido.

También podrán leer sobre como armar datamarts mediante la utilización de los pasos necesarios y su configuración.

No intento hacer un resumen del libro ni mucho menos, pero considero que su lectura es fundamental para aquellos que se inician con PDI e integración de datos y muy recomendable para aquellos que ya lo conocen y quieren profundizar.

Saludos

Mariano García Mattío

Sobre el evento Informatica Day 2010

La semana pasada asistí al Informatica Day 2010, evento que cada año organiza Informatica en el que se habla principalmente sobre Integración de Datos, que para eso es la especialidad de esta compañía.

Estos son los principales contenidos que se presentaron en las ponencias (consultar la agenda del evento para más detalles):

  • Ponencia principal sobre Gestión de Datos Maestros
  • Caso Occidental Hoteles
  • Integración Lean
  • Mejores prácticas para la retirada de aplicaciones legacy
  • La Plataforma Informatica para facilitar la migración de datos
  • Archivo de aplicaciones Oracle – E-Business Suite, PeopleSoft y Siebel
  • Mejores prácticas para utilizar el data warehouse en estrategias de fidelización de clientes

Master Data Management en el Informatica Day 2010

 

De las presentaciones, quiero destacar las 4 que me gustaron más:

SSIS: Solución a dos errores sin motivo aparente cuando insertamos datos en MySql

SSIS: Solución a dos errores sin motivo aparente cuando insertamos datos en MySqlPor la razón que sea puede que tengamos que desarrollar un paquete de Microsoft Integration Services que nos mueva datos de cualquier origen a una tabla que se encuentra en una base de datos MySQL.
La primera intención será hacerlo mediante una ADO.NET Destination y el provider de MySQL para la conexión. Si lo hacemos así para insertar los datos directamente, al crear el destino, seleccionar la conexión y luego seleccionamos la tabla aparecerá un error como el siguiente al comprobarlo todo con la vista previa o al intentar hacer las asignaciones.

Este error se debe a al modo de compatibilidad sql ansi de la base de datos mysql donde intentamos cargar los datos. Para solventarlo debemos conectarnos al servidor de MySQL y cambiar la compatibilidad ansi de sql de la base de datos*...

 

Ejemplo Kettle para conectarnos a Sap (con el plugin ProERPConn)

Ejemplo Kettle para conectarnos a Sap (con el plugin ProERPConn)En una entrada anterior del blog vimos que con Talend nos podiamos conectar a Sap sin necesidad de comprar ningún plugin o complemento adicional en la versión Open Studio. Tan solo habia que disponer del conector Java sapjco.jar, que Sap ofrece libremente a sus clientes, y utilizar los componentes de Talend tSapInput y tSapOutput. La comunicación con Sap era en ambas direcciones, permitiendo tanto la lectura como la escritura en el través de los módulos de función (las llamadas RFC). Ademas, en las versiones de pago de Talend, hay funciones adicionales que incluyen asistentes, la lectura directa del metadata de Sap (diccionario de datos, módulos de función y bapis, recuperación de la documentación de las RFC y su test online) y por tanto, una mayor facilidad de uso, ya que en la versión Open es muy dificil de configurar el componente y la documentación al respecto brilla por su ausencia...

Modelo de Datos y Procesos de Carga del DW de datos públicos de Londres.

Modelo de Datos y Procesos de Carga del DW de datos públicos de Londres.Durante estos días hemos estado analizando los diferentes ficheros de datos que proporciona la autoridad de Londres para preparar su “normalización” y procesamiento y definir también el modelo de datos del DW que vamos a construir. Tal y como nos recordaba la gente de BI Fácil, nos hemos encontrado con que la información estaba en unos “estándares muy poco estándares”. Cada fichero esta construido de una manera y no siguen una linea para construir de la misma forma los ficheros de datos. Eso nos ha complicado un poco el procesamiento de la información.
Para que entendamos mejor el ejemplo, anotar que los datos con los que hemos trabajado corresponden a la región de Londres (Greater London o Gran Londres), que incluye la Ciudad de Londres y Westminster, asi como otros 31 distritos. Es una de las nueve regiones de Inglaterra.Desde el año 2000, la región está administrada por la Autoridad del Gran Londres y tiene un alcalde controlado por la Asamblea de Londres. El estatus del Gran Londres es algo inusual. Es la única región de Inglaterra con un amplio poder, una asamblea regional electa y un alto cargo elegido también por elección directa.

Integración de Soluciones en la Pyme

Las empresas Pequeñas y Medianas, se encuentran ante el reto de adoptar tecnologias que soporten su crecimiento, flexibilicen sus modelos de negocio y les permitan automzatizar sus ventajas competitivas. En Celeritech entendemos que dichas soluciones deben atender las necesidades de Incremento de las Ventas, Reducción de Costos mediante un mejor control del Negocio y herramientas que faciliten a la Dirección y la gerencia el Proceso de Toma de Decisiones. Es por ello que nuestro enfoque se centra en la "Gestión Inteligente de la Pequeña y Mediana Empresa".

La tecnología para soportar la cadena de valor de cualquier empresa, incluye soluciones de back office (gestión administrativa, financiera y logística), soluciones de front office (atención al cliente vía telefónica, Puntos de Venta, Fuerza de Venta Móvil), más las soluciones propias de su sector de industria (soluciones a medida, soluciones de nicho).

¿ Cómo abordar este mapa de soluciones? La palabra clave es "Integración", la cual viene dada por plataformas como SAP, Oracle, Microsoft, que en la mayoría de los casis ofrecen una suite de productos, que minimicen el costo de integrar los diferentes tipos de tecnología.

ETL Talend Dimension Cliente.Tipos de Mapeo para lookup. Gestión de SCD (Dimensiones lentamente cambiantes).

ETL Talend Dimension Cliente.Tipos de Mapeo para lookup. Gestión de SCD (Dimensiones lentamente cambiantes).El proyecto ENOBI sigue avanzando en la parte mas compleja y que seguramente mas recursos consumira, los procesos ETL. Como ya indicamos, en algunos proyectos puede suponer hasta el 80% del tiempo de implantación. Y no solo eso, el que los procesos esten desarrollados con la suficiente consistencia, rigor, calidad, etc. va a determinar el exito posterior del proyecto y que la explotación del sistema de Business Intelligence sea una realidad. Seguramente si los procesos de extraccion, transformación y carga no esta bien desarrollados, eso pueda acabar afectando al uso correcto del sistema
Para concluir los procesos ETL de las Dimensiones del proyecto, vamos a abordar la carga de la Dimensión Cliente, que incluye todos los atributos por los que analizaremos a nuestros clientes. Vamos a obviar la publicación de los proceso de carga de la Dimensión Logistica y Promoción, pues son muy sencillos y no aportan nada nuevo.
Al detallar los procesos de la carga de la Dimension Cliente, entraremos en detalle en las diferente formas que tiene Talend de realizar los mapeos de tablas de lookup. Es decir, cuando tenemos un valor para el que tenemos que recuperar un valor adicional en otra tabla de la base de datos (por ejemplo, para un código de cliente recuperar su nombre; para la familia de producto, introducida en el maestro de materiales, recuperar de la tabla de parametrización su descripción, etc ), ver de que maneras Talend nos permite realizar dicha consulta...
 

Herramientas ETL. ¿Que son, para que valen?. Productos mas conocidos. ETL´s Open Source.

Herramientas ETL. ¿Que son, para que valen?. Productos mas conocidos. ETL´s Open Source.

Las Herramientas ETL, deberían proporcionar las siguientes funcionalidades:

  • Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad.
  • Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes.
  • Proporcionar la gestión integrada de Data Warehousing y los Data Marts existentes, integrando la extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los Data Marts.
  • Uso de la arquitectura de metadatos, facilitando la definición de los objetos de negocio y las reglas de consolidación.
  • Acceso a una gran variedad de fuentes de datos diferentes.
  • Manejo de excepciones.
  • Planificación, logs, interfaces a schedulers de terceros, que nos permitiran llevan una gestión de la planificación de todos los procesos necesarios para la carga del DW.
  • Interfaz independiente de hardware.
  • Soporte en la explotación del Data Warehouse...

Ejemplo Talend para conectarnos a Sap

Ejemplo Talend para conectarnos a SapAntes de continuar con el proceso ETL para la carga de la tabla de Hechos de ventas, vamos a hacer una pausa para ver como utilizar Talend para conectarnos a Sap utilizando los componentes tSapConnection, tSapInput y tSapOutput. En nuestro proyecto, podriamos haber utilizado estos componentes para hacer la lectura de datos desde el ERP (pero hemos utilizado el componente tOracleInput para leer directamente de la base de datos).
Aunque el componente Sap de Talend es libre, para poder utilizarlo hace falta una librería Java proporcionada por Sap (sapjco.jar), que tendremos que tener instalada en nuestro sistema. Esta libreria solo se puede descargar de Sap si somos usuarios registrados (https://service.sap.com/connectors). La versión del sapjco que hemos instalado es la 2.1.8 (hay una posterior, la 3.0.4, pero con esa no funciona Talend).
La forma de instalar la libreria sapjco.jar es la siguiente...