Consideraciones procesos ETL en entornos Big Data: Caso Hadoop

Procesos de ETLEn el presente post pretendemos mostrar la problemática que con frecuencia encontramos en los procesos de extracción, validación y carga de datos en los entornos Big Data. Un proceso ETL tradicional, extrae datos desde múltiples fuentes origen, después los valida, normaliza, realiza determinadas transformaciones y vuelca los mismos en un entorno datawarehouse para su posterior análisis. Cuando en los datos fuentes, tenemos volúmenes altos, una frecuencia de actualización alta en origen o bien son datos no estructurados, estos procesos ETL suelen tener problemas.. 

Calidad de datos. Integridad de información entre departamentos

Validaciones en informesEn muchas ocasiones nos encontramos en las compañías, información equivalente generada por diferentes departamentos, que aunque tenga diferentes matices y  perspectivas  de análisis (Ventas, Marketing, Control de Gestión) la información en su base debe ser la misma. Es habitual encontrarse con discrepancias, lo que nos hace dudar de la fiabilidad del dato y de los sistemas B.I. que los sustentan.  Lo deseable es siempre disponer de maestros de datos que sirvan de fuente para todos los departamentos y de procesos sistemáticos de calidad del dato que garanticen su consistencia, integridad y trazabilidad.

 

SQL Server: Auditoría de datos personalizada mediante triggers

 Los triggers o desencadenadores son disparadores que saltan cuando realizamos la acción o evento al que van asociados. En MS SQL Server, además de los triggers clásicos relacionados con acciones DML (insert, update, delete) que se ejecutan en su lugar (instead of) y después (after triggers), desde SQL Server 2008 (por lo menos) existe otro tipo que son los triggers asociados a acciones que se producen por consultas DDL. Este segundo tipo de trigger está más pensado para labores administrativas como la propia auditoria, para el control de cierto tipo de operaciones e incluso evitar esos cambios.

Reseña de Big Data Analytics with R and Hadoop

Big DataEstos días he estado leyendo el libro Big Data Analytics with R and Hadoop, de Vignesh Prajapati, un libro que explica cómo integrar el paquete de análisis estadístico R y la plataforma de Big Data Apache Hadoop, para romper la barrera de la mayor limitación de R, que es la limitada cantidad de datos que acepta como juegos de datos para procesar.

Combinando estas dos herramientas open source se obtiene una potente plataforma de analítica, con la que se pueden aplicar operaciones de estadística e inteligencia artificial sobre grandes conjuntos de datos..

Primeros pasos como administrador de SQL Server sobre un entorno heredado

Por el motivo que sea, un día puede que cambiamos de trabajo o de funciones dentro de nuestra empresa y de repente heredemos un entorno de base de datos Microsoft SQL Server con un servidor o clúster de bases de datos para que nos encarguemos de él. Antes de empezar a cambiar cosas, es totalmente necesario conocer el uso que se hace de la base de datos, la criticidad de las aplicaciones que la usan, las dependencias entre ellas etc... A continuación una lista de las primeras cuatro tareas que podríamos llevar a cabo para empezar a hacerlo nuestro.

¿Cómo se pueden beneficiar los directores financieros de los sistemas ERP?

Elección de ERP

Los directores financieros (CFOs) están cada vez más solicitados para involucrarse en más proyectos diversos dentro de sus organizaciones y para contribuir al crecimiento estratégico con sus habilidades y experiencia. Sin embargo, esto supone un reto importante para los responsables de finanzas, que necesitan utilizar todas las herramientas a su disposición para tomar decisiones sólidas basadas en evidencias cuantitativas.

Como migrar de Oracle a SQL Server usando SQL Server Migration Assistant for Oracle

El proceso de migración de un sistema gestor de bases de datos Oracle a otro con Microsoft Sql Server puede llegar a ser un trabajo muy tedioso si lo hacemos a mano. Tiempo atrás quizás no había más remedio que empezar migrando la estructura para hacer luego cargas manuales por tablas etc. Una manera de hacer podría ser haciendo un script PL-SQL de la estructura en Oracle para modificarlo y pasarlo a T-SQL para SQL Server. Con el paso del tiempo han ido in-crescendo aplicaciones de pago y gratuitas que ya hacen gran parte de nuestro trabajo. MS SQL Server Migration Assistant es una de ellas totalmente gratuita, creada por Microsoft que nos permite hacer gran parte del trabajo.

SQL Server: Cómo saber cuándo se han borrado datos y recuperarlos usando el registro de transacciones

Estructura de backupEn el post anterior explicaba como examinar el registro de transacciones de una base de datos para ver poder ver el detalle de los cambios realizados en la misma, ya sean consultas DML como DDL. En este post se explica como usar la misma herramienta en otro caso práctico para poder detectar en que momento se han borrado unos datos y como recuperarlos haciendo una restauración point-in_time de la base de datos para poder copiarlos de nuevo.