Web Scraping con PDI (Pentaho Data Integration)

Ver vídeo

En este video haremos Web Scraping utilizando Pentaho Data Integration (PDI). Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.

Crearemos una Transformation y haremos lo siguiente:

  • obtendremos un documento HTML (HTTP Client)
  • dividiremos filas en columnas (Split Fields)
  • normalizaremos el data set (Row Normaliser)
  • filtraremos las filas deseadas (Filter rows)
  • obtendremos el título y la descripción utilizando expresiones regulares y javascript (Modified Java Script Value | Replace in string)
  • seleccionaremos las columnas deseadas (Select values)

 
Downloads

 
Espero les sea útil
Saludos

Informatica Powercenter Express - Cómo conectar con Facebook y obtener datos de publicaciones del muro

Ver vídeo

Cómo utilizar Informatica Developer Tool para conectar con Facebook mediante el método de autenticación OAuth, y utilizar una operación del objeto de datos que se crea para efectuar una búsqueda de publicaciones con un criterio de búsqueda, y en función de los permisos del usuario utilizado para la autenticación.

Informatica PowerCenter Express - Cómo conectar y obtener datos de perfiles de LinkedIn

Ver vídeo

Cómo utilizar Informatica Developer para crear un objeto de conexión a redes sociales para conectar con LinkedIn y obtener los datos de perfiles de los usuarios de la red del usuario utilizado para la autenticación OAuth.
Se muestra también cómo filtrar los datos con un parámetro de consulta para obtener sólo, por ejemplo, resultados de un tipo determinado de perfil.

Buenas prácticas para lograr un buen Gobierno de los Datos

Ver vídeo

Webinar de Powerdata en el que se presentan buenas prácticas para lograr un buen gobierno de datos dentro de las empresas.
Concretamente, en este webinar de MDM se tratan los siguientes temas:

  • PowerData y el Gobierno de datos
  • Pilares del Gobierno de Datos
  • Conocimientos utilizados para lograr un Gobierno de Datos

    • Data Governance Institute - Framework
    • Metodología DAMA
  • Proyectos imprescindibles para el Gobierno de Datos

    • Integración
    • Calidad
    • Master Data Management (MDM)
    • Archiving
    • Seguridad de datos

ETL's de Facebook con Talend - Taller Business Intelligence de OpenAnalytics

Ver vídeo

Presentación en el taller de BI de OpenAnalytics de la herramienta de ETL Open Source Talend, y comparativa con Kettle (Pentaho Data Integration). Ejemplo de uso de Talend para preparar procesos de ETL con datos de Facebook, a través de la API de esta red social.

Por Eduardo Fernández, especialista en desarrollo de procesos ETL en Stratebi.