En este video haremos Web Scraping utilizando Pentaho Data Integration (PDI). Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.
Crearemos una Transformation y haremos lo siguiente:
- obtendremos un documento HTML (HTTP Client)
- dividiremos filas en columnas (Split Fields)
- normalizaremos el data set (Row Normaliser)
- filtraremos las filas deseadas (Filter rows)
- obtendremos el título y la descripción utilizando expresiones regulares y javascript (Modified Java Script Value | Replace in string)
- seleccionaremos las columnas deseadas (Select values)
Downloads
Espero les sea útil
Saludos