Curso Pentaho Data Integration

100% online

curso online pentaho data integration

Descripción

Aprenderás a utilizar Pentaho Data Integration (PDI) mediante ejemplos y ejercicios, y de forma gradual verás cada una de las opciones de Spoon. Trabajarás con los steps más utilizados en los Jobs/Transformations. Aprenderás cómo cargar y actualizar un DW. Ejecutarás las soluciones desde líneas de comandos. Al finalizar el curso podrás crear Jobs/Transformations altamente parametrizables y adaptadas a tu contexto.

Duración

230 horas aproximadas.

Acceso habilitado durante dos meses.

El curso requiere tiempo y dedicación, ya que aborda muchos temas. Cada explicación se realiza de forma planificada y es complementada mediante práctica, ejercicios, ejemplos, etc. La cantidad de horas es un promedio del tiempo que se deberá invertir para completar el curso, incluido el práctico.

Este no es un típico curso que se encuentra en páginas dedicadas a video-cursos de muy corta duración y muy poco abarcativos.

Este curso es una experiencia nueva de aprendizaje hacia temáticas complejas.

Objetivos

Investigarás la herramienta de Integración de Datos Open Source más utilizada en la actualidad.

Analizarás distintos tipos de Datasources y les aplicarás gran variedad de técnicas, filtros, funciones y formatos, para la obtención de un resultado esperado.

Obtendrás conocimiento avanzado de PDI y su ecosistema.

Gestionarás el workflow de múltiples Transformations y Jobs.

Aprenderás a utilizar los Steps más importantes mediante su aplicación práctica, ejemplos y ejercicios.

Utilizarás PDI para cargar y actualizar un Data Warehouse.

Temas

  • Pentaho Data Integration (PDI):
    • Características
    • Definición y uso de integración de datos
    • Licencia
    • Ejemplificación de tareas de integración de datos
    • Descripción de requerimientos básicos
    • Configuración de variables de entorno
    • Startup de PDI: Configuración de variables de entorno | Descarga | Instalación | Configuración de Driver JDBC de MySQL
    • Scripts de ejecución de Spoon
    • Layout de Spoon: Principal | Tabs | Panel Design | Panel View | Accesos rápidos
    • Tipos y utilización de Repositorio: Conexión con Repositorio de Pentaho BA | Repositorio en Base de Datos | Repositorio en sistema de archivos | Opción Repository Manager | Metadata
    • Principales opciones de la GUI de Spoon: General | Apariencia
    • Características y diferencias de Transformations y Jobs
    • Práctico: creación de Transformation que genera valores aleatorios
  • Transformations, Panel Execution, Panel Execution Results:
    • Descripción de las características, funcionamiento y comportamiento de las Transformations
    • Descripción del Panel Execute, que se despliega antes de ejecutar las Transformations/Jobs: Environment Type | Options | Log Level | Parameters | Variables
    • Descripción y ejemplificación del Panel Execution Results
    • Descripción y análisis de las opciones más importantes de sus Tabs:
      • Tab Execution History
      • Tab Botón SQL
      • Tab Logging
      • Tab Step Metrics
      • Tab Performance Graph
      • Tab Metrics
      • Tab Preview data
    • Práctico: creación de Transformation que realiza cálculos lógicos y matemáticos
    • Práctico: creación de Transformation que analiza los valores del flujo de datos y bifurca el flujo en dos sentidos diferentes; en el primer sentido realizará cálculos y exportará los resultados; en el segundo caso irá a un Step de control
    • Práctico: creación de Transformation que obtiene datos de un archivo CSV, los formatea, ordena, concatena y exporta en otro formato
  • Variables de Entorno, Parameters, Arguments:
    • Descripción y uso de las Variables de Entorno
    • Ejemplos y notación de las Variables de Entorno
    • Descripción y uso de los Parámetros
    • Modos de creación de Parámetros
    • Descripción, definición y uso de Argumentos
    • Descripción y uso de la opción Preview
    • Práctico: creación de Transformación cuyos valores obtenidos dependa de los Parámetros asignados en la ejecución
    • Práctico: creación de Transformación que obtenga valores de Argumentos, ejecute una función JavaScript y genere un documento HTML
  • Expresiones Regulares (RegEx), JavaScript (JS):
    • Descripción, aplicación y ejemplos de RegEx
    • Documentación y patrones más utilizados de las RegEx
    • Aplicación de RegEx en PDI
    • Práctico: creación de Transformation que obtenga los nombres de las librerías presentes en PDI y que mediante RegEx separe sintácticamente su nombre, extensión y versión
    • Descripción y documentación de JS
    • Aplicación de JS en PDI
    • Descripción, ejemplificación y aplicación avanzada de Step Modified Java Script Value:
      • Transform Scripts
      • Transform Constants: SKIP | ERROR | CONTINUE
      • Transform Functions
      • Input/Output Fields
      • Opciones: Position | Compatibility mode | Optimization level
      • Configuración de la Grilla Fields para obtener dataset de salida
      • Añadir, modificar y configurar distintos tipos de Script: Transform | Start | End
    • Práctico: creación de Transformation que obtenga página HTML y realice Web Scrapping utilizando RegEx y JS
  • Dataflow:
    • Práctico: creación de Transfomation que realice las siguientes tareas: análisis, distribución, mapeo, clasificación, aplicación de rangos, aplicación de secuencia condicionada, conversiones
    • Manejo del Dataflow:
      • Unión básica de Datasets
      • Unión de Datasets con diferente Metadata
      • Unión de Datasets estableciendo condición de relación
      • Unión de Datasets de forma secuencial
      • Dividir Dataset entre diversos Steps
      • Compartir Dataset completo
      • Compartir Dataset de forma distributiva
    • Práctico: creación de Transformation que realice las siguientes tareas; convertir de filas a columnas, convertir de columnas a filas, unir Datasets, mapeo y distribución de Datasets, aplicación de fórmulas avanzadas, compartir Dataset
  • Variables Globales:
    • Descripción, uso, ejemplos
    • Administración de Variables Globales
    • Práctico: creación de Transformation que realice las siguientes tareas: utilizar Variables de Entorno para establecer URL y nombres de archivos; trabajar con datos en formato XML; convertir filas en columnas; comparar dos flujos de datos por aproximación utilizando algoritmo Levenshtein; obtener valores mínimos y máximos; trabajar con datos JSON
  • Hops:
    • Descripción y administración de Hops de Transformations y Jobs
    • Configuración avanzada de Hops de Transformations: Habilitar/Deshabilitar | Cambiar dirección | Condición | Borrar | Bulk Change
    • Configuración avanzada de Hops de Jobs y análisis de Status: Incondicional | Exito | Fracaso | Habilitar/Deshabilitar
    • Descripción de Notas en Transformations/Jobs
    • Descripción de las opciones de Grilla
  • Share objects:
    • Descripción y tipos de Objetos Compartidos
    • Administración, ejemplificación y utilización de Objetos Compartidos
    • Configuración de Metadata de Objetos Compartidos
    • Práctico: creación de Transformation que realice las siguientes tareas; obtener diferentes archivos de salida dependiendo de condiciones establecidas en el flujo de datos; comparar flujos de datos identificando elementos nuevos, eliminados y modificados; utilizar Variables de Entorno y RegEx
  • Jobs:
    • Descripción, características y principales usos
    • Comportamiento y modo de funcionamiento de los Jobs
    • Configuración para ejecución de Steps en paralelo
    • Configuración para ejecución de Transformations por cada fila analizada del Dataset
    • Análisis y explicación de Ruta de Ejecución de los Steps de Jobs
    • Práctico: creación de un Job que realice las siguientes tareas; controle el workflow de ejecución de dos Transformations; evalúe la salida de status de los diferentes Steps
    • Práctico: creación de un Job que realice las siguientes tareas; ejecutar una Transformation que genere un Dataset; guardar el Dataset en la lista Result rows; ejecutar una segunda Transformation que obtenga el Dataset de la lista Result rows; configurar salidas de log y analizar los resultados
    • Práctico: creación de Transformations y Jobs para ejemplificar las diferentes utilizaciones de Result Filenames
  • Descripción, uso y ejemplificación de Result Rows
  • Descripción, uso y ejemplificación de Result Filenames
  • Descripción, uso, alcance y ejemplificación de Variables On The Fly
  • E-Mail & Web:
    • Ejemplificación, uso y configuración avanzada de envío de e-mails
    • Utilización de diferentes protocolos: POP3 | IMAP | MBOX
    • Práctico: creación de Transformations y Jobs que realicen las siguientes tareas; obtener de un archivo CSV una lista de URLs web con los discos de artistas de rock; obtener el documento HTML de cada URL web; filtrar de cada documento HTML la sección dedicada a la lista de canciones de cada disco; generar un archivo CSV por cada disco con la información de sus respectivas canciones.
    • Práctico: creación de un Job que realice las siguientes tareas: utilizar Variables de Entorno y RegEx para obtener una lista de archivos; validar direcciones de e-mail; enviar e-mail que contenga como adjuntos los archivos obtenidos
  • Descripción de los principales Steps de Validación en Transformations y Jobs
  • Database:
    • Presentación y restauración de Bases de Datos para realización de práctico
    • MySQL:
      • Definición y características
      • Community Server VS Enterprise Edition
      • MySQL Workbench: Características | Instalación | Layout
      • Creación de Nueva Instancia
      • Explicación de las principales opciones de la Sección Administrativa: Server Status | Client Connections | Users and Privileges | Status and System Variables | Data Export | Data Import/Restore | Startup/Shutdown | Server Logs | Option File
      • Explicación de las principales opciones de la Sección SQL: Panel Schemas | Tab Info | Snippets | Log Output | SQL Canvas | Tabs | Accesos rápidos
    • Descripción, uso y realización de acciones avanzadas sobre Bases de Datos:
      • Obtener Dataset
      • Insertar registros
      • Actualizar registros
      • Borrar registros
      • Añadir columna
      • Ejecutar Script SQL
    • Utilización y configuración avanzada de Error handling
    • Definición y utilización de opción Clear Cache Database
    • Práctico: creación de Job que realice múltiples tipos de acciones sobre Bases de Datos
  • Descripción de principales Steps para trabajar con Bases de Datos
  • Data Warehouse:
    • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 1
    • Creación de Transformation para trabajar con Slowly Changing Dimension (SCD) Tipo 2
  • Pan & Kitchen:
    • Descripción de las principales herramientas PDI: Spoon | Pan | Kitchen | Carte
    • Opciones avanzadas ejecución de Transformations o Jobs por líneas de comandos
      • Parámetros
      • Argumentos
      • Registro Log
  • Scheduling:
    • Descripción, ejemplificación y uso de Calendarización de ejecución de Transformations y Jobs
    • Calendarización utilizando Cron
    • Calendarización utilizando Task Scheduler
  • Marketplace:
    • Descripción y características del Marketplace de PDI
    • Instalación de plugins: Weka, DataCleaner
  • Transformations como Datasource:
    • Utilización de Transformation como Datasource para Dashboards (CDE)
    • Utilización de Transformation como Datasource para Reporting (PRD)
  • Bonus Track: Delivery PRD
    • Descripción y características de Pentaho Report Designer (PRD)
    • Configuración y ejecución de reportes PRD en Transformation PDI
    • Práctico: creación de una Transformation que realice las siguientes tareas: exportar reporte en formato pdf utilizando Parámetros, JS, RegEx y Variables de Entorno; envío de reporte como archivo adjunto en un e-mail
  • Lista de Steps de Transformation descritos y utilizados:
    • Transform | Split Fields
    • Transform | Value Mapper
    • Transform | Number range
    • Transform | Add value fields changing sequence
    • Transform | String operations
    • Transform | Row flattener
    • Transform | Row Normaliser
    • Transform | Add constants
    • Transform | Calculator
    • Transform | Sort rows
    • Transform | Concat Fields
    • Transform | Add sequence
    • Transform | Select values
    • Transform | Replace in string
    • Transform | Split Fields
    • Transform | Value Mapper
    • Transform | Number range
    • Transform | Add value fields changing sequence
    • Transform | String operations
    • Transform | Row flattener
    • Transform | Row Normaliser
    • Flow | Append streams
    • Flow | Switch / Case
    • Flow | Filter rows
    • Flow | Java Filter
    • Flow | Dummy
    • Flow | Append streams
    • Flow | Switch / Case
    • Joins | Join Rows
    • Job | Copy rows to result
    • Job | Get rows from result
    • Job | Set files in result
    • Job | Get files from result
    • Job | Set Variables
    • Job | Get Variables
    • Utility | Write to log
    • Utility | Mail
    • Utility | Mail validator
    • Utility | If field value is null
    • Input | Email messages input
    • Input | Table input
    • Input | Generate Rows
    • Input | Generate random value
    • Input | Data Grid
    • Input | CSV file input
    • Input | Fixed file input
    • Input | Get System Info
    • Input | GZIP CSV Input
    • Input | Get File Names
    • Lookup | Table exists
    • Lookup | Web Services Lookup
    • Lookup | File exists
    • Lookup | HTTP Client
    • Lookup | Stream lookup
    • Lookup | Database lookup
    • Lookup | Database join
    • Validation | Data Validator
    • Output | Table output
    • Output | Update
    • Output | Insert / Update
    • Output | Delete
    • Output | Synchronize after merge
    • Output | Pentaho Reporting Output
    • Output | Text file output
    • Output | Microsoft Excel Output
    • Data Warehouse | Combination lookup/update
    • Data Warehouse | Dimension lookup/update
    • Scripting | Execute SQL script
    • Scripting | Execute row SQL script
    • Scripting | Formula
    • Scripting | Modified Java Script Value
  • Lista de Steps de Job descritos y utilizados:
    • General | START
    • General | Transformation
    • General | Success
    • General | Job
    • Conditions | File Exists
    • Conditions | Checks if files exist
    • Conditions | Check Db connections
    • Conditions | Table exists
    • Conditions | Check webservice avaliability
    • Conditions | Simple evaluation
    • Conditions | Columns exist in a table
    • Utility | Abort job
    • File management | Add filenames to result
    • Mail | Mail validator
    • Mail | Mail
    • Scripting | SQL

Contacto: Dario Bernabeu

dario bernabeu, avatar

Mi nombre es Dario Bernabeu y estaré personalmente a cargo de responder preguntas y guiar el proceso educativo.

Ing. en Sistemas, Docente, Investigador, Geek, Entusiasta del BI y del Software Libre.

Especializado en el desarrollo e implementación de soluciones OSBI (Open Source Business Intelligence), Librerías Gráficas, Bases de Datos y Tecnologías Web.

Coautor del artículo BI Usability en Novatica (pág 17).

Si te ha interesado alguno de los Cursos y quieres que te informe acerca de los Precios y Promociones, no dudes en consultarme:

darioSistemas@gmail.com

+59892734114 (Whatsapp/Telegram)