Skip to main content

Data Integration Fundamentals

Pentaho Kurs-ID:DI1000
Dauer:3 Tage

Kursbeschreibung

Mit kontinuierlich wachsenden Datenmengen brauchen Unternehmen schnelle und einfache Möglichkeiten, um ihre Daten nutzen und Einblicke gewinnen zu können. Die größte Herausforderung ist es, eine konsistente, einheitliche Version von Informationen über alle Quellen in einem analysetauglichen Format zur Verfügung zu haben. Mit Pentaho Data Integration lassen sich leistungsstarke (ETL-) Ressourcen extrahieren, transformieren und laden sowie eine intuitive und professionelle, grafische Entwicklungsumgebung und eine offene und auf Standards basierende Architektur erstellen.

Pentaho Data Integration bietet eine umfassende ETL-Lösung:

  • Leistungsfähiger grafischer Prozessdesigner für ETL-Entwickler
  • Fast unbegrenzte Schnittstellen für die Integration jeder Art von Daten, einschließlich vielfältiger und großer Datenmengen
  • Hohe Skalierbarkeit und Leistung, einschließlich In-Memory-Caching
  • Big Data-Integration, Analyse und Berichterstattung (via Hadoop, NoSQL, traditionellen OLTP oder analytischer Datenbanken)
  • Moderne, offene und auf Standards basierende Architektur

Die nächsten Pentaho Trainingsstermine

Der Kurs umfasst sowohl Präsentationen als auch praktische Übungen, die Theorie, Best Practices und Design-Patterns umfassen.

Lernziele

Nach Abschluss dieses Kurses sind Sie in der Lage:

  • Pentaho Data Integration zu installieren
  • Grundlegende Transformationen mit Steps und Hops zu erstellen und auszuführen
  • Abbildungsergebnisse auf Metrics- und Log-Ansicht darzustellen
  • Datenbankverbindungen zu erstellen und Mithilfe des Database Explorers die Datenquelle zu nutzen
  • Durch die Konfiguration nachfolgender Schritte können komplexe Transformationen erzeugt werden: Table input, Table output, CSV file input, Insert/Update, Kontstanten hinzufügen, Filter, Value Mapper, Stream lookup, Zellen hinzufügen, Zellen verbinden, Zellen sortieren, Row normalizer, JavaScript, Dimension lookup/update, Database lookup, Daten aus XML herausnehmen, Umgebungsvariablen und analytischer Abfragen setzen
  • Transformationen zu erstellen, die parametriesierte Werte verwenden
  • die Struktur einer Online-Transaktion-Prozess-Datenbank auf die Struktur einer Online-Analyse-Prozess-Datenbank zu mappen
  • Daten zu laden und diese in verschiedene Datenbanken zu schreiben
  • ETL-Mustervorlagen zu benutzen, um ein Data Warehouse zu füllen
  • Abbildungen zu erstellen, die langsam verändernde Dimensionen bearbeiten
  • Pentaho Data Integration Jobs zu erstellen die: mehrere Abbildungen aufzeigen, Variablen benutzen, Sub-Jobs enthalten, integrierte Fehlermeldungen bieten, mehrere Textdateien laden und bearbeiten, Dateien ins Microsoft Excel-Format konvertieren
  • Protokollierungen für Transformationsschritte und für Jobeinträge zu konfigurieren und protokollierte Daten zu überprüfen
  • Die Fehlerbehebung der Transformationsschritte zu konfigurieren
  • Das Pentaho Enterprise Repository zu konfigurieren, einschließlich der grundlegenden Sicherheit
  • Das Repository zu verwenden um: Ordner zu erstellen, Transformationen und Jobs zu speichern, sperren, löschen überarbeiten sowie Artefakte wiederherzustellen
  • Ausführungen einer Transformation in Pentaho Data Integration und diese in der Pentaho Enterprise Console zu planen und zu überwachen
  • Index mit einer Transformation zu erstellen und zu löschen
  • Transformationen zu erstellen, die Schritte konfigurieren, um in einem Cluster ausgeführt zu werden, Transformation im Cluster ausführen, die Ergebnisse prüfen und die Transformation zu überwachen

Zielgruppe

Dieser Kurs ist der 3. Kurs im Bereich der Daten Analyse. Er richtet sich an Teilnehmer, die sich bereits mit der Entwicklung oder Administration von Datenbanken beschäftigt haben oder die sich neu mit Pentaho Data Integration beschäftigen möchten.

Die nächsten Pentaho Schulungstermine

Voraussetzungen

  • Windows XP, Vista, 7 Desktop-Betriebssystem
  • RAM: mindestens 4 GB
  • Festplattenspeicher: mindestens 2 GB freier Festplattenspeicher (für Software und natürlich Dateien)
  • Prozessor: Dual-Core-AMD64 oder Intel EM64T
  • DVD-Laufwerk

Kursablauf

Tag 1
Modul 1                           Einführung in Pentaho Data Integration
Lektion                            Ziele
Lektion                            Was ist Pentaho Data Integration (PDI)?
Modul 2                           Grundlagen Transformation
Lektion                            Kennenlernen des PDI User Interfaces
Lektion                            Erstellung von Transformation
Übung                              Generierung von Rows, Sequences und Select Values
Lektion                            Error Handling & Einführung ins Logging
Lektion                            Einführung in Repositories
Modul 3                           Datein lesen und schreiben
Lektion                            Input und Output Steps
Lektion                            Parameters & Kettle.properties
Übung                              CSV Input zu Multiple Outputs mit Hilfe von Switch/Case
Übung                              Erstellung einer serialisierbaren Datei aus mehreren Dateien
Übung                              Deserializere Datein
Tag 2
Modul 4                           Arbeiten mit Datenbanken
Lektion                            Verbinden und Erkunden von Datenbanken
Lektion                            Tabellen In- und Output
Übung                              Lesen und Schreiben von Datenbanktabellen
Lektion                            Schritte über einfügen, updaten und löschen
Lektion                            Cleansing Data
Lektion                            Using Parameters & Arguments in SQL Queries
Übung                              Input mit Parametern / Table Wizard
Modul 5                           Data Flows und Lookups
Lektion                            Copying und Distributing Data
Übung                              Working mit Parallel Processing
Lektion                            Lookups
Übung                              Lookups & Datenformattierung
Lektion                            Merging Data
Tag 3
Modul 6                           Calculations
Lektion                            Nutzung des "Group By"-Schrittes
Lektion                            Calculator
Übung                              Sortieren, Groupieren und Berechnen von Bestellmengen
Lektion                            Regular Expression
Lektion                            User Defined Java Expression
Lektion                            JavaScript
Modul 7                           Jobs Orchestration
Lektion                            Einführung zu Jobs
Übung                              Loading JVM-Data in eine Tabelle
Lektion                            Senden von Alerts
Lektion                            Looping & Conditions
Übung                              Erstellung eines Jobs mit Loop
Lektion                            Executing Jobs von einem Terminal-Window (Kitchen)
Modul 8                           Scheduling
Lektion                            Erstellung eines Schedulers
Lektion                            Überwachung von Scheduled Tasks
Modul 9                           Exploring Data Integration Repositories
Lektion                            Die Pentaho Data Integration Repository
Übung                              Benutzung der Pentaho Enterprise Repository
Modul 10                         Detailed Logging
Lektion                            Detailed Logging

Die nächsten Pentaho Schulungstermine