Skip to main content

Data Integration Fundamentals

Pentaho Kurs-ID:DI1000
Dauer:3 Tage

Kursbeschreibung

Mit kontinuierlich wachsenden Datenmengen brauchen Unternehmen schnelle und einfache Möglichkeiten, um ihre Daten nutzen und Einblicke gewinnen zu können. Die größte Herausforderung ist es, eine konsistente, einheitliche Version von Informationen über alle Quellen in einem analysetauglichen Format zur Verfügung zu haben. Mit Pentaho Data Integration lassen sich leistungsstarke (ETL-) Ressourcen extrahieren, transformieren und laden sowie eine intuitive und professionelle, grafische Entwicklungsumgebung und eine offene und auf Standards basierende Architektur erstellen.

Pentaho Data Integration bietet eine umfassende ETL-Lösung:

  • Leistungsfähiger grafischer Prozessdesigner für ETL-Entwickler
  • Fast unbegrenzte Schnittstellen für die Integration jeder Art von Daten, einschließlich vielfältiger und großer Datenmengen
  • Hohe Skalierbarkeit und Leistung, einschließlich In-Memory-Caching
  • Big Data-Integration, Analyse und Berichterstattung (via Hadoop, NoSQL, traditionellen OLTP oder analytischer Datenbanken)
  • Moderne, offene und auf Standards basierende Architektur

Der Kurs umfasst sowohl Präsentationen als auch praktische Übungen, die Theorie, Best Practices und Design-Patterns umfassen.

Lernziele

Nach Abschluss dieses Kurses sind Sie in der Lage:

  • Pentaho Data Integration zu installieren
  • Grundlegende Transformationen mit Steps und Hops zu erstellen und auszuführen
  • Abbildungsergebnisse auf Metrics- und Log-Ansicht darzustellen
  • Datenbankverbindungen zu erstellen und Mithilfe des Database Explorers die Datenquelle zu nutzen
  • Durch die Konfiguration nachfolgender Schritte können komplexe Transformationen erzeugt werden: Table input, Table output, CSV file input, Insert/Update, Kontstanten hinzufügen, Filter, Value Mapper, Stream lookup, Zellen hinzufügen, Zellen verbinden, Zellen sortieren, Row normalizer, JavaScript, Dimension lookup/update, Database lookup, Daten aus XML herausnehmen, Umgebungsvariablen und analytischer Abfragen setzen
  • Transformationen zu erstellen, die parametriesierte Werte verwenden
  • die Struktur einer Online-Transaktion-Prozess-Datenbank auf die Struktur einer Online-Analyse-Prozess-Datenbank zu mappen
  • Daten zu laden und diese in verschiedene Datenbanken zu schreiben
  • ETL-Mustervorlagen zu benutzen, um ein Data Warehouse zu füllen
  • Abbildungen zu erstellen, die langsam verändernde Dimensionen bearbeiten
  • Pentaho Data Integration Jobs zu erstellen die: mehrere Abbildungen aufzeigen, Variablen benutzen, Sub-Jobs enthalten, integrierte Fehlermeldungen bieten, mehrere Textdateien laden und bearbeiten, Dateien ins Microsoft Excel-Format konvertieren
  • Protokollierungen für Transformationsschritte und für Jobeinträge zu konfigurieren und protokollierte Daten zu überprüfen
  • Die Fehlerbehebung der Transformationsschritte zu konfigurieren
  • Das Pentaho Enterprise Repository zu konfigurieren, einschließlich der grundlegenden Sicherheit
  • Das Repository zu verwenden um: Ordner zu erstellen, Transformationen und Jobs zu speichern, sperren, löschen überarbeiten sowie Artefakte wiederherzustellen
  • Ausführungen einer Transformation in Pentaho Data Integration und diese in der Pentaho Enterprise Console zu planen und zu überwachen
  • Index mit einer Transformation zu erstellen und zu löschen
  • Transformationen zu erstellen, die Schritte konfigurieren, um in einem Cluster ausgeführt zu werden, Transformation im Cluster ausführen, die Ergebnisse prüfen und die Transformation zu überwachen

Zielgruppe

Dieser Kurs ist der 3. Kurs im Bereich der Daten Analyse. Er richtet sich an Teilnehmer, die sich bereits mit der Entwicklung oder Administration von Datenbanken beschäftigt haben oder die sich neu mit Pentaho Data Integration beschäftigen möchten.

Voraussetzungen

  • Windows XP, Vista, 7 Desktop-Betriebssystem
  • RAM: mindestens 4 GB
  • Festplattenspeicher: mindestens 2 GB freier Festplattenspeicher (für Software und natürlich Dateien)
  • Prozessor: Dual-Core-AMD64 oder Intel EM64T
  • DVD-Laufwerk

Kursablauf

Tag 1
ModulEinführung in Pentaho Data Integration
LektionZiele
LektionWas ist Pentaho Data Integration (PDI)?
ModulGrundlagen Transformation
LektionKennenlernen des PDI User Interfaces
LektionErstellung von Transformation
ÜbungGenerierung von Rows, Sequences und Select Values
LektionError Handling & Einführung ins Logging
LektionEinführung in Repositories
ModulDatein lesen und schreiben
LektionInput und Output Steps
LektionParameters & Kettle.properties
ÜbungCSV Input zu Multiple Outputs mit Hilfe von Switch/Case
ÜbungErstellung einer serialisierbaren Datei aus mehreren Dateien
ÜbungDeserializere Datein
Tag 2
ModulArbeiten mit Datenbanken
LektionVerbinden und Erkunden von Datenbanken
LektionTabellen In- und Output
ÜbungLesen und Schreiben von Datenbanktabellen
LektionSchritte über einfügen, updaten und löschen
LektionCleansing Data
LektionUsing Parameters & Arguments in SQL Queries
ÜbungInput mit Parametern / Table Wizard
ModulData Flows und Lookups
LektionCopying und Distributing Data
ÜbungWorking mit Parallel Processing
LektionLookups
ÜbungLookups & Datenformattierung
LektionMerging Data
Tag 3
ModulCalculations
LektionNutzung des "Group By"-Schrittes
LektionCalculator
ÜbungSortieren, Groupieren und Berechnen von Bestellmengen
LektionRegular Expression
LektionUser Defined Java Expression
LektionJavaScript
ModulJobs Orchestration
LektionEinführung zu Jobs
ÜbungLoading JVM-Data in eine Tabelle
LektionSenden von Alerts
LektionLooping & Conditions
ÜbungErstellung eines Jobs mit Loop
LektionExecuting Jobs von einem Terminal-Window (Kitchen)
ModulScheduling
LektionErstellung eines Schedulers
LektionÜberwachung von Scheduled Tasks
ModulExploring Data Integration Repositories
LektionDie Pentaho Data Integration Repository
ÜbungBenutzung der Pentaho Enterprise Repository
ModulDetailed Logging
LektionDetailed Logging

Zurück

it-novum GmbH Deutschland

Hauptsitz: Edelzeller Straße 44, 36043 Fulda

Niederlassung: Siemensdamm 50, 13629 Berlin

Niederlassung: Ruhrallee 9, 44139 Dortmund

 

info@it-novum.com

+49 661 103 - 322

+49 661 103 - 597

it-novum Niederlassung Österreich

Office Park 7 / Top B02

1300 Wien-Flughafen

 

 

info@it-novum.at

+43 1 227 87 - 139

+43 1 227 87 - 200