Pentaho Kurs-ID: | DI2000 |
Dauer: | 2 Tage |
Kursbeschreibung
Dieser Kurs stellt Ihnen verschiedene Big-Data-Konzepte mit dem Hadoop-Framework und Pentaho-Produkten vor. In Pentaho Data Integration Fundamentals erfahren Sie, wie Pentaho mit den folgenden Hadoop Framework-Technologien arbeitet:
- HDFS
- Sqoop
- Pig
- Oozie
- MapReduce
- YARN
- Hive
- Impala
- HBase
- Flume
- Spark
Dieser Kurs konzentriert sich stark auf eine praktische Anwendung der in jedem Abschnitt behandelten Themen.
Lernziele
Nach Abschluss dieses Kurses sind Sie in der Lage:
Hadoop-Technologien aus der nativen Befehlszeile und mit Pentaho Data Integration zu verwenden.
Zielgruppe
Dieser Kurs richtet sich an erfahrene Benutzer von Pentaho Data Integration, die lernen möchten, wie PDI mit einer Vielzahl von Hadoop Framework-Technologien arbeitet. Der Inhalt dieses Kurses ist fortgeschritten und sehr technisch.
Voraussetzungen
- Windows Desktop-Betriebssystem
- RAM: mindestens 4 GB
- Festplattenspeicher: mindestens 2 GB freier Festplattenspeicher (für Software und natürlich Dateien)
- Prozessor: Dual-Core-AMD64 oder Intel EM64T
- DVD-Laufwerk
Kursablauf
Tag 1 |
---|
Modul 1 Kursagenda und -struktur |
Modul 2 Einführung in Pentaho und Big Data |
Übung Verwenden der virtuellen Übungsumgebung |
Modul 3 Big Data Lösungsarchitekturen |
Lektion Batch Processing Architektur |
Lektion Echtzeit- und Stream-Processing-Architektur |
Lektion Gemischte Batch- und Echtzeit-Architektur |
Modul 4 Hadoop und HDFS |
Lektion Grundlagen von HDFS |
Lektion Arbeiten mit HDFS in PDI |
Übung Lesen und Schreiben von Daten mit PDI und HDFS |
Lektion Best Practices für HDFS und PDI |
Modul 5 Hadoop Data Ingestion Tools |
Lektion Apache Flume |
Lektion Apache Sqoop |
Lektion Best Practices für die Ingestion |
Modul 6 Datenverarbeitung in Hadoop mit Map Reduce |
Lektion Verstehen von Hadoop MapReduce |
Lektion MapReduce mit Pentaho-Datenintegration |
Übung Verwenden von Pentaho MapReduce |
Lektion Best Practices mit MapReduce |
Modul 7 Datenverarbeitung in Hadoop mit Carte/YARN |
Lektion YARN Architektur |
Lektion MapReduce2 auf YARN |
Lektion PDI/Carte auf YARN |
Tag 2 |
---|
Modul 8 Datenverarbeitung mit Pig |
Lektion Grundlagen von Pig |
Lektion Pig bei der Datenintegration einsetzen |
Modul 9 Job-Orchestrierung mit PDI und Oozie |
Lektion Oozie Basics |
Lektion Oozie mit PDI |
Modul 10 Überblick über SQL auf Hadoop - Best Practices |
Lektion Hive Grundlagen |
Lektion Impala Grundlagen |
Lektion Verwendung von Hive / Impala mit PDI |
Übung Arbeiten mit Hive und Impala |
Lektion Best Practices mit Hive |
Modul 11 Übersicht über HBase |
Lektion HBase Grundlagen |
Lektion HBase mit PDI |
Lektion Verwenden von HBase mit PDI MapReduce |
Übung Arbeiten mit HBase |
Lektion Best Practices mit HBase und PDI |
Modul 12 Übersicht Spark |
Lektion Spark Grundlagen |
Lektion Spark SQL |
Lektion Spark Streams |
Lektion Spark MLlib und SparkR |
Lektion Spark GraphX |
Lektion Spark mit PDI |
Modul 13 Big Data Reporting |
Lektion Pentaho Report Designer mit Hadoop |
Lektion Analyzer mit Hadoop |
Modul 14 (Optional) PDI mit Amazon Hadoop |