Skip to main content

Data Lake

Leistungsoptimiert für Big Data-Analysen

Das vom Pentaho-Gründer James Dixon entwickelte Data Lake-Konzept ist für die Ausführung großer Analysesysteme ausgelegt. Die Technologie ist zum Abfragen und Untersuchen von Daten im Petabytebereich vorgesehen, die einen hohen Verarbeitungsdurchsatz erfordern. Im Data Lake-Speicher abgelegte Daten können anschließend problemlos mit Hadoop-Technologien wie MapReduce, Spark, Tez oder Hive analysiert werden.

Die Definition von Data Lake schreibt keine bestimmte Speichertechnologie vor, sondern nur Anforderungen. Während Data Lakes in der Regel gleichbedeutend mit Hadoop diskutiert werden  - – welches eine hervorragende Wahl für viele Data Lake Aufgabenstellungen ist –  kann ein Data Lake tatsächlich auf verschiedenen Technologien wie NoSQL (HBase, MongoDB), Object Stores (Amazon S3) oder RDBMS beruhen.

Ein wesentlicher Vorteil von Data Lake-Speichern ist, dass sie beliebige Daten ohne vorherige Umwandlung im systemeigenen Format speichern können. Konkret bedeutet dies, dass es nicht notwendig ist, vor dem Laden der Daten ein Schema zu definieren. Die Definition eines Schemas erfolgt direkt zum Zeitpunkt der Analyse durch die Interpretation der Daten. Damit wird das Schema - im Gegensatz zum traditionellen Data Warehouse Ansatz - erst beim eigentlichen Lesen der Daten gebildet (Schema on Read). Das erlaubt eine hohe Flexibilität der Analysen und eine starke Vereinfachung des Data Ingest.

Data Lake - Maximieren Sie den Wert Ihrer Daten

Sie haben bereits einen Hadoop-Cluster eingerichtet, verbringen aber zu viel Zeit mit der Beladung des Data Lake?

In diesem Webinar-Video zeigen wir Ihnen, wie Sie Ihre Daten integrieren – automatisiert und kostengünstig.

Beim Beladen von Hadoop müssen normalerweise viele verschiedene Datenformate und -quellen integriert werden. Automatisierte Verarbeitungsprozesse sind deshalb wichtig, damit das Befüllen effizient, zeit- und ressourcenschonend erfolgen kann.

Die BI-und Big Data-Experten von it-novum, Stefan Müller und Philipp Heck (Data Lake Einführung von Prof. Peter Gluchowski, Vorstandsmitglied TDWI Germany e.V.), stellen im Video vor, wie Sie Ihren Data Lake dank Pentaho mit wenigen Klicks befüllen. Ein einmalig angelegtes Template wählt über Metadaten die richtigen Schritte für das jeweilige Datenformat aus und lädt die Daten automatisiert in Hadoop.

Das Beladen läuft dadurch integriert ab: Metadaten lassen sich im laufenden Betrieb in den Workflow einspeisen und hunderte von Datenquellen mit einem einzigen Template verwalten.
Einfacher geht Big Data nicht!

Lernen Sie im Webinar, wie Sie dreifach von der automatisierten Data Lake-Befüllung profitieren:

  • der Entwicklungsprozess verkürzt sich drastisch
  • die Datenprozesse sind einfacher zu verwalten
  • Sie können Daten schneller Ihren Anwendern zur Verfügung stellen

Den Data Lake einfach befüllen – die Vorteile von Pentaho

  • Umfassend. Im “Metadata Injection”-Prozess können im laufenden Betrieb Metadaten in den Workflow eingespeist werden. Dadurch lassen sich hunderte von Datenquellen mit einem einzigen generischen Workflow Template verwalten. Der Daten-Upload läuft tief integriert ab.
  • Zeitersparnis. Pentaho erfasst Daten aus tausenden unterschiedlichen Dateienquellen oder Datenbanken in einem Prozess, anstatt in tausend einzelnen.
  • Arbeitserleichterung. Nur ein ETL-Template für den gesamten Datenfluss wird definiert, ohne dass die Metadaten aufwändig spezifiziert werden müssen.
  • Geringere Entwicklungskosten. Die Abhängigkeit von hart codierten Datenerhebungsverfahren wird stark reduziert. Die reguläre Datenübertragung in Hadoop läuft vereinfacht ab.

Ihr Vorteil

Der Data Lake-Speicher bewältigt eine hohe Zahl von Schreibvorgängen mit geringen Datenmengen bei niedriger Latenz. Daher eignet sich diese Lösung ideal für Szenarien, in denen Daten nahezu in Echtzeit und zu möglichst geringen Kosten verarbeitet werden müssen – z. B. bei Analysen von Websites und über das Internet of Things verbundene Geräte und Sensoren. NoSQL-Datenbanken wie spaltenbasierte und Schlüssel-Wert-Speicher können ebenfalls in Data Lakes integriert werden.

it-novum GmbH Deutschland

Hauptsitz: Edelzeller Straße 44, 36043 Fulda

Niederlassung: Siemensdamm 50, 13629 Berlin

Niederlassung: Ruhrallee 9, 44139 Dortmund

 

info@it-novum.com

+49 661 103 - 322

+49 661 103 - 597

Heap | Mobile and Web Analytics

it-novum Niederlassung Österreich

Office Park 1 / Top B02

1300 Wien-Flughafen

 

 

info@it-novum.at

+43 1 227 87 - 139

+43 1 227 87 - 200