Cloudera Impala – die Lösung für Echtzeitabfragen

1
Die wichtigsten zehn Big Data-Technologien

Daten in Echtzeit abfragen? Kein Problem mit Impala.

Ursprünglich Batch-orientiert, verleihen Erweiterungen wie die Query Engine „Cloudera Impala“ Hadoop das Prädikat „enterprise ready“. Hadoop-Distributionen werden damit in vielen Unternehmen zum de-Facto-Standard für Big Data-Anwendungen. Dieser Artikel beleuchtet die Vorteile von Impala.

SQL-Abfragen auf verteilten Clustern
Impala ist ein skalierbares und verteiltes Datenabfragetool für Hadoop, mit dem Low Latency-Abfragen von Daten aus dem Hadoop Distributed File System (HDFS) und HBase durchgeführt werden können. Weil für die in SQL formulierten Abfragen keine Daten bewegt oder umgewandelt werden müssen, verspricht Impala schneller zu sein, als Hive oder MapReduce. Dazu erzeugt Impala ein flexibles Datenmodell, das effizienter mit komplexen Daten und unterschiedlichen Datentypen  umgeht als klassische Data Warehouses,  die auf relationalen Datenbank-Management-Systemen (RDBMS) aufsetzen.

Impala ist in das Hadoop-Ökosystem integriert und nutzt dabei die gleichen flexiblen Datei- und Datenformate, Metadaten, Sicherheits- und Ressourcenmanagement-Frameworks wie Hive oder MapReduce. Impala erweitert das traditionell Batch-orientierte Processing von Hadoop aber um analytische Funktionen für die Echtzeitverarbeitung großer Datenmengen, beispielsweise von Streaming-Diensten oder Real-Time-Analytics. Für Anwender die SQL beherrschen, stellt Impala zudem ein effektives Entwicklungsmodell dar, da nicht jedes Mal ein neues Java-Programm geschrieben werden  muss, wenn neue Arten von Analysen durchgeführt werden.

Vorteile von Impala:

  • Eigenständiges System zur Big Data-Verarbeitung und -Analyse, zusätzliche Kosten für ETL entfallen
  • Optimaler Durchsatz, da alle Platten an allen Nodes optimal ausgelastet werden
  • Daten müssen nicht importiert bzw. exportiert werden, da sie direkt mit Hive oder Pig gelesen werden
  • Die Low Latency-Verarbeitung verursacht nur eine niedrige CPU-Belastung

Echtzeitfähige Datenverarbeitung
Die mit Map Reduce auftretenden Geschwindigkeitsbeschränkungen bei der Batch-Verarbeitung können durch Impala aufgehoben werden. Für die in SQL formulierten Fragen entwirft Impala einen verteilt arbeitenden Abfrageprozess und arbeitet ihn direkt in den Datenknoten der jeweiligen Hadoop-Cluster ab. Weil Impala horizontal skaliert, steigt die Geschwindigkeit der Datenverarbeitung in einer Größenordnung, die Big Data-Projekte überhaupt erst ermöglicht. Die Verwendung von Standard-Hardware sorgt zudem dafür, dass die anfallenden Hardwarekosten überschaubar bleiben.

Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:

Tags: , , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut und in Richtung Big Data weiterentwickelt hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING

Ein Gedanke zu „Cloudera Impala – die Lösung für Echtzeitabfragen

  1. Pingback: Big Data-Technologien: Splunk – Big Data vereinfachen

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.