Machine Learning Framework richtig ausgewählt Die ultimative Entscheidungshilfe für Data Scientists

0
17.09.2018ǀ ǀ Big Data
Infografik Machine Learning Frameworks

Infografik Machine Learning Frameworks

Wer mit einem Machine Learning-Projekt beginnen möchte, ist gut beraten, sich erstmal gründlich umzuschauen. Denn nicht alle Machine Learning Frameworks eignen sich für jedes Projekt gleich gut. Die Infografik „Matrix zu Machine Learning Frameworks“ ist genau dafür entwickelt. Sie soll eine Hilfestellung bei der Evaluierung des richtigen Frameworks sein. Dr. David James, Data Scientist bei it-novum, erläutert die Hintergründe der Matrix.

David, du bist Autor der Machine Learning Framework Entscheidungsmatrix. Was ist dein wissenschaftlicher Hintergrund?
Bevor ich zur it-novum kam, habe ich an der Universität Göttingen am Institut für Angewandte Mathematik geforscht und an verschiedenen Data Science-Projekten mitgewirkt. Meine Schwerpunkte lagen vor allem im den Bereichen Datenanalyse, Machine Learning und Signal- und Bildverarbeitung. So habe ich zum Beispiel Machine Learning-Algorithmen im Bereich Bioinformatik untersucht und bildgebende Algorithmen für große Datenmengen in der zerstörungsfreien Materialprüfung entwickelt.

Was war deine Motivation, verschiedene ML-Frameworks zu untersuchen?
Als Data Scientist bei der it-novum betreue ich Machine Learning-Projekte bei Kunden in verschiedenen Branchen. Viele Kunden kommen mit Use Cases zu uns, an denen sie sich selbst versucht haben, aber an irgendeinem Punkt nicht mehr weiter kamen.

Ein gemeinsamer Nenner vieler gescheiterter Projekte ist die Auswahl des falschen Frameworks. Ein Beispiel: im Moment haben wir viele Anfragen zu TensoFlow und Deep Learning im Allgemeinen, weil sich jeder in irgendeiner Weise mit KI beschäftigen will. Während Deep Learning perfekt für die Untersuchung komplexer Daten wie Bild- und Audiodaten geeignet ist, wird es aber zunehmend auch für Use Cases benutzt, für die andere Frameworks besser geeignet sind.

Aus diesen Erfahrungen heraus ist die Matrix entstanden. Sie soll bei der Auswahl des passenden Frameworks für Machine Learning Use Cases helfen.

Wie bist du bei deinen Forschungen vorgegangen? Worauf beruhen deine Entscheidungskriterien?
Die meisten Probleme, die in der Praxis auftreten, lassen sich in zwei Kategorien unterteilen: Entweder werden Algorithmen benutzt, die für den Use Case nicht oder kaum geeignet sind oder das gewählte Framework kann die aufkommenden Datenmengen nicht bewältigen. Um mich dem ersten Problem zu nähern, habe ich daher versucht, die verbreitetsten Machine Learning Use Cases in sinnvolle Kategorien zu unterteilen, für die eine ähnliche Auswahl von Algorithmen und Verfahren zielführend ist.

Bei der Auswahl der Frameworks habe ich mich dann auf die verbreitetsten Frameworks beschränkt. Auf Basis unserer Praxisexpertise und Recherchen habe ich bewertet, wie geeignet jedes dieser Frameworks für die einzelnen Use Cases ist. In diesem Zusammenhang habe ich Frameworks mit gleichen Eignungen gruppiert.

Eine Unterteilung der Frameworks in small data, big data und complex data ist zwar plakativ, soll aber bei der Auswahl der Frameworks nach Art und Volumen der Daten helfen. Die Grenze zwischen big data zu small data ist dabei dort zu ziehen, wo die Datenmengen so groß sind, dass sie nicht mehr auf einem einzelnen Computer, sondern in einem verteilten Cluster ausgewertet werden müssen. Wenn ich von complex data spreche, meine ich vor allem unstrukturierte Daten wie Bild- und Audiodateien, bei denen Deep Learning Frameworks bestens geeignet sind.

Warum hast du eine grafische Matrix erstellt und keine schriftliche Studie?
Mit der Matrix wollte ich eine schnell erfassbare Orientierungshilfe bei der Auswahl eines geeigneten Machine Learning Frameworks für unterschiedliche Use Cases liefern. Sie ist das visuelle Konzentrat unserer Praxiserfahrungen und Forschungen. Mit ihr kann man auf einem Blick erkennen, welches Framework für einen geplanten Use Case am besten geeignet ist, ohne sich durch viele Seiten Papier kämpfen zu müssen.

Download der Infografik Machine Learning Frameworks.

Wie finden Sie die Matrix? Schreiben Sie mir an david.james@it-novum.com, ich freue mich auf Ihre Anregungen und Verbesserungsvorschläge!

Diese Artikel könnten Sie auch interessieren:

Tags: , ,

Stefan Müller - Director Big Data Analytics
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Big Data Analytics aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING