BigData Tech Series: Content-Based Filtering und Collaborative Filtering

0

Big-Data-Tech-Series-Teil-3Empfehlungssysteme begegnen uns ständig im Alltag. Das prominenteste Beispiel ist sicherlich Amazon mit seinen Vorschlägen im Bereich „Kunden, die diesen Artikel gekauft haben, kauften auch…“. Dieser Empfehlungstechnik liegt das sogenannte Content-Based Filtering zugrunde.

Content-Based Filtering
Content-Based Filtering und die ebenfalls häufig eingesetzte Technik Collaborative Filtering sind aus dem Ecommerce nicht mehr wegzudenken. Beim Content-Based Filtering wird die inhaltliche Ähnlichkeit verschiedener Objekte bewertet. Ein Objekt wird dabei als Zusammensetzung verschiedener Eigenschaften verstanden. Wählen wir ein Beispiel aus dem Filmbereich: Bei Filmen orientiert man sich üblicherweise an den Eigenschaften Genre, Erscheinungsjahr, Regisseur, Darsteller, Dauer, Produktionsland, Produktionsunternehmen etc. Möchte nun ein Online-Shop einem Kunden einen Film empfehlen, kann er auf die Informationen zurückgreifen, welche Filme er bereits besitzt, bewertet oder sich angesehen hat. Mit Hilfe dieser Informationen sucht er nach einem Film mit denselben (exact match) oder ähnlichen (best match) Eigenschaften.

Schaue ich bereits die Fernsehserie Arrow regelmäßig, ist es wahrscheinlicher, dass ich als nächstes die Serie The Flash beginnen werde als Breaking Bad. Die Fernsehserie The Simpsons hat mit dem Vergleichstitel gar nur noch das Produktionsland gemein und wird daher für Vorschläge nicht ausgewählt.

Profileigenschaften als zusätzliche Datenquelle
Die Auswahl kann individueller auf den Kunden zugeschnitten werden, wenn beispielsweise in seinem Profil Eigenschaften hinterlegt sind, die ihm wichtig sind. Dadurch hat man die Möglichkeit, diese stärker zu gewichten. Um zu ermitteln, wie ähnlich sich zwei Objekte sind, muss man sinnvolle Eigenschaften aus diesen ableiten können.

Content-Based Filtering weist eine Schwäche auf: Herangezogen werden nur die Daten des jeweiligen Kunden. Ihm können also nur Fernsehserien auf Basis bereits gesehener Sendungen empfohlen werden. Wie findet man aber heraus, ob der Kunden nicht auch an dem der Serie zugrunde liegenden Comic oder Merchandising-Material interessiert ist? Dazu kommt die Technik des Collaborative Filtering zum Zuge.

Collaborative Filtering
Bei Collaborative Filtering wird geschaut, was andere Kunden schon gekauft oder angesehen haben. Die Kunden arbeiten also zusammen, auch wenn das unbemerkt vonstatten geht. Collaborative Filtering vergleicht nicht mehr die Produkte und deren Eigenschaften miteinander, sondern die Ähnlichkeit von Kunden. Eine einfache Form des Collaborative Filtering ist das sogenannte Memory-Based-Filtering, bei dem die n ähnlichsten Kunden ermittelt werden. Man greift dazu häufig auf die Produktbewertungen zu und fasst diese in einem Vektor zusammen. Anschließend kann über das Kosinus-Ähnlichkeitsmaß die Ähnlichkeit zweier Vektoren verglichen werden, indem der Kosinus des eingeschlossenen Winkels 0 berechnet wird:

Durch die Verbindung von Collaborative Filtering und Content-Based Filtering lassen sich Verkaufssysteme entwickeln, die die Interessen und Wünsche des Kunden relativ genau erraten. Je öfter dabei ein Kunde eingekauft hat und je größer die gesamte Kundenbasis ist, umso zutreffender sind die Kaufvorschläge.

Diese Artikel könnten Sie auch interessieren:

Tags: , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.