Machen wir wirklich Fortschritte bei neuronalen Empfehlungsansätzen?
Machen wir wirklich Fortschritte bei den neuronalen
Empfehlung - Ansätze?
Eine Zusammenfassung des jüngsten Artikels von Maurizio Ferrari Dacrema, et al. auf der RecSys 2019
Neuronale Empfehlungsalgorithmen
Empfehlungsalgorithmen sind in allen kommerziellen Bereichen allgegenwärtig, von der Amazon-Splash-Seite "yourstore" bis hin zu den passenden %-Bewertungen von Netflix. Empfehlungsalgorithmen filtern im Wesentlichen große Datenmengen, z. B. Song- oder Filmdatenbanken, mit einer Vielzahl von Methoden, um die für einen Nutzer relevantesten Artikel herauszufinden. Der Algorithmus untersucht dazu das frühere Verhalten eines Nutzers und nutzt das daraus gewonnene Wissen, um Produkte und Medien zu empfehlen, die der Nutzer mit hoher Wahrscheinlichkeit kaufen, ansehen oder anhören wird. Es wurden viele Versuche unternommen, maschinelles Lernen, insbesondere neuronale Netze, für Empfehlungssysteme zu nutzen. Es gibt zwar eine Fülle von Forschungsergebnissen, die eine Verbesserung der Empfehlungen durch verschiedene Algorithmen versprechen, aber Dacrema et al. haben einen aufschlussreichen Artikel verfasst, in dem sie die Frage stellen, ob wir wirklich besser sind als herkömmliche Techniken. In ihrem Artikel heißt es: "Es gibt Anzeichen dafür, dass die erzielten Fortschritte - gemessen in Form von Genauigkeitsverbesserungen gegenüber bestehenden Modellen - nicht immer so stark sind wie erwartet." Wenn also der Fortschritt nicht genau erfasst wird, wie messen die Forscher derzeit den Fortschritt, was sind die Fehler in diesen Methoden, und haben wir die Empfehlungsalgorithmen durch Hinzufügen von Techniken des maschinellen Lernens tatsächlich verbessert?Wie der Fortschritt gemessen wird
Der Leistungsfortschritt von Algorithmen wird gemessen, indem die Leistung neuer Algorithmen mit der Leistung anderer Algorithmen verglichen wird. Die am häufigsten verwendeten Metriken sind insbesondere:
- Genauigkeit: Die Fähigkeit eines Klassifikationsmodells, nur die relevanten Datenpunkte zu identifizieren.
- Rückruf: Die Fähigkeit eines Modells, alle relevanten Datenpunkte innerhalb eines Datensatzes zu finden.
- Normalized Discounted Cumulative Gain (NDCG): der Vergleich zwischen der (in der Regel vom Menschen bewerteten) Basisliste und der vom Algorithmus erstellten Liste.
Warum scheitern diese Methoden?
Zwar tragen mehrere Faktoren zum Scheitern der derzeitigen Fortschrittsbewertungsmethoden bei, doch Decrema et al. weisen auf drei Schlüsselfaktoren hin:
- Schwache Basisdatensätze für Training und Bewertung
- Schwache Methoden für neue Baselines (Verwendung bereits veröffentlichter, aber nicht überprüfter Algorithmen für den Leistungsvergleich)
- Unfähigkeit zu vergleichen und vervielfältigen Ergebnisse in allen Papieren
Die Autoren weisen insbesondere auf den extremen Mangel an Wiederholbarkeit bei veröffentlichten Algorithmen hin. Die Autoren weisen darauf hin, dass in der modernen Forschungsumgebung, in der Quellcode und Datensätze leicht zugänglich sind, die veröffentlichten Ergebnisse trivial zu reproduzieren sein sollten. In der Realität gibt es jedoch ... winzige Details in Bezug auf die Implementierung der Algorithmen und das Bewertungsverfahren ..., die einen Einfluss auf die Ergebnisse des Experiments haben können. Tatsächlich fanden die Autoren unter Dutzenden von untersuchten Arbeiten nur insgesamt sieben Arbeiten mit Quellcode und Datensätzen, die sich reproduzieren ließen.
Neuronale Empfehlung: Haben wir uns verbessert?
Dacrema et al. testeten in ihrer Arbeit sieben veröffentlichte Algorithmen. Sie verglichen die Ergebnisse dieser Algorithmen unter Verwendung der in den jeweiligen Studien verwendeten Daten mit den Ergebnissen traditioneller, wesentlich einfacherer Algorithmen. In ihrer Studie fanden sie nur einen Algorithmus, der die traditionellen Methoden übertraf: Variational Autoencoders for Collaborative Filtering (Mult-VAE), vorgestellt von Liang et al. im Jahr 2018. Decrema et al. argumentieren, dass Mult-VAE die folgenden Leistungsverbesserungen bietet:
- Die erzielten Genauigkeitsergebnisse waren zwischen 10% und 20% besser als die einfache lineare Methode (SLIM), die 2011 von Xia Ning und George Karypis auf der IDCM 11 vorgestellt wurde und die beste Leistung des Basisalgorithmus darstellte.
- Die Ergebnisse konnten mit Verbesserungen gegenüber SLIM von bis zu 5% bei allen Leistungsmessungen reproduziert werden.
- Die Verbesserungen des Rückrufs bei Mult-VAE gegenüber SLIM "scheinen solide" zu sein.
Decrema et al. stellen abschließend fest: "Mit Mult-VAE haben wir in der untersuchten Literatur ein Beispiel gefunden, bei dem eine komplexere Methode in allen Konfigurationen besser war ... als irgendeine unserer Basismethoden."
Zusammenfassung
So verlockend es auch ist, Erfolge zu verkünden und neue Algorithmen und Ergebnisse zu veröffentlichen, hat das Team von Dacrema gezeigt, dass wir uns nicht wirklich verbessern, zumindest nicht wesentlich. Ihr Artikel schließt mit der Feststellung: "Unsere Analyse zeigt, dass ... die meisten der untersuchten Arbeiten zumindest bei einigen Datensätzen durch konzeptionell und rechnerisch einfachere Algorithmen übertroffen werden können." So verlockend es auch ist, maschinelles Lernen auf alle Datenanalyseanwendungen anzuwenden, so haben sich Empfehlungssysteme bisher als eine Anwendung erwiesen, bei der maschinelles Lernen die Leistung der Algorithmen nicht verbessert hat; zumindest noch nicht.