Les approches de recommandation neuronale progressent-elles vraiment ?
Avançons-nous vraiment dans le domaine des neurones ?
Approches de recommandation ?
Résumé de l'article récent de Maurizio Ferrari Dacrema, et al. à RecSys 2019
Algorithmes de recommandation neuronale
Les algorithmes de recommandation sont devenus omniprésents dans les domaines commerciaux, de la page d'accueil "yourstore" d'Amazon aux scores % de Netflix. Les algorithmes de recommandation filtrent essentiellement de grands ensembles de données, par exemple des bases de données de chansons ou de films, en utilisant une variété de méthodes pour repérer les éléments les plus pertinents pour un utilisateur. Pour ce faire, l'algorithme examine le comportement antérieur de l'utilisateur et utilise les connaissances acquises à partir de ces observations pour recommander les produits et les médias que l'utilisateur est le plus susceptible d'acheter, de regarder ou d'écouter. De nombreuses tentatives ont été faites pour tirer parti de l'apprentissage automatique, en particulier des réseaux neuronaux, pour les systèmes de recommandation. Bien qu'il existe un grand nombre de recherches faisant état d'améliorations dans les recommandations pour divers algorithmes, Dacrema et al. ont écrit un article éclairant dans lequel ils se demandent si nous améliorons vraiment les techniques traditionnelles. Selon cet article, "... il existe des indications... que les progrès réalisés - mesurés en termes d'amélioration de la précision par rapport aux modèles existants - ne sont pas toujours aussi importants que prévu". Alors, si les progrès ne sont pas saisis avec précision, comment les chercheurs mesurent-ils actuellement les progrès, quels sont les défauts de ces méthodes, et avons-nous réellement amélioré les algorithmes de recommandation en ajoutant des techniques d'apprentissage automatique ?Comment les progrès sont-ils mesurés ?
Les progrès dans la performance des algorithmes sont mesurés en comparant la performance d'un nouvel algorithme à la performance de référence d'autres algorithmes étendus. En particulier, les mesures les plus couramment utilisées sont les suivantes :
- Précision : La capacité d'un modèle de classification à identifier uniquement les points de données pertinents.
- Rappel : La capacité d'un modèle à trouver tous les points de données pertinents dans un ensemble de données.
- Gain cumulatif actualisé normalisé (NDCG) : comparaison entre la liste de référence classée (généralement jugée par l'homme) et la liste classée par l'algorithme.
Pourquoi ces méthodes échouent-elles ?
Si plusieurs facteurs contribuent à l'échec des méthodes actuelles d'évaluation des progrès, Decrema et al. en soulignent trois principaux :
- Des ensembles de données de référence faibles pour la formation et l'évaluation
- Méthodes faibles utilisées pour les nouvelles lignes de base (utilisation d'algorithmes publiés antérieurement mais non vérifiés pour la comparaison des performances)
- Impossibilité de comparer et de reproduire les résultats obtenus dans les différents documents
Les auteurs soulignent notamment le manque extrême de reproductibilité des algorithmes publiés. Ils s'empressent de souligner que dans l'environnement de recherche moderne, où le code source et les ensembles de données sont facilement accessibles, les résultats publiés devraient être faciles à recréer. Cependant, "en réalité, il y a ... de minuscules détails concernant la mise en œuvre des algorithmes et la procédure d'évaluation ... qui peuvent avoir un impact sur les résultats de l'expérience". En fait, sur les dizaines d'articles examinés, les auteurs n'en ont trouvé que sept avec un code source et des ensembles de données pouvant être reproduits.
Recommandation neuronale : Avons-nous progressé ?
Dacrema et al. ont testé sept algorithmes publiés dans leur article. Ils ont comparé les résultats de ces algorithmes, à l'aide des données utilisées dans les études respectives, aux résultats des algorithmes traditionnels, beaucoup plus simples. Dans leur étude, ils n'ont trouvé qu'un seul algorithme plus performant que les méthodes traditionnelles : Variational Autoencoders for Collaborative Filtering (Mult-VAE), présenté par Liang et al. en 2018. Decrema et al. affirment que Mult-VAE apporte les améliorations de performance suivantes :
- Les résultats obtenus sont entre 10% et 20% meilleurs que la méthode linéaire simple (SLIM) présentée par Xia Ning et George Karypis en 2011 à l'IDCM 11, qui était la meilleure performance de l'algorithme de base.
- Les résultats ont pu être reproduits avec des améliorations par rapport à SLIM allant jusqu'à 5% pour toutes les mesures de performance.
- Les améliorations du rappel de Mult-VAE par rapport à SLIM "semblent solides".
Decrema et al. concluent en déclarant : "Ainsi, avec Mult-VAE, nous avons trouvé un exemple dans la littérature examinée où une méthode plus complexe était meilleure ... que n'importe laquelle de nos techniques de base dans toutes les configurations".
Résumé
Même s'il est tentant d'annoncer un succès et de publier de nouveaux algorithmes et résultats, l'équipe de Dacrema a montré que nous ne nous améliorons pas vraiment, ou du moins pas beaucoup. L'article conclut en déclarant : "Notre analyse indique que ... la plupart des travaux examinés peuvent être surpassés, au moins sur certains ensembles de données, par des algorithmes plus simples sur le plan conceptuel et informatique". Par conséquent, même s'il est tentant d'appliquer l'apprentissage automatique à toutes les applications d'analyse de données, les systèmes de recommandation se sont jusqu'à présent révélés être une application pour laquelle l'apprentissage automatique n'a pas amélioré les performances des algorithmes ; du moins, pas encore.