Stiamo davvero facendo progressi negli approcci di raccomandazione neurale?
Stiamo davvero facendo progressi nel campo dei neuroni?
Approcci di raccomandazione?
Una sintesi del recente articolo di Maurizio Ferrari Dacrema, et al. a RecSys 2019
Algoritmi neurali di raccomandazione
Gli algoritmi di raccomandazione sono diventati onnipresenti in tutti i settori commerciali, dalla splash page "yourtore" di Amazon ai punteggi % di Netflix. Gli algoritmi di raccomandazione, in sostanza, filtrano grandi insiemi di dati, ad esempio database di canzoni o film, utilizzando una varietà di metodi per individuare gli elementi più rilevanti per un utente. L'algoritmo lo fa esaminando il comportamento passato di un utente e utilizzando le conoscenze acquisite da queste osservazioni per raccomandare i prodotti e i media che l'utente è più propenso ad acquistare, guardare o ascoltare. Sono stati fatti molti tentativi di sfruttare l'apprendimento automatico, in particolare le reti neurali, per i sistemi di raccomandazione. Sebbene vi sia una grande quantità di ricerche che sostengono miglioramenti nelle raccomandazioni per vari algoritmi, Dacrema et al. hanno scritto un articolo illuminante che chiede: stiamo davvero migliorando rispetto alle tecniche tradizionali? Secondo il loro articolo "...esistono indicazioni... .che i progressi ottenuti - misurati in termini di miglioramenti di accuratezza rispetto ai modelli esistenti - non sono sempre così forti come ci si aspettava". Quindi, se i progressi non vengono rilevati in modo accurato, in che modo i ricercatori stanno attualmente misurando i progressi, quali sono i difetti di questi metodi e abbiamo effettivamente migliorato gli algoritmi di raccomandazione aggiungendo tecniche di apprendimento automatico?Come si misurano i progressi
I progressi nelle prestazioni degli algoritmi vengono misurati confrontando le prestazioni dei nuovi algoritmi con le prestazioni di base di altri algoritmi di estensione. In particolare, le metriche più comunemente utilizzate sono:
- Precisione: La capacità di un modello di classificazione di identificare solo i punti dati rilevanti.
- Richiamo: La capacità di un modello di trovare tutti i punti dati rilevanti all'interno di un set di dati.
- Normalized Discounted Cumulative Gain (NDCG): il confronto tra l'elenco di base (tipicamente giudicato dall'uomo) e l'elenco classificato dall'algoritmo.
Perché questi metodi falliscono?
Sebbene diversi fattori contribuiscano al fallimento degli attuali metodi di valutazione dei progressi, Decrema et al. indicano tre fattori chiave:
- Set di dati di base deboli per l'addestramento e la valutazione
- Metodi deboli utilizzati per le nuove linee di base (utilizzando algoritmi precedentemente pubblicati ma non verificati per il confronto delle prestazioni)
- Impossibilità di confrontare e riprodurre risultati tra i documenti
In particolare, gli autori sottolineano l'estrema mancanza di ripetibilità degli algoritmi pubblicati. Gli autori si affrettano a sottolineare che nel moderno ambiente di ricerca, in cui il codice sorgente e i set di dati sono prontamente disponibili, i risultati pubblicati dovrebbero essere banali da ricreare. Tuttavia, "in realtà, ci sono ... piccoli dettagli riguardanti l'implementazione degli algoritmi e la procedura di valutazione ... che possono avere un impatto sui risultati dell'esperimento". In effetti, gli autori hanno trovato solo un totale di sette articoli con codice sorgente e set di dati riproducibili su decine di articoli esaminati.
Raccomandazione neurale: Siamo migliorati?
Dacrema et al. hanno testato sette algoritmi pubblicati nel loro lavoro. Hanno confrontato i risultati di questi algoritmi, utilizzando i dati impiegati nei rispettivi studi, con i risultati di algoritmi tradizionali, molto più semplici. Nel loro studio, hanno trovato solo un algoritmo che ha superato i metodi tradizionali: Variational Autoencoders for Collaborative Filtering (Mult-VAE), presentato da Liang et al. nel 2018. Decrema et al. sostengono che Mult-VAE fornisce i seguenti miglioramenti delle prestazioni:
- I risultati di accuratezza ottenuti sono stati tra 10% e 20% migliori del metodo lineare semplice (SLIM) presentato da Xia Ning e George Karypis nel 2011 all'IDCM 11, che rappresentava la migliore prestazione dell'algoritmo di base.
- I risultati sono stati riprodotti con miglioramenti rispetto a SLIM fino a 5% su tutte le misure di prestazione.
- I miglioramenti nel richiamo di Mult-VAE rispetto a SLIM "sembrano solidi".
Decrema et al. concludono affermando: "Quindi, con Mult-VAE, abbiamo trovato un esempio nella letteratura esaminata in cui un metodo più complesso era migliore ... di una qualsiasi delle nostre tecniche di base in tutte le configurazioni".
Sintesi
Per quanto sia allettante dichiarare il successo e pubblicare nuovi algoritmi e risultati, il team di Dacrema ha dimostrato che in realtà non stiamo migliorando, o almeno non di molto. L'articolo si conclude affermando: "La nostra analisi indica che... la maggior parte dei lavori recensiti può essere superata, almeno su alcuni set di dati, da algoritmi concettualmente e computazionalmente più semplici". Pertanto, per quanto sia allettante applicare l'apprendimento automatico a tutte le applicazioni di analisi dei dati, i sistemi di raccomandazione hanno finora dimostrato di essere un'applicazione per la quale l'apprendimento automatico non ha migliorato le prestazioni degli algoritmi; almeno, non ancora.