Estamos realmente a fazer progressos nas abordagens de recomendação neural?
Estamos realmente a fazer progressos no domínio neural?
Recomendações de abordagens?
Um resumo do artigo recente de Maurizio Ferrari Dacrema, et al. na RecSys 2019
Algoritmos de recomendação neural
Os algoritmos de recomendação tornaram-se omnipresentes em todos os domínios comerciais, desde a página inicial "yourstore" da Amazon até às pontuações % correspondentes da Netflix. Os algoritmos de recomendação filtram essencialmente grandes conjuntos de dados, ou seja, bases de dados de canções ou filmes, utilizando uma variedade de métodos para descobrir os itens mais relevantes para um utilizador. O algoritmo fá-lo analisando o comportamento passado de um utilizador e utilizando os conhecimentos adquiridos a partir dessas observações para recomendar produtos e meios de comunicação que o utilizador tem maior probabilidade de comprar, ver ou ouvir. Foram feitas muitas tentativas para utilizar a aprendizagem automática, especialmente as redes neuronais, nos sistemas de recomendação. Embora exista uma grande quantidade de investigação que alega melhorias nas recomendações de vários algoritmos, Dacrema et al. escreveram um artigo esclarecedor que pergunta: estamos realmente a melhorar em relação às técnicas tradicionais? De acordo com o artigo, "... há indícios ... de que o progresso alcançado - medido em termos de melhorias de precisão em relação aos modelos existentes - nem sempre é tão forte como se esperava". Assim, se o progresso não está a ser captado com precisão, como é que os investigadores estão atualmente a medir o progresso, quais são as falhas destes métodos e será que melhorámos realmente os algoritmos de recomendação ao adicionar técnicas de aprendizagem automática?Como são medidos os progressos
O progresso no desempenho do algoritmo é medido comparando o desempenho do novo algoritmo com o desempenho de base de outros algoritmos de extensão. Em particular, as métricas mais utilizadas são:
- Precisão: A capacidade de um modelo de classificação para identificar apenas os pontos de dados relevantes.
- Recuperação: A capacidade de um modelo para encontrar todos os pontos de dados relevantes num conjunto de dados.
- Ganho cumulativo descontado normalizado (NDCG): a comparação entre a lista classificada de base (normalmente avaliada por humanos) e a lista classificada do algoritmo.
Porque é que estes métodos estão a falhar?
Embora vários factores contribuam para o fracasso dos actuais métodos de avaliação dos progressos, Decrema et al. apontam três factores-chave:
- Conjuntos de dados de base fracos para formação e avaliação
- Métodos fracos utilizados para novas linhas de base (utilizando algoritmos previamente publicados mas não verificados para comparação do desempenho)
- Incapacidade de comparar e reproduzir resultados entre documentos
Em particular, os autores chamam a atenção para a extrema falta de repetibilidade dos algoritmos publicados. Os autores são rápidos a salientar que, no ambiente de investigação moderno, em que o código-fonte e os conjuntos de dados são disponibilizados prontamente, os resultados publicados deveriam ser triviais para recriar. No entanto, "na realidade, existem ... pequenos pormenores relativos à implementação dos algoritmos e ao procedimento de avaliação ... que podem ter um impacto nos resultados da experiência". De facto, os autores só encontraram um total de sete artigos com código-fonte e conjuntos de dados passíveis de reprodução entre as dezenas examinadas.
Recomendação Neural: Melhorámos?
Dacrema et al. testaram sete algoritmos publicados no seu artigo. Compararam os resultados destes algoritmos, utilizando os dados usados nos respectivos estudos, com os resultados dos algoritmos tradicionais, muito mais simples. No seu estudo, encontraram apenas um algoritmo que superou os métodos tradicionais: Variational Autoencoders for Collaborative Filtering (Mult-VAE), apresentado por Liang et al. em 2018. Decrema et al. argumentam que o Mult-VAE proporciona as seguintes melhorias de desempenho:
- Os resultados de precisão obtidos foram entre 10% e 20% melhores do que o método linear simples (SLIM) apresentado por Xia Ning e George Karypis em 2011 no IDCM 11, que foi o melhor desempenho do algoritmo de base.
- Os resultados podem ser reproduzidos com melhorias em relação ao SLIM de até 5% em todas as medidas de desempenho.
- As melhorias na recordação do Mult-VAE em relação ao SLIM "parecem sólidas".
Decrema et al. concluem afirmando: "Assim, com Mult-VAE, encontrámos um exemplo na literatura examinada em que um método mais complexo foi melhor ... do que qualquer uma das nossas técnicas de base em todas as configurações."
Resumo
Por muito tentador que seja declarar o sucesso e publicar novos algoritmos e resultados, a equipa de Dacrema mostrou que não estamos a melhorar, ou pelo menos não muito. O artigo conclui afirmando: "A nossa análise indica que ... a maioria dos trabalhos analisados pode ser ultrapassada, pelo menos em alguns conjuntos de dados, por algoritmos concetualmente e computacionalmente mais simples." Por conseguinte, por muito tentador que seja aplicar a aprendizagem automática a todas as aplicações de análise de dados, os sistemas de recomendação provaram até agora ser uma aplicação em que a aprendizagem automática não melhorou o desempenho dos algoritmos; pelo menos, ainda não.