¿Estamos avanzando realmente en la recomendación neuronal?

Are We Really Making Progress on Neural
Recommendation Approaches?

        

Un resumen del reciente artículo de Maurizio Ferrari Dacrema, et al. en RecSys 2019

Algoritmos neuronales de recomendación

Los algoritmos de recomendación se han hecho omnipresentes en todos los ámbitos comerciales, desde la página de inicio "yourstore" de Amazon hasta las puntuaciones % de Netflix. En esencia, los algoritmos de recomendación filtran grandes conjuntos de datos, como bases de datos de canciones o películas, utilizando diversos métodos para encontrar los elementos más relevantes para un usuario. Para ello, el algoritmo examina el comportamiento anterior del usuario y utiliza los conocimientos adquiridos a partir de esas observaciones para recomendar los productos y medios que el usuario tiene más probabilidades de comprar, ver o escuchar. Se han hecho muchos intentos de aprovechar el aprendizaje automático, especialmente las redes neuronales, para los sistemas de recomendación. Dacrema et al. han escrito un esclarecedor artículo en el que se preguntan si realmente se está mejorando con respecto a las técnicas tradicionales. Según su artículo, "...existen indicios... .de que los avances logrados -medidos en términos de mejoras de precisión con respecto a los modelos existentes- no siempre son tan fuertes como se esperaba". Así pues, si los avances no se captan con precisión, ¿cómo miden actualmente los investigadores los avances, cuáles son los fallos de estos métodos y si realmente hemos mejorado los algoritmos de recomendación añadiendo técnicas de aprendizaje automático?

Cómo se mide el progreso

El progreso en el rendimiento de los algoritmos se mide comparando el rendimiento de los nuevos algoritmos con el rendimiento de referencia de otros algoritmos de alcance. En concreto, las métricas más utilizadas son:

  • Precisión: La capacidad de un modelo de clasificación para identificar sólo los puntos de datos relevantes.
  • Recuperación: La capacidad de un modelo para encontrar todos los puntos de datos relevantes dentro de un conjunto de datos.
  • Ganancia acumulada descontada normalizada (NDCG): comparación entre la lista de clasificación de referencia (normalmente juzgada por humanos) y la lista de clasificación del algoritmo.

¿Por qué fallan estos métodos?

Aunque son varios los factores que contribuyen al fracaso de los actuales métodos de evaluación del progreso, Decrema et al. señalan tres factores clave:

  1. Conjuntos de datos de referencia débiles para la formación y la evaluación
  2. Métodos débiles utilizados para las nuevas líneas de base (utilizando algoritmos previamente publicados pero no verificados para la comparación de rendimiento).
  3. Incapacidad para comparar y reproducir resultados de los distintos documentos

En particular, los autores señalan la extrema falta de repetibilidad de los algoritmos publicados. Los autores se apresuran a señalar que en el entorno de investigación moderno, en el que el código fuente y los conjuntos de datos están fácilmente disponibles, los resultados publicados deberían ser triviales de recrear. Sin embargo, "en realidad, hay... pequeños detalles relativos a la implementación de los algoritmos y al procedimiento de evaluación... que pueden influir en los resultados del experimento". De hecho, los autores sólo encontraron un total de siete artículos con código fuente y conjuntos de datos susceptibles de reproducción de entre las docenas examinadas.

Recomendación neuronal: ¿Hemos mejorado?

Dacrema et al. probaron en su artículo siete algoritmos publicados. Compararon los resultados de estos algoritmos, utilizando los datos empleados en los respectivos estudios, con los resultados de algoritmos tradicionales, mucho más sencillos. En su estudio, sólo encontraron un algoritmo que superaba a los métodos tradicionales: Variational Autoencoders for Collaborative Filtering (Mult-VAE), presentado por Liang et al. en 2018. Decrema et al. argumentan que Mult-VAE proporciona las siguientes mejoras de rendimiento:

  • Los resultados de precisión obtenidos fueron entre 10% y 20% mejores que el método lineal simple (SLIM) presentado por Xia Ning y George Karypis en 2011 en IDCM 11, que fue el mejor rendimiento del algoritmo de referencia.
  • Los resultados pudieron reproducirse con mejoras sobre SLIM de hasta 5% en todas las medidas de rendimiento.
  • Las mejoras del recuerdo de Mult-VAE sobre SLIM "parecen sólidas".

Decrema et al. concluyen afirmando "Así, con Mult-VAE, encontramos un ejemplo en la literatura examinada en el que un método más complejo era mejor... que cualquiera de nuestras técnicas de referencia en todas las configuraciones".

Resumen

Por muy tentador que sea declarar el éxito y publicar algoritmos y resultados novedosos, el equipo de Dacrema ha demostrado que en realidad no estamos mejorando, o al menos no mucho. Su artículo concluye afirmando: "Nuestro análisis indica que... la mayoría de los trabajos revisados pueden ser superados, al menos en algunos conjuntos de datos, por algoritmos conceptual y computacionalmente más sencillos". Por lo tanto, por muy tentador que sea aplicar el aprendizaje automático a todas las aplicaciones de análisis de datos, los sistemas de recomendación han demostrado hasta ahora ser una aplicación para la que el aprendizaje automático no ha mejorado el rendimiento de los algoritmos; al menos, no todavía.

Let’s Discuss Your Idea

    Related Posts

    Ready To Supercharge Your Business

    LET’S
    TALK
    es_ESEspañol