Чи справді ми досягаємо прогресу в підходах до нейронних рекомендацій?
Чи справді ми досягаємо прогресу в нейронних технологіях?
Рекомендаційні підходи?
Короткий виклад нещодавньої статті Мауріціо Феррарі Дакрема та ін. на RecSys 2019
Алгоритми нейронних рекомендацій
Алгоритми рекомендацій стали повсюдними в комерційних сферах, від заставки "yourstore" на Amazon до підбору фільмів за критерієм % на Netflix. Алгоритми рекомендацій, по суті, фільтрують великі масиви даних, наприклад, бази даних пісень або фільмів, використовуючи різні методи, щоб знайти найбільш релевантні для користувача елементи. Алгоритм робить це, аналізуючи минулу поведінку користувача і використовуючи знання, отримані з цих спостережень, щоб рекомендувати продукти і медіа, які користувач, найімовірніше, купить, подивиться або послухає. Було зроблено багато спроб використати машинне навчання, особливо нейронні мережі, для рекомендаційних систем. Хоча існує безліч досліджень, які стверджують про покращення рекомендацій для різних алгоритмів, Дакрема та ін. написали просвітницьку статтю, в якій ставлять питання: чи дійсно ми покращуємо рекомендації порівняно з традиційними методами? Згідно з їхньою статтею "...існують ознаки того, що досягнутий прогрес, виміряний з точки зору покращення точності порівняно з існуючими моделями, не завжди є настільки сильним, як очікувалося". Отже, якщо прогрес не фіксується точно, як дослідники в даний час вимірюють прогрес, які недоліки в цих методах, і чи дійсно ми покращили алгоритми рекомендацій, додавши методи машинного навчання?Як вимірюється прогрес
Прогрес у продуктивності алгоритму вимірюється шляхом порівняння продуктивності нового алгоритму з базовою продуктивністю інших алгоритмів степеневого аналізу. Зокрема, найчастіше використовуються такі метрики:
- Точність: Здатність моделі класифікації ідентифікувати лише релевантні точки даних.
- Відтворення: Здатність моделі знаходити всі релевантні точки даних у наборі даних.
- Нормалізований дисконтований кумулятивний приріст (NDCG): порівняння між базовим ранжованим списком (як правило, оціненим людиною) і ранжованим списком алгоритму.
Чому ці методи не спрацьовують?
Хоча кілька факторів впливають на невдачу сучасних методів оцінки прогресу, Декрема та ін. вказують на три ключові фактори:
- Слабкі базові набори даних для навчання та оцінки
- Слабкі методи, що використовуються для нових базових показників (використання раніше опублікованих, але неперевірених алгоритмів для порівняння продуктивності)
- Неможливість порівнювати та розмножуватися результати в різних статтях
Зокрема, автори вказують на надзвичайну відсутність повторюваності опублікованих алгоритмів. Автори поспішають зазначити, що в сучасному дослідницькому середовищі, де вихідний код і набори даних є легкодоступними, опубліковані результати повинні бути тривіальними для відтворення. Однак "насправді існують ... крихітні деталі, що стосуються реалізації алгоритмів і процедури оцінки ..., які можуть вплинути на результати експерименту". Насправді автори знайшли лише сім робіт з вихідним кодом і наборами даних, які можна було б відтворити, з десятків досліджених.
Нейронна рекомендація: Чи покращилися ми?
У своїй статті Дакрема та ін. протестували сім опублікованих алгоритмів. Вони порівняли результати цих алгоритмів, використовуючи дані, отримані у відповідних дослідженнях, з результатами традиційних, набагато простіших алгоритмів. У своєму дослідженні вони знайшли лише один алгоритм, який перевершив традиційні методи: Варіаційні автокодери для колаборативної фільтрації (Mult-VAE), представлений Лянгом та ін. у 2018 році. Декрема та ін. стверджують, що Mult-VAE забезпечує наступні покращення продуктивності:
- Отримані результати точності були між 10% і 20% кращими, ніж у простого лінійного методу (SLIM), представленого Ся Нінгом і Джорджем Карипісом у 2011 році на IDCM 11, що було найкращою базовою характеристикою алгоритму.
- Результати можуть бути відтворені з покращенням порівняно з SLIM до 5% за всіма показниками продуктивності.
- Нагадаємо, що поліпшення для Mult-VAE над SLIM "здаються солідними".
Декрема та ін. підсумовують: "Таким чином, у випадку Mult-VAE ми знайшли один приклад у вивченій літературі, де більш складний метод виявився кращим ... ніж будь-яка з наших базових методик у всіх конфігураціях".
Підсумок
Як би не було спокусливо оголосити про успіх і опублікувати нові алгоритми та результати, команда Дакреми показала, що ми насправді не покращуємось, або, принаймні, не набагато. Їх стаття завершується словами: "Наш аналіз показує, що ... більшість розглянутих робіт можуть бути перевершені, принаймні на деяких наборах даних, концептуально і обчислювально простішими алгоритмами". Таким чином, яким би спокусливим не було застосування машинного навчання до всіх додатків для аналізу даних, системи рекомендацій поки що виявилися тим додатком, для якого машинне навчання не покращило продуктивність алгоритмів; принаймні, поки що.