신경 추천 접근 방식은 정말 진전을 보이고 있을까요?
우리는 정말 신경망에서 진전을 이루고 있습니까?
추천 접근 방식은?
마우리치오 페라리 다크레마 외 1명의 최근 RecSys 2019 기사 요약
신경 추천 알고리즘
추천 알고리즘은 아마존의 '유어스토어' 스플래시 페이지부터 넷플릭스의 % 점수 매칭에 이르기까지 상업 분야 전반에 걸쳐 보편화되었습니다. 추천 알고리즘은 기본적으로 노래나 영화 데이터베이스와 같은 대규모 데이터 세트를 다양한 방법으로 필터링하여 사용자와 가장 관련성이 높은 항목을 찾아냅니다. 알고리즘은 사용자의 과거 행동을 살펴보고 이러한 관찰을 통해 얻은 지식을 사용하여 사용자가 구매, 시청 또는 청취할 가능성이 가장 높은 상품과 미디어를 추천합니다. 추천 시스템에 머신 러닝, 특히 신경망을 활용하려는 시도가 많이 이루어지고 있습니다. 다양한 알고리즘에 대한 추천 기능의 개선을 주장하는 많은 연구가 있지만, Dacrema 등은 기존 기술에 비해 정말 개선되고 있는지에 대한 질문을 던지는 계몽적인 글을 썼습니다. 이 글에 따르면 "...기존 모델에 비해 정확도 개선이라는 측면에서 측정된 진전이 항상 기대만큼 강력하지는 않다는 징후가 존재합니다."라고 합니다. 그렇다면 진행 상황이 정확하게 파악되지 않는다면 현재 연구자들은 진행 상황을 어떻게 측정하고 있으며, 이러한 방법의 결함은 무엇이고, 실제로 머신 러닝 기술을 추가하여 추천 알고리즘을 개선하고 있을까요?진행 상황 측정 방법
알고리즘 성능의 진전은 새로운 알고리즘 성능을 다른 범위 알고리즘의 기준 성능과 비교하여 측정합니다. 특히 가장 일반적으로 사용되는 메트릭은 다음과 같습니다:
- 정확도: 분류 모델이 관련 데이터 포인트만 식별할 수 있는 능력입니다.
- 리콜: 데이터 집합 내에서 모든 관련 데이터 요소를 찾는 모델의 기능입니다.
- 정규화된 할인 누적 이득(NDCG): 기준 순위 목록(일반적으로 사람이 판단한)과 알고리즘의 순위 목록을 비교한 값입니다.
이러한 방법이 실패하는 이유는 무엇인가요?
현재 진행 상황 평가 방법의 실패에는 여러 가지 요인이 있지만, 데크레마 등은 세 가지 핵심 요인을 지적합니다:
- 교육 및 평가를 위한 취약한 기준 데이터 세트
- 새로운 기준선에 사용되는 약한 방법(성능 비교를 위해 이전에 게시되었지만 검증되지 않은 알고리즘 사용)
- 비교할 수 없고 재생산 논문 전반의 결과
특히 저자들은 발표된 알고리즘의 반복성이 극도로 부족하다는 점을 지적합니다. 저자들은 소스 코드와 데이터 세트를 쉽게 이용할 수 있는 현대의 연구 환경에서는 발표된 결과를 재현하기가 쉽지 않다고 지적합니다. 그러나 "실제로는 알고리즘의 구현과 평가 절차에 관한 사소한 세부 사항이 실험 결과에 영향을 미칠 수 있습니다."라고 말합니다. 실제로 저자들은 조사한 수십 개의 논문 중 재현이 가능한 소스 코드와 데이터 세트가 있는 논문을 총 7개밖에 찾지 못했습니다.
신경 추천: 개선되었나요?
다크레마 등은 논문에서 발표된 7가지 알고리즘을 테스트했습니다. 이들은 각 연구에서 사용된 데이터를 사용하여 이러한 알고리즘의 결과를 기존의 훨씬 더 단순한 알고리즘의 결과와 비교했습니다. 연구 결과, 기존 방법보다 성능이 뛰어난 알고리즘은 단 하나뿐이었습니다: 바로 2018년 Liang 등이 발표한 협업 필터링을 위한 변형 자동 인코더(Mult-VAE)였습니다. Decrema 등은 Mult-VAE가 다음과 같은 성능 향상을 제공한다고 주장합니다:
- 이렇게 얻은 정확도 결과는 2011년 IDCM 11에서 샤 닝과 조지 카리스가 발표한 단순 선형 방법(SLIM)보다 10%에서 20% 사이로 더 우수했으며, 이는 최고의 기준 알고리즘의 성능이었습니다.
- 모든 성능 측정 항목에서 최대 5%의 SLIM 대비 개선된 결과를 재현할 수 있습니다.
- SLIM을 통한 멀티-VAE의 리콜 개선은 "견고해 보입니다."
Decrema 등은 "따라서 멀티-VAE를 사용하면 조사된 문헌에서 모든 구성에서 기준 기법보다 더 복잡한 방법이 더 나은 한 가지 예를 발견했습니다."라고 결론을 내립니다.
요약
성공을 선언하고 새로운 알고리즘과 결과를 발표하고 싶은 유혹이 있지만, Dacrema의 팀은 실제로는 개선되지 않았거나 적어도 그다지 많이 개선되지 않았다는 것을 보여주었습니다. "우리의 분석에 따르면... 검토된 대부분의 작업은 적어도 일부 데이터 세트에서는 개념적으로나 계산적으로 더 단순한 알고리즘이 더 나은 성능을 발휘할 수 있습니다."라고 결론을 내리고 있습니다. 따라서 모든 데이터 분석 애플리케이션에 머신러닝을 적용하고 싶은 유혹이 있지만, 추천 시스템은 적어도 아직까지는 머신러닝이 알고리즘 성능을 개선하지 못한 애플리케이션으로 입증되었습니다.