神経推薦アプローチは本当に進歩しているのか?
神経研究は本当に進んでいるのか?
推薦アプローチ?
RecSys 2019におけるマウリツィオ・フェラーリ・ダクレマらの最新論文の要約
ニューラル推薦アルゴリズム
レコメンデーション・アルゴリズムは、アマゾンの "yourstore "スプラッシュ・ページからNetflixのマッチング%スコアに至るまで、商業分野ではいたるところで見られるようになった。レコメンデーション・アルゴリズムは、要するに、ユーザーにとって最も関連性の高いアイテムを探し出すために、様々な方法を用いて、大規模なデータセット、すなわち楽曲や映画のデータベースをフィルタリングする。このアルゴリズムは、ユーザーの過去の行動を観察し、これらの観察から得られた知識を使用して、ユーザーが最も購入、視聴、聴取する可能性の高い製品やメディアを推薦することによって、これを行う。機械学習、特にニューラルネットワークを推薦システムに活用する試みは数多くなされてきた。様々なアルゴリズムによるレコメンデーションの改善を主張する研究は豊富にあるが、Dacremaらは、従来の手法よりも本当に改善しているのか、と問う啓発的な記事を書いている。彼らの論文によれば、"......達成された進歩-既存のモデルに対する精度の向上という観点から測定-は、必ずしも期待されたほど強くないという兆候が存在する"......。では、進歩が正確に捉えられていないのだとしたら、研究者たちは現在どのように進歩を測定しているのか、これらの手法の欠点は何なのか、そして機械学習技術を追加することで推薦アルゴリズムは実際に改善されたのだろうか?進歩の測定方法
アルゴリズム性能の進歩は、新しいアルゴリズムの性能を、他の程度のアルゴリズムのベースライン性能と比較することによって測定される。特に、最も一般的に使用されるメトリクスは以下の通りである:
- 精度:分類モデルが関連するデータポイントのみを識別する能力。
- 再現性:データセット内のすべての関連データ点を見つけるモデルの能力。
- 正規化割引累積利得(NDCG):ベースラインのランク付けリスト(通常は人間が判断)とアルゴリズムのランク付けリストの比較。
なぜこれらの方法は失敗するのか?
現在の進歩評価方法の失敗にはいくつかの要因があるが、デクレマらは3つの重要な要因を指摘している:
- トレーニングと評価のための弱いベースラインデータセット
- 新しいベースラインに使用される弱い手法(性能比較のために、過去に発表されたが検証されていないアルゴリズムを使用する)
- 比較することができない 複製 各論文の結果
特に著者は、公表されているアルゴリズムの再現性が極端に欠けていることを指摘している。著者らは、ソースコードやデータセットが容易に入手できる現代の研究環境では、公表された結果を再現することは些細なことであるはずだと指摘する。しかし、"現実には、アルゴリズムの実装や評価手順に関する......実験結果に影響を与える可能性のある......小さな詳細が存在する"。実際、著者らは、数十件調査した中で、再現可能なソースコードとデータセットを持つ論文は合計7件しか見つからなかった。
神経推薦:我々は進歩したか?
Dacremaらは論文の中で、公表されている7つのアルゴリズムをテストした。それぞれの研究で使われたデータを使って、これらのアルゴリズムの結果を、従来のもっと単純なアルゴリズムの結果と比較した。彼らの研究では、伝統的な手法を凌駕するアルゴリズムを1つだけ発見した:2018年にLiangらによって発表されたVariational Autoencoders for Collaborative Filtering(Mult-VAE)である。Decremaらは、Mult-VAEが以下の性能向上をもたらすと主張している:
- 得られた精度結果は、2011年のIDCM11でXia NingとGeorge Karypisによって発表された単純線形法(SLIM)よりも10%から20%の間で優れており、これはベースラインアルゴリズムの性能としては最高であった。
- 結果は、すべての性能指標において、SLIMより最大5%向上し、再現することができた。
- SLIMに対するMult-VAEのリコール改善は "確かなようだ"。
Decremaらは、"このように、Mult-VAEでは、より複雑な手法が、すべての構成において、我々のベースライン手法のどれよりも......優れている例を、調査された文献の中で1つ見つけた "と結んでいる。
概要
成功を宣言し、斬新なアルゴリズムや結果を発表したいのはやまやまだが、ダクレマの研究チームは、我々は実際には進歩していない、少なくともそれほど進歩していないことを示した。彼らの論文は、"我々の分析は、......レビューされた作品のほとんどは、少なくともいくつかのデータセット上では、概念的かつ計算的に単純なアルゴリズムに打ち勝つことができることを示している "と締めくくっている。したがって、すべてのデータ分析アプリケーションに機械学習を適用したくなるのと同様に、推薦システムは、機械学習がアルゴリズムの性能を向上させないアプリケーションであることが今のところ証明されている。