AI&YOUを促す思考連鎖(CoT)を再考する必要がある #68

目次

今週のスタッツ ゼロショットのCoT性能は、GPT-4-ターボが5.55%、クロード-3-オーパスが8.51%、GPT-4が4.44%にとどまった。(思考停止の連鎖?)

Chain-of-Thought(CoT)プロンプトは、大規模言語モデル(LLM)の推論能力を解き放つ画期的な手法として歓迎されてきた。しかし、最近の研究により、この主張が覆され、私たちはこの手法を見直す必要に迫られている。

今週のAI&YOUでは、このトピックについて掲載した3つのブログから洞察を探る:

AI&YOUを促す思考連鎖(CoT)を再考する必要がある #68

LLMは、自然言語処理(NLP)と生成において目覚ましい能力を発揮する。しかし、複雑な推論タスクに直面すると、これらのモデルは正確で信頼できる結果を出すのに苦労することがある。そこで、LLMの問題解決能力を向上させることを目的とした技術である、Chain-of-Thought(CoT)プロンプトが登場する。

上級者向け 迅速なエンジニアリング CoTプロンプティングは、LLMを段階的な推論プロセスに導くように設計されている。直接的な答えを目指す標準的なプロンプト手法とは異なり、CoTプロンプトは最終的な答えに到達する前に、中間的な推論ステップを生成するようモデルを促す。

CoTプロンプトの核心は、モデルから論理的な一連の思考を引き出すように入力プロンプトを構成することである。複雑な問題をより小さく管理しやすいステップに分解することで、CoTはLLMが複雑な推論経路をより効果的にナビゲートできるようにしようとするものである。

CoTの仕組み

CoTプロンプトの核心は、最終的な答えに到達する前に、一連の中間推論ステップを通して言語モデルをガイドすることである。このプロセスには通常以下が含まれる:

  1. 問題の分解: 複雑な仕事を、管理しやすい小さなステップに分解する。

  2. ステップバイステップの推論: モデルには、各ステップを明示的に考えさせる。

  3. 論理的な進行: それぞれのステップが前のステップの上に積み重なり、思考の連鎖が生まれる。

  4. 結論 最終的な答えは、積み重ねられた推論のステップから導き出される。

CoTプロンプティングの種類

思考連鎖プロンプトはさまざまな方法で実施することができるが、主に2つのタイプが際立っている:

  1. ゼロショットCoT: ゼロショットCoTは、タスク固有の例を必要としない。その代わりに、「ステップ・バイ・ステップでアプローチしてみましょう」というような簡単なプロンプトを使用して、モデルが推論プロセスを分解するように促します****。

  2. 数発のCoT: 数発CoTでは、望ましい推論プロセスを示す少数の例をモデルに提供する。これらの例は、新しい未知の問題に取り組む際に、モデルが従うべきテンプレートの役割を果たす。

ゼロショットCoT

数発のCoT

AI研究論文の内訳:"思考停止の連鎖"?

CoTプロンプティングが何なのかがわかったところで、その利点に疑問を投げかけ、実際にどのような場合に有効なのかについて考察した最近の研究を紹介しよう。

と題された研究論文が発表された。思考停止の連鎖?プランニングにおけるCoTの分析、「は、CoTプロンプトの有効性と一般化可能性について批判的な検証を行っている。AIの実践者として、高度な推論能力を必要とするAIアプリケーションを開発するためには、これらの知見とその意味を理解することが極めて重要である。

研究者たちは、ブロックワールドと呼ばれる古典的なプランニング領域を主なテスト対象として選んだ。ブロックワールドでは、一連の移動アクションを使って、ブロックの集合を初期配置からゴール配置に再配置することがタスクとなる。この領域は、推論能力と計画能力をテストするのに理想的である:

  1. 様々な複雑さの問題を生成することができる。

  2. 明確で、アルゴリズム的に検証可能な解決策がある。

  3. LLMのトレーニング・データにはあまり含まれていないと思われる。

この研究では、3つの最新型LLMを検証した:GPT-4、Claude-3-Opus、GPT-4-Turboである。これらのモデルは様々な特異性のプロンプトを用いてテストされた:

  1. ゼロショット連鎖思考(ユニバーサル): プロンプトに「ステップ・バイ・ステップで考えよう」と付け加えるだけでいい。

  2. 進行の証明(PDDLに特有): プランの正しさについて、例を挙げて一般的な説明を行う。

  3. Blocksworldユニバーサル・アルゴリズム: あらゆるBlocksworld問題を解くための一般的なアルゴリズムを示す。

  4. スタッキング・プロンプト ブロックワールド問題の特定のサブクラス(テーブル対スタック)に焦点を当てる。

  5. 語彙の積み重ね: ゴール状態の特定の構文形式にさらに絞り込む。

研究者たちは、これらのプロンプトを複雑さを増していく問題でテストすることで、LLMが例題で示された推論をどの程度一般化できるかを評価することを目指した。

主な調査結果を発表

本研究の結果は、CoTプロンプトに関する多くの一般的な仮定を覆すものである:

  1. CoTの効果は限定的: これまでの主張とは異なり、CoTプロンプトは、提供された例がクエリ問題と極めて類似している場合にのみ、大幅なパフォーマンス向上を示した。問題が例題に示された正確な形式から外れると、パフォーマンスは急激に低下した。

  2. 急速なパフォーマンス低下: 問題の複雑さが増すにつれて(関係するブロックの数で測定)、使用されたCoTプロンプトに関係なく、すべてのモデルの精度が劇的に低下した。これは、LLMが単純な例で示された推論を、より複雑なシナリオに拡張するのに苦労していることを示唆している。

  3. 一般的なプロンプトの無効性: 意外なことに、より一般的なCoTプロンプトは、推論例のない標準的なプロンプトよりも成績が悪いことが多かった。これは、CoTがLLMの一般化可能な問題解決ストラテジーの学習に役立つという考えと矛盾する。

  4. 特異性のトレードオフ: この研究では、非常に具体的なプロンプトが高い精度を達成できることがわかったが、それは非常に狭い問題のサブセットにおいてのみであった。このことは、パフォーマンスの向上とプロンプトの適用可能性との間に鋭いトレードオフがあることを浮き彫りにしている。

  5. 真のアルゴリズム学習の欠如: この結果は、LLMがCoTの例題から一般的なアルゴリズムの適用方法を学んでいないことを強く示唆している。その代わりに、LLMはパターンマッチングに頼っているようだが、これは新しい問題やより複雑な問題に直面するとすぐに破綻してしまう。

これらの知見は、CoTプロンプトをアプリケーションに活用しようとしているAIの専門家や企業にとって重要な意味を持つ。CoTは特定の狭いシナリオではパフォーマンスを向上させることができるが、多くの人が期待していた複雑な推論タスクの万能薬にはならない可能性があることを示唆している。

AI開発への示唆

この研究結果は、AI開発、特に複雑な推論や計画能力を必要とするアプリケーションに取り組む企業にとって重要な意味を持つ:

  1. CoTの効果の再評価: AI開発者は、真のアルゴリズム的思考や新しいシナリオへの汎化を必要とするタスクでCoTに頼ることには慎重であるべきだ。

  2. 現在のLLMの限界: ロバストなプランニングや多段階の問題解決を必要とするアプリケーションでは、別のアプローチが必要になるかもしれない。

  3. 迅速なエンジニアリングのコスト: 特異性の高いCoTプロンプトは、狭い範囲の問題セットに対しては良い結果をもたらすが、特に一般化可能性が限られていることを考えると、このようなプロンプトを作成するために必要な人的労力は、その利点を上回る可能性がある。

  4. 評価指標の再考: 静的なテストセットだけに頼ると、モデルの真の推論能力を過大評価する可能性がある。

  5. 認識と現実のギャップ 一般的な言説ではしばしば擬人化される)LLMの推論能力の認識と、この研究で実証された実際の能力との間には大きな食い違いがある。

AIプラクティショナーへの提言:

  • 評価だ: 多様なテストフレームワークを導入し、問題の複雑性を超えた真の一般化を評価する。

  • CoTの使い方: チェーン・オブ・ソートのプロンプティングは、一般化には限界があることを認識し、慎重に適用する。

  • ハイブリッド・ソリューション:複雑な推論タスクに対して、LLMと従来のアルゴリズムを組み合わせることを検討する。

  • 透明性: 特に推論や計画タスクについて、AIシステムの限界を明確に伝える。

  • 研究開発フォーカス: AIシステムの真の推論能力を高めるための研究に投資する。

  • 微調整: ドメイン固有の微調整を考慮するが、潜在的な汎化の限界に注意すること。

AI実務者や企業にとって、これらの知見は、LLMの強みを特化した推論アプローチと組み合わせること、必要に応じてドメイン固有のソリューションに投資すること、AIシステムの限界について透明性を維持することの重要性を浮き彫りにしている。今後、AIコミュニティは、パターンマッチングと真のアルゴリズム推論のギャップを埋めることができる新しいアーキテクチャとトレーニング方法の開発に注力しなければならない。

LLMに最適なプロンプティング・テクニック10選

今週は、最も強力で一般的な10のプロンプティング・テクニックも紹介し、その応用とベストプラクティスについて解説する。

適切に設計されたプロンプトは、LLMのパフォーマンスを大幅に向上させ、より正確で適切かつ創造的な出力を可能にします。経験豊富なAI開発者であれ、LLMを始めたばかりであれ、これらのテクニックはAIモデルの可能性を最大限に引き出すのに役立ちます。

それぞれの詳細については、ブログの全文をぜひご覧いただきたい。


AI & YOU』をお読みいただきありがとうございます!

インフォグラフィックス、統計、ハウツーガイド、記事、ビデオなど、エンタープライズAIに関するその他のコンテンツについては、Skim AIをフォローしてください。 LinkedIn

創業者、CEO、ベンチャーキャピタル、投資家の方で、AIアドバイザリー、AI開発、デューデリジェンスのサービスをお探しですか?貴社のAI製品戦略や投資機会について、十分な情報に基づいた意思決定を行うために必要なガイダンスを得ることができます。

企業向けAIソリューションの立ち上げにお困りですか?当社のAIワークフォースマネジメント・プラットフォームを使用して独自のAI労働者を構築することをお考えですか?ご相談ください

ベンチャーキャピタルやプライベートエクイティが支援する以下の業界の企業向けに、カスタムAIソリューションを構築しています:医療テクノロジー、ニュース/コンテンツアグリゲーション、映画/写真制作、教育テクノロジー、リーガルテクノロジー、フィンテック&暗号通貨。

AIソリューションについて話し合おう

    関連記事

    ビジネスを加速させる準備

    ja日本語