AI&YOUを促す思考連鎖CoTを再考する必芁がある #68

目次

今週のスタッツ れロショットのCoT性胜は、GPT-4-タヌボが5.55%、クロヌド-3-オヌパスが8.51%、GPT-4が4.44%にずどたった。(思考停止の連鎖

Chain-of-ThoughtCoTプロンプトは、倧芏暡蚀語モデルLLMの掚論胜力を解き攟぀画期的な手法ずしお歓迎されおきた。しかし、最近の研究により、この䞻匵が芆され、私たちはこの手法を芋盎す必芁に迫られおいる。

今週のAI&YOUでは、このトピックに぀いお掲茉した3぀のブログから掞察を探る

AI&YOUを促す思考連鎖CoTを再考する必芁がある #68

LLMは、自然蚀語凊理NLPず生成においお目芚たしい胜力を発揮する。しかし、耇雑な掚論タスクに盎面するず、これらのモデルは正確で信頌できる結果を出すのに苊劎するこずがある。そこで、LLMの問題解決胜力を向䞊させるこずを目的ずした技術である、Chain-of-ThoughtCoTプロンプトが登堎する。

䞊玚者向け 迅速な゚ンゞニアリング CoTプロンプティングは、LLMを段階的な掚論プロセスに導くように蚭蚈されおいる。盎接的な答えを目指す暙準的なプロンプト手法ずは異なり、CoTプロンプトは最終的な答えに到達する前に、䞭間的な掚論ステップを生成するようモデルを促す。

CoTプロンプトの栞心は、モデルから論理的な䞀連の思考を匕き出すように入力プロンプトを構成するこずである。耇雑な問題をより小さく管理しやすいステップに分解するこずで、CoTはLLMが耇雑な掚論経路をより効果的にナビゲヌトできるようにしようずするものである。

CoTの仕組み

CoTプロンプトの栞心は、最終的な答えに到達する前に、䞀連の䞭間掚論ステップを通しお蚀語モデルをガむドするこずである。このプロセスには通垞以䞋が含たれる

  1. 問題の分解 耇雑な仕事を、管理しやすい小さなステップに分解する。

  2. ステップバむステップの掚論 モデルには、各ステップを明瀺的に考えさせる。

  3. 論理的な進行 それぞれのステップが前のステップの䞊に積み重なり、思考の連鎖が生たれる。

  4. 結論 最終的な答えは、積み重ねられた掚論のステップから導き出される。

CoTプロンプティングの皮類

思考連鎖プロンプトはさたざたな方法で実斜するこずができるが、䞻に2぀のタむプが際立っおいる

  1. れロショットCoT れロショットCoTは、タスク固有の䟋を必芁ずしない。その代わりに、「ステップ・バむ・ステップでアプロヌチしおみたしょう」ずいうような簡単なプロンプトを䜿甚しお、モデルが掚論プロセスを分解するように促したす****。

  2. 数発のCoT 数発CoTでは、望たしい掚論プロセスを瀺す少数の䟋をモデルに提䟛する。これらの䟋は、新しい未知の問題に取り組む際に、モデルが埓うべきテンプレヌトの圹割を果たす。

れロショットCoT

数発のCoT

AI研究論文の内蚳"思考停止の連鎖"

CoTプロンプティングが䜕なのかがわかったずころで、その利点に疑問を投げかけ、実際にどのような堎合に有効なのかに぀いお考察した最近の研究を玹介しよう。

ず題された研究論文が発衚された。思考停止の連鎖プランニングにおけるCoTの分析、「は、CoTプロンプトの有効性ず䞀般化可胜性に぀いお批刀的な怜蚌を行っおいる。AIの実践者ずしお、高床な掚論胜力を必芁ずするAIアプリケヌションを開発するためには、これらの知芋ずその意味を理解するこずが極めお重芁である。

研究者たちは、ブロックワヌルドず呌ばれる叀兞的なプランニング領域を䞻なテスト察象ずしお遞んだ。ブロックワヌルドでは、䞀連の移動アクションを䜿っお、ブロックの集合を初期配眮からゎヌル配眮に再配眮するこずがタスクずなる。この領域は、掚論胜力ず蚈画胜力をテストするのに理想的である

  1. 様々な耇雑さの問題を生成するこずができる。

  2. 明確で、アルゎリズム的に怜蚌可胜な解決策がある。

  3. LLMのトレヌニング・デヌタにはあたり含たれおいないず思われる。

この研究では、3぀の最新型LLMを怜蚌したGPT-4、Claude-3-Opus、GPT-4-Turboである。これらのモデルは様々な特異性のプロンプトを甚いおテストされた

  1. れロショット連鎖思考ナニバヌサル プロンプトに「ステップ・バむ・ステップで考えよう」ず付け加えるだけでいい。

  2. 進行の蚌明PDDLに特有 プランの正しさに぀いお、䟋を挙げお䞀般的な説明を行う。

  3. Blocksworldナニバヌサル・アルゎリズム あらゆるBlocksworld問題を解くための䞀般的なアルゎリズムを瀺す。

  4. スタッキング・プロンプト ブロックワヌルド問題の特定のサブクラステヌブル察スタックに焊点を圓おる。

  5. 語圙の積み重ね ゎヌル状態の特定の構文圢匏にさらに絞り蟌む。

研究者たちは、これらのプロンプトを耇雑さを増しおいく問題でテストするこずで、LLMが䟋題で瀺された掚論をどの皋床䞀般化できるかを評䟡するこずを目指した。

䞻な調査結果を発衚

本研究の結果は、CoTプロンプトに関する倚くの䞀般的な仮定を芆すものである

  1. CoTの効果は限定的 これたでの䞻匵ずは異なり、CoTプロンプトは、提䟛された䟋がク゚リ問題ず極めお類䌌しおいる堎合にのみ、倧幅なパフォヌマンス向䞊を瀺した。問題が䟋題に瀺された正確な圢匏から倖れるず、パフォヌマンスは急激に䜎䞋した。

  2. 急速なパフォヌマンス䜎䞋 問題の耇雑さが増すに぀れお関係するブロックの数で枬定、䜿甚されたCoTプロンプトに関係なく、すべおのモデルの粟床が劇的に䜎䞋した。これは、LLMが単玔な䟋で瀺された掚論を、より耇雑なシナリオに拡匵するのに苊劎しおいるこずを瀺唆しおいる。

  3. 䞀般的なプロンプトの無効性 意倖なこずに、より䞀般的なCoTプロンプトは、掚論䟋のない暙準的なプロンプトよりも成瞟が悪いこずが倚かった。これは、CoTがLLMの䞀般化可胜な問題解決ストラテゞヌの孊習に圹立぀ずいう考えず矛盟する。

  4. 特異性のトレヌドオフ この研究では、非垞に具䜓的なプロンプトが高い粟床を達成できるこずがわかったが、それは非垞に狭い問題のサブセットにおいおのみであった。このこずは、パフォヌマンスの向䞊ずプロンプトの適甚可胜性ずの間に鋭いトレヌドオフがあるこずを浮き圫りにしおいる。

  5. 真のアルゎリズム孊習の欠劂 この結果は、LLMがCoTの䟋題から䞀般的なアルゎリズムの適甚方法を孊んでいないこずを匷く瀺唆しおいる。その代わりに、LLMはパタヌンマッチングに頌っおいるようだが、これは新しい問題やより耇雑な問題に盎面するずすぐに砎綻しおしたう。

これらの知芋は、CoTプロンプトをアプリケヌションに掻甚しようずしおいるAIの専門家や䌁業にずっお重芁な意味を持぀。CoTは特定の狭いシナリオではパフォヌマンスを向䞊させるこずができるが、倚くの人が期埅しおいた耇雑な掚論タスクの䞇胜薬にはならない可胜性があるこずを瀺唆しおいる。

AI開発ぞの瀺唆

この研究結果は、AI開発、特に耇雑な掚論や蚈画胜力を必芁ずするアプリケヌションに取り組む䌁業にずっお重芁な意味を持぀

  1. CoTの効果の再評䟡 AI開発者は、真のアルゎリズム的思考や新しいシナリオぞの汎化を必芁ずするタスクでCoTに頌るこずには慎重であるべきだ。

  2. 珟圚のLLMの限界 ロバストなプランニングや倚段階の問題解決を必芁ずするアプリケヌションでは、別のアプロヌチが必芁になるかもしれない。

  3. 迅速な゚ンゞニアリングのコスト 特異性の高いCoTプロンプトは、狭い範囲の問題セットに察しおは良い結果をもたらすが、特に䞀般化可胜性が限られおいるこずを考えるず、このようなプロンプトを䜜成するために必芁な人的劎力は、その利点を䞊回る可胜性がある。

  4. 評䟡指暙の再考 静的なテストセットだけに頌るず、モデルの真の掚論胜力を過倧評䟡する可胜性がある。

  5. 認識ず珟実のギャップ 䞀般的な蚀説ではしばしば擬人化されるLLMの掚論胜力の認識ず、この研究で実蚌された実際の胜力ずの間には倧きな食い違いがある。

AIプラクティショナヌぞの提蚀

  • 評䟡だ 倚様なテストフレヌムワヌクを導入し、問題の耇雑性を超えた真の䞀般化を評䟡する。

  • CoTの䜿い方 チェヌン・オブ・゜ヌトのプロンプティングは、䞀般化には限界があるこずを認識し、慎重に適甚する。

  • ハむブリッド・゜リュヌション:耇雑な掚論タスクに察しお、LLMず埓来のアルゎリズムを組み合わせるこずを怜蚎する。

  • 透明性 特に掚論や蚈画タスクに぀いお、AIシステムの限界を明確に䌝える。

  • 研究開発フォヌカス AIシステムの真の掚論胜力を高めるための研究に投資する。

  • 埮調敎 ドメむン固有の埮調敎を考慮するが、朜圚的な汎化の限界に泚意するこず。

AI実務者や䌁業にずっお、これらの知芋は、LLMの匷みを特化した掚論アプロヌチず組み合わせるこず、必芁に応じおドメむン固有の゜リュヌションに投資するこず、AIシステムの限界に぀いお透明性を維持するこずの重芁性を浮き圫りにしおいる。今埌、AIコミュニティは、パタヌンマッチングず真のアルゎリズム掚論のギャップを埋めるこずができる新しいアヌキテクチャずトレヌニング方法の開発に泚力しなければならない。

LLMに最適なプロンプティング・テクニック10遞

今週は、最も匷力で䞀般的な10のプロンプティング・テクニックも玹介し、その応甚ずベストプラクティスに぀いお解説する。

適切に蚭蚈されたプロンプトは、LLMのパフォヌマンスを倧幅に向䞊させ、より正確で適切か぀創造的な出力を可胜にしたす。経隓豊富なAI開発者であれ、LLMを始めたばかりであれ、これらのテクニックはAIモデルの可胜性を最倧限に匕き出すのに圹立ちたす。

それぞれの詳现に぀いおは、ブログの党文をぜひご芧いただきたい。


AI & YOU』をお読みいただきありがずうございたす

むンフォグラフィックス、統蚈、ハりツヌガむド、蚘事、ビデオなど、゚ンタヌプラむズAIに関するその他のコンテンツに぀いおは、Skim AIをフォロヌしおください。 LinkedIn

創業者、CEO、ベンチャヌキャピタル、投資家の方で、AIアドバむザリヌ、AI開発、デュヌデリゞェンスのサヌビスをお探しですか貎瀟のAI補品戊略や投資機䌚に぀いお、十分な情報に基づいた意思決定を行うために必芁なガむダンスを埗るこずができたす。

䌁業向けAI゜リュヌションの立ち䞊げにお困りですか圓瀟のAIワヌクフォヌスマネゞメント・プラットフォヌムを䜿甚しお独自のAI劎働者を構築するこずをお考えですかご盞談ください

ベンチャヌキャピタルやプラむベヌト゚クむティが支揎する以䞋の業界の䌁業向けに、カスタムAI゜リュヌションを構築しおいたす医療テクノロゞヌ、ニュヌス/コンテンツアグリゲヌション、映画/写真制䜜、教育テクノロゞヌ、リヌガルテクノロゞヌ、フィンテック暗号通貚。

AI゜リュヌションに぀いお話し合おう

    関連蚘事

    ビゞネスを加速させる準備

    ja日本語