AI&YOU #68을 촉발하는 생각의 사슬(CoT)에 대해 다시 생각해야 합니다.
금주의 통계: 제로샷 CoT 성능은 GPT-4-Turbo의 경우 5.55%, Claude-3-Opus의 경우 8.51%, GPT-4의 경우 4.44%에 불과했습니다. ("사려 깊지 못한 연쇄?" 논문)
생각의 연쇄(CoT) 프롬프트는 대규모 언어 모델(LLM)의 추론 능력을 끌어올리는 데 있어 획기적인 기술로 환영받아왔습니다. 하지만 최근 연구에서 이러한 주장에 이의를 제기하며 이 기술을 재검토해야 한다는 주장이 제기되었습니다.
이번 주 AI&YOU에서는 이 주제에 대해 게시한 세 개의 블로그에서 얻은 인사이트를 살펴봅니다:
AI&YOU #68을 촉발하는 생각의 사슬(CoT)에 대해 다시 생각해야 합니다.
LLM은 자연어 처리(NLP) 및 생성 분야에서 놀라운 능력을 보여줍니다. 하지만 복잡한 추론 작업에 직면하면 이러한 모델은 정확하고 신뢰할 수 있는 결과를 도출하는 데 어려움을 겪을 수 있습니다. 바로 이 부분에서 LLM의 문제 해결 능력을 향상시키는 것을 목표로 하는 기술인 연쇄 사고(CoT) 프롬프트가 등장합니다.
고급 프롬프트 엔지니어링 기법을 사용하여 단계별 추론 과정을 통해 LLM을 안내하도록 설계되었습니다. 직접적인 답변을 목표로 하는 표준 프롬프트 방식과 달리 CoT 프롬프트는 모델이 최종 답변에 도달하기 전에 중간 추론 단계를 생성하도록 권장합니다.
CoT 프롬프트의 핵심은 모델에서 논리적인 사고 순서를 이끌어내는 방식으로 입력 프롬프트를 구조화하는 것입니다. CoT는 복잡한 문제를 관리하기 쉬운 작은 단계로 세분화함으로써 LLM이 복잡한 추론 경로를 보다 효과적으로 탐색할 수 있도록 지원합니다.
CoT 작동 방식
CoT 프롬프트의 핵심은 최종 답변에 도달하기 전에 일련의 중간 추론 단계를 통해 언어 모델을 안내하는 것입니다. 이 프로세스에는 일반적으로 다음이 포함됩니다:
문제 분해: 복잡한 작업은 관리하기 쉬운 작은 단계로 세분화됩니다.
단계별 추론: 모델에 각 단계를 명시적으로 생각하라는 메시지가 표시됩니다.
논리적 진행: 각 단계는 이전 단계를 기반으로 하여 생각의 연쇄를 만들어냅니다.
결론 도출: 최종 답은 누적된 추론 단계를 통해 도출됩니다.
CoT 프롬프트의 유형
생각의 연쇄 프롬프트는 다양한 방식으로 구현할 수 있으며, 두 가지 주요 유형이 있습니다:
제로 샷 CoT: 제로 샷 CoT에는 작업별 예제가 필요하지 않습니다. 대신 "단계별로 접근해 봅시다"와 같은 간단한 프롬프트를 사용하여 모델이 추론 과정을 세분화하도록 유도합니다(****).
몇 샷 CoT: 몇 샷 CoT는 모델에 원하는 추론 과정을 보여주는 소수의 예제를 제공하는 것입니다. 이러한 예제는 보이지 않는 새로운 문제를 해결할 때 모델이 따라야 할 템플릿 역할을 합니다.
제로 샷 CoT
몇 샷 CoT
AI 연구 논문 분석: "생각의 연쇄?"
이제 CoT 프롬프트가 무엇인지 알았으니, 이 기능의 장점에 도전하고 실제로 언제 유용한지에 대한 통찰력을 제공하는 최근 연구에 대해 자세히 알아볼 수 있습니다.
이 연구 논문은 "사려 깊지 못한 행동의 연쇄? 기획에서의 CoT 분석,'에서는 CoT 프롬프트의 효과와 일반화 가능성에 대한 비판적인 검토를 제공합니다. AI 실무자는 정교한 추론 능력이 필요한 AI 애플리케이션을 개발할 때 이러한 연구 결과와 그 함의를 이해하는 것이 중요합니다.
연구진은 블록스월드라는 고전적인 계획 영역을 주요 테스트 대상으로 선택했습니다. 블록스월드에서는 일련의 이동 동작을 사용하여 블록 집합을 초기 구성에서 목표 구성으로 재배치하는 작업을 수행합니다. 이 도메인은 추론 및 계획 능력을 테스트하는 데 이상적입니다:
다양한 복잡성을 가진 문제를 생성할 수 있습니다.
명확하고 알고리즘적으로 검증 가능한 솔루션을 제공합니다.
LLM 학습 데이터에 많이 나타나지 않을 가능성이 높습니다.
이 연구에서는 세 가지 최신 LLM을 조사했습니다: GPT-4, Claude-3-Opus, GPT-4-Turbo입니다. 이 모델들은 다양한 특이성을 가진 프롬프트를 사용하여 테스트되었습니다:
제로 샷 생각의 사슬 (유니버설): 프롬프트에 "단계별로 생각해 봅시다"를 추가하기만 하면 됩니다.
진행 증명(PDDL에만 해당): 계획의 정확성에 대한 일반적인 설명을 예시와 함께 제공합니다.
블록월드 범용 알고리즘: 블록월드 문제를 해결하기 위한 일반적인 알고리즘을 시연합니다.
스태킹 프롬프트: 블록월드 문제의 특정 하위 클래스(테이블에서 스택으로)에 집중합니다.
사전 스태킹: 목표 상태의 특정 구문 형식으로 범위를 더 좁힙니다.
연구진은 복잡성이 증가하는 문제에 대해 이러한 프롬프트를 테스트함으로써 LLM이 예시에서 보여준 추론을 얼마나 잘 일반화할 수 있는지 평가하고자 했습니다.
주요 조사 결과 공개
이 연구 결과는 CoT 프롬프트에 대한 많은 일반적인 가정에 도전합니다:
CoT의 제한적인 효과: 이전의 주장과는 달리, CoT 프롬프트는 제공된 예제가 쿼리 문제와 매우 유사한 경우에만 성능이 크게 향상되는 것으로 나타났습니다. 문제가 예제에 표시된 정확한 형식에서 벗어나는 순간 성능이 급격히 떨어졌습니다.
급격한 성능 저하: 문제의 복잡성(관련된 블록의 수로 측정)이 증가함에 따라 사용된 CoT 프롬프트에 관계없이 모든 모델의 정확도가 급격히 감소했습니다. 이는 LLM이 간단한 예제에서 보여준 추론을 더 복잡한 시나리오로 확장하는 데 어려움을 겪고 있음을 시사합니다.
일반 프롬프트의 비효율성: 놀랍게도 일반적인 CoT 프롬프트는 추론 예시가 없는 표준 프롬프트보다 성적이 더 떨어지는 경우가 많았습니다. 이는 CoT가 학습자가 일반화 가능한 문제 해결 전략을 학습하는 데 도움이 된다는 생각과 모순되는 결과입니다.
특이성 트레이드오프: 이 연구에 따르면 매우 구체적인 프롬프트는 높은 정확도를 달성할 수 있지만, 이는 매우 좁은 문제 집합에서만 가능합니다. 이는 성능 향상과 프롬프트의 적용 가능성 사이에 뚜렷한 상충 관계가 있음을 강조합니다.
진정한 알고리즘 학습의 부족: 이 결과는 LLM이 CoT 예제에서 일반적인 알고리즘 절차를 적용하는 방법을 학습하지 않는다는 것을 강력하게 시사합니다. 대신 패턴 매칭에 의존하는 것으로 보이며, 이는 새롭거나 더 복잡한 문제에 직면하면 빠르게 무너집니다.
이러한 연구 결과는 애플리케이션에서 CoT 프롬프트를 활용하고자 하는 AI 전문가와 기업에게 중요한 시사점을 줍니다. CoT가 특정 좁은 시나리오에서는 성능을 향상시킬 수 있지만, 많은 사람들이 기대했던 복잡한 추론 작업에는 만병통치약이 아닐 수 있음을 시사합니다.
AI 개발에 대한 시사점
이 연구 결과는 특히 복잡한 추론이나 계획 능력이 필요한 애플리케이션을 개발하는 기업에서 AI 개발에 중요한 영향을 미칩니다:
CoT 효과 재평가: AI 개발자는 진정한 알고리즘적 사고나 새로운 시나리오에 대한 일반화가 필요한 작업에 CoT에 의존하는 것에 주의해야 합니다.
현재 LLM의 한계: 강력한 계획이나 다단계 문제 해결이 필요한 애플리케이션의 경우 다른 접근 방식이 필요할 수 있습니다.
프롬프트 엔지니어링 비용: 매우 구체적인 CoT 프롬프트는 좁은 문제 세트에 대해 좋은 결과를 얻을 수 있지만, 특히 일반화 가능성이 제한적이라는 점을 고려하면 이러한 프롬프트를 만드는 데 필요한 인적 노력이 이점을 능가할 수 있습니다.
평가 지표 다시 생각하기: 정적 테스트 세트에만 의존하면 모델의 실제 추론 능력을 과대평가할 수 있습니다.
인식과 현실 사이의 간극: 이 연구에서 입증된 바와 같이, 대중적인 담론에서 의인화된 LLM의 인지된 추론 능력과 실제 능력 사이에는 상당한 차이가 있습니다.
AI 실무자를 위한 권장 사항:
평가: 다양한 테스트 프레임워크를 구현하여 문제 복잡성 전반에 걸쳐 진정한 일반화를 평가하세요.
CoT 사용량: 생각의 연쇄 프롬프트는 일반화의 한계를 인식하여 신중하게 적용하세요.
하이브리드 솔루션: 복잡한 추론 작업을 위해 LLM을 기존 알고리즘과 결합하는 것을 고려하세요.
투명성: 특히 추론이나 계획 작업의 경우 AI 시스템의 한계를 명확하게 전달하세요.
R&D 포커스: AI 시스템의 진정한 추론 능력을 향상시키기 위한 연구에 투자하세요.
미세 조정: 도메인별 미세 조정을 고려하되 일반화의 잠재적 한계에 유의하세요.
AI 실무자와 기업에게 이러한 연구 결과는 LLM의 강점을 전문 추론 접근법과 결합하고, 필요한 경우 도메인별 솔루션에 투자하며, AI 시스템의 한계에 대한 투명성을 유지하는 것이 중요하다는 점을 강조합니다. 앞으로 AI 커뮤니티는 패턴 매칭과 진정한 알고리즘 추론 사이의 간극을 메울 수 있는 새로운 아키텍처와 훈련 방법을 개발하는 데 집중해야 합니다.
LLM을 위한 10가지 최고의 프롬프트 기술
이번 주에는 가장 강력하고 일반적인 프롬프트 기법 10가지를 살펴보고, 그 적용 사례와 모범 사례에 대한 인사이트를 제공합니다.
잘 설계된 프롬프트는 LLM의 성능을 크게 향상시켜 보다 정확하고 관련성이 높으며 창의적인 결과물을 얻을 수 있게 해줍니다. 숙련된 AI 개발자이든 이제 막 LLM을 시작한 개발자이든, 이러한 기술은 AI 모델의 잠재력을 최대한 발휘하는 데 도움이 될 것입니다.
각 항목에 대해 자세히 알아보려면 블로그 전문을 확인하시기 바랍니다.
시간을 내어 AI & YOU를 읽어주셔서 감사합니다!
인포그래픽, 통계, 방법 가이드, 기사, 동영상 등 엔터프라이즈 AI에 관한 더 많은 콘텐츠를 보려면 다음에서 Skim AI를 팔로우하세요. LinkedIn
AI 자문, 부분적인 AI 개발 또는 실사 서비스를 찾고 있는 창업자, CEO, 벤처 캐피털리스트 또는 투자자이신가요? 귀사의 AI 제품 전략 및 투자 기회에 대해 정보에 입각한 결정을 내리는 데 필요한 가이드를 받아보세요.
엔터프라이즈 AI 솔루션을 시작하는 데 도움이 필요하신가요? 유니티의 AI 워크포스 관리 플랫폼으로 나만의 AI 워커를 구축하고 싶으신가요? 상담 신청하기
유니티는 다음 산업 분야의 벤처 캐피탈 및 사모펀드 지원 기업을 위한 맞춤형 AI 솔루션을 구축합니다: 의료 기술, 뉴스/콘텐츠 집계, 영화 및 사진 제작, 교육 기술, 법률 기술, 핀테크 및 암호화폐.