

自己報酬型言語モデル
この論文では、自己報酬言語モデルを紹介します。大規模言語モデルが外部報酬モデルに依存せずに、自らの出力を反復生成、評価、最適化することで、自己整合性とパフォーマンス向上の新たなパラダイムを確立します。

CartaNova
2025/07/07
著者: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston (Meta & NYU) arxiv.org+15arxiv.org+15arxiv.org+15
核心アイデア
従来のRLHFやDPOのような事前学習された静的報酬モデルに依存するのではなく、このアプローチはLLMが自分の出力を評価し、自らに報酬を与えることを可能にする、LLM‑as‑a‑Judgeと呼ばれる反復プロセスを通じて行います。モデルは実質的に、行動者と批評者の両方となり、自己評価と整合のサイクルを経て進化します。
ワークフロー
初期化: 既存の指示追従データ(IFT)およびオプションで報酬ベースの例(EFT)に基づいてファインチューニングされたシードモデルから始めます。
自己指示の作成: モデルは新しいプロンプトと回答を生成し、その後自分の応答を評価して好みのデータセットを構築します。
好みに基づくトレーニング: 直接的な好み最適化(DPO)を使用して、モデルはこれらの自己評価された好みに基づいて再訓練されます。繰り返し→パフォーマンスと報酬理解の改善。
この反復サイクルにより、モデルは出力品質と自らの報酬関数の両方を継続的に洗練させることができますresearchgate.net+8arxiv.org+8arxiv.org+8reddit.com+2arxiv.org+2arxiv.org+2。
結果
三回の自己報酬によるファインチューニングを施したLLaMA 2 70Bは、AlpacaEval 2.0ベンチマークにおいてClaude 2、Gemini Pro、GPT‑4(0613バージョン)などのトップモデルを大幅に上回りましたreddit.com+4arxiv.org+4arxiv.org+4。
モデルが静的な人間ラベルの報酬信号によって課せられた制限を超えることができることを示しています。
重要性
高価な人間の注釈への依存を減らす自己改善フィードバックループを導入しています。
モデルが応答の質に加えて自らの報酬メカニズムを改善することを可能にすることで、超人間エージェントのパフォーマンスへ新たな道を提供します。