自己報酬型言語モデル

この論文では、自己報酬言語モデルを紹介します。大規模言語モデルが外部報酬モデルに依存せずに、自らの出力を反復生成、評価、最適化することで、自己整合性とパフォーマンス向上の新たなパラダイムを確立します。

CartaNova

2025/07/07

著者: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston (Meta & NYU) arxiv.org+15arxiv.org+15arxiv.org+15

核心アイデア

従来のRLHFやDPOのような事前学習された静的報酬モデルに依存するのではなく、このアプローチはLLMが自分の出力を評価し、自らに報酬を与えることを可能にする、LLM‑as‑a‑Judgeと呼ばれる反復プロセスを通じて行います。モデルは実質的に、行動者と批評者の両方となり、自己評価と整合のサイクルを経て進化します。

ワークフロー

  1. 初期化: 既存の指示追従データ(IFT)およびオプションで報酬ベースの例(EFT)に基づいてファインチューニングされたシードモデルから始めます。

  2. 自己指示の作成: モデルは新しいプロンプトと回答を生成し、その後自分の応答を評価して好みのデータセットを構築します。

  3. 好みに基づくトレーニング: 直接的な好み最適化(DPO)を使用して、モデルはこれらの自己評価された好みに基づいて再訓練されます。繰り返し→パフォーマンスと報酬理解の改善。

この反復サイクルにより、モデルは出力品質と自らの報酬関数の両方を継続的に洗練させることができますresearchgate.net+8arxiv.org+8arxiv.org+8reddit.com+2arxiv.org+2arxiv.org+2

結果

  • 三回の自己報酬によるファインチューニングを施したLLaMA 2 70Bは、AlpacaEval 2.0ベンチマークにおいてClaude 2、Gemini Pro、GPT‑4(0613バージョン)などのトップモデルを大幅に上回りましたreddit.com+4arxiv.org+4arxiv.org+4

  • モデルが静的な人間ラベルの報酬信号によって課せられた制限を超えることができることを示しています。

重要性

  • 高価な人間の注釈への依存を減らす自己改善フィードバックループを導入しています。

  • モデルが応答の質に加えて自らの報酬メカニズムを改善することを可能にすることで、超人間エージェントのパフォーマンスへ新たな道を提供します。

More Insights

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

最先端 AI モデル数の動向:2028 年までの予測

2023年から2028年にかけての大規模ファンデーションモデルの劇的な成長を予測するデータ駆動型の予測で、EU AI規則のような新たに浮上するAIガバナンスフレームワークの下で、どれだけのモデルがトレーニングコンピュータのしきい値を超えるかを評価しています。

[

PAPER

]

最先端 AI モデル数の動向:2028 年までの予測

2023年から2028年にかけての大規模ファンデーションモデルの劇的な成長を予測するデータ駆動型の予測で、EU AI規則のような新たに浮上するAIガバナンスフレームワークの下で、どれだけのモデルがトレーニングコンピュータのしきい値を超えるかを評価しています。

[

PAPER

]

最先端 AI モデル数の動向:2028 年までの予測

2023年から2028年にかけての大規模ファンデーションモデルの劇的な成長を予測するデータ駆動型の予測で、EU AI規則のような新たに浮上するAIガバナンスフレームワークの下で、どれだけのモデルがトレーニングコンピュータのしきい値を超えるかを評価しています。