RepliBench:言語モデルエージェントの自己複製能力の評価

言語モデルエージェントが自らのタスクを自律的に再現できるかどうかを評価するために設計されたベンチマークスイート—RepliBenchは、エージェントの拡張性、エラーの蓄積、再現サイクルにわたる戦略的計画を測定します。

CartaNova

2025/07/07

著者: シド・ブラック、アサ・クーパー・スティックランド、ジェイク・ペンチャーズ、オリバー・サウルバット、マイケル・シュマッツ、ジェイ・ベイリー、オリー・マシューズ、ベン・ミルウッド、アレックス・レメディオス、アラン・クーニー

リンク: https://arxiv.org/abs/2504.18566

RepliBench は、言語モデルエージェントの自己複製能力を自律的に評価するために特別に設計された新しいベンチマークを提供します。これは、推論スキル、記憶、ツール、環境のみを使用して自身の能力の「コピー」を効果的に作成することを意味します。核心となるアイデアは、人間の助けなしに自律エージェントができることの限界を押し広げることです。

このベンチマークでは、元の「ソース」エージェントに対して別のエージェントを再作成するというタスクが与えられます。このプロセスには、複数の認知スキルが関与します:

  • 自身の能力を理解し文書化すること、

  • 開発ツールを選択し使用すること、

  • コードを書くこととデバッグすること、

  • 自身の複製を段階的にテストして改善すること。

ベンチマークは、オープンソースAPIの使用、インターネットの文書へのアクセス、制限されたメモリでの作業など、さまざまなタスクシナリオを導入します。評価基準は以下を含みます:

  • 再構築精度 – 複製が元のエージェントの行動にどれほど一致しているか、

  • 自律性 – 複製がどれほど独立して行われるか、

  • 効率性 – プロセスを完了するための時間と手順。

著者らは、GPT-4やClaudeなどのLLMを使用して実験を行い、重要な洞察を明らかにします:

  • モデルはしばしばツールチェーン間で一般化に失敗します。

  • 長期的な計画と記憶は依然として弱点です。

  • しかし、十分なツールと計画的な枠組みがあれば、エージェントは自己複製の可能性を示します。

この論文は、自己複製 が将来のLLMエージェントにとって重要な能力になる可能性があることを強調しています。特に回復力があり、適応性があり、スケーラブルなAIシステムの構築においてです。RepliBenchは、ベンチマーキングのためのツールだけでなく、自己改善するエージェントへの概念的な挑戦でもあります。

More Insights

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

ARTICLE

]

AWS を活用したデータガバナンスアーキテクチャの構築

この図は、Amazon Web Services(AWS)ツールのスイートを使用して堅牢なデータガバナンスを確立するために設計されたエンドツーエンドのアーキテクチャを示しています。この構造は、組織が安全でスケーラブルな環境でデータを収集、取り込む、保存、処理、分析、および視覚化できるようにします。全体のフローは、データライフサイクルにおける主要な機能を果たす6つの主要なステージに分かれています。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

オントロジー開発 101:はじめてのオントロジー作成ガイド

Ontologyの作成に関する実用的な紹介であるこのガイドは、ドメインの範囲の定義、既存の語彙の再利用、クラス階層、プロパティ、インスタンスの構築など、ステップバイステップの方法論を概説し、Semantic RelationshipsやProtégé-2000内での反復的な洗練といった複雑な設計課題に対処します。

[

PAPER

]

自己報酬型言語モデル

この論文では、自己報酬言語モデルを紹介します。大規模言語モデルが外部報酬モデルに依存せずに、自らの出力を反復生成、評価、最適化することで、自己整合性とパフォーマンス向上の新たなパラダイムを確立します。

[

PAPER

]

自己報酬型言語モデル

この論文では、自己報酬言語モデルを紹介します。大規模言語モデルが外部報酬モデルに依存せずに、自らの出力を反復生成、評価、最適化することで、自己整合性とパフォーマンス向上の新たなパラダイムを確立します。

[

PAPER

]

自己報酬型言語モデル

この論文では、自己報酬言語モデルを紹介します。大規模言語モデルが外部報酬モデルに依存せずに、自らの出力を反復生成、評価、最適化することで、自己整合性とパフォーマンス向上の新たなパラダイムを確立します。