

자기 보상 언어 모델
이 논문은 자기 보상 언어 모델(Self-Rewarding Language Models)을 소개합니다. 여기서 대형 언어 모델은 외부 보상 모델에 의존하지 않고 자체 출력을 반복적으로 생성, 평가 및 최적화하여 자기 정렬 및 성능 향상의 새로운 패러다임을 확립합니다.

CartaNova
2025. 7. 7.
저자: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston (Meta & NYU) arxiv.org+15arxiv.org+15arxiv.org+15
핵심 아이디어
전통적인 RLHF 또는 DPO에서와 같이 사전 훈련된 정적 보상 모델에 의존하는 대신, 이 접근 방식은 LLM이 자신의 출력을 평가하고 스스로 보상하는 반복 과정을 통해 LLM‑as‑a‑Judge가 가능하게 합니다. 이 모델은 효과적으로 행위자와 비평가가 되어 자기 평가 및 정렬의 주기를 통해 발전합니다.
워크플로우
초기화: 기존의 지시 사항 따르기 데이터 (IFT) 및 선택적으로 보상 기반 예제 (EFT)를 사용하여 파인 튜닝된 시드 모델로 시작합니다.
자기 지침 생성: 모델이 새로운 프롬프트와 답변을 생성한 다음, 자체 응답을 평가하여 선호 데이터 세트를 구축합니다.
선호 기반 훈련: 직접 선호 최적화 (DPO)를 사용하여, 모델은 이러한 자기 판단한 선호를 기준으로 재훈련됩니다. 반복 → 향상된 성능 및 보상 이해.
이 반복 주기는 모델이 출력 품질과 자체 보상 기능을 지속적으로 개선할 수 있게 해줍니다 researchgate.net+8arxiv.org+8arxiv.org+8reddit.com+2arxiv.org+2arxiv.org+2.
결과
자기 보상을 통해 세 번의 반복으로 LLaMA 2 70B를 파인 튜닝한 결과 Claude 2, Gemini Pro 및 GPT‑4 (0613 버전)와 같은 최고 모델을 AlpacaEval 2.0 벤치마크에서 크게 초월하였습니다 reddit.com+4arxiv.org+4arxiv.org+4.
모델이 정적 인간 레이블의 보상 신호가 부과하는 한계를 초월할 수 있음을 보여줍니다.
의의
비싼 인간 주석에 대한 의존도를 줄이는 자기 개선 피드백 루프를 도입합니다.
모델이 자신의 보상 메커니즘을 개선하면서 응답 품질을 높일 수 있도록 하여 초인적인 에이전트 성능을 향해 나아가는 새로운 경로를 제공합니다.