RLHF (인간 피드백 기반 강화학습)

1. 동기

2. 강화 학습

2.1 강화학습 개괄

2.2 언어모델 적용의 어려움

3. RLHF

3.1 Reward Model

3.2 KL Regularization

3.3 PPO

4. 한계와 대안

4.1 DPO

4.2 GRPO

5. 최근 트렌드

RLHF(Reinforcement Learning from Human Feedback)는 말 그대로,

사람의 피드백에 기반한 강화 학습 기법을 통해

언어모델(Language Model)이 사람의 선호(preference)에 맞는 대답을 하도록 만드는 것이다.

1. 동기

ChatGPT, Claude, Gemini 등을 위시한 언어모델의 본질은 거칠게 말하자면,

다음 단어 예측기라고 할 수 있다.

사전 학습(pretrain)한 데이터를 가지고 단어 간의 출현 빈도와 맥락을 고려하여

다음에 올 확률이 높은 단어를 꽤 정확히 예측하고 이를 조합하여 글을 생성했다고 해보자.

그렇게 생성된 글이 과연 좋은 텍스트라고 할 수 있을까?

예를 들어, 인터넷에서 수집한 데이터를 텍스트를 그대로 사전 학습(pretrain)한 모델은

욕설이나 반사회적인 텍스트를 그대로 뱉어낼 수도 있다.

인터넷 커뮤니티에서는 그러한 데이터가 차고 넘치기 때문이다.

이처럼 RLHF은 학습은 잘했지만 사회성이 다소 떨어질 수 있는 언어모델에게

사회화를 시켜주기 위한 목적으로 도입되었다.^[각주:1]

언어 모델의 사회성이 떨어지는 이유는

애초에 학습 목표에 인간의 호오(好惡)가 포함되어 있지 않기 때문이다.

즉, 언어모델의 손실 함수(Loss function)가 인간의 실제 선호도와 일치하지 않기 때문이다.

그렇다면 그냥 학습 목표에 인간의 선호(preference)를 추가하면 될 일 아닐까?

2. 강화 학습 (Reinforcement Learning)

학습 목표에 인간의 선호를 어떻게 반영할까?

예의 바르고 적절한 대답을 하도록 언어모델을 파인튜닝(Fine-Tuning)하면 될까?

SFT(Supervised Fine-Tuning)는 질문과 그에 대응되는 정답 데이터셋을

추가로 학습시켜 모델이 질문에 대해 정답을 말하게 만드는 기법이다.

하지만 선호에는 "정답"이 없다.

설계자가 답이라 정한 텍스트가 반드시 선호된다고 말할 수 없고,

오답이라고 정의된 대답이 선호되지 않는다고 말할 수는 없다.

선호라는 것은 참으로 복잡미묘하다.

누군가는 언어 모델의 구수한 욕설에 대해

욕쟁이 할머니 국밥집 단골들처럼 친숙함을 느낄 수도 있고

누군가는 언어 모델의 입 바른 말에 불편함을 느낄 수도 있다.

선호에는 정답이 없고, 제각기 다른 선호를 하나로 모을 수는 없다.

그러나 많은 사람들에게 선호되도록 나아가는 것은 가능하다.

어느 대답이 더 나은지에 대해 사람들은 대체로 같은 방향을 가리키기 때문이다.

강화학습은 잘했다는 칭찬(reward)을 통해 모범 답안 없이도

모델이 옳은 방향을 향해 스스로 나아지게 만드는 방식이다.

따라서 모델에게 인간의 선호를 학습시키는데는

지도학습의 단어 맞추기(Next-token prediction) 방식이 아니라,

모델의 응답에 대해 다양한 사람들이 매긴 점수 그 자체를 등불로 삼아,

그곳을 향해 나아가는 강화학습 기법을 사용하는 것이다.

2.1 강화 학습 개괄

강화 학습을 더 엄밀하게 설명하자면,

어떤 환경(enviroment) 안에서 정의된 에이전트(agent)가 현재의 상태(state)를 관찰하여,

선택 가능한 행동(action) 중 보상(reward)을 최대화하는 행동들을 선택하는 방법이라 할 수 있다.

이때, "굼바가 접근하면 점프를 해서 피한다"와 같이

에이전트가 어떤 상태에서 어떤 행동을 취할 것인지에 대한 행동 전략을 정책(policy)이라 한다.

지도학습에서 인풋과 아웃풋을 연결하는 함수가 존재하듯,

강화학습에서는 정책이 '환경의 상태'와 '에이전트의 행동'을

짝 지어주는(Mapping) 함수로서의 역할을 수행한다.

여기서 생각해봐야 할 것은 매 상태에서 항상 보상이 따르는 것 아니라는 점(Delayed Reward)이다.

"버섯을 향해 이동한다"와 같이 보상을 얻기위한 빌드업이 필요할 수도 있다.

심지어는 더 큰 보상을 얻기 위해 마이너스의 보상을 감내해야 할 수도 있다.

즉, 에이전트는 단순히 당장의 보상을 얻기 위해 급급한 것이 아니라,

앞으로 얻을 수 있는 보상의 총량을 최대한 크게 만드는 것을 목표로 행동해야 한다.

에이전트는 미래의 경우의 수를 고려해,

특정 상태로 이동했을 때 앞으로 얻을 수 있는 보상의 총합을 계산할 수 있다.

이를 가치 함수(value function)라고 하며, 에이전트가 정책을 선택하는 기준이 된다.

가치함수의 수식은 아래와 같다.

R_t+1는 각 단계의 상태에서 얻을 수 있는 보상을 의미한다.

γ는 미래에 받을 수 있는 보상에 대한 할인율(discount rate)를 의미한다.

똑같은 백만원을 준다면, 지금 당장 받는 것이 한 달 뒤에 받는 것보다는 더 좋듯이

같은 값이라면 미래 보상이 현재 보상보다 가치가 작음을 표현한다.

v_π(s)는 특정 정책을 따랐을 때 받을 수 있는

보상의 현재 가치를 의미하며, 이를 가치(value)라고 한다.

강화학습의 목표는 매번 주어지는 보상들들을 모아서

자신의 장기적인 가치를 최대화하는 최적 정책 π*을 찾는 것이다.

지도학습 모델이 손실을 최소화하는 방향으로 학습하듯,

강화학습 모델은 가치를 최대화하는 방향으로 학습을 진행한다.

2.2 언어 모델 적용의 어려움

전통적인 강화학습 기법을 언어 모델 훈련에 그대로 적용하는데는 여러가지 난관이 있다.

① '좋은 텍스트'가 도대체 뭔데?

상술한 슈퍼마리오 예시에서는 애초에 보상을 명확하게 숫자로 정할 수 있었다.

그러나 현실 세계에서 '친절함', '유머러스함' 등을 정확하게 숫자로 변환해주는 명확한 방법은 없다.

② 가능한 행동의 수 = 세상의 모든 단어

슈퍼마리오 예시에서는 매 상태에서 가능한 행동이 7개 남짓에 불과했다.

반면 언어 모델의 경우, 보통 5만개 정도되는 사전(vocabulary) 속 단어(token)가

매 스텝마다 선택해야할 행동이 된다.

전통적인 강화학습에서 모든 경우의 수를 계산할 수 없는 복잡한 환경에 있을 때는

지금까지 해보지 않은 새로운 행동을 시도하며 더 나은 길을 찾는

'탐색(Exploration)' 과정이 필수적이다.

탐색은 보통 무작위 행동을 취해보는 방식으로 진행한다.

그런데 언어모델의 경우 5만 개의 단어 중 아무거나 무작위로 뽑아서 문장에 섞어버리면,

새로운 전략이 나오는 게 아니라 거의 확실하게 문법이 파괴된 헛소리가 만들어질 것이다.

③ 도대체 범인이 누구야? : 신용 할당 문제(Credit Assignment Problem)

강화학습은 행동 직후에 보상이 주어져야 학습이 원활하게 이뤄진다.

그러나 언어 모델의 답변을 평가할 때는 수백개의 토큰을 뱉은 후에야 보상이 주어진다.

중간에 생성된 토큰은 어떠한 피드백도 받을 수 없으며,

최종 보상이 나빠도 그것이 어떤 토큰 때문인지 명확히 알 수가 없다.

3. RLHF

RLHF가 상술한 난관을 어떻게 돌파했는지 알아보기에 앞서서

언어 모델에 강화 학습 프레임워크가 어떻게 적용되는지 먼저 짚고 넘어가겠다.

'환경' 속에서 훈련을 받고 '정책'을 업데이트해 나가는 주체인 '에이전트'는 언어 모델 그 자체가 된다.

'상태'는 프롬프트와 지금까지 생성된 텍스트가 해당된다.

'행동'은 다음에 올 토큰 하나를 수만개의 어휘(vocabulary) 중에서 고르는 것이다.

'정책'은 다음 단어가 생성될 확률 분포(distribution)가 된다.

그렇다면 '보상'은 어떻게 줄 수 있을까?

3.1 Reward Model

언어 모델에게 어떻게 보상(reward)을 줄 지에 대한 RLHF의 솔루션을

매우 거칠게 요약하면 인간 지능을 활용한 머슴 러닝이라고 할 수 있다.

머슴들을 고용하여 언어 모델의 답변에 인간이 직접 피드백을 주는 것이다.

물론, 모델을 학습시킬 때마다 사람들을 고용해서 쓰면 인건비가 엄청날 테니

머슴들이 언어 모델의 답변을 평가한

선호도 데이터셋(preference dataset)을 구축하여

언어 모델들에게 보상을 제공할 언어 모델인

리워드 모델(reward model)을 새로 훈련시키는데 그 목적이 있다.

리워드 모델을 학습시키는 절차는 다음과 같다.

1단계 : 답변하는 법을 좀 배운(SFT) 모델을 준비한다.
2단계 : 하나의 프롬프트(prompt)을 주고, 모델이 다양한 답변을 생성하게 한다.
3단계 : 라벨러는 프롬프트와 답변들을 보고, 답변들을 비교해 순위(ranking)를 매긴다.
4단계 : '프롬프트 + 답변들 + 인간의 순위 평가'를 하나의 세트로 만들어 리워드 모델^[각주:2]을 훈련시킨다.

SFT가 완료된 모델을 대상으로 강화학습을 시키는 이유는

에이전트의 행동 공간(Action Space)를 '세상의 모든 단어'에서 줄이기 위함이다.

아무런 사전 학습 없이 5만 여개의 토큰이라는 광활한 선택지를 주고 강화학습을 시작하면

의미 있는 보상 신호를 받기까지 너무 오랜 탐색이 필요하다.

SFT를 통해 '뒤에 올 법한 단어'로 행동을 먼저 한정해두면

강화학습이 합리적인 출발점에서 탐색을 시작할 수 있게 된다.

또한 눈여겨봐야 할 포인트는 사람마다 제각기 다른 선호를 어떻게 수치화했는가이다.

해답은 바로 '절대 점수'가 아닌, 순위라는 '상대 점수'에 있다.

답변 하나만 덜렁 보여주고 "100점 만점에 몇 점인가?"를 묻는다면

그 점수는 천차만별일 것이다.

하지만 비교 대상을 나란히 두고 "무엇이 더 나은가?"를 묻는다면

사람들의 평가는 대체로 비슷하게 된다.^[각주:3]

순위 데이터를 리워드 모델에 학습시킬 때는

우선 Transformer에서 뚜껑(Language Modeling Head)을 따서

토큰을 출력하는게 아니라

입력으로 받은 답변에 대한 평가를 하나의 숫자(scalar)로 출력하도록 개조한다.

이때, 숫자의 값의 범위는 정해져 있지 않다. 절대적인 수치가 중요한 것이 아니라,

더 좋은 답변에 더 높은 숫자를 주어 '간격'을 벌리는게 중요하기 때문이다

구체적으로 예시를 들면 다음과 같다.

라벨러가 '답변 A를 답변 B보다 선호'한다고 응답한 상황
- 리워드 모델이 A에 5점, B에 3점을 줌 → Loss 감소
- 리워드 모델이 A에 3점, B에 5점을 줌 → Loss 증가

위와 같은 절차를 거쳐 학습이 완료된 리워드 모델은

다른 언어 모델의 답변을 평가하고 보상을 결정하는 역할로

강화 학습 과정에서 요긴하게 활용된다.

3.1.1 Reward hacking

리워드 모델을 통해서 그대로 강화 학습을 진행하면 만사 OK일까?

안타깝게도 리워드 모델은 인간의 선호를 흉내내서 결과를 근사할 뿐,

그 선호의 저변에 숨겨진 인간의 마음을 파악하지는 않는다.

따라서 언어 모델이 리워드 모델을 속여서 훈련 의도와 다르게

보상을 탈탈 털어버리는 꼼수가 통한다.

이를 리워드 해킹(Reward Hacking)이라고 한다.

쓰레기를 넣어주면 무게에 따라 땅콩을 배출하는 기계를 만들어놨더니

영리한 까마귀가 쓰레기가 아니라 근처에 있는 무거운 돌을 넣어서

땅콩을 털어갔다는 '까마귀 자판기' 사례와 본질적으로 비슷하다.

RLHF 과정에서의 리워드 해킹은 현재진행형인 문제 현상이다.

최근 OpenAI가 "Where the goblins came from"라는 글을 통해 해명한

ChatGPT의 고블린(goblin) 사태가 이를 방증한다.

GPT-5.1 출시 뒤 ChatGPT에서 고블린이라는 어휘 사용은 무려 175%가 늘어났고,

전혀 관련 없는 답변에서까지 고블린을 갖다 붙이는 문제가 있었다.

원인은 OpenAI가 설계한 성격(persona) 옵션인 'Nerdy'의 보상 시그널 문제였다.

Nerdy 성격의 시스템 프롬프트에는 다음과 같은 글귀가 있었다.

undercut pretension through playful use of language

라벨러들이 이 애매한 기준에서 라벨링을 하다보니

판타지 생물 비유가 들어간 답변에 높은 점수를 주는 경향을 형성했고

리워드 모델은 이 패턴을 그대로 학습했다.

물론 Actor 모델은 이를 눈치채고 답변에 고블린 같은 어휘를 끼워 넣는 방식으로

RLHF 과정에서 리워드 모델을 탈탈 털어버리면서 이런 사태가 벌어진 것이다.

이 사례는 강화학습 단계에서 리워드 해킹을 막기 위한

정교한 안전장치의 필요성을 보여준다.

3.2 KL Regularization

고블린 사태와 같은 리워드 모델의 결함을 막는 것은 여전히 난제이지만,

적어도 언어 모델이 완전히 엇나가 버리는 것을 예방하는 것은 어느 정도 가능하다.

병리현상 하나를 가정해보자.

예컨대, 고블린이라는 말을 쓰지 않으면 리워드를 주도록 강화학습을 설계했더니

언어 모델이 고블린을 언급할 여지를 원천 차단하기 위해

단답으로만 말하는 극단적인 사례를 생각할 수 있다.

이처럼 리워드를 쫓다가 본래의 기능을 잃어버리는

주객전도를 막기 위해 등장한 것이 바로 KL Regularization이다.

KL 다이버전스(Kullback-Leibler Divergence)는 한마디로

확률 분포들의 생김새가 얼마나 다르게 생겼는지를 나타내는 지표이다.

강화학습을 하기 전의 언어 모델(Reference)이 형성하는 확률분포와

강화학습을 통해 파라미터를 업데이트하는 모델(Actor)이 형성하는 확률분포를 비교해서

그 둘이 얼마나 달라졌는지를 나타내는 KL 다이버전스가 리워드 해킹의 지표로 활용될 수 있다.

예컨대, 원래의 언어 모델(Reference)과

고블린을 말하지 않기 위해 단답으로만 답하는 모델(Actor)에서

각 토큰이 출현하는 빈도는 확연히 차이가 날 것이다.^[각주:4]

따라서 두 언어 모델의 KL 다이버전스 값은 크게 나올 것이다.

따라서 KL 다이버전스를 학습의 목표가 되는 목적함수(Objective function)에서

제약항(penalty term)으로 두면 언어 모델이 보상에 과몰입하는 것을 억제할 수 있다.
이것이 KL Regularization의 핵심 아이디어다.

그렇다면 강화학습의 목적함수(Objective function)로써

Expected return을 아래와 같이 표현할 수 있다.

3.3 PPO (Proximal Policy Optimization)

3.3.1 기존 최적화의 한계

지도학습에서 Loss function에 대한 Gradient descent를 통해

Loss를 최소화하는 파라미터 값을 찾는다.

이와 비슷하게

강화학습에서는 Objective function에 대한 Greadeint ascent를 통해

Expected return을 최대화하는 파라미터 값을 찾는다.

지도학습의 Loss function들은 고정된 데이터 분포 위에서 계산된다.

게다가 본질적으로 예측 오차인 Loss를 줄여야 되는 목표의 성질상

Loss가 폭발적으로 커질 유인이 상대적으로 적다.

따라서 경사를 따라 내려가다 보면 자연스럽게 최솟값 근처에서 수렴할 가능성이 크다.

반면 강화학습의 Objective function은 노이즈가 크다.

예측과 정답의 차이로서 수치화되기 용이한 Loss와 달리

리워드는 정책 변화에 따라서 분포 자체가 시시각각 변하기 때문이다.

지형도 울퉁불퉁한데, 매 걸음걸음마다 지형 자체가 변하는 모래사막에 가깝다.

여기에 더해 리턴을 극대화해야 하는 목표의 성질상

우연히 큰 보상을 받은 행동이 관측되면,

모델이 그 방향으로 급발진할 가능성도 더 커진다.

그래서 단순한 경사상승법인 Policy Gradient를 통해

경사를 타고 올라가다보면 최적점을 지나쳐버리는 오버슈팅이 발생하기 쉽다.

에이전트가 큰 보상을 받은 방향으로 적당히를 모르고 뇌절을 하다가

이후 보상이 급감하는 내리막길을 타고 내려가며 지능이 퇴화해버리는 것이다.

3.3.1 Clipping

근접 정책 최적화(PPO)는 이 문제를 해결하기 위해 등장했다.

근접(Proximal)이라는 용어에 이 방법론의 핵심이 담겨 있다.

가치(value)가 상승하는 방향으로 파라미터를 업데이트하되

한 번에 너무 큰 걸음을 내딛으며 급발진하지 않도록 업데이트 범위를 제한하는 것이다.

구체적으로는 업데이트 폭이 너무 크면 이를 강제로 잘라내(clip)

한 스텝에서 정책이 급격히 변하는 것을 막는다.

이는 지도학습에서 gradient clipping으로 학습을 안정시키는 것과 같은 맥락이다.

3.3.2 Value Model

앞서 우리는 강화학습을 언어 모델에 적용하는데 있어서 어려움 중 하나로

'신용 할당 문제(Credit Assignment)'를 꼽았다.

수백 개의 토큰를 뱉은 뒤에야 최종 점수를 받으니

어떤 토큰 때문에 점수를 땄는지, 잃었는지 모른다는 문제였다.

이를 해결하기 위해 PPO는

가치 모델(Value Model, Critic)이라는 과외쌤을 따로 붙여

토큰을 뱉어 내는 매 시점마다 피드백을 주고

해당 피드백을 바탕으로 최종 보상이 주어졌을 때

어떤 토큰이 결과를 망친 범인인지 색출하기 쉽게 하였다.

딥러닝의 역전파(back propagation)와 비스무레한데, 구체적인 메커니즘은 다음과 같다.

1. 언어모델이 토큰을 생성하는 매 시점마다 가치 모델이 가치 함수를 통해 기대값을 추정함
2. 문장이 끝나면 리워드 모델이 보상을 줌
3. 각 토큰 시점마다 '현재 시점의 기대값과 앞 시점의 기대값의 차이(advantage)'를 계산함
※ 마지막 토큰은 앞 시점이 없으므로 최종 보상과 기대값의 차이를 계산함
4. 위에서 구한 advantage를 통해, 잘한 토큰에게는 공로를 치하하고 범인에게는 벌을 줌

중간 토큰들이 보상에 의한 피드백를 직접적으로 받는 것은 아니지만

기대값을 통한 간접적인 피드백을 받도록 하였고,

적어도 매 토큰 생성 시점마다 즉각적인 평가가 가능해지면서,

신용 할당 문제를 완화하고 학습의 안정성을 높일 수 있다.

4. 한계와 대안

정신을 차리고 보니 강화 학습 과정에서 졸지에 거대 언어 모델 4개를 동시에 돌리게 되었다.

① 학습 중인 언어모델 (Actor)

② 가치함수 추정 모델 (Critic)

③ 리워드 모델

④ KL 계산용 레퍼런스 모델

딱 봐도 웅장한 컴퓨팅 파워가 필요한 것 같은 느낌이 들지 않는가?

리워드 모델과 레퍼런스 모델은 파라미터를 동결(frozen)하니 그렇다 쳐도

나머지 2개의 모델을 각각 학습시키되,

하나라도 엇나가지 않게 학습 과정을 관리해야한다.

사실 이것도 리워드 모델과 레퍼런스 모델이 학습이 제대로 됐다는게 전제다.

학습 안정성이 떨어질 수 밖에 없는 것이다.

Objective function에 노이즈가 큰 특성에 말미암아

하이퍼파라미터^[각주:5]를 조금만 건드려도 결과가 크게 달라지기 때문에 튜닝도 까다롭다.

학습 과정에서 벌어지는 디지털 서커스의 난이도를 줄이고자

등장한 대안들의 키워드는 한마디로 다이어트다.

모델 수를 줄이고, 학습 과정을 단순화하는 방향으로 PPO를 대체하려는 시도들이 이어졌다.

4.1 DPO (Direct Preference Optimization)

리워드 모델, Critic 모델 쳐내!

PPO는 머슴들을 통해 preference data를 만들고,

이를 통해 리워드 모델을 학습시키고,

리워드 모델로 강화 학습을 진행한다.

반면, DPO는 중간 상인인 리워드 모델을 없애고

학습의 당사자인 언어 모델(Actor)이

직접 preference data를 학습하도록 유통구조를 개선하였다.

이것이 가능했던 이유는 사실 강화학습이 아니라 지도학습의 방식만으로도

RLHF의 목적함수를 최적화할 수 있다는 사실을 수학적으로 증명했기 때문이다.

DPO 논문(Rafael Rafailov et al., 2023)의 요지는

preference data를 직접 학습한 언어 모델(Actor)이

특정 응답의 확률을 레퍼런스 모델 대비해서 얼마나 더 올렸는지를 보면

그 차이가 리워드 모델이 계산하는 값과 똑같다는 것이었다.

이 놀라운 발견 덕분에 DPO가 출범하고

몇몇 강화 학습 도매시장은 시설 폐쇄를 맞이하였다.

그곳에서 장사를 하던 도매업자인 리워드 모델도,

리워드를 예측하는 가치 모델(Critic)도 실업자가 되었다.

언어 모델의 훈련에 강화 학습의 방식을 억지로 우겨넣어서 발생하던

리워드 해킹이나 학습 불안정성 같은 부작용은 DPO에서 크게 완화되었다.

하지만 대가도 분명했다.

DPO에서는 모델이 오직 수집된 preference data만을 바탕으로 학습한다.
모델이 스스로 답변을 생성하고, 그에 대한 피드백으로 모델의 답변 성향를 재조정하는
능동적인(on-policy) 과정이 사라졌다.

학습이 정적(off-policy)이게 되었고,
데이터의 품질(quality)과 편향(bais)이 직접적으로 모델에 전이되기 시작했다.

학습 데이터에 대한 의존성이 명징해진 것이다.

중간 상인인 리워드 모델 등이 있던 때에는

산지에서 불량품이 오면 적당히 폐기를 하든지 대처를 했는데

산지직송으로 물건을 받게 되면서 소비자가 직접 위험에 노출되었다.

또한, PPO에서는 모델이 스스로 생성한 샘플도 학습에 활용되었기 때문에
답변 성향을 능동적으로 탐색하고 조정하는 여지가 있었지만,
DPO에서는 그 여지가 상대적으로 제한된다.

비유컨대 PPO 시절에는 중간 상인들이 독특한 상품도 만들면서

소비자의 다양한 기호를 반영할 수 있었다.

하지만 DPO 도입을 통해 중간 상인들이 사라지고 산지직송 체계가 되자,

상품의 개성은 오롯이 원재료에서만 결정되고 시장 반응을 보며 조율할 여지는 줄어든 것이다.

정리하자면, PPO는 너무 자유분방해서 불안정했고

DPO는 너무 보수적이라서 데이터 의존성이 커졌다.

4.2 GRPO (Group Relative Policy Optimization)

..리워드 모델은 다시 들어와

딥시크(Deepseek)에서 대규모 LLM RLHF 학습에서

리워드 모델 없이도 안정적으로 정책을 업데이트하는 방법으로 채택하면서 널리 알려진 방식이다.

GRPO는 소비자의 다양한 수요에 대응하기 위해

폐쇄했던 강화 학습 루프를 재개장하되, 리워드 모델만 영업을 하게 하고

리워드 모델의 짝꿍이라 여겨지던 가치 모델(Critic)은 쳐내는 방식을 도입한다.

가치 모델을 실업자로 만들려면

가치 함수 없이도 advantage^[각주:6]를 측정할 수 있어야 한다.

사실 Critic model이 리워드 모델 옆에서 호의호식할 수 있었던 데는

강화학습 원리주의자들 사이에서

가치 함수가 없으면 Policy Gradient가 불안정해진다는 것을

금과옥조처럼 여겼기 때문이다.

정책에 따라 지형이 시시각각 변하는 모래사막과도 같은 gradient landscape에서

가치함수는 학습의 방향을 잃지 않게 해주는 북극성과 같은 기준점이 되어주었다.

하지만 GRPO는 굳이 Critic model이라는 비싼 비용을 치르지 않고도

제대로된 기준(baseline)을 잡기만 하면 Policy Gradient를 안정시킬 수 있다는 것을 입증했다.

구체적으로, GRPO는 advantage를 새로 정의함으로써 가치 함수를 과감히 축출했다.

1. 같은 프롬프트에서 나온 여러 응답들을 그룹화한다.
2. 이 응답들이 얻은 리워드의 평균을 계산한다.
3. 각 응답들이 평균 대비 얻은 리워드를 advantage로 정의한다.

PPO에서 advantage는

"이 행동이 미래 리워드의 기대값을 얼마나 증가시켰는가"를 의미했다.

그러나 언어 모델에서는 토큰 단위의 미래 리워드 기대값을 정밀하게 추정하는 것이
오히려 불안정성과 학습 비용을 키우는 원인이 되었다.

따라서 GRPO는 "같은 프롬프트에서 생성된 응답 중,

이 응답이 평균보다 얼마나 더 선호되는가"로 초점을 옮긴 것이다.

이를 통해 GRPO는 리워드 모델이 트롤링을 해서

가끔 튀는 값을 뱉어도 병먹금을 시전할 수 있게 되었다.

리워드의 평균치를 사용하므로 리워드 모델이 어쩌다가 실수를 하더라도

그룹원들의 나머지 리워드가 노이즈를 어느 정도 상쇄시켜주는 것이다.

또한 리워드의 절대적인 크기가 아니라

그룹 평균과 대비한 상대적인 값을 advantage로 하므로

리워드의 스케일에도 영향을 받지 않는 등

리워드 수치 자체에 대한 의존성이 줄어드는 장점도 있다.

정리하자면, 강화 학습을 장점을 기용하되 PPO처럼 무겁지 않고

그렇다고 DPO처럼 너무 경직되지 않은 타협점으로써

GRPO가 혜성처럼 등장한 것이다.

실제로 GRPO는 수학, 코딩 등 답이 명확한 논리적 추론 모델에서 성과를 내고있다.

추론은 삼단 논법과 같이 단계별로 사고(Chain of Thought)를 이어가야 한다.

그런데 수많은 단계가 얽힌 복잡한 추론 과정에서,

Critic model은 현 단계가 최종 정답에 기여할지를 예측하는데 실패하기 쉽다.^[각주:7]

어줍잖게 개입했다가 엉뚱한 예측으로 전체 추론 과정을 망가뜨릴 수 있는 것이다.

반면 GRPO는 추론이 진행되는 중간에 개입하지 않는다.

그룹원들이 최종 답안을 내놓면 이를 정답과 비교하여

정답을 맞춘 구성원을 칭찬하고, 못맞춘 구성원을 조질 뿐이다.

모델은 이 과정을 반복하며 정답을 도출하는데 필요한 논리적 단계를 강화한다.

물론, GRPO가 장점만 있는 것이 아니다.

한계는 명확하다. 세상에 공짜는 없기 때문이다.

GRPO는 Critic 모델이 차지하던 메모리 공간을 막대한 연산량으로 대체한 것이나 진배없다.

Advantage를 계산하기 위해 하나의 프롬프트에 대해

최소 수십 개의 응답을 병렬로 생성(Rollout)해야 하기 때문이다.

또한 GRPO는 언어 모델(Actor)의 기초 체력에 대한 믿음을 전제로 한다.

모델이 너무 멍청해서 그룹원들의 대답 수준이 처참하면

그 결과인 평균치는 집단지성이 아니라 집단사고에 불과할 것이다.

따라서 밑바닥(scratch)부터 학습하는 초기 단계에서는

GRPO를 적용하기 앞서 모델을 정답 근처에라도 데려다주기 위한 훈련이 선행되어야 한다.

5. 최근 트렌드

너무 무겁다는 단점이 명확하지만 PPO가 가장 정석으로서 활용되고 있다.

PPO의 위치는 '돈 값을 하지만, 너무 비싸고 어려운 하이엔드 기법' 정도인 것 같다.

물론 LoRA를 활용한던지 PPO를 보완하거나 대체하려는 시도는 꾸준히 이뤄지고 있다.

첫째는 DPO 계열로 강화학습의 자체의 복잡성을 제거하고 가성비를 챙기려는 사조이다.

SimPO (Simple Preference Optimization)	레퍼런스 모델도 없애서 DPO보다 더 가볍게 만듦
ORPO (Odds Ratio Preference Optimization)	SFT와 DPO를 한번에 해버림
Online DPO	DPO의 방식에 실시간 환경 피드백을 섞음

둘째는 DeepSeek-R1(2025)과 같이 강화학습(GRPO)을 다시 도입하되,

그 구조를 효율적으로 재설계하여 모델의 추론 능력을 극대화하려는 사조이다.

이 흐름의 중심에는 '무거운 Critic 모델을 어떻게 배제하고

효율적인 보상 기준을 만들 것인가'라는 공통된 고민이 녹아 있다.

Test-time Compute 강화	모델이 답변을 낼 때 스스로 생각할 시간(CoT, Chain of Thought)을 주어 성능을 극대화
Verifier	코딩이나 수학 문제처럼 답이 명확한 경우 별도의 Rule-based Verifier를 통해 보상을 명확히 부여

#. 다음 글을 참고하였습니다.

1. 웹

- Illustrating Reinforcement Learning from Human Feedback (Huggingface, 2022) link

- Where the goblins came from (Open AI, 2026) link

2. 논문

- Deep Reinforcement Learning from Human Preferences (Christiano et al., 2017)

- Learning to summarize from human feedback (Stiennon et al., 2020)

- Training language models to follow instructions with human feedback(Ouyang et al., 2022)

- Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022)

- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Yuntao Bai et al., 2022)

- A Survey of Reinforcement Learning from Human Feedback (Kaufmann et al., 2023)

- Direct Preference Optimization : Your Language Model is Secretly a Reward Model (Rafailov et al., 2023)

- Group Robust Preference Optimization in Reward‑free RLHF (Deng et al., 2024)

- DeepSeekMath：Pushing the Limits of Mathematical Reasoning in Open Language Models (Zhihong Shao et al., 2024)

- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)

이를 유식한 말로 모델 정렬(model Alignment)이라 한다. [본문으로]
리워드 모델링에 사용되는 언어 모델(LM)은 기존의 파인튜닝된 LM일 수도 있고, 선호도 데이터(preference data)를 기반으로 처음부터 학습된 LM일 수도 있다. [본문으로]
실제로 InstructGPT 논문(Ouyang et al., 2022)에서 라벨러가 매긴 순위를 통해 1:1 비교를 도출한 결과, 동일한 비교에 대해 라벨러들 간 선호도가 일치한 비율(Inter-annotator agreement)은 약 73% 수준이었다. [본문으로]
후자는 단답으로만 말할테니 종결 어미의 사용비율이 훨씬 높을 것이다. [본문으로]
학습률(learning rate), KL penalty에 대한 계수, clipping에 대한 비율 등 [본문으로]
토큰별 리워드의 기대값 변화량 [본문으로]
Credit Assignment Problem [본문으로]

'테크 > AI' 카테고리의 다른 글

LLM 스터디 기초이론 자료 (0)	2026.03.18
Residual Connection (잔차 연결) (0)	2026.01.19
Layer Normalization (레이어 정규화) (0)	2026.01.19
딥러닝 기초용어 ④ (0)	2025.12.28
딥러닝 기초용어 ③ (0)	2025.12.28

Hannya

RLHF (인간 피드백 기반 강화학습)

1. 동기

2. 강화 학습 (Reinforcement Learning)

2.1 강화 학습 개괄

2.2 언어 모델 적용의 어려움

3. RLHF

3.1 Reward Model

3.1.1 Reward hacking

3.2 KL Regularization

3.3 PPO (Proximal Policy Optimization)

3.3.1 기존 최적화의 한계

3.3.1 Clipping

3.3.2 Value Model

4. 한계와 대안

4.1 DPO (Direct Preference Optimization)

4.2 GRPO (Group Relative Policy Optimization)

5. 최근 트렌드

#. 다음 글을 참고하였습니다.

'테크 > AI' 카테고리의 다른 글

티스토리툴바

RLHF (인간 피드백 기반 강화학습)

1. 동기

2. 강화 학습 (Reinforcement Learning)

2.1 강화 학습 개괄

2.2 언어 모델 적용의 어려움

3. RLHF

3.1 Reward Model

3.1.1 Reward hacking

3.2 KL Regularization

3.3 PPO (Proximal Policy Optimization)

3.3.1 기존 최적화의 한계

3.3.1 Clipping

3.3.2 Value Model

4. 한계와 대안

4.1 DPO (Direct Preference Optimization)

4.2 GRPO (Group Relative Policy Optimization)

5. 최근 트렌드

#. 다음 글을 참고하였습니다.

'테크 > AI' 카테고리의 다른 글

관련글

티스토리툴바