CS336 17강 — 정렬 (3): 정책 경사와 GRPO 직접 구현
RL을 언어 모델에 실제로 돌리는 법 — 정책 경사의 유도, 분산을 줄이는 baseline과 advantage, 그리고 GRPO를 한 줄씩 구현하며 'raw reward로는 왜 안 되는가'를 눈으로 본다. CS336 시리즈의 마지막 강.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'grpo' 태그가 포함된 1개의 포스트