태그: grpo

Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

CS336 17강 — 정렬 (3): 정책 경사와 GRPO 직접 구현

2026년 06월 26일

llm alignment reinforcement-learning grpo cs336 language-modeling

RL을 언어 모델에 실제로 돌리는 법 — 정책 경사의 유도, 분산을 줄이는 baseline과 advantage, 그리고 GRPO를 한 줄씩 구현하며 'raw reward로는 왜 안 되는가'를 눈으로 본다. CS336 시리즈의 마지막 강.