태그: alignment

CS336 17강 — 정렬 (3): 정책 경사와 GRPO 직접 구현

2026년 06월 26일

llm alignment reinforcement-learning grpo cs336 language-modeling

RL을 언어 모델에 실제로 돌리는 법 — 정책 경사의 유도, 분산을 줄이는 baseline과 advantage, 그리고 GRPO를 한 줄씩 구현하며 'raw reward로는 왜 안 되는가'를 눈으로 본다. CS336 시리즈의 마지막 강.

2026년 06월 26일

llm alignment rlvr reasoning cs336 language-modeling

학습된 보상 대신 정답을 검증하는 보상(RLVR) — 수학·코드에서 규칙 기반 보상으로 reward hacking을 줄이고, 이 단순한 전환이 긴 사고사슬을 스스로 학습하는 추론 모델(o1·DeepSeek R1)과 GRPO를 낳았다.

2026년 06월 26일

llm alignment rlhf dpo cs336 language-modeling

사전학습된 원석을 어시스턴트로 — SFT로 지시를 따르게 만들고(LIMA·표면적 정렬 가설), 선호 데이터로 보상 모델(Bradley-Terry)을 세워 RLHF(PPO·KL 제약)로 사람 선호에 맞추고, 그 보상 모델마저 없애 버리는 DPO까지.