CS336 16강 — 정렬 (2): RLVR와 추론 모델
학습된 보상 대신 정답을 검증하는 보상(RLVR) — 수학·코드에서 규칙 기반 보상으로 reward hacking을 줄이고, 이 단순한 전환이 긴 사고사슬을 스스로 학습하는 추론 모델(o1·DeepSeek R1)과 GRPO를 낳았다.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'reasoning' 태그가 포함된 1개의 포스트