전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: rlvr

'rlvr' 태그가 포함된 1개의 포스트

CS336 16강 — 정렬 (2): RLVR와 추론 모델

2026년 06월 26일
llm alignment rlvr reasoning cs336 language-modeling
학습된 보상 대신 정답을 검증하는 보상(RLVR) — 수학·코드에서 규칙 기반 보상으로 reward hacking을 줄이고, 이 단순한 전환이 긴 사고사슬을 스스로 학습하는 추론 모델(o1·DeepSeek R1)과 GRPO를 낳았다.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll