전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: alignment

'alignment' 태그가 포함된 3개의 포스트

CS336 17강 — 정렬 (3): 정책 경사와 GRPO 직접 구현

2026년 06월 26일
llm alignment reinforcement-learning grpo cs336 language-modeling
RL을 언어 모델에 실제로 돌리는 법 — 정책 경사의 유도, 분산을 줄이는 baseline과 advantage, 그리고 GRPO를 한 줄씩 구현하며 'raw reward로는 왜 안 되는가'를 눈으로 본다. CS336 시리즈의 마지막 강.

CS336 16강 — 정렬 (2): RLVR와 추론 모델

2026년 06월 26일
llm alignment rlvr reasoning cs336 language-modeling
학습된 보상 대신 정답을 검증하는 보상(RLVR) — 수학·코드에서 규칙 기반 보상으로 reward hacking을 줄이고, 이 단순한 전환이 긴 사고사슬을 스스로 학습하는 추론 모델(o1·DeepSeek R1)과 GRPO를 낳았다.

CS336 15강 — 정렬 (1): SFT와 RLHF

2026년 06월 26일
llm alignment rlhf dpo cs336 language-modeling
사전학습된 원석을 어시스턴트로 — SFT로 지시를 따르게 만들고(LIMA·표면적 정렬 가설), 선호 데이터로 보상 모델(Bradley-Terry)을 세워 RLHF(PPO·KL 제약)로 사람 선호에 맞추고, 그 보상 모델마저 없애 버리는 DPO까지.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll