전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: rlhf

'rlhf' 태그가 포함된 1개의 포스트

CS336 15강 — 정렬 (1): SFT와 RLHF

2026년 06월 26일
llm alignment rlhf dpo cs336 language-modeling
사전학습된 원석을 어시스턴트로 — SFT로 지시를 따르게 만들고(LIMA·표면적 정렬 가설), 선호 데이터로 보상 모델(Bradley-Terry)을 세워 RLHF(PPO·KL 제약)로 사람 선호에 맞추고, 그 보상 모델마저 없애 버리는 DPO까지.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll