CS336 15강 — 정렬 (1): SFT와 RLHF
사전학습된 원석을 어시스턴트로 — SFT로 지시를 따르게 만들고(LIMA·표면적 정렬 가설), 선호 데이터로 보상 모델(Bradley-Terry)을 세워 RLHF(PPO·KL 제약)로 사람 선호에 맞추고, 그 보상 모델마저 없애 버리는 DPO까지.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'rlhf' 태그가 포함된 1개의 포스트