CS336 11강 — 스케일링 법칙 2: 실전 레시피와 muP
Stanford CS336 11강 정리. 실전 LLM 빌더가 스케일링 법칙을 쓰는 법 — Cerebras·MiniCPM·DeepSeek 사례, WSD 학습률로 Chinchilla를 한 번에, '20토큰/파라미터는 출발점일 뿐', 그리고 하이퍼파라미터를 스케일에 불변으로 만드는 muP의 유도와 한계.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'scaling-laws' 태그가 포함된 2개의 포스트