CS336 9강 — 스케일링 법칙 1: 작게 실험해 크게 예측하기

llm scaling-laws chinchilla cs336 language-modeling
Stanford CS336 9강 정리. 손실이 데이터·모델·연산의 거듭제곱으로 줄어드는 스케일링 법칙 — 왜 멱법칙이 자연스러운가, 작은 모델로 아키텍처·하이퍼파라미터를 정하는 법, 그리고 컴퓨트 최적 배분을 알려주는 Chinchilla(파라미터당 20토큰)와 추론을 생각한 over-training.