CS336 9강 — 스케일링 법칙 1: 작게 실험해 크게 예측하기
Stanford CS336 9강 정리. 손실이 데이터·모델·연산의 거듭제곱으로 줄어드는 스케일링 법칙 — 왜 멱법칙이 자연스러운가, 작은 모델로 아키텍처·하이퍼파라미터를 정하는 법, 그리고 컴퓨트 최적 배분을 알려주는 Chinchilla(파라미터당 20토큰)와 추론을 생각한 over-training.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'chinchilla' 태그가 포함된 1개의 포스트