CS336 3강 — 아키텍처와 하이퍼파라미터: 현대 트랜스포머의 합의
Stanford CS336 3강 정리. 2017~2025년 약 19개 모델의 '수렴 진화'에서 배운 현대 트랜스포머의 합의 — Pre-norm·RMSNorm·bias 제거·SwiGLU·RoPE, 그리고 d_ff 비율·aspect ratio 같은 하이퍼파라미터 규칙과 z-loss·QK-norm·MQA/GQA까지.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'transformer' 태그가 포함된 1개의 포스트