CS336 4강 — Mixture of Experts: 연산은 그대로, 파라미터만 키우기
Stanford CS336 4강 정리. Dense FFN을 라우터 + 여러 전문가로 바꿔 FLOPs는 그대로 두고 파라미터만 키우는 MoE — token-choice top-k 라우팅, fine-grained·shared 전문가, 부하 분산 손실과 DeepSeek V3의 보조손실 없는 균형, 그리고 MLA·MTP까지.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
손수 고른 전리품 — 오크의 자랑. 선반에 걸어 둔 다섯 정복기.
가장 최근에 진군한 다섯 원정 — 마지막으로 함락한 전장.