CS336 10강 — 추론(Inference): KV 캐시와 메모리 한계의 게임
Stanford CS336 10강 정리. 추론은 왜 메모리 한계인가 — prefill vs generation, KV 캐시의 정체, 그것을 줄이는 아키텍처(GQA·MLA·local attention)와 트랜스포머 너머(SSM·diffusion), 그리고 양자화·speculative decoding·PagedAttention까지.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'speculative-decoding' 태그가 포함된 1개의 포스트