CS336 5강 — GPU: 병목은 연산이 아니라 메모리다
Stanford CS336 5강 정리. GPU를 마법이 아니라 구조로 이해하기 — SM·메모리 계층·SIMT 실행 모델, 루프라인과 산술 강도, 그리고 정밀도·퓨전·재계산·코얼레싱·타일링이라는 6가지 도구로 메모리 병목을 줄여 Flash Attention에 이르는 길.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'flash-attention' 태그가 포함된 1개의 포스트