CS336 6강 — 커널과 Triton: 측정하고, 퓨즈하라
Stanford CS336 6강 정리. GPU 코드를 빠르게 만드는 실전 — 벤치마킹(warm-up·cuda.synchronize)과 프로파일링(CPU/GPU 비동기 모델)으로 병목을 찾고, GELU 커널을 수동 PyTorch·내장·CUDA C++·Triton·torch.compile 다섯 가지로 써 보며 커널 퓨전의 효과를 잰다.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'cuda' 태그가 포함된 2개의 포스트