전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: cuda

'cuda' 태그가 포함된 2개의 포스트

CS336 6강 — 커널과 Triton: 측정하고, 퓨즈하라

2026년 06월 26일
llm triton cuda kernels cs336 language-modeling
Stanford CS336 6강 정리. GPU 코드를 빠르게 만드는 실전 — 벤치마킹(warm-up·cuda.synchronize)과 프로파일링(CPU/GPU 비동기 모델)으로 병목을 찾고, GELU 커널을 수동 PyTorch·내장·CUDA C++·Triton·torch.compile 다섯 가지로 써 보며 커널 퓨전의 효과를 잰다.

CS336 5강 — GPU: 병목은 연산이 아니라 메모리다

2026년 06월 26일
llm gpu cuda flash-attention cs336 language-modeling
Stanford CS336 5강 정리. GPU를 마법이 아니라 구조로 이해하기 — SM·메모리 계층·SIMT 실행 모델, 루프라인과 산술 강도, 그리고 정밀도·퓨전·재계산·코얼레싱·타일링이라는 6가지 도구로 메모리 병목을 줄여 Flash Attention에 이르는 길.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll