CS336 8강 — 병렬화 2: 텐서·파이프라인 병렬과 3D 병렬화
Stanford CS336 8강 정리. 모델을 쪼개 활성화만 주고받기 — 너비로 자르는 텐서 병렬, 깊이로 자르는 파이프라인 병렬(과 버블), 활성화·시퀀스 병렬, 그리고 셋을 합치는 3D 병렬화의 실전 규칙과 사례(Megatron·DeepSeek·Llama 3).
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'parallelism' 태그가 포함된 2개의 포스트