CS336 8강 — 병렬화 2: 텐서·파이프라인 병렬과 3D 병렬화
Stanford CS336 8강 정리. 모델을 쪼개 활성화만 주고받기 — 너비로 자르는 텐서 병렬, 깊이로 자르는 파이프라인 병렬(과 버블), 활성화·시퀀스 병렬, 그리고 셋을 합치는 3D 병렬화의 실전 규칙과 사례(Megatron·DeepSeek·Llama 3).
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'pipeline-parallel' 태그가 포함된 1개의 포스트