CS336 7강 — 병렬화 1: 데이터 병렬과 ZeRO/FSDP
Stanford CS336 7강(전반) 정리. 한 GPU를 넘어 데이터센터로 — 네트워킹 계층과 집합 통신(all-reduce = reduce-scatter + all-gather), 데이터 병렬의 파라미터당 16바이트 메모리 문제, 그리고 그 중복을 단계적으로 걷어내는 ZeRO 1·2·3(=FSDP).
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'data-parallel' 태그가 포함된 1개의 포스트