CS336 13강 — 데이터 (1): 웹을 학습 코퍼스로, 그리고 저작권
데이터가 아키텍처보다 모델을 결정한다 — Common Crawl을 학습 코퍼스로 바꾸는 파이프라인(WARC/WET·HTML→텍스트), 사전학습 데이터셋의 계보(C4·The Pile·RefinedWeb·FineWeb·Dolma·DCLM), 그리고 저작권·공정 이용.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'common-crawl' 태그가 포함된 1개의 포스트