전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: common-crawl

'common-crawl' 태그가 포함된 1개의 포스트

CS336 13강 — 데이터 (1): 웹을 학습 코퍼스로, 그리고 저작권

2026년 06월 26일
llm data common-crawl dataset cs336 language-modeling
데이터가 아키텍처보다 모델을 결정한다 — Common Crawl을 학습 코퍼스로 바꾸는 파이프라인(WARC/WET·HTML→텍스트), 사전학습 데이터셋의 계보(C4·The Pile·RefinedWeb·FineWeb·Dolma·DCLM), 그리고 저작권·공정 이용.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll