전쟁군주 — Orc Hwang
Orc Hwang's Wiki

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • 홈
  • 카테고리
  • 태그
  • 시리즈
  • CV

태그: deduplication

'deduplication' 태그가 포함된 1개의 포스트

CS336 14강 — 데이터 (2): 필터링·중복 제거·데이터 믹스

2026년 06월 26일
llm data deduplication data-filtering cs336 language-modeling
Stanford CS336 14강 정리. raw 웹을 좋은 학습 코퍼스로 바꾸는 세 기술 — 품질 필터링(KenLM·fastText·DSIR), 중복 제거(MinHash·LSH·Bloom filter), 데이터 믹스. 핵심 과제는 목표와 닮은 부분집합을 극도로 빠르게 골라내기.
← 모든 태그 보기

© 2026 Orc Hwang. All rights reserved.

개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.

  • RSS
영토를 굽어보는 전쟁군주

Lok'tar ogar — 승리 아니면 죽음. Built with Jekyll