CS336 14강 — 데이터 (2): 필터링·중복 제거·데이터 믹스
Stanford CS336 14강 정리. raw 웹을 좋은 학습 코퍼스로 바꾸는 세 기술 — 품질 필터링(KenLM·fastText·DSIR), 중복 제거(MinHash·LSH·Bloom filter), 데이터 믹스. 핵심 과제는 목표와 닮은 부분집합을 극도로 빠르게 골라내기.
개발 학습 기록과 기술 지식을 체계적으로 관리하는 개인 위키입니다.
'deduplication' 태그가 포함된 1개의 포스트