Skip to content

Latest commit

 

History

History
31 lines (26 loc) · 1.69 KB

dataset.md

File metadata and controls

31 lines (26 loc) · 1.69 KB

학습용 데이터 셋

enwik8용 데이터 세트 카드

  • http://mattmahoney.net/dc/enwik8.zip
  • enwik8 데이터 세트는 2006년 3월 3일 영어 위키백과 XML 덤프의 첫 100,000,000(100M)바이트이며 일반적으로 모델의 데이터 압축 기능을 측정하는 데 사용됩니다.

작은 셰익스피어, 캐릭터 수준

Text8