한국어 텍스트 데이터 증강기입니다.
csv 파일의 label과 text column 열의 번호만 알면 여러 방법으로 증강된 텍스트 리스트를 얻을 수 있습니다.
back translation과 sampling, 그리고 gpt는 아직 구현중입니다.
📜reference
- 노이즈 생성기 : https://github.com/hkjeon13/noising-korean
- eda : https://github.com/catSirup/KorEDA
- bert&gpt : Data Augmentation Using Pre-trained Transformer Models(2021) 코드 주소 : https://github.com/amazon-science/transformers-data-augmentation