- 전현욱
- 팀 리더, Label Error Detection, G2P Noise
- 곽수연
- 특수문자 및 한자 처리, Back Translation
- 김가영
- Semantic Similarity Analysis
- 김신우
- 안윤주
2024.01.24 10:00 ~ 2024.02.01 19:00
- 자연어에서 독해 및 분석 과정을 거쳐 주어진 태스크를 수행하기 위해서는 자연어의 주제에 대한 이해가 필수적이다. KLUE-Topic Classification benchmark는 뉴스의 헤드라인을 통해 그 뉴스가 어떤 topic을 갖는지를 분류해 내는 task로, 각 자연어 데이터에서 생활문화, 스포츠, 세계, 정치, 경제, IT과학, 사회 등 다양한 주제 중 하나로 라벨링한다.
- 본 프로젝트는 Data-Centric의 목적에 맞게 주어진 데이터셋을 바탕으로 베이스라인 모델의 수정 없이 오로지 데이터의 수정으로만 성능 향상을 이끌어내야 한다.
- Train Data : 7,000개
- Test Data : 47,785개
Column |
설명 |
ID |
데이터 샘플의 고유번호 |
text |
분류의 대상이 되는 연합 뉴스 기사의 헤드라인. 한국어 텍스트에 일부 영어, 한자 등의 단어가 포함 |
target |
정수로 인코딩된 라벨 |
url |
데이터 샘플의 뉴스 url (출처) |
date |
데이터 샘플의 뉴스가 작성된 날짜와 시간 |
id |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
설명 |
IT과학 |
경제 |
사회 |
생활문화 |
세계 |
스포츠 |
정치 |
- macro F1 score : 모든 class f1 score의 평균
- accuracy
.
|-- README.md
|-- Special_character_check.ipynb
|-- back_translation.ipynb
|-- category_per_cnt.ipynb
|-- category_word_add.ipynb
|-- data
| |-- culture.txt
| |-- economy.txt
| |-- it_science.txt
| |-- politics.txt
| |-- society.txt
| |-- sport.txt
| |-- train_special_characters.csv
| `-- world.txt
|-- error_detection.ipynb
|-- functions.py
|-- g2pk.ipynb
|-- hanja.ipynb
|-- kmeans.ipynb
|-- sentence_similarty.py
|-- special_character.ipynb
`-- wrap-up_report.pdf
|
f1 |
accuracy |
Public |
0.8454 |
0.8484 |
Private |
0.8414 |
0.8443 |