์ ํ์ฑ | ๊ณฝ์์ฐ | ๊น๊ฐ์ | ๊น์ ์ฐ | ์์ค์ฃผ |
---|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
- ์ ํ์ฑ
- ํ ๋ฆฌ๋, Label Error Detection, G2P Noise
- ๊ณฝ์์ฐ
- ํน์๋ฌธ์ ๋ฐ ํ์ ์ฒ๋ฆฌ, Back Translation
- ๊น๊ฐ์
- Semantic Similarity Analysis
- ๊น์ ์ฐ
- Data Augmentation
- ์์ค์ฃผ
- Text Keyword Extraction
2024.01.24 10:00 ~ 2024.02.01 19:00
- ์์ฐ์ด์์ ๋ ํด ๋ฐ ๋ถ์ ๊ณผ์ ์ ๊ฑฐ์ณ ์ฃผ์ด์ง ํ์คํฌ๋ฅผ ์ํํ๊ธฐ ์ํด์๋ ์์ฐ์ด์ ์ฃผ์ ์ ๋ํ ์ดํด๊ฐ ํ์์ ์ด๋ค. KLUE-Topic Classification benchmark๋ ๋ด์ค์ ํค๋๋ผ์ธ์ ํตํด ๊ทธ ๋ด์ค๊ฐ ์ด๋ค topic์ ๊ฐ๋์ง๋ฅผ ๋ถ๋ฅํด ๋ด๋ task๋ก, ๊ฐ ์์ฐ์ด ๋ฐ์ดํฐ์์ ์ํ๋ฌธํ, ์คํฌ์ธ , ์ธ๊ณ, ์ ์น, ๊ฒฝ์ , IT๊ณผํ, ์ฌํ ๋ฑ ๋ค์ํ ์ฃผ์ ์ค ํ๋๋ก ๋ผ๋ฒจ๋งํ๋ค.
- ๋ณธ ํ๋ก์ ํธ๋ Data-Centric์ ๋ชฉ์ ์ ๋ง๊ฒ ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ์ ๋ฐํ์ผ๋ก ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ ์์ ์์ด ์ค๋ก์ง ๋ฐ์ดํฐ์ ์์ ์ผ๋ก๋ง ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ด์ผ ํ๋ค.
- Train Data : 7,000๊ฐ
- Test Data : 47,785๊ฐ
Column | ์ค๋ช |
---|---|
ID | ๋ฐ์ดํฐ ์ํ์ ๊ณ ์ ๋ฒํธ |
text | ๋ถ๋ฅ์ ๋์์ด ๋๋ ์ฐํฉ ๋ด์ค ๊ธฐ์ฌ์ ํค๋๋ผ์ธ. ํ๊ตญ์ด ํ ์คํธ์ ์ผ๋ถ ์์ด, ํ์ ๋ฑ์ ๋จ์ด๊ฐ ํฌํจ |
target | ์ ์๋ก ์ธ์ฝ๋ฉ๋ ๋ผ๋ฒจ |
url | ๋ฐ์ดํฐ ์ํ์ ๋ด์ค url (์ถ์ฒ) |
date | ๋ฐ์ดํฐ ์ํ์ ๋ด์ค๊ฐ ์์ฑ๋ ๋ ์ง์ ์๊ฐ |
id | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|---|
์ค๋ช | IT๊ณผํ | ๊ฒฝ์ | ์ฌํ | ์ํ๋ฌธํ | ์ธ๊ณ | ์คํฌ์ธ | ์ ์น |
- macro F1 score : ๋ชจ๋ class f1 score์ ํ๊ท
- accuracy
- klue/bert-base (๊ณ ์ )
.
|-- README.md
|-- Special_character_check.ipynb
|-- back_translation.ipynb
|-- category_per_cnt.ipynb
|-- category_word_add.ipynb
|-- data
| |-- culture.txt
| |-- economy.txt
| |-- it_science.txt
| |-- politics.txt
| |-- society.txt
| |-- sport.txt
| |-- train_special_characters.csv
| `-- world.txt
|-- error_detection.ipynb
|-- functions.py
|-- g2pk.ipynb
|-- hanja.ipynb
|-- kmeans.ipynb
|-- sentence_similarty.py
|-- special_character.ipynb
`-- wrap-up_report.pdf
f1 | accuracy | |
---|---|---|
Public | 0.8454 | 0.8484 |
Private | 0.8414 | 0.8443 |