Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fix klue-ner-v1.1 #39

Open
wants to merge 4 commits into
base: main
Choose a base branch
from

Conversation

youhyunjo
Copy link

  • (fixed) ill-formed tags in sentence lines
  • (fixed) errors in BIO lines

원문에 <> 괄호가 있는 경우에 태그의 범위의 중의성으로 인해 BIO 라인에 오류가 발생한 경우들이 있습니다. 예시하면 다음 문장들의 BIO 라인에서 오류가 있습니다.

## klue-ner-v1_train_15243_nsmc        <<인디애나 존스:PS>>를 향한 거침없는 모욕!
## klue-ner-v1_train_16531_wikitree    <중국 선전(深천<土+川>)시:LC>는 도움을 받았는데도
 허위 주장을 하는 이들을 처벌하고 부상 원인에 대한 입증 책임을 피구조자가 지도록 하는 법
률을 <2013년:DT>부터 시행중이다.

문장 내 태그 형식이 맞지 않는 오류가 존재합니다. 예시하면 다음과 같습니다.

## klue-ner-v1_train_02617_nsmc        <1:QT>, 2편:QT>은 정말 재밌게 봤는데 이번 <3탄:QT>은 너무 억지로 웃음을 줄려고 발악하는것 같았음...많이 아쉽네요..
## klue-ner-v1_train_20647_nsmc        오늘의 하이라이트 <강문어:PS> 대박!<사남:QT>일녀<QT>화이팅^^

- (fixed) ill-formed tags in sentence lines
- (fixed) errors in BIO lines
- (fixed) removed DEL (7F) characters
- (fixed) removed trailing spaces
youhyunjo added 2 commits July 3, 2022 23:33
- (fixed) added missing quotation marks
- (fixed) removed repeating spaces
- (fixed) normlized Hangul Jamo to Hangul Compatibility Jamo
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant