Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[EDA] 논문 요약-특허 데이터 #15

Open
changyong93 opened this issue Nov 28, 2021 · 0 comments
Open

[EDA] 논문 요약-특허 데이터 #15

changyong93 opened this issue Nov 28, 2021 · 0 comments
Assignees
Labels
report Sharing information or results of analysis

Comments

@changyong93
Copy link
Contributor

데이터 출처

데이터 적용 여부

  • 미정

데이터 개수

  • train : 124,637개(80%)
  • test : 31,160개(20%)

EDA

  • 특허 데이터는 두 종류로 존재함
    • 특허-섹션 : 특허 문서 중 랜덤으로 하나의 문단 선택(section), entire_text는 없음
    • 특허-전체 : 특허 문서 전체 내용(entire) + 랜덤으로 하나의 문단 선택(section)
  • 단, 특허-섹션 데이터는 전체 특허 문서의 일부만을 사용했기에 title을 생성하기엔 부적합한 자료로 판단하여 배제시킴
  • 필요 컬럼 선택 : file_path, doc_id, doc_type, title, text
    • file_path : 나중에 직접 raw data를 확인할 경우를 위함
    • doc_id : indexing을 위함
    • doc_type : 논문, 특허, 도서 등 input과 함께 활용을 위함
    • text : ipnuts(entire_text를 text로 변경)
  • 전체 데이터에서 title & text가 중복 또는 null인 데이터 503개(0.32%) 제거 => 155,798
  • train & test은 80:20으로 split, random.seed(1227)
  • Title 길이 분포 : 1~201, 평균 24
  • text 길이 분포 : 1508~921815, 평균 18254
    • 전체 특허 데이터를 다 넣으면 좋겠지만, input이 너무 길어지므로 필요한 문단을 선택해야 함
    • 특허 문서 중 '기술분야' 섹션을 input으로 활용하기로 함
  • 해당 상태로 train.csv 및 test.csv로 파일을 생성 후 huggingface hub에 업로드 완료(metamong1/patent_summarization)
@changyong93 changyong93 added the report Sharing information or results of analysis label Nov 28, 2021
@changyong93 changyong93 self-assigned this Nov 28, 2021
@changyong93 changyong93 changed the title [EDA] 특허 데이터 [EDA] 논문 요약-특허 데이터 Nov 28, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
report Sharing information or results of analysis
Projects
None yet
Development

No branches or pull requests

1 participant