Skip to content

danielinjesus/Upstage_AI_Lab_DL_Summarize

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

요약 경진대회

Upstage AI Lab 5기, 2조

신다혜 이다언 조혜인 송주은 조성지
신다혜 이다언 조혜인 송주은 조성지
팀장, 데이터 전처리 데이터 전처리 모델링 모델링 및 LLM 활용 모델링, A/B테스트

0. Overview

Environment

  • Github / WANDB / SLACK

Requirements

  • torch==1.13.0
  • torchaudio==0.13.0
  • pytorch_lightning==2.1.2
  • pandas==2.1.4
  • numpy==1.23.5
  • wandb==0.16.1
  • tqdm==4.66.1
  • transformers==4.35.2
  • rouge==1.0.1
  • jupyter==1.0.0
  • jupyterlab==4.0.9
  • optuna==3.2.0
  • slack-sdk==3.21.3
  • pytz
  • sentencepiece==0.1.97

1. 대회 정보

일반 정보

Dialogue Summarization 경진대회는 주어진 데이터를 활용하여 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다.

일상생활에서 대화는 항상 이루어지고 있습니다. 회의나 토의는 물론이고, 사소한 일상 대화 중에도 서로 다양한 주제와 입장들을 주고 받습니다. 나누는 대화를 녹음해두더라도 대화 전체를 항상 다시 들을 수는 없기 때문에 요약이 필요하고, 이를 위한 통화 비서와 같은 서비스들도 등장하고 있습니다.

그러나 하나의 대화에서도 관점, 주제별로 정리하면 수 많은 요약을 만들 수 있습니다. 대화를 하는 도중에 이를 요약하게 되면 대화에 집중할 수 없으며, 대화 이후에 기억에 의존해 요약하게 되면 오해나 누락이 추가되어 주관이 많이 개입되게 됩니다.

이를 돕기 위해, 우리는 이번 대회에서 일상 대화를 바탕으로 요약문을 생성하는 모델을 구축합니다!

일정

  • Start Date : January 15, 2025
  • Final Submission Date : February 27, 2025

2. Components

Directory

📂 Daun    ---(이다언)
📂 JES     ---(송주은)
📂 dahye   ---(신다혜)
📂 hyein   ---(조혜인)
📂 seongji ---(조성지)
📂 src     ---(회의록 등)
.gitignore
README.md

3. Data descrption

Dataset overview

  • train : 12457
  • dev : 499
  • test : 250 (중간평가용)
  • hidden-test : 249 (최종평가용)

EDA

  • 중복데이터 제거
  • 팩트체크하여(solar-groundness API) 197개 틀린 데이터 제거
  • 훈련/검증 데이터셋의 요약문 대비 대화문이 약 21%의 비율
  • 훈련 데이터 요약문 음절 길이가 약 87개의 평균 길이임
  • 민감정보의 경우 #Person1#, #Person2# 등 Special Token으로 대체됨

Data Processing

  • #Person1# 같은 스페셜 토큰이 누락된 데이터 보정
  • 파이썬으로 12457 중 중복된 데이터 제거
  • Solar Groundness API로 대화문과 요약문이 미스매치된 부분 제거
  • Solar-mini API로 대화문과 요약문이 어색한 부분 찾기 시도
  • 원문이 영어였던 점을 고려하여 영어로 역번역 후 영어모델로 학습 및 추론하고 결과를 다시 한글로 번역시도
  • 문장기호를 추가한 데이터를 증강하여 훈련시도
  • 주어진 Dialogue Sum 데이터 번역본에 AI Hub에서 제공한 한국어 대화 데이터 확장 시도
  • test.csv에는 없었던 topic 열을 solar mini API로 자동 생성 실험
  • Gemini API로 데이터별 1-gram, 2-gram 기반 keyword를 포함하는 열을 추가 생성

4. Modeling

Model descrition

  • 기본 모델 : KoBART
  • 그 외 여러 모델 시험
    • LLM API 모델
      • solar mini, solar pro, gemini 2.0
    • 오픈소스 모델
      • T5, Facebook Large CNN, Pegasus,

Modeling Process

WandB Sweep, optuna를 통해 최적 파라미터 찾기 image

5. Result

Leader Board

중간평가 1등 (48.7013) 최종평가 2등 (44.8734)

Presentation

발표자료

회의록

회의록 링크

Reference

한국어 대화 데이터셋(AI Hub)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published