요약 경진대회

Upstage AI Lab 5기, 2조


신다혜	이다언	조혜인	송주은	조성지
팀장, 데이터 전처리	데이터 전처리	모델링	모델링 및 LLM 활용	모델링, A/B테스트

0. Overview

Environment

Github / WANDB / SLACK

Requirements

torch==1.13.0
torchaudio==0.13.0
pytorch_lightning==2.1.2
pandas==2.1.4
numpy==1.23.5
wandb==0.16.1
tqdm==4.66.1
transformers==4.35.2
rouge==1.0.1
jupyter==1.0.0
jupyterlab==4.0.9
optuna==3.2.0
slack-sdk==3.21.3
pytz
sentencepiece==0.1.97

1. 대회 정보

일반 정보

Dialogue Summarization 경진대회는 주어진 데이터를 활용하여 일상 대화에 대한 요약을 효과적으로 생성하는 모델을 개발하는 대회입니다.

일상생활에서 대화는 항상 이루어지고 있습니다. 회의나 토의는 물론이고, 사소한 일상 대화 중에도 서로 다양한 주제와 입장들을 주고 받습니다. 나누는 대화를 녹음해두더라도 대화 전체를 항상 다시 들을 수는 없기 때문에 요약이 필요하고, 이를 위한 통화 비서와 같은 서비스들도 등장하고 있습니다.

그러나 하나의 대화에서도 관점, 주제별로 정리하면 수 많은 요약을 만들 수 있습니다. 대화를 하는 도중에 이를 요약하게 되면 대화에 집중할 수 없으며, 대화 이후에 기억에 의존해 요약하게 되면 오해나 누락이 추가되어 주관이 많이 개입되게 됩니다.

이를 돕기 위해, 우리는 이번 대회에서 일상 대화를 바탕으로 요약문을 생성하는 모델을 구축합니다!

일정

Start Date : January 15, 2025
Final Submission Date : February 27, 2025

2. Components

3. Data descrption

Dataset overview

train : 12457
dev : 499
test : 250 (중간평가용)
hidden-test : 249 (최종평가용)

EDA

중복데이터 제거
팩트체크하여(solar-groundness API) 197개 틀린 데이터 제거
훈련/검증 데이터셋의 요약문 대비 대화문이 약 21%의 비율
훈련 데이터 요약문 음절 길이가 약 87개의 평균 길이임
민감정보의 경우 #Person1#, #Person2# 등 Special Token으로 대체됨

Data Processing

#Person1# 같은 스페셜 토큰이 누락된 데이터 보정
파이썬으로 12457 중 중복된 데이터 제거
Solar Groundness API로 대화문과 요약문이 미스매치된 부분 제거
Solar-mini API로 대화문과 요약문이 어색한 부분 찾기 시도
원문이 영어였던 점을 고려하여 영어로 역번역 후 영어모델로 학습 및 추론하고 결과를 다시 한글로 번역시도
문장기호를 추가한 데이터를 증강하여 훈련시도
주어진 Dialogue Sum 데이터 번역본에 AI Hub에서 제공한 한국어 대화 데이터 확장 시도
test.csv에는 없었던 topic 열을 solar mini API로 자동 생성 실험
Gemini API로 데이터별 1-gram, 2-gram 기반 keyword를 포함하는 열을 추가 생성

4. Modeling

Model descrition

기본 모델 : KoBART
그 외 여러 모델 시험
- LLM API 모델
  - solar mini, solar pro, gemini 2.0
- 오픈소스 모델
  - T5, Facebook Large CNN, Pegasus,

Modeling Process

WandB Sweep, optuna를 통해 최적 파라미터 찾기

5. Result

Leader Board

중간평가 1등 (48.7013) 최종평가 2등 (44.8734)

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Daun		Daun
JES		JES
dahye		dahye
hyein/src		hyein/src
seongji		seongji
src		src
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

요약 경진대회

Upstage AI Lab 5기, 2조

0. Overview

Environment

Requirements

1. 대회 정보

일반 정보

일정

2. Components

Directory

3. Data descrption

Dataset overview

EDA

Data Processing

4. Modeling

Model descrition

Modeling Process

5. Result

Leader Board

Presentation

회의록

Reference

About

Releases

Packages

Languages

danielinjesus/Upstage_AI_Lab_DL_Summarize

Folders and files

Latest commit

History

Repository files navigation

요약 경진대회

Upstage AI Lab 5기, 2조

0. Overview

Environment

Requirements

1. 대회 정보

일반 정보

일정

2. Components

Directory

3. Data descrption

Dataset overview

EDA

Data Processing

4. Modeling

Model descrition

Modeling Process

5. Result

Leader Board

Presentation

회의록

Reference

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages