Skip to content

Localization approach in Korean for Microsoft documents and popular public series (related repo: https://github.com/devrel-kr/I18N-For-Beginners )

License

Notifications You must be signed in to change notification settings

devrel-kr/L10n-for-Korean

Repository files navigation

오픈소스를 활용한 한국어 퀄리티 개선 평가 지표 정의


📌 추진배경

디지털 세계에서 물리적 거리가 보다 가까워지고 있으며, 오픈소스와 인공 지능 활용을 통해 언어 의사 소통을 돕는 다양한 툴이 등장, 활용하는 추세에 있다

하지만 한국어 기반으로 된 데이터에 대해서는 언어적 & 감정 분석과 같은 퀄리티가 영문 데이터에 비해 낮으며, 이는 영한/한영 번역 퀄리티 뿐만 아니라 소프트웨어 국제화/글로벌 발전에 있어 저해가 되는 커다란 요소로 작용하고 있다

따라서 이 프로젝트에서 자연어 처리 오픈 소스 및 관련 형태소 분석 툴 등을 활용하여 한국어 영화 자막 데이터 셋을 기반으로 언어 및 감정 분석을 통해 한국어 퀄리티를 개선할 방향을 모색한다

이 연구는 과학기술정보통신부 및 정보통신기획평가원의 SW중심대학사업 지원을 통해 수행되었음

목차

소개


디지털 세계에서 물리적인 거리가 보다 가까워지고 있으며, 오픈소스와 인공 지능 활용을 통해 언어 의사소통을 돕는 다양한 툴이 등장하여 활용하는 추세에 있다. 하지만, 한국어가 기반으로 된 데이터에 대해서는 언어적 & 감정 분석과 같은 퀄리티가 영문 데이터에 비해 낮으며, 이는 영한/한영 번역 퀄리티뿐만 아니라 소프트웨어 국제화/글로벌 발전에 있어 저해가 되는 커다란 요소로 작용하고 있다. 현재 한국어 퀄리티 개선의 필요성이 대두되면서 명확한 평가 지표 및 모델 개발이 다양하게 이루어지고 있는데, 한국어에 대해서는 실제 레퍼런스가 되는 모델이 잘 정리가 되어 있지 않으며 글로벌 AI 발전 속도에 비해 늦은 추세를 보인다.

본 논문에서는 이를 개선하기 위해 한국어 자연어 처리 오픈소스 및 관련 형태소 분석 툴을 활용하여 한국어 퀄리티를 개선하고 평가하는 방안을 제안한다.

구체적으로는 먼저 대규모 한국어 데이터를 단어 임베딩을 이용해 학습한다.
이후 한국어 기반으로 작성된 데이터에 대한 평가 지표로 문법성, 가독성, 통일성, 감정 분석 총 4가지의 지표를 제안하고, 평가 지표를 바탕으로 한국어 퀄리티를 향상시킬 수 있는 최적의 AI 모델을 만들어 적용함으로써
최종적으로 한국어 퀄리티 개선을 위한 본 제안 적용 가능성을 확인하였다.

데이터셋


<한국어 타깃 데이터>


한국어 퀄리티 평가를 위한 타깃 데이터는 위와 같다. 감정의 흐름을 고려하기 위해 한국에서 개봉된 해외 영화의 한국어 자막을 수집했다.
다음-영화 사이트에서 한국에서 개봉된 영화 리스트를 크롤링 하여 한국어 자막 데이터를 수집했다.

이후, 수집한 데이터를 토큰화 작업과 불용어 제거를 통해 제목, 단어 수, 라인수, 한국어 자막 파일 내용으로 전처리 된 데이터를 확보했다.

평가지표


한국어 데이터에 대한 평가지표로는

위의 4가지 요소로 평가를 하였다


문법성

  • 한국어 퀄리티의 문법적 정확도를 평가하기위해 (전체단어수-오류단어수)/전체단어수 * 100(%) 수식으로 문법성을 정의한다. Py-hanspell 라이브러리를 사용하여 오류 단어 수를 파악했다

가독성

  • 한국어 퀄리티의 가독성을 평가하기 위해 다음 수식으로 가독성을 정의한다.

<가독성 수식>


  • 가독성을 측정하기 위해 띄어쓰기 정확률(spacing), 어휘별 등급(rank), 문장의 길이(sent)에 대한 수치를 파악하였고 이를 통합하여 가독성 전체에 대한 수식을 정의했다.
    띄어쓰기의 정확성은 PyKoSpacing 라이브러리를 사용하였고 어휘별 등급을 확인하기 위해 국립국어원에 공개된 자료와 토픽 어휘별 등급을 종합하여 총 10,345개의 어휘 등급 자료를 활용하여 측정하였다.

통일성

  • 한국어 퀄리티의 통일성을 평가하기 아래의 수식으로 통일성을 정의한다. Sentence Transformer AI 모델을 활용했고, 네이버 영화 리뷰 데이터로 학습을 진행하여 한국어 타깃 데이터인 인물들의 대사에 알맞은 모델을 만들고자 하였다.
    Consine Similarity를 통해 한국어 통일성을 확인할 수 있었다.

<Cosine Similarity>

감정분석

  • 이야기의 흐름이 일관적인지 살펴보기 위해 통일성과 더불어 스토리 감정 분석을 진행했다. 수치를 –1에서 1 사이로 감정 범위를 나누고 –1에 가까울수록 부정, 1에 가까울수록 긍정임을 표현했다.
    먼저, Textblob에 한국어 네이버 영화 리뷰를 학습시켜 모델을 개발했다. 이후, 감정 흐름 분석을 위해 감정 극성 시각화를 진행했고 스토리 흐름에 따른 감정 변화를 확인했다.

📌 간접 평가 지표

  • 다음-영화에서 해당 영화의 관람객 수와 평점을 크롤링하여 범위를 지정하여 점수를 매기고 아래와 같이 합산등급을 측정하였다.

<간접 평가 지표 정의>


결과


본 논문에서 한국어 퀄리티 개선을 위해 총 4가지 평가 지표를 제안했고 일치성을 확인하기 위해 간접 평가 지표를 측정했다. 이를 한국어 자막 타깃 데이터에 적용한 결과는 다음과 같다.

<한국어 자막 타깃 데이터에 적용한 결과>

<Begin Again과 Extraction의 감정 분석 결과>



위의 결과에서 알 수 있듯이, 간접 평가 지표에서 최고 점수 4점을 받은 영화 Begin Again(2013)은 4가지 평가 지표에서 우수한 결과를 얻었다. 또한 감정 흐름 그래프에서 원어인 영어 자막과 유사도가 높음을 알 수 있다.

그에 반해, 간접 평가 지표에서 최저 점수 1점을 받은 영화 Extraction(2015)는 4가지 평가 지표에서 Begin Again(2013)의 결과에 비해 아쉬운 결과를 얻었다. 또한 감정 흐름 그래프에서 유사도가 높지 않은 감정 극성을 보여주고 있다.

이는 본 연구에서 제안한 4가지의 평가 지표가 간접 평가 지표와 비교하였을 때, 유사한 결과를 보이고 있다고 할 수 있다.
이는, 한국어 퀄리티 개선을 위해 제안한 4가지의 평가 지표가 일치성과 타당성을 보여주고 있음을 뜻한다.

관련오픈소스

문의

경북대학교 컴퓨터학부, {jiwon9187, heejeong2993, damgom, deliciousqoo}@knu.ac.kr, [email protected]

About

Localization approach in Korean for Microsoft documents and popular public series (related repo: https://github.com/devrel-kr/I18N-For-Beginners )

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •