이 레포는 pytorch-lightning 프레임 워크를 사용해서, tacotron2 모델(acoustic model)을 훈련할 수 있는 코드입니다.
config 파일을 수정해서, 쉽게 훈련을 시킬 수 있습니다.
config 파일을 모듈로 세분화해서 관리하기 위해 Hydra를 사용했습니다.
모델 코드는 NVIDIA/tacotron의 코드를 참고해서 작성했습니다.
Tacotron2 모델은 기본적으로 음성합성에서 텍스트 데이터를 멜 스펙트로그램으로 변환하는 acoustic 모델입니다.
데이터는 12시간의 한국어 데이터 KSS dataset(korean-single-speaker-speech-dataset)를 사용했습니다.
한글 텍스트 데이터의 전처리는 SOOHWAN KIM 님의 코드를 사용했습니다.
- 먼저 이 저장소를 클론합니다.
git clone https://github.com/your-username/tacotron2.git
- python package를 설치합니다.
pip install -r requirements.txt
-
kss 데이터를 path에 준비합니다.
-
config값을 원하는 값으로 수정합니다.
-
train 코드 실행해서 훈련을 시작합니다.
python3 ./src/train.py
Text: 눈 수술을 했기 때문에 태양으로부터 눈을 보호하려고 선글라스를 써요.
Normalized Text: 눈 수수를 핻끼 때무네 태양으로부터 누늘 보호하려고 선글라스를 써요~
https://github.com/NVIDIA/tacotron2
https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset