Обучение модели с нуля на болгарском языке либо дообучение существующей модели для болгарского

#25

by miromad - opened Aug 31

Aug 31

Привет, Misha24-10!
Вы сделали очень хорошую модель с поддержкой управления ударением в словах. Молодец!
Я хотел бы спросить, как я могу обучить такую же модель с поддержкой управления ударением в словах на болгарском языке — с нуля или дообучив Вашу модель?
Вы не пробовали тренировать PLBERT и ASR с нуля на русском языке и использовать их в этом проекте? Именно так сделана эта модель: https://huggingface.co/Respair/Tsukasa_Speech

Заранее спасибо!

Misha24-10

Owner Sep 6

Привет, @miromad , я пробовал дообучать 1 версию модели на Чувашский язык (https://huggingface.co/Misha24-10/F5-TTS_CHUVASH), имея всего лишь 25 часов аудио у меня уже получилось немного склонировать голос, но нужно большое число итераций/шагов чтобы сошлись EMA веса, или их необходимо дополнительно отключить. Ударения для этого не использовал, т.к. нет модели для расстановки ударений на отличные от русского языка(.
В планах есть обучить и выложить дообученные веса модели на 2 языка (чавашский, татарский), возможно еще 1 язык.

miromad

Sep 6

Привет, @Misha24-10 !
Спасибо за ответ. Я хочу дообучить эту модель на болгарском языке (у меня есть около 40 часов аудио, и я смогу расставить ударения), но не знаю, как это сделать — то есть какой код нужно изменить, чтобы модель обучалась с учётом ударений. Или же в датасете все слова должны быть уже с ударениями?
Если это не слишком сложно (и не является секретом), помогите, пожалуйста, разобраться.
Заранее благодарю!

Misha24-10

Owner Sep 9

Для обучения с ударениями нужна специальная обученная на болгарском языке модель для расстановки ударений. Возможно уже существуют такие модели. Для обучение модели с расставленными ударениями нужна эта модель. Далее транскрипции для текстов прогоняешь через эту модель и получаешь обучающий набор данных с ударениями для каждого аудофайла от 3 до 30/35 секунд.
.

Если коротко то это выглядит так:

Собрать данные для обучения
Разбить данные на фрагменты от 1-3 до 30-35 секунд (если изначально они большие фраменты)
Прогнать через ASR модель, получить транскрипцию для каждого фрагмента (или сделать это вручную /с помощью ассессоров)
Расставить ударения в транскрипциях (через модель или вручную...)
Создать файл metadata.csv как на рисунке выше (путь до аудиофайла и траскрипция)
6)При необходимости изменить vocab.txt если в словаре нет всех букв из болгарского языка. Тут еще есть пару не очевидных моментов с инициализацией весов в пайплайне обучения.
Обучить модель
Готово

miromad

about 1 month ago

@Misha24-10 , Большое спасибо за подробное объяснение! Попробую сделать так, как Вы посоветовали. Посмотрим, что получится.

Vladimir-33

23 days ago

Добрый день. Возможно ли как то адаптировать вашу модель под IndexTTS2 ?
https://github.com/index-tts/index-tts
там эмоции хорошо передаются...

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment