Синтезированная речь Tacotron 2

in #rulast year

tacotron2.png

Google разрабатывает генератор речи под названием Tacotron 2, способный синтезировать речь неотличимую от речи живого человека. Достигли это с помощью передачи синтезированной речи TTS через нейросеть WaveNet. Последняя ориентировалась на спектрограммы рекуррентной сети.

Выглядит это примерно так:

  1. Рекуррентная сеть прогнозирования временных рядов преобразует текстовые символы в спектрограмму:

whoa.jpg

Пример спектрограммы эффекта «Вау» («Whoa»). Интересную информацию о спектрограммах можно почерпнуть из документа Speech Technology.


Далее полученная спектрограмма передаётся модифицированной сверточной нейронной сети WaveNet, которая прогоняет сигнал через вокодер:


wavenet.png

Схема работы генератора речи Tacotron 2


В итоге получается синтезированная речь, по звучанию очень похожая на человеческую. Tacotron 2 произносит речь с интонацией, учитывая все знаки пунктуации в предложении.

На странице Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" представлено множество аудиопримеров произношения Tacotron 2. Аудио разбито на группы:

  • Tacotron 2 works well on out-of-domain and complex words (произношение сложных предложений).
  • Tacotron 2 learns pronunciations based on phrase semantics (работа с семантической структурой предложения).
  • Tacotron 2 is somewhat robust to spelling errors (автоматическое исправление слов с орфографическими ошибками и правильное их произношение).
  • Tacotron 2 is sensitive to punctuation (произношение предложений с запятой и без).
  • Tacotron 2 learns stress and intonation (произношение с акцентом слов, набранных в верхнем регистре).
  • Tacotron 2's prosody changes when turning a statement into a question (произношение предложений без вопроса и с вопросительным знаком).
  • Tacotron 2 is good at tongue twisters (произношение скороговорок).
  • Tacotron 2 or Human? (отгадай, где человек, а где машина). В этих примерах один голос сгенерирован с помощью Tacotron 2, а второй — запись реального человека (подсказка: в имени трека, озвученного машиной, есть небольшая приписочка в виде слова gen, например, romance_gen.wav).

На данном этапе разработки Tacotron 2 синтезирует речь на английском языке в женской озвучке. В дальнейшем разработчики планируют ввести другие языки, а также мужской вариант озвучивания. Технология Tacotron 2 может найти своё место в Google Translate и в Google Assistant.

См. также документ на тему синтезации речи с помощью Tacotron 2: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.


Neocities

Sort:  

Спасибо за пост в #ru
Поддержано!

Мы поддерживаем русскоязычных авторов стима!

Поддержите вместе с нами.
делегировать 10 СП
делегировать 20 СП
делегировать 50 СП
делегировать 100 СП
делегировать 500 СП