Синтезированная речь Tacotron 2

in #ru5 years ago

tacotron2.png

Google разрабатывает генератор речи под названием Tacotron 2, способный синтезировать речь неотличимую от речи живого человека. Достигли это с помощью передачи синтезированной речи TTS через нейросеть WaveNet. Последняя ориентировалась на спектрограммы рекуррентной сети.

Выглядит это примерно так:

  1. Рекуррентная сеть прогнозирования временных рядов преобразует текстовые символы в спектрограмму:

whoa.jpg

Пример спектрограммы эффекта «Вау» («Whoa»). Интересную информацию о спектрограммах можно почерпнуть из документа Speech Technology.


Далее полученная спектрограмма передаётся модифицированной сверточной нейронной сети WaveNet, которая прогоняет сигнал через вокодер:


wavenet.png

Схема работы генератора речи Tacotron 2


В итоге получается синтезированная речь, по звучанию очень похожая на человеческую. Tacotron 2 произносит речь с интонацией, учитывая все знаки пунктуации в предложении.

На странице Audio samples from "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" представлено множество аудиопримеров произношения Tacotron 2. Аудио разбито на группы:

  • Tacotron 2 works well on out-of-domain and complex words (произношение сложных предложений).
  • Tacotron 2 learns pronunciations based on phrase semantics (работа с семантической структурой предложения).
  • Tacotron 2 is somewhat robust to spelling errors (автоматическое исправление слов с орфографическими ошибками и правильное их произношение).
  • Tacotron 2 is sensitive to punctuation (произношение предложений с запятой и без).
  • Tacotron 2 learns stress and intonation (произношение с акцентом слов, набранных в верхнем регистре).
  • Tacotron 2's prosody changes when turning a statement into a question (произношение предложений без вопроса и с вопросительным знаком).
  • Tacotron 2 is good at tongue twisters (произношение скороговорок).
  • Tacotron 2 or Human? (отгадай, где человек, а где машина). В этих примерах один голос сгенерирован с помощью Tacotron 2, а второй — запись реального человека (подсказка: в имени трека, озвученного машиной, есть небольшая приписочка в виде слова gen, например, romance_gen.wav).

На данном этапе разработки Tacotron 2 синтезирует речь на английском языке в женской озвучке. В дальнейшем разработчики планируют ввести другие языки, а также мужской вариант озвучивания. Технология Tacotron 2 может найти своё место в Google Translate и в Google Assistant.

См. также документ на тему синтезации речи с помощью Tacotron 2: Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.


Neocities

Sort:  

Спасибо за пост в #ru
Поддержано!

Мы поддерживаем русскоязычных авторов стима!

Поддержите вместе с нами.
делегировать 10 СП
делегировать 20 СП
делегировать 50 СП
делегировать 100 СП
делегировать 500 СП

Coin Marketplace

STEEM 0.31
TRX 0.12
JST 0.033
BTC 64605.91
ETH 3159.61
USDT 1.00
SBD 4.11