体验ChatTTS :最强开源文本到语音模型

in #cn4 months ago

ChatTTS 的效果太惊艳了。

ChatTTS 是一款基于 PyTorch 的开源文本到语音(TTS)模型, 生成的语音质量自然流畅,能够很好地捕捉语音的韵律、语调和情感,听起来就像真人发音一样。

如何在 Windows 环境下安装和使用 ChatTTS?

准备工作

  1. 安装 Python

首先,你需要在你的系统中安装 Python。

  1. 创建虚拟环境(可选)

虽然不是必需的,但建议你创建一个虚拟环境来安装 ChatTTS 及其依赖项。这可以避免与系统中已安装的其他 Python 包发生冲突。

打开命令提示符或 PowerShell,运行以下命令创建并激活虚拟环境:

python -m venv venv
venv\Scripts\activate

安装 ChatTTS

  1. 克隆 ChatTTS 仓库

你可以从 GitHub 上克隆 ChatTTS 仓库:

git clone https://github.com/2noise/ChatTTS.git
  1. 安装依赖项

进入 ChatTTS 目录,并安装所需的依赖项:

cd ChatTTS
pip install -r requirements.txt
  1. 获取预训练模型

ChatTTS 需要预训练的模型文件才能运行。由于版权原因,作者没有在仓库中提供预训练模型的下载链接。你需要通过发送电子邮件到 [email protected] 与作者联系,获取预训练模型文件。

  1. 放置预训练模型

将获取到的预训练模型文件放置在 ChatTTS 目录下的 models 文件夹中。

使用 ChatTTS

  1. 导入 ChatTTS

打开 Python 解释器或 Jupyter Notebook,导入 ChatTTS 库:

import ChatTTS
  1. 初始化 Chat 实例

创建一个 Chat 类的实例,并加载预训练模型:

chat = ChatTTS.Chat()
chat.load_models(compile=False)
  1. 执行语音合成

定义要合成的文本,然后调用 infer 方法进行语音合成:

texts = ["你好,这是一个 ChatTTS 示例。"]
wavs = chat.infer(texts)
  1. 播放/保存音频

你可以使用 IPython.display.Audio 在 Jupyter Notebook 中播放生成的音频:

from IPython.display import Audio
Audio(wavs[0], rate=24000)

或者使用 torchaudio.save 将音频保存为 WAV 文件:

import torchaudio
torchaudio.save("output.wav", wavs[0], 24000)
Sort:  

Upvoted! Thank you for supporting witness @jswit.

Coin Marketplace

STEEM 0.19
TRX 0.16
JST 0.029
BTC 64487.39
ETH 2635.06
USDT 1.00
SBD 2.80