ChatTTS WebUI 网页使用 ChatTTS 将文字合成为真人语音教程

轻松将文字转为语音:ChatTTS WebUI 全面教程,快速生成多语种语音!

在本教程中,我们将深入探讨 ChatTTS WebUI,一个强大的(TTS)工具,帮助用户将文字合成为语音。无论是需要进行,还是想要生成高质量的语音输出,ChatTTS 都能满足你的需求。我们将介绍如何使用 ChatTTS 的语音生成功能,涵盖网页 TTS 工具的基本操作,以及如何调整语速和音调等自定义参数。

此外,教程将展示如何通过 ChatTTS 进行多语种支持的语音合成,确保你能够生成适合各种语言的语音文件。无论你是进行视频配音、制作学习材料,还是想要创建语音广播,这个在线工具都能为你提供便捷的解决方案。加入我们,探索如何使用 ChatTTS 在线语音合成工具,轻松生成,让你的文字内容变得生动有趣!

ChatTTS WebUI 网页使用 ChatTTS 将文字合成为真人语音教程 1ChatTTS WebUI 是一种基于网页的用户界面,允许用户直接通过浏览器使用文本转语音(TTS)功能。它为用户提供了一种简单、方便的方式,通过网络访问语音生成工具,无需复杂的本地安装或配置。

ChatTTS WebUI 的主要功能和特点:

  • 便捷的网页操作:无需安装任何软件,用户可以直接在浏览器中输入文本并生成语音。
  • 多语种支持:支持多种语言的文本转语音,适合全球用户。
  • 语音自定义:通常提供自定义语音参数的选项,如语速、音量、音调等,让用户能够根据需求生成个性化语音。
  • 高效生成:ChatTTS WebUI 提供快速的语音生成体验,适合需要频繁生成语音文件的场景。
  • 下载和保存:生成的语音文件可以直接下载,用于各种项目或应用中。

使用场景:
ChatTTS WebUI 适用于需要将文字内容转化为语音输出的用户,如语音广播、视频配音、学习语言等。它的网络访问性和多功能性使其成为生成语音的便捷工具。

ChatTTS WebUI 一个简单的本地网页界面,直接使用ChatTTS将文字合成为语音,同时支持对外提供API接口。从 Releases中下载压缩包,解压后双击 app.exe 即可使用,某些安全软件可能报毒,请退出或使用源码部署。

ChatTTS 是一款用于将文本转换为语音的工具(Text-to-Speech,简称 TTS)。它允许用户输入文字并生成自然、流畅的语音输出。这款工具可以用于多种场景,包括教育、播客、语音助手、无障碍访问等。ChatTTS 支持多种语言和语音风格,提供高质量的语音合成服务。

ChatTTS WebUI 网页使用 ChatTTS 将文字合成为真人语音教程 1

ChatTTS使用方法

安装和配置

  1. 下载和安装

    • 访问 ChatTTS 的官方网站或应用商店,下载并安装 ChatTTS 应用程序。
    • 根据提示进行安装,并启动应用。
  2. 创建账户并登录

    • 如果需要高级功能或云端合成服务,建议创建账户并登录。
    • 一些功能可能需要订阅或购买。

生成语音

  1. 输入文本

    • 在应用程序的文本框中输入你想转换为语音的文字内容。
  2. 选择语言和语音

    • 从下拉菜单中选择所需的语言和语音风格。
    • 可以选择默认选项或根据需要自定义音调、语速和音量。
  3. 生成语音

    • 点击“生成”按钮,ChatTTS 会将输入的文本转换为语音。
    • 你可以实时试听生成的语音,并根据需要进行调整。
  4. 保存和导出

    • 生成的语音可以保存为音频文件(如 MP3、WAV 格式),方便在其他场景中使用。
    • 选择“保存”或“导出”选项,选择文件格式和保存路径。

高级功能

  1. 批量处理

    • 对于需要转换大量文本的用户,ChatTTS 提供批量处理功能。
    • 导入文本文件或文档,批量生成语音文件。
  2. API 集成

    • 开发者可以使用 ChatTTS 提供的 API,将 TTS 功能集成到自己的应用或服务中。
    • 访问 ChatTTS 开发者文档,了解 API 调用方法和使用示例。

软件更新

ChatTTS webUI windows-v0.90 更新内容

  • 优化中文文本归一化
  • 添加 speed 1-9
  • 固定音色
  • env中增加 compile=true ,为true启用推理优化,为false禁用,某些情况下禁用将提高GPU速度,并减少报错
  • 数字转为对应语言的读法
  • torch降低到2.1.2

ChatTTS webUI 下载

一个简单的本地网页界面,在网页使用 ChatTTS 将文字合成为语音,支持中英文、数字混杂,并提供API接口。下面提供ChatTTS下载

GitHub:https://github.com/jianchang512/ChatTTS-ui

0.96版起,源码部署必须先安装ffmpeg ,之前的音色文件csv和pt已不可用,请填写音色值重新生成

v1.0完整包下载(1.7G含模型)

百度网盘下载: https://pan.baidu.com/s/1ch8dUXhOtK0VOnvq5FnJWw?pwd=vagn

123网盘下载:https://www.123pan.com/s/03Sxjv-s9VB3.html

GitHub: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/win-ChatTTS-ui-v1.0.7z

v1.02升级补丁包下载(190M)

补丁包仅用于覆盖旧版本升级,不可独立使用,如果未下载过完整包,请先下载完整包并解压,然后再下载补丁包覆盖。

升级补丁包GitHub下载地址: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/win-PatchUpdate-v1.02.7z

全部模型下载

默认将在第一次运行时自动下载模型,如果网络问题下载失败,请手动下载

GitHub 下载地址: https://github.com/jianchang512/ChatTTS-ui/releases/download/v1.0/all-models.7z

百度网盘下载: https://pan.baidu.com/s/1yGDZM9YNN7kW9e7SFo8lLw?pwd=ct5x

下载后解压后,会看到asset文件夹,该文件夹内有多个pt文件,将所有pt文件复制到本目录下,然后重启软件

v0.89完整包下载(2.7G含模型)

百度网盘下载: https://pan.baidu.com/s/1GKa9pBq_MYtOPVJxCnZLJw?pwd=p8d5

123网盘下载:https://www.123pan.com/s/03Sxjv-GoyB3.html

huggingface link: https://huggingface.co/spaces/mortimerme/s4/resolve/main/ChatTTS-UI-0.89.7z?download=true

v0.90升级补丁包下载(190M)

补丁包仅用于覆盖旧版本升级,不可独立使用,如果未下载过完整包,请先下载完整包并解压,然后再下载补丁包覆盖。

修复torch清除缓存bug

补丁包内含 app.exe.envtemplates .speaker文件夹,解压后将这些文件文件夹复制到旧版目录下覆盖同名。

升级补丁包下载地址: https://github.com/jianchang512/ChatTTS-ui/releases/download/v0.89/win-PatchUpdate-v0.90.zip

在pyVideoTrans软件中使用

升级 pyVideoTrans 到 1.82+ https://github.com/jianchang512/pyvideotrans

  1. 点击菜单-设置-ChatTTS,填写请求地址,默认应该填写 http://127.0.0.1:9966
  2. 测试无问题后,在主界面中选择ChatTTS

ChatTTS WebUI 网页使用 ChatTTS 将文字合成为真人语音教程 2

ChatTTS-WebUI测试页面项目

原项目模型整合了一下,封装成一个带有测试页面的项目。

可以直接使用,github地址:https://github.com/Hy-1990/ChatTTS-hy

需要下载模型,解压到项目下,放在百度云盘了。

模型下载链接:https://pan.baidu.com/s/1RjxJFM9N_PSMA468MQcICg  提取码:om8p

按照README步骤执行webui py文件。

测试效果如下:

ChatTTS WebUI 网页使用 ChatTTS 将文字合成为真人语音教程 1

页面参数说明

文本预处理
表示是否对输入的文本先进行预处理后再进行生成音频。默认勾选。勾选此选项可以对输入文本进行优化或修改,提升语音的自然度和可理解性。

Audio Seed

用于初始化随机数生成器的种子值,可用于生成不同音色的音频文件。设置相同的 Audio Seed 可以确保重复生成一致的语音,便于实验和调试。点击旁边的骰子按钮,可对音色进行随机抽卡。

Text Seed

类似于 Audio Seed,在阶段用于初始化随机数生成器的种子值。点击旁边的骰子按钮,可对文本进行随机抽卡。,处理后会随机加一些更细粒度的控制,比如调整笑声、停顿和口音等。

Audio Temperature
用于控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。

Top_P 和 Top_K
Top_P: 核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K: 限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。

进阶使用技巧
除了基本的参数设置,还可以进行更细粒度的控制,比如调整笑声、停顿和口音。以下是一些常用的控制标记:
[oral_(0-9)]: 控制口音强度
[laugh_(0-2)]: 控制笑声
[break_(0-7)]: 控制停顿时间
试试不同的组合,比如 [oral 2][laugh 0][break 4],探索更多有趣的语音效果。

评分:5

版权声明

站内资源仅供学习交流之用。APP应用、软件、游戏等资源,版权归原作者所有,下载后24小时之内请自觉删除,若作商业用途,请购买正版!

本站所有资源文章出自互联网收集整理,本站不存储,不上传,不参与制作,如果侵犯了您的合法权益,请在文章下方留言,我们会及时删除。

文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。非商业转载及引用请注明出处,转载请保留原文链接谢谢!

一条评论

留下评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注