盘点开源中文TTS！多音色、多情感、可提示、可控制的人工智能文本生成语音工具-工具盒子

**TTS是短视频领域不可获取的一个工具，我们经常使用的剪辑工具通常都会自带各种类型的声色，本文盘点两个中文领域最适用的开源TTS项目！包含** 2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音\*\* 。另外还支持语音的Promot，可以根据你的提示来生成对应的语音，完全秒杀各种VIP的工具！先来看下效果：\*\* **01** ------ **EmotiVoice易魔声 : 多音色提示控制TTS** ------------------------------ **EmotiVoice** 是一个强大的开源TTS引擎，完全免费，**支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音** 。 ![](https://img1.51tbox.com/static/2024-03-13/col/d809f329fe3d7cd130b2c6aa34750157/3278d1c3f1ae49458af4af4ade09dfef.jpg) EmotiVoice提供一个易于使用的web界面，还有用于批量生成结果的脚本接口。最新的一些功能如下： * **调速** ：类OpenAI TTS的API已经支持调语速功能； * **定制** ：用自己的数据定制音色； * **易用** ：易魔声 HTTP API 更易上手（无需任何安装配置），更快更稳定； **源码安装使用或者网页交互** \* \* \* \* \* \* \* \* \* \* \* \* \* \* \* \* ``` # 第一种：直接使用交互的网页界面pip install streamlitstreamlit run demo_page.py # 第二种：源码推理，推理输入文本格式|||# 获取音素python frontend.py data/my_text.txt > data/my_text_for_tts.txt# 运行TTSTEXT=data/inference/textpython inference_am_vocoder_joint.py \--logdir prompt_tts_open_source_joint \--config_folder config/joint \--checkpoint g_00140000 \--test_file $TEXT ``` **EmotiVoice生成的示例** **02** ****VALL-E X: 多语言文本到语音合成与语音克隆**** --------------------------------- VALL-E X 是一个强大而创新的多语言文本转语音（TTS）模型，最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念，但并未发布任何代码或预训练模型。我们认识到了这项技术的潜力和价值，复现并训练了一个开源可用的VALL-E X模型。**预训练模型现已向公众开放，供研究或应用使用**，让每个人都能体验到次世代TTS的威力。 ![](https://img1.51tbox.com/static/2024-03-13/col/d809f329fe3d7cd130b2c6aa34750157/dcbcc1c0472e4119b4fc0bbacfadb81c.jpg)**VALL-E X 配备有一系列尖端功能：** 1. **多语言 TTS**: 可使用三种语言 - 英语、中文和日语 - 进行自然、富有表现力的语音合成。 2. **零样本语音克隆** : 仅需录制任意说话人的短短的 3\~10 秒录音，VALL-E X 就能生成个性化、高质量的语音，完美还原他们的声音。 3. **语音情感控制** : VALL-E X 可以合成与给定说话人录音相同情感的语音，为音频增添更多表现力。 4. **零样本跨语言语音合成**: VALL-E X 可以合成与给定说话人母语不同的另一种语言，在不影响口音和流利度的同时，保留该说话人的音色与情感。 5. **口音控制:** VALL-E X 允许您控制所合成音频的口音，比如说中文带英语口音或反之。 6. **声学环境保留**: 当给定说话人的录音在不同的声学环境下录制时，VALL-E X 可以保留该声学环境，使合成语音听起来更加自然。 **源码安装使用**\* \* \* \* \* \* \* \* \* \* \* \* \* \* \* \* \* \* ``` from utils.generation import SAMPLE_RATE, generate_audio, preload_modelsfrom scipy.io.wavfile import write as write_wavfrom IPython.display import Audio # download and load all modelspreload_models() # generate audio from texttext_prompt = """Hello, my name is Nose. And uh, and I like hamburger. Hahaha... But I also have other interests such as playing tactic toast."""audio_array = generate_audio(text_prompt) # save audio to diskwrite_wav("vallex_generation.wav", SAMPLE_RATE, audio_array) # play text in notebookAudio(audio_array, rate=SAMPLE_RATE) ```

**03** **源码及Demo演示** ------------- * 项目源码：https://github.com/netease-youdao/EmotiVoice ------------------------------------------------- * 项目源码：https://github.com/Plachtaa/VALL-E-X ----------------------------------------- * 在线体验：https://huggingface.co/spaces/Plachta/VALL-E-X --------------------------------------------------- ![](https://img1.51tbox.com/static/2024-03-13/col/d809f329fe3d7cd130b2c6aa34750157/8becbb8b1fb746709f29a2c0ad1f45bc.jpg) **简介：** 专注多模态大模型与计算机视觉领域，跟随Mark一起学AI。**Mark.AI** **推荐** ► [顶配版SAM：由分割一切-升级至识别一切-再进化为感知一切](http://mp.weixin.qq.com/s?__biz=MzU4MzU2MDg0NA==&mid=2247484177&idx=1&sn=726173a98f13cfc4baeb20aab5e8f10b&chksm=fda678f2cad1f1e4011fecd47ce0c40d836e54f3ce63280d73f7936842a37e5983d09c6f7e0b&scene=21#wechat_redirect) ► [多模态大模型与深度学习高阶面试题：新颖、高频且有深度，数百道题覆盖六大专题](http://mp.weixin.qq.com/s?__biz=MzU4MzU2MDg0NA==&mid=2247484151&idx=1&sn=6123c5fb05435d9b2ec12a8e70ecae82&chksm=fda67914cad1f0020f0b32e203343118e88ea7705b44d6155389b7e25394b66252f33600dcf1&scene=21#wechat_redirect) ► [顶配版OCR工具！支持任何语言、任意表格、图表与文档的文本检测和识别工具](http://mp.weixin.qq.com/s?__biz=MzU4MzU2MDg0NA==&mid=2247484223&idx=1&sn=646363624d5da95391420ac3126a3ec3&chksm=fda678dccad1f1caf8a677f3979cdb92955a54bfb4faca3c4a7e83dca5304ccd3ea744b69b10&scene=21#wechat_redirect)

51工具盒子

盘点开源中文TTS！多音色、多情感、可提示、可控制的人工智能文本生成语音工具

厉飞雨

相关推荐

最新文章

猜你喜欢

快捷分类