这个叫chattts的开源，合成的声音太逼真了，我差点被骗！-工具盒子

这个TTS(文本转语音)的开源效果太炸裂了！我完全听不出来是AI生成的声音！我给了好基友听，他竟然也听不出来是AI生成的。![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/2d7adc22dded442c957d606c62113797.jpg) 我给基友听的是下面的这段录音，大伙儿也来听听看。这段音频完全是由AI生成的，这款AI叫做Chattts，而且他是开源的！![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/623feabeca274e64aa174789f3b77dfa.jpg) chattts才开源两天，就获得了5.2k的star，官网说它突破了开源天花板，所言不虚啊！![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/0f7531a05af646a1a38e8b4eb6234c14.jpg) 在官方的git仓库，提到chattts有3点两点： * 对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。 * 细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。 * 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。 **更好的韵律**这个两点在这篇文章是没有办法给大伙儿们演示了，其他的两点我们一起来看看吧。 ChatTTS初体验 ========== chattts可以免费体验，免费体验地址为：https://huggingface.co/spaces/Dzkaka/ChatTTS 进入之后，可以看到下面的界面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/be83c2ffaeae4a16b7dfed1fc2f863e4.jpg) 体验地址给了一个简单的demo，生成的是下面的这个音频，大伙儿可以听听看效果如何官网给的demo例子，从我的体验来看，算是中规中矩吧，并没有把官方的两点体现出来。我先看试一下，看能不能体验ChatTTS多说话人的场景体验 ChatTTS多说话人体验 ============= 我理解的多说话人就是在一段文本中，根据场景，可以区分多个人在说话，比如下面这个文本： > 你知道什么是ChatGPT吗 \[uv_break\]？我不知道啊\[laugh\]，你跟我讲一讲好吗?![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/44cd6c268a74473e84d00dbf3c8188a8.jpg) 使用起来很简单，我们直接把文本贴到输入框就可以了，其他的就使用默认的参数。生成的音频就在下面啦。这段语音听起来很自然，虽然前后的音色看起来似乎是一样的，不过说话的语调，感觉似乎是一个对话。 ChatTTS细粒度控制 ============ ChatTTS这个特点比现在市面上很多tts的产品都要强，他可以允许我们插入停顿、笑声。来试一下下面这个例子 > 这个太有意思了\[uv_break\] ，你是怎么做到的\[uv_break\],我完全没想到这一点\[laugh\]，你真的太厉害了\[laugh\]，我太崇拜你了![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/8a080b4c9c1445a296b5d1f63d93fe39.jpg) 大家在看我输入的文本，应该有看到\[uv_break\]、\[laugh\]着两个单词，这两个单词是「停顿」「笑声」。在相应的位置，我们生成的音频会转换成相应的动作，停顿或者笑。我们来一起听听，这句输出的效果吧加入笑声、停顿之后，听起来就更加有人情味了，感觉不再是冷冰冰的机器声音了。 ChatTTS翻车情况 =========== 从我测试的效果来看，ChatTTS真的很强了，它的效果超过市面上很多TTS产品了，不过ChatTTS也有翻车的时候。这就给大伙儿们一起看看翻车的例子. > 太牛逼了\[laugh\]，里面个个都是人才\[laugh\]，说话又好听，哎呦，我超喜欢里面上面这个是窃·格瓦拉当年说的话，我用ChatTTS将文本转换成音频![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/6a3b1c530b2e458eac7d80cf5f22bb67.jpg) 在这段话中，我加入了两个\[laugh\]，预期会有两个短暂的笑声。不过呢，实际的效果是，第二个笑声太长了，以至于像不像正常人的声音，大伙儿们一起来听听看。经过几次测试后，我发现，\[laugh\]放在不同的地方效果还不一样。比如下面这个 > 太\[laugh\]牛逼了，里面个个都是人才\[laugh\]，说话又好听，哎呦，我超喜欢里面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/eb3eda665dcf4adc8570c5c260959242.jpg) 本来说完"太"之后，应该是笑声，然后，再继续说话。但是呢，这样加了之后，没有了笑声，只剩下鬼哭狼嚎。然后文本完全没有变，我就稍微调整了下\[laugh\]的位置，效果完全不一样，这次的效果非常的好 > 太牛逼了，里面个个都是人才\[laugh\]，说话又好听\[laugh\]，哎呦，我超喜欢里面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/86841899a186476ba7a9b3f29feb96af.jpg) 我发现\[laugh\]如果放在句子中或者句子前面，比如`太[laugh]牛逼了`或者`[laugh]太牛逼了`这种情况，会出现不可思议的效果(不是好效果）。虽然有点小问题，但从我多次体验效果来看，翻车的概率并不高。项目的效果是非常赞的！应用场景思考 ====== ChatTTS对于这种对话式的文本转语音的场景效果非常好，生成语音速度非常快，一个大概也就是10多秒，如果能够结合数字人应用到直播，其效果真的很炸裂。 ChatTTS效果足以以假乱真了，被不法分子利用实施诈骗也不是没有可能。当然，作者也是留了个心眼，希望作者的这些手段能够预防这项技术被用于做违法行为吧。![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/40d93d28ce64439b87da1ee1dcd16c43.jpg)

51工具盒子

这个叫chattts的开源，合成的声音太逼真了，我差点被骗！

厉飞雨

相关推荐

最新文章

猜你喜欢

快捷分类