2024-06-05
分类:白嫖帮
阅读(223) 评论(0)
这个TTS(文本转语音)的开源效果太炸裂了!我完全听不出来是AI生成的声音!
我给了好基友听,他竟然也听不出来是AI生成的。![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/2d7adc22dded442c957d606c62113797.jpg)
我给基友听的是下面的这段录音,大伙儿也来听听看。
这段音频完全是由AI生成的,这款AI叫做Chattts,而且他是开源的!![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/623feabeca274e64aa174789f3b77dfa.jpg)
chattts才开源两天,就获得了5.2k的star,官网说它突破了开源天花板,所言不虚啊!![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/0f7531a05af646a1a38e8b4eb6234c14.jpg)
在官方的git仓库,提到chattts有3点两点:
* 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人。
* 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等。
* 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
**更好的韵律**这个两点在这篇文章是没有办法给大伙儿们演示了,其他的两点我们一起来看看吧。
ChatTTS初体验
==========
chattts可以免费体验,免费体验地址为:https://huggingface.co/spaces/Dzkaka/ChatTTS
进入之后,可以看到下面的界面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/be83c2ffaeae4a16b7dfed1fc2f863e4.jpg)
体验地址给了一个简单的demo,生成的是下面的这个音频,大伙儿可以听听看效果如何
官网给的demo例子,从我的体验来看,算是中规中矩吧,并没有把官方的两点体现出来。
我先看试一下,看能不能体验ChatTTS多说话人的场景体验
ChatTTS多说话人体验
=============
我理解的多说话人就是在一段文本中,根据场景,可以区分多个人在说话,比如下面这个文本:
> 你知道什么是ChatGPT吗 \[uv_break\]?我不知道啊\[laugh\],你跟我讲一讲好吗?![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/44cd6c268a74473e84d00dbf3c8188a8.jpg)
使用起来很简单,我们直接把文本贴到输入框就可以了,其他的就使用默认的参数。生成的音频就在下面啦。
这段语音听起来很自然,虽然前后的音色看起来似乎是一样的,不过说话的语调,感觉似乎是一个对话。
ChatTTS细粒度控制
============
ChatTTS这个特点比现在市面上很多tts的产品都要强,他可以允许我们插入停顿、笑声。来试一下下面这个例子
> 这个太有意思了\[uv_break\] ,你是怎么做到的\[uv_break\],我完全没想到这一点\[laugh\],你真的太厉害了\[laugh\],我太崇拜你了![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/8a080b4c9c1445a296b5d1f63d93fe39.jpg)
大家在看我输入的文本,应该有看到\[uv_break\]、\[laugh\]着两个单词,这两个单词是「停顿」「笑声」。在相应的位置,我们生成的音频会转换成相应的动作,停顿或者笑。
我们来一起听听,这句输出的效果吧
加入笑声、停顿之后,听起来就更加有人情味了,感觉不再是冷冰冰的机器声音了。
ChatTTS翻车情况
===========
从我测试的效果来看,ChatTTS真的很强了,它的效果超过市面上很多TTS产品了,不过ChatTTS也有翻车的时候。
这就给大伙儿们一起看看翻车的例子.
> 太牛逼了\[laugh\],里面个个都是人才\[laugh\],说话又好听,哎呦,我超喜欢里面
上面这个是窃·格瓦拉当年说的话,我用ChatTTS将文本转换成音频![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/6a3b1c530b2e458eac7d80cf5f22bb67.jpg)
在这段话中,我加入了两个\[laugh\],预期会有两个短暂的笑声。不过呢,实际的效果是,第二个笑声太长了,以至于像不像正常人的声音,大伙儿们一起来听听看。
经过几次测试后,我发现,\[laugh\]放在不同的地方效果还不一样。比如下面这个
> 太\[laugh\]牛逼了,里面个个都是人才\[laugh\],说话又好听,哎呦,我超喜欢里面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/eb3eda665dcf4adc8570c5c260959242.jpg)
本来说完"太"之后,应该是笑声,然后,再继续说话。但是呢,这样加了之后,没有了笑声,只剩下鬼哭狼嚎。
然后文本完全没有变,我就稍微调整了下\[laugh\]的位置,效果完全不一样,这次的效果非常的好
> 太牛逼了,里面个个都是人才\[laugh\],说话又好听\[laugh\],哎呦,我超喜欢里面![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/86841899a186476ba7a9b3f29feb96af.jpg)
我发现\[laugh\]如果放在句子中或者句子前面,比如`太[laugh]牛逼了`或者`[laugh]太牛逼了`这种情况,会出现不可思议的效果(不是好效果)。
虽然有点小问题,但从我多次体验效果来看,翻车的概率并不高。项目的效果是非常赞的!
应用场景思考
======
ChatTTS对于这种对话式的文本转语音的场景效果非常好,生成语音速度非常快,一个大概也就是10多秒,如果能够结合数字人应用到直播,其效果真的很炸裂。
ChatTTS效果足以以假乱真了,被不法分子利用实施诈骗也不是没有可能。当然,作者也是留了个心眼,希望作者的这些手段能够预防这项技术被用于做违法行为吧。![](https://img1.51tbox.com/static/2024-06-05/col/5aef15b6e7086a7a995440bbade976b7/40d93d28ce64439b87da1ee1dcd16c43.jpg)
众生皆苦,唯有自渡!