51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

【干货分享】4款爆火TTS横向效果对比测试,哪款好用等你来评!!包含ChatTTS、FishSpeech、CosyVocie!

背景介绍

大家好。之前给大家分享很多关于大模型应用的文章,部分如下:

之前给大家介绍多款最近爆火开源TTS项目,到底哪款TTS效果最好呢?我准备了2段待合成文本,依次测试了ChatTTS、FishSpeech、CosyVoice、edgetts这4 款生成的效果,还测评了FishSpeech和CosyVoice的声音克隆功能,并附上对应的语音合成效果,具体哪款效果好,你说了算!!下面今天我们今天的主题~

本文目录

  • ChatTTS开源项目介绍

  • edgeTTS开源项目介绍

  • FishSpeech开源项目介绍

  • CosyVocie开源项目介绍

  • TTS逼真度对比-横向测评对比效果展示

    • 待合成TTS的文案一

    • ChatTTS随机说话人 -合成文案一语音效果展示

    • FishSpeech随机说话人 -合成文案一语音效果展示

    • CosyVoice中文女 -合成文案一语音效果展示

    • edgetts-xiaoxiao -合成文案一语音效果展示

    • 待合成TTS的文案二

    • ChatTTS随机说话人 -合成文案二语音效果展示

    • FishSpeech随机说话人 -合成文案二语音效果展示

    • CosyVoice中文女 -合成文案二语音效果展示

    • edgetts-xiaoxiao -合成文案二语音效果展示

  • 语音克隆-横向测评对比效果展示

    • 准备待克隆的音频素材

    • FishSpeech语音克隆合成文案二-效果展示

    • CosyVoice语音克隆合成文案二-效果展示

  • 参考链接

ChatTTS开源项目介绍

之前给大家介绍关于ChatTTS开源项目,具体可见文章

其中对应的文章目录如下:

edgeTTS开源项目介绍

edge-tts是github上高赞的开源文本合成语音TTS项目,该项目截止目前点赞累计点赞达4k! 该项目核心就是调用微软edge的在线语音合成服务,支持40多种语言,318种声音;其中在中文方面,除了普通话外,支持地方口音(比如: 陕西方言、台湾口音、粤语等等)。

详情可见: 4K Star! 这款开源edge-tts效果超过ChatTTS,支持粤语方言、陕西方言、台湾方言等语音合成,关键是还免费~,对应的文章目录如下:

FishSpeech开源项目介绍

FishSpeech 是一款由 fishaudio 开发的文本转语音(TTS)工具;具体可见: 4.1k star! FishSpeech1.2重磅开源,目前中文开源TTS效果最好!手把手带你进行部署推理复现官方demo!对应的文章目录如下:

CosyVocie开源项目介绍

FunAudioLLM 是阿里语音团队最新开源的项目,用于改善人类与大型语言模型的自然语音交互。包含两个核心模型:SenseVoice 负责语音识别和音频处理,CosyVoice 负责语音生成和控制。

具体可见: 【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!对应的文章目录如下:

接下来我将给大家横向对比一下,看看这几款TTS哪款效果更好一点,大家来评价~ TTS逼真度对比-横向测评对比效果展示

待合成TTS的文案一

当你压力大到快要崩溃的时候,不要跟别人讲,也不觉得自己委屈,
没有人会心疼你。要像余华说的那样:在夜深人静的时候,把心掏出来,
自己缝缝补补,然后睡一觉醒来,又是信心百倍。无人问津也好,
技不如人也罢,你都要试着安静下来,去做自己该做的事情,
而不是让烦恼和焦虑,毁掉你本就不多的热情和定力。心可以碎,
手不能停,该干什么干什么在崩溃中继续前行,这才是一个成年人的素养。

ChatTTS随机说话人 -合成文案一语音效果展示

下面是合成的音频效果

花费的时间:15秒

FishSpeech随机说话人 -合成文案一语音效果展示

下面是合成的音频效果

花费的时间:2分2秒

CosyVoice中文女 -合成文案一语音效果展示

下面是合成的音频效果

花费的时间:56.3秒

edgetts-xiaoxiao -合成文案一语音效果展示

下面是合成的音频效果

花费的时间:2.1秒

待合成TTS的文案二

其实选错了就选错了,别一遍一遍的后悔,总寻思当初怎么怎么样就好了,
请别欺负当时的自己,当时你一个人站在雾里也很迷茫,就算重新来,
你还是会选这条路,不要去美化那条你没有选的路,人生没有白走的路,
对错都算数,脚下的这条路就是最好的路,终会有星辰大海,花团锦簇,
眼睛长在前面,永远别向后看!

ChatTTS随机说话人 -合成文案二语音效果展示

下面是合成的音频效果

花费的时间:33.6秒

FishSpeech随机说话人 -合成文案二语音效果展示

下面是合成的音频效果

花费的时间: 2分22秒

CosyVoice中文女 -合成文案二语音效果展示

下面是合成的音频效果

花费的时间:52.3秒

edgetts-xiaoxiao -合成文案二语音效果展示

下面是合成的音频效果

花费的时间:1.96秒

语音克隆-横向测评对比效果展示

由于目前介绍这4款TTS只有FishSpeech和CosyVoice具有克隆功能,下面我们将对其进行声音克隆效果测试。

准备待克隆的音频素材

这里我采用fishspeech的"芙宁娜 (原神)"的参考音频作为我原始音频素材

!wget https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/2_input.wav
!git clone https://hf-mirror.com/fishaudio/fish-speech-1.2.git
!tree fish-speech-1.2

对应的fish-speech-1.2目录效果:这是官网给的"芙宁娜 (原神)"的参考音频:

FishSpeech语音克隆合成文案二-效果展示

合成的语音效果展示:

花费的时间:大约2分6秒

CosyVoice语音克隆合成文案二-效果展示

花费的时间:大约1分07秒合成的语音效果展示:

微信公众号一次最多只能插入10个音频,最后一个插入不了了,尴尬!

参考链接

  1. CosyVoice: https://github.com/FunAudioLLM/CosyVoice

  2. SenseVoice: https://github.com/FunAudioLLM/SenseVoice

  3. https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf

  4. https://fun-audio-llm.github.io/pdf/CosyVoice_v1.pdf

  5. https://fun-audio-llm.github.io/

  6. https://www.modelscope.cn/studios/iic/CosyVoice-300M

  7. fish的官网介绍文档: https://speech.fish.audio/

  8. fish的github: https://github.com/fishaudio/fish-speech

  9. fish在线demo: https://fish.audio/zh-CN/text-to-speech/

  10. fish-speech-1.2模型权重: https://hf-mirror.com/fishaudio/fish-speech-1.2

  11. https://github.com/rany2/edge-tts

  12. https://github.com/2noise/ChatTTS

赞(7)
未经允许不得转载:工具盒子 » 【干货分享】4款爆火TTS横向效果对比测试,哪款好用等你来评!!包含ChatTTS、FishSpeech、CosyVocie!