背景介绍
大家好。之前给大家分享很多关于大模型应用的文章,部分如下:
-
【生成视频双语字幕-项目实战】手把手教你利用whisper +Qwen1.5_110B+FFmpeg来实现,效果惊艳,干货满满!
-
【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!
-
4.1k star! FishSpeech1.2重磅开源,目前中文开源TTS效果最好!手把手带你进行部署推理复现官方demo!
之前给大家介绍多款最近爆火开源TTS项目,到底哪款TTS效果最好呢?我准备了2段待合成文本,依次测试了ChatTTS、FishSpeech、CosyVoice、edgetts这4 款生成的效果,还测评了FishSpeech和CosyVoice的声音克隆功能,并附上对应的语音合成效果,具体哪款效果好,你说了算!!下面今天我们今天的主题~
本文目录
-
ChatTTS开源项目介绍
-
edgeTTS开源项目介绍
-
FishSpeech开源项目介绍
-
CosyVocie开源项目介绍
-
TTS逼真度对比-横向测评对比效果展示
-
待合成TTS的文案一
-
ChatTTS随机说话人 -合成文案一语音效果展示
-
FishSpeech随机说话人 -合成文案一语音效果展示
-
CosyVoice中文女 -合成文案一语音效果展示
-
edgetts-xiaoxiao -合成文案一语音效果展示
-
待合成TTS的文案二
-
ChatTTS随机说话人 -合成文案二语音效果展示
-
FishSpeech随机说话人 -合成文案二语音效果展示
-
CosyVoice中文女 -合成文案二语音效果展示
-
edgetts-xiaoxiao -合成文案二语音效果展示
-
-
语音克隆-横向测评对比效果展示
-
准备待克隆的音频素材
-
FishSpeech语音克隆合成文案二-效果展示
-
CosyVoice语音克隆合成文案二-效果展示
-
-
参考链接
ChatTTS开源项目介绍
之前给大家介绍关于ChatTTS开源项目,具体可见文章
其中对应的文章目录如下:
edgeTTS开源项目介绍
edge-tts是github上高赞的开源文本合成语音TTS项目,该项目截止目前点赞累计点赞达4k! 该项目核心就是调用微软edge的在线语音合成服务,支持40多种语言,318种声音;其中在中文方面,除了普通话外,支持地方口音(比如: 陕西方言、台湾口音、粤语等等)。
详情可见: 4K Star! 这款开源edge-tts效果超过ChatTTS,支持粤语方言、陕西方言、台湾方言等语音合成,关键是还免费~,对应的文章目录如下:
FishSpeech开源项目介绍
FishSpeech 是一款由 fishaudio 开发的文本转语音(TTS)工具;具体可见: 4.1k star! FishSpeech1.2重磅开源,目前中文开源TTS效果最好!手把手带你进行部署推理复现官方demo!对应的文章目录如下:
CosyVocie开源项目介绍
FunAudioLLM 是阿里语音团队最新开源的项目,用于改善人类与大型语言模型的自然语音交互。包含两个核心模型:SenseVoice 负责语音识别和音频处理,CosyVoice 负责语音生成和控制。
具体可见: 【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能!效果炸裂!手把手带你理论+实战部署推理!对应的文章目录如下:
接下来我将给大家横向对比一下,看看这几款TTS哪款效果更好一点,大家来评价~ TTS逼真度对比-横向测评对比效果展示
待合成TTS的文案一
当你压力大到快要崩溃的时候,不要跟别人讲,也不觉得自己委屈,
没有人会心疼你。要像余华说的那样:在夜深人静的时候,把心掏出来,
自己缝缝补补,然后睡一觉醒来,又是信心百倍。无人问津也好,
技不如人也罢,你都要试着安静下来,去做自己该做的事情,
而不是让烦恼和焦虑,毁掉你本就不多的热情和定力。心可以碎,
手不能停,该干什么干什么在崩溃中继续前行,这才是一个成年人的素养。
ChatTTS随机说话人 -合成文案一语音效果展示
下面是合成的音频效果
花费的时间:15秒
FishSpeech随机说话人 -合成文案一语音效果展示
下面是合成的音频效果
花费的时间:2分2秒
CosyVoice中文女 -合成文案一语音效果展示
下面是合成的音频效果
花费的时间:56.3秒
edgetts-xiaoxiao -合成文案一语音效果展示
下面是合成的音频效果
花费的时间:2.1秒
待合成TTS的文案二
其实选错了就选错了,别一遍一遍的后悔,总寻思当初怎么怎么样就好了,
请别欺负当时的自己,当时你一个人站在雾里也很迷茫,就算重新来,
你还是会选这条路,不要去美化那条你没有选的路,人生没有白走的路,
对错都算数,脚下的这条路就是最好的路,终会有星辰大海,花团锦簇,
眼睛长在前面,永远别向后看!
ChatTTS随机说话人 -合成文案二语音效果展示
下面是合成的音频效果
花费的时间:33.6秒
FishSpeech随机说话人 -合成文案二语音效果展示
下面是合成的音频效果
花费的时间: 2分22秒
CosyVoice中文女 -合成文案二语音效果展示
下面是合成的音频效果
花费的时间:52.3秒
edgetts-xiaoxiao -合成文案二语音效果展示
下面是合成的音频效果
花费的时间:1.96秒
语音克隆-横向测评对比效果展示
由于目前介绍这4款TTS只有FishSpeech和CosyVoice具有克隆功能,下面我们将对其进行声音克隆效果测试。
准备待克隆的音频素材
这里我采用fishspeech的"芙宁娜 (原神)"的参考音频作为我原始音频素材
!wget https://demo-r2.speech.fish.audio/v1.1-sft-large/zh/2_input.wav
!git clone https://hf-mirror.com/fishaudio/fish-speech-1.2.git
!tree fish-speech-1.2
对应的fish-speech-1.2目录效果:这是官网给的"芙宁娜 (原神)"的参考音频:
FishSpeech语音克隆合成文案二-效果展示
合成的语音效果展示:
花费的时间:大约2分6秒
CosyVoice语音克隆合成文案二-效果展示
花费的时间:大约1分07秒合成的语音效果展示:
微信公众号一次最多只能插入10个音频,最后一个插入不了了,尴尬!
参考链接
-
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
-
SenseVoice: https://github.com/FunAudioLLM/SenseVoice
-
https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf
-
https://fun-audio-llm.github.io/pdf/CosyVoice_v1.pdf
-
https://fun-audio-llm.github.io/
-
https://www.modelscope.cn/studios/iic/CosyVoice-300M
-
fish的官网介绍文档: https://speech.fish.audio/
-
fish的github: https://github.com/fishaudio/fish-speech
-
fish在线demo: https://fish.audio/zh-CN/text-to-speech/
-
fish-speech-1.2模型权重: https://hf-mirror.com/fishaudio/fish-speech-1.2
-
https://github.com/rany2/edge-tts
-
https://github.com/2noise/ChatTTS