51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

Fish.Audio,一段新旅途!

害有人整不明白fish.audio线上playground吗?

要点:

传中文就推理中文,传英文就推理英文,想跨语言自己准备1小时语音sft,v1.2已经开源。

传的时候注意把空白切一切,空白少一点就不漏字。

========================================

和冷月在开源语音社区2023年2月份认识的,毕竟唱歌🎤是一个我能真实恰上饭的爱好,搞了下DiffSinger(浙大原版,OpenVPI社区fork,自制声码器)给我俩各自推的B站虚拟主播分别做了Demo。

妮,科班流行

https://www.bilibili.com/video/BV1524y1u7NQ/?spm_id_from=333.999.0.0&vd_source=1762f72a3849bd218db4ae492a79367c

鱼皇,科班美声(填词也是gpt3辅助,缺少逻辑和缺少押韵,人来完成)

https://www.bilibili.com/video/BV1yh411g7XC/?spm_id_from=333.788&vd_source=1762f72a3849bd218db4ae492a79367c

到第二个Demo的时候......作为一个石器时代的ML工程师、DL工程师当时感觉就可以退出卷界下岗了:冷月当时U Maryland大四,Copilot玩的6,一周把10篇声码器论文(AceStudio的Refinegan没有参考代码,Hifigan原版有些小问题)缝在了一个仓库里,我只有做实验的份......想通了,配合实验找数据比较适合我。

我把开源AI歌声和成用闲暇时间玩了半年。

6月份冷月就拿到了英伟达北美的实习Offer。我还说,一定要去全职啊,这样上班离着比较近(当时我在北美的办公室就在英伟达对面)

图为早高峰,我在半导体公司工作,要是有人能盒到我的LinkedIn,估计会发现我还没改(懒得改)

9月,冷月拿到英伟达全职Offer了,这时候他21岁。

10月我也准时到硅谷帮之前一家公司处理融资,靠FA介绍到了三星北美总部(内存合作、Foundry合作)。我俩住的地方就距离1 mi,他还卖了我一台二手显示器(120刀,我还是给他现金的)

11月在Bay Area Founder Club,组织者Paul举办了几次活动,介绍了我们的AI唱歌。现在James Wen、Wei Li两位师兄还在硅谷帮我们宣传,而且在Paul的群里,认识了特别狂热的支持我们现在工作的Yuze @ Lepton.ai。续上了。

后面12月,因为身体不好的原因辞职了。这个时候,Fish Audio TTS 已经完成了对BertVits2的升级进入了v0.4时代。

休息到3月过完年,3-5月其实我一直在研究硬件供应链。这时候冷佬觉得TTS差不多了可以踩一脚油门了,原因有几个:GPT-4o也卷起来了,以前跟AceStudio关系不错(18-19年认识,我掏过点钱赞助,是小小小Option Holder),老郭也觉得时机差不多。然后AI音乐本来我还有一些预算卷起来,把最后一个AI音乐声库4月交付完,5月聊了聊,那还是正八经开工吧。

6月沾亲带故的投资人聊了聊,出现了一个被我们薅秃的潜在投资人:之前我FA的资方,Fish Audio数据清洗管线显卡提供商,以及聊了聊打钱的事情......疯狂薅一家,笑死。后来他看我们每天能洗1.5万小时数据,承诺清洗管线还能再翻4倍的量......(估计还是白拿,但后面如果融到资,再白拿就太不礼貌了,笑死)Lepton帮忙扩容推理

6月聊了一下,3个高频的问题:

A. 冷月你咋还没离职啊 (在离了在离了。现在他leader最操心的就是他做的东西没人能全接住,自动驾驶相关)

B. 散沙你说这估值也太高了吧 (以卡代投会便宜的 咱Fish的几个小伙看到卡跟看到___似的)

C. 你们怎么看 ____ TTS ?( 开始欢乐

7月公司成立于Delaware,Demo上线,新数据补齐,海投投资人,海找业务方。数据组兄弟们,Dev组兄弟们和CTO level的兄弟们在等着了。

Fish.Audio,我的一段新旅途,也会是兄弟们的一段新旅途。

赞(4)
未经允许不得转载:工具盒子 » Fish.Audio,一段新旅途!