人工智能-工具盒子

AI文本转语音：Toucan TTS 支持 7000 多种语言的语音合成工具箱

2024-07-12 厉飞雨阅读(683) 评论(0) 赞(17)

Toucan TTS是由德国斯图加特大学自然语言处理研究所（MS）精心打造的文本转语音（TTS）工具箱，它支持超过7000种语言，包括多样的方言和语言变体。这款工具箱建立在Python和PyTorch框架之上，不仅易于操作，而且功能全面，能够实现多声源语音合成、语音风格模仿以及人机交互的语音编辑。Toucan TTS适用于教育、朗读、多语言软件开发等多种应用场...

【AI绘画MJ高阶用法】如何结合小红书搜图技巧快速复刻心仪图片风格(含完整的操作流程)

2024-07-11 厉飞雨阅读(564) 评论(0) 赞(15)

<img src="https://img1.51tbox.com/static/2024-07-08/col/0110176e0be3765d8f396c4bb6f59779/b1b0f2bb7f9a41efb67a872bae157854.jpg" alt="" /> <img src="...

绘图不求人：用 Kimi 快速生成专业流程图

2024-07-11 厉飞雨阅读(3205) 评论(0) 赞(18)

手动绘制流程图是一项既繁琐又耗时的任务。从规划布局到绘制符号，再到连接各个部分，每一步都需要精心处理。一旦需要进行修改或调整，就必须重新开始整个过程，这往往要占用大量的工作时间。 幸运的是，AI 工具的出现解决了手动绘制流程图的问题。本文将介绍如何使用 Kimi快速生成专业流程图。 <h2>...

低成本本地部署可公网访问的Dify极简教程

2024-07-11 厉飞雨阅读(1263) 评论(0) 赞(16)

与大家分享一下我自己探索的?低成本?本地部署可公网访问的Dify经验哈，欢迎大家多多交流<img src="https://img1.51tbox.com/static/2024-07-08/col/6c2e4020375a91c1ddc882074108a69f/5501f537df17476fa65c11d6079a5e74.png.jpg...

【AI广告神器】Glato AI：只需一个产品网页链接，自动分析生成短视频广告！

2024-07-11 厉飞雨阅读(586) 评论(0) 赞(18)

?今天给大家安利一个AI视频广告神器------Glato AI 。?只需提供一个产品网页链接，它就能全自动分析并生成超高质量的短视频广告，简直是做产品和电商的自媒体人的福音！ ? 一键生成，效果惊艳：<...

中国风诗词视频：奇域AI+可灵AI+即梦AI+剪映，保姆级教程！

2024-07-11 厉飞雨阅读(938) 评论(0) 赞(18)

上一次被奇域AI美呆之后，我发现我整篇文章都在哇噻 的状态下，一点干货没写，我对自己翻白眼<img src="https://img1.51tbox.com/static/2024-07-09/col/864c376f19a0773c1712d2d4707f225a/f0ee00dbd7...

当旅行遇上插画，我叫它「旅行插画风」。

2024-07-11 厉飞雨阅读(352) 评论(0) 赞(15)

不知道有多少人和我一样不喜欢拍照，但又喜欢到处玩～如果只拍美景未免显得有点单调，真人出镜又会很社恐。今天发现了一种好看又好玩的玩法，就是把目的地P上卡通人物～既好看，又有新意，目前我在自媒体平台上还没看见几个人这么玩儿，或许可以测一测流量哦。 操作过程巨简单，有手就能做。 第一步，用Midjourne...

阿里通义音频生成大模型 FunAudioLLM 开源！

2024-07-10 厉飞雨阅读(581) 评论(0) 赞(17)

**01** **导读** 人类对自身的研究和模仿由来已久，在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息，对话作为人类最常使用亲切自然的交互模式，是连接人与智能世界至关重要的环节。 近日，阿里通义实验室发布并开源了语音大模型项目...

阿里开源语音大模型：语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！

2024-07-10 厉飞雨阅读(536) 评论(0) 赞(18)

语音识别技术在人工智能（AI）领域扮演着至关重要的角色，它不仅是人机交互的基石，也是推动智能系统发展的关键驱动力。以下是语音识别在AI领域的一些主要作用： <ol> <li> 改善用户体验：通过语音识别，用户可以与智能设备进行自然语言交流，无...

图片直接生视频：腾讯开源的可控性AI图生视频模型

2024-07-10 厉飞雨阅读(726) 评论(0) 赞(18)

MOFA-Video是一种由腾讯A1实验室和东京大学的研究人员共同开源的图像生成视频模型。该技术通过生成运动场适应器将静态图像动画化，从而生成视频。基于预训练的Stable VideoDiffusion模型，MOFA-Video能够通过稀疏控制信号（如手动轨迹、面部标记序列或音频等）实现对视频生成过程中动作的精细控制。这些控制信号不仅可以单独使用，还可以组合使...