51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

11 个顶级开源Agent框架:自主运行 AI 的未来(2024 年更新)

![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/21ba558ce5114820a043a6f573abff0f.jpg) 牛顿曾经说过:**如果我看得更远,那是因为我站在巨人的肩膀上!** 如果这些巨人有现代的变化,那就是自主的、开源的AI Agent在做重要的工作。
在今天的文章中,我们将介绍一些Top 开源AI Agent框架,也许你想知道的关于自主Agent的一切, 都在这里。 我们还将深入探讨代理架构的一些机遇、挑战和未知领域。通过阅读本文, 你将学到: 1. 开源人工智能代理如何为创新和效率创造机会。 2. 哪些Multi-Agent框架为你的项目提供最佳功能和机会。 3. 何时最好地落地 AI 代理以解决实际的现实问题 4. 自主代理对基于 AI 的任务管理将产生什么影响
**什么是自主代理** 像 ChatGPT、DALL-E 3 或 Midjourney 这样的工具使用基于提示的界面进行人工智能交互。这意味着你需要用自然语言编写一组指令(Promts),通常会跟随大量的快速重新提示尝试,以获得有意义的回应 它很慢,违反直觉,考虑到 AI 模型的能力。由于 Neuralink(对, 感觉这个事是终极方案) 还需要一段时间,我们需要更好、更高效的方式与人工智能进行接口。
\*\*所以,\*\***什么是AI Agent** Agent(或简称 AI 代理)扮演着 AI 的任务主管角色。它们是简单的应用程序,通过自主循环工作,为 AI 设定、优先级和重新设定任务,直到整体目标完成。结果呢?一个(相对)无需过多干预的 AI 体验。 AI 代理问答: 自主 AI 代理的概念在 2023 年初由 Untapped Capital 的常务合伙人中岛洋平发表的一篇名为"任务驱动的自主Agent"论文中得以实现。 代理架构于 2023 年 3 月开始运行,但直到几个月后才在开源社区中占据一席之地。代理系统的发展可能仍然看起来像是一种"疯狂科学家"式的实验,但已经有一些非常强大的模型可以尝试。
**顶级开源自主代理** **AutoGPT** 创始人托兰·布鲁斯·理查兹开发,AutoGPT 是早期代理之一,于 2023 年 3 月发布,是根据中岛的论文开发的。它也是今天在 GitHub 上最受欢迎的代理存储库。 AutoGPT 的理念很简单 - 它是一个完整的工具包,用于构建和运行各种项目的定制 AI 代理。该工具使用 OpenAI 的 GPT-4 和 GPT-3.5 大型语言模型(LLM),并允许您为各种个人和商业项目构建代理。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github:https://github.com/Significant-Gravitas/AutoGPT
**BabyAGI** BabyAGI 是中山的任务驱动自主代理的简化版本。这个 Python 脚本只有 140 个代码字,并且根据官方 GitHub 仓库,"使用 OpenAI 和矢量数据库,如 Chroma 或 Weaviate,来创建、优先处理和执行任务"。 自推出以来,BabyAGI 已经分支出了几个有趣的项目。有些像 twitter-agent? 或 BabyAGI on Slack 将代理的功能引入了现有的平台。其他项目则添加了插件和额外功能,或者将 BabyAGI 移植到其他语言(例如 babyagi-perl)。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/3a7df3e120c340648d78ab16dc8faf85.jpg) ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github:https://github.com/yoheinakajima/babyagi ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg) **SuperAGI** SuperAGI 是 AutoGPT 的更灵活、用户友好的替代品。把它想象成一个开源 AI 代理的发射台,它包含了构建、维护和运行自己代理所需的一切。这还包括插件和一个云版本,您可以在其中测试各种功能。 该框架具有多个人工智能模型,图形用户界面,与向量数据库的集成(用于存储/检索数据),以及性能洞察。还有一个市场,其中有工具包,可以让您将其连接到流行的应用程序和服务,如 Google Analytics。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github:https://github.com/TransformerOptimus/SuperAGI ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg) **ShortGPT** AI 模型在生成内容方面表现出色。但直到最近,视频格式一直受到较少关注。ShortGPT 是一个框架,它允许您使用大型语言模型来简化诸如视频创作、语音合成和编辑等复杂任务。 ShortGPT 可以处理大多数典型的与视频相关的任务,如撰写视频脚本,生成配音,选择背景音乐,撰写标题和描述,甚至编辑视频。该工具适用于短视频和长视频内容,无论平台如何。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/83264cd295ef45b3895f4c7b462cc9ed.jpg) ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github:https://github.com/RayVentura/ShortGPT ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg) **ChatDev** CoPilot、Bard、ChatGPT 等等都是强大的编码助手。但是像 ChatDev 这样的项目可能很快就会让它们望尘莫及。ChatDev 被打造成"一个虚拟软件公司",它不仅使用一个,而是多个代理人来扮演传统开发组织中的不同角色。 代理人 - 每个都被分配了一个独特的角色 - 可以合作处理各种任务,从设计软件到编写代码和文档。雄心勃勃?当然。ChatDev 仍然更多地是一个代理人互动的测试平台,但如果你自己是开发人员,它是值得一看的。 github:https://github.com/OpenBMB/ChatDev
**AutoGen** 微软在向 OpenAI 注资 130 亿美元并使 Bing 变得更智能后,现在成为人工智能领域的主要参与者。其 AutoGen 是一个用于开发和部署多个代理的开源框架,这些代理可以共同工作以自主实现目标。 AutoGen 试图促进和简化代理之间的通信,减少错误,并最大化 LLMs 的性能。它还具有广泛的定制功能,允许您选择首选模型,通过人类反馈改进输出,并利用额外的工具。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/346d08d3059d462b95d8168c8bf1c9fa.jpg) ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github: https://github.com/microsoft/autogen **MetaGPT** MetaGPT 是另一个开源 AI 代理框架,试图模仿传统软件公司的结构。与 ChatDev 类似,代理被分配为产品经理、项目经理和工程师的角色,并协作完成用户定义的编码任务。 到目前为止,MetaGPT 只能处理中等难度的任务 - 比如编写贪吃蛇游戏或构建简单的实用应用程序 - 但它是一个有前途的工具,可能在未来迅速发展。使用 OpenAI API 费用,生成一个完整的项目大约需要 2 美元。 github:https://github.com/geekan/MetaGPT
**camel** 我们在之前的一篇文章中写到了骆驼,自那时起该项目已经发展了。简而言之,骆驼是早期的多智能体框架之一,它采用独特的角色扮演设计,使多个智能体能够相互通信和合作。 一切都始于人类定义的任务。该框架利用 LLM 的力量动态分配角色给代理人,指定和开发复杂任务,并安排角色扮演场景,以促进代理人之间的协作。这就像是为人工智能设计的戏剧。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/440f4c58626c4bc88149d6b1a541a169.jpg) ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)github:https://github.com/camel-ai/camel
**Loop GPT** LoopGPT 是 Toran Bruce Richards 的 AutoGPT 的一个迭代版本。除了一个合适的 Python 实现,该框架还带来了对 GPT-3.5 的改进支持,集成和自定义代理能力。它还消耗更少的 API 令牌,因此运行成本更低。 LoopGPT 可以基本上自主运行,或者与人类一起运行,以最小化模型的幻觉。有趣的是,该框架不需要访问向量数据库或外部存储来保存数据。它可以将代理状态写入文件或 Python 项目。 github:https://github.com/farizrahman4u/loopgpt/tree/main ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg) **JARVIS** JARVIS 远不及托尼·斯塔克标志性的人工智能助手(还有同样标志性的保罗·贝坦尼的声音),但它有一些小技巧。以 ChatGPT 作为其"决策引擎",JARVIS 处理任务规划、模型选择、任务执行和内容生成。 拥有对 HuggingFace 平台上数十种专门模型的访问权限,JARVIS 利用 ChatGPT 的推理能力来应用最佳模型到给定的任务上。这使得它对各种任务具有相当迷人的灵活性,从简单的摘要到目标检测都能胜任。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/a8f413b2d3be44a8bd8cc323904baa77.jpg) github:https://github.com/microsoft/JARVIS ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg) **OpenAGI** OpenAGI 是一个开源的 AGI(人工通用智能)研究平台,结合了小型专家模型 - 专门针对情感分析或图像去模糊等任务的模型 - 以及来自任务反馈的强化学习(RLTF)来改进它们的输出。 在幕后,OpenAGI 与其他自主开源 AI 框架并没有太大的不同。它汇集了像 ChatGPT、LLMs(如 LLaMa2)和其他专业模型等流行平台,并根据任务的上下文动态选择合适的工具。 github:https://github.com/agiresearch/OpenAGI
**![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/2e22c66c7be743e6899356c583dfaf0f.jpg)自主代理在任务管理中的作用** "我们可以用Agent做什么呢?" 这是一个很好的问题,我们很想说"一切",但考虑到当前技术的现状,这远非事实。 尽管如此,在它们还处于"小狗追着自己的尾巴转"的阶段,代理已经可以通过以下方式让您的生活和工作变得更加轻松: * ? 简化研究和数据收集。 * ✏️ Generating content in many different styles and tones. * ? 爬取网络并提取关键见解。 * ? 对文档和电子表格进行总结。 * ? 在语言之间进行内容翻译。 * ? 作为创意任务的虚拟助手。 * ⚡️ 自动化行政任务,如日程安排和跟踪。
并且这就是最好的部分。 代理将平衡从需要在工业化场景基于提示的工具转移到在自主循环中运行的半自主或完全自主系统。 这就是 AI 工具应该做的:无需手动操作,可靠且可信赖。没有冗长的提示或审核每一步。
让我们假设您想分析过去十年电动汽车(EV)行业的市场趋势。与其手动收集数据,阅读无数文章并解析财务报告,不如将这些任务委托给一个代理人,这样您就可以做其他事情。
即使使用像 ChatGPT 这样的工具,你仍然需要保持对最新动态的关注。 一个代理可以帮助您找到正确的信息,做笔记,并组织一切。如果您已经有一些数据在手,它将在几秒钟内详细了解关键见解。
![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/ce198411c88145549095e5c74400f2fe.jpg) 最后,让我们谈谈代理-代理协作。 有时一个项目可能对一个代理人来说太复杂了。即使有像 ChatGPT 这样的工具,你也需要等待输出,然后才能开始输入另一个提示。
使用多代理设置,您可以部署许多代理,每个代理负责处理项目的一部分。一个代理可以收集数据,而另一个可以为报告创建大纲。然后第三个代理可以编译信息并生成实际内容
**自主代理的挑战和考虑** Opensource Agent仍处于人工智能工具的"西部荒野"领域。 它们大多是实验性的,需要一些技术知识来设置、部署和维护。这对于 DIY 项目来说完全没问题,但如果你只是想完成一些工作,这并不是一个即插即用的体验。 你可以在技术上将开源代理与现有工作流程结合起来。 但这需要时间、专业知识和资源。 如果你两者都不足,并且不想花费数小时来设置事物,你可以使用无代码代理,它们可以与现有工具无缝集成,并理解你工作的上下文。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/fbd04f6570664d6b86cdbfbe4c8323b0.jpg) 当然,还有幻觉的问题。由于Agent依赖于 LLMs 生成信息,他们也会出现倾向于陷入不基于事实的奇异叙述的问题。代理运行的时间越长,就越有可能虚构和扭曲现实。
这从生产力的角度产生了一些困境。限制代理程序的运行时间?缩小任务范围?保持人类参与以审核输出?
通过部署多个智能代理,可以获得更好的结果 - 这也解释了多智能体框架的流行 - 具有专业知识和独特技能。就像这些代理经过内部公司文档的训练,并在 Taskade 项目内运行一样。 ![](https://img1.51tbox.com/static/2024-03-11/col/a3f7516035938c160f215c2c8d183dff/f6b33b1cba304bb6a4957340b5323bfc.jpg)
**自主未来:前方的未知领域** 自主代理的世界是迷人的,引人入胜的,并且正在迅速发展。随着 GPT-4、Bard 和 LlaMa3 等更快、更准确、更大的 AI 模型的出现,我们很可能会在未来几个月看到更多令人振奋的突破。
也许Agent是人工智能革命的下一个里程碑,逼近当前国内国外都认为大模型,应用是王道,最早参见文章: [撕裂时代中大模型的应用的一次尝试:AI全自动化视频号内容生成,一周涨粉一千,一月涨一万?](http://mp.weixin.qq.com/s?__biz=MzU2ODgyNzEzNA==&mid=2247485223&idx=1&sn=32c7ebf5cbe2668d07050d0a1561ecb1&chksm=fc894ab6cbfec3a0818a1034a11b4c3f7c4c26a2cd230022bd380387e4c9ad039446d8d07862&scene=21#wechat_redirect)
这将使我们更接近由阿西莫夫、莱姆和斯蒂芬森创造的世界(即使我们宁愿放弃技术-反乌托邦)。这是人类和人工智能共同工作的新时代。
赞(11)
未经允许不得转载:工具盒子 » 11 个顶级开源Agent框架:自主运行 AI 的未来(2024 年更新)