多智能体系统——当前形势与展望

2025-03-10 18:06

imToken - 全球领先的去中心化钱包

推荐下载 领取价值高达 6,0000 元的数字货币盲盒，享受 20%手续费减免。提供安全、可信赖的非托管钱包服务！

作者：Jinming 来源：HashKey Capital 翻译：善欧巴，金色财经

引言

人工智能代理（AI Agent）的概念，指的是能够理解其环境并代表用户或机器自主执行行动以实现其目标的智能软件系统，早在 20 世纪 80 年代就已提出。然而，直到 2010 年代，随着深度学习和大型语言模型（LLM）的兴起，展示了它们理解和生成类人响应的能力，这一概念才开始受到关注。

如今，LLM 已成为我们生活中不可或缺的一部分，像 ChatGPT 这样的产品在全球拥有超过 1550 万付费用户，随着 OpenAI 推出更智能的推理模型，需求必将进一步增长。ChatGPT、Claude 和 DeepSeek 等 LLM 的广泛应用为代理经济的自然发展铺平了道路。代理比 LLM 更复杂，它被定义为一个由单个模型或多个模型组成的系统，以及一个带有工具集并定义代理身份的框架（图 1）。

配备角色、工具包的代理可以接收任务，分析、处理并代表用户自主执行行动，尽管有时需要人工参与提供反馈并通过强化学习进行学习。代理本质上是可组合的，随着代理变得更加专业化和技术成熟，代理系统的人工参与部分可能会退居次要地位，而代理之间的通信将成为简化复杂工作流程和释放效率提升的重点。随着基于代理的框架不断进步，我们预计通过集成区块链（一种基于透明度、去中心化和激励一致的技术），将在各种应用中获得指数级的收益。

此外，通过利用区块链技术的可信、安全和透明的特性，智能合约上的代理可以执行自主钱包交易，因良好行为而获得代币激励，并因对抗行为而受到惩罚。在本报告中，我们将首先探讨什么是多智能体系统以及支持这些系统开发的编排框架，然后了解多智能体系统与 Web3 技术之间的协同作用。随后，我们将探讨 Web3 多智能体框架的用例、挑战和解决问题的努力。

图 1：代理的组件

多智能体系统

在多智能体系统中，与单智能体系统不同，智能体可以专注于各自的领域并协作，以模拟人类的团队合作，有效地解决多步骤、复杂的现实世界问题（图 2）。这增强了基于单个 LLM 的智能体的认知和推理能力，提供了更大的可扩展性和效率。在基于单个 LLM 的智能体中，智能体承担着从头到尾完成任务的艰巨负担，当任务变得更加复杂和苛刻时，这通常会导致延迟和瓶颈。

在多智能体系统中，通常有一个任务管理器，它定义任务需求，将任务分解为更小的任务，并根据智能体的能力将子任务委派给智能体，从而使多智能体系统更具弹性和适用于大规模企业用例。多智能体系统的协作特性通过让每个智能体仅存储与其角色相关的上下文来促进高效的内存管理。由于其分布式架构，智能体避免了处理庞大的内存负载，从而提高了可扩展性，并为更广泛的用例打开了大门。

多智能体系统的发展关键在于多智能体框架，这些框架使智能体能够有效地相互通信和协调，以实现既定目标。通过各种多智能体框架、多智能体强化学习（MARL）、模拟环境和改进的智能体编排层，它们为跨各个行业（包括加密行业）的智能体驱动应用程序开辟了令人兴奋的机会。下面，我们将研究 Web2 和 Web3 中的一些多智能体编排框架，这些框架通过智能体驱动的工作流程释放了新的可能性。

多智能体编排框架

多智能体编排框架处理基于 LLM 的智能体的管理，以解决问题。与单个智能体相比，多智能体系统在自动化复杂任务时，在简化和提高效率方面发挥着重要作用。

图 2：多代理框架架构

请注意，由于多智能体框架不断发展，因此这不是一个详尽的列表。

AutoGen

AutoGen 是微软研究院人工智能前沿实验室设计的开源多智能体框架。它以其模块化和可扩展的设计促进了多智能体应用程序的开发。AutoGen Core 实现了可以使用 Python 和 .NET 语言编程的消息传递和事件驱动智能体。AgentChat API 实现了智能体之间的无缝通信，并构建在 Core API 之上。各种扩展可用，使智能体能够执行各种功能，例如网页浏览、视频分析、文件分析以及封装 Langchain 工具等。基于 AutoGen 多智能体框架构建的 MagenticOne 能够执行代码、浏览网页和管理文件等任务。

CrewAI

CrewAI 是一个开源多智能体平台，它通过明确定义的基于角色的多智能体编排实现高效且无缝的任务自动化。其架构允许具有可配置角色、目标和个性的智能体按顺序或并行交互，确保有序的任务执行。为了保持相关性，智能体可以利用支持文本源和结构化数据格式的广泛知识库。CrewAI 还提供对 LangChain 和 LlamaIndex 工具的访问，以及 Portkey 提供的企业级功能，使智能体能够轻松使用外部 API、数据库和检索系统。该平台对开发人员也很友好，支持基于 YAML 的配置，这使得开发人员可以轻松配置和部署智能体。

Langroid

Langroid 是一个开源 Python 编程框架，它将多智能体编程作为其核心设计原则，赋予智能体与公民类似的地位。该框架因其简洁、直观和可扩展性而受到开发人员的认可，它提供了各种模块和工具，可以满足复杂智能体应用程序的需求。默认情况下，智能体充当消息转换器，并具有 3 种响应器方法：LLM 响应器、智能体响应器和用户响应器。这些响应器方法共同允许智能体执行功能、生成人类可读的自然语言响应，并将人类反馈纳入其智能体工作流程。围绕智能体封装任务使其能够通过将子任务委派给其他智能体来编排交互。通过 ToolMessage 机制支持 OpenAI LLM 和 LLM 函数调用，智能体可以访问各种工具和函数。结合与 LanceDB、Qdrant 和 Chroma 等向量存储的集成，Langroid 的智能体具有持久的对话状态和向量存储内存，使其擅长管理复杂的动态场景。

CAMEL

CAMEL 是一个开源多智能体框架，为任务自动化、数据生成和现实世界模拟等广泛应用提供通用基础设施。作为 CAMEL 的一部分，社会模块在多智能体协调中起着至关重要的作用。它包含两个框架——RolePlaying 和 BabyAGI——旨在管理智能体交互并推动目标导向的结果。其角色扮演、对话导向的方法使其非常适合构建面向客户的智能体。CAMEL 与各种向量数据库和 LLM 的集成支持 RAG，并为其智能体提供持久内存，使其非常适合大规模企业应用程序。然而，RolePlaying 框架的成功目前要求开发人员具备有效的提示工程技能和角色设计，这可能会使其对那些没有强大的编码和人工智能背景的人不太友好。CAMEL 已经部署了一个人工智能聊天机器人 Eigent Bot，它可以获取实时信息，支持多模态功能，并利用图形 RAG 实现更好的上下文理解。

MetaGPT

MetaGPT 是一种元编程多智能体编排框架，它将标准操作程序 (SOP) 编码为提示序列，并结合明确定义的智能体角色和职责。这种设计有助于缓解智能体间交互带来的更复杂的幻觉风险。MetaGPT 中的智能体通过定义的输出格式到一个共享消息池进行通信，而不是进行一对一的对话，从而减少了不相关或丢失的内容。它还实现了可执行的反馈机制，支持自我纠正和审查。MetaGPT 在软件开发环境中特别有效，在这些环境中，明确定义的角色可以提高代码质量和任务分配。当根据代码生成基准进行衡量时，MetaGPT 在 HumanEval 和 MBPP 中取得了显著的成果，分别为 85.9% 和 87.7%。

LangGraph

LangGraph 是 LangChain 创建者开发的开源智能体框架。它旨在管理复杂的多智能体工作流程，具有模块化架构，使不同的智能体能够高效地通信、协调和执行任务。通过使用基于图的架构来建模智能体工作流程的不同组件之间的关系，LangGraph 促进了动态任务分配、无缝可扩展性以及跨分布式系统的强大问题解决能力。这种创新方法简化了状态管理，适用于需要持久保留上下文的多步骤工作流程。此外，Langchain 模型上下文协议 (MCP) 适配器（一个轻量级包装器）允许将 MCP 工具轻松转换为 Langchain 工具，供 LangGraph 智能体使用，从而扩展其可用工具集。在多智能体领域，LangGraph 受益于强大的网络效应，因为它利用了 LangChain 生态系统。

ElizaOS

ElizaOS 可能是最著名的 Web3 多智能体框架，是一个开源 TypeScript 多智能体框架，它嵌入了 Web3 组件，以解决加密行业的入门障碍和可访问性问题。该框架采用模块化设计，带有广泛的插件集，目前能够支持一系列模型（即 OpenAI、DeepSeek、Llama、Qwen 等）、平台集成（即 Twitter、Discord、Telegram、Farcaster 等）以及超过 25 种链兼容性（即 Solana、Ethereum、Ton、Aptos、Sui、Sei 等）。它与 GOAT SDK 的集成还使智能体能够执行各种链上操作。ElizaOS 的核心架构由智能体、角色文件、提供程序、操作和评估器组成，它们共同使智能体在执行各种任务时具有持久的内存和上下文感知能力，并从评估器那里获取反馈以确保更好的性能。

一个值得注意的例子是 ai16z DAO Fund，它利用 ElizaOS 框架创建了一个自主智能体，可以过滤市场信号并交易各种 meme 币。在其鼎盛时期，它管理着超过 3600 万美元的 AUM。

作为 Web3 中最成熟的智能体框架，ElizaOS 智能体框架继续受到 Web3 开发人员的欢迎，因为它获得了超过 14K 的 github 星星，并且目前拥有 99 个集成。随着未来计划推出智能体启动平台，这可以通过为开发人员提供一个无需/低代码的智能体启动平台来进一步激发他们的兴趣。

RIG

另一个拥有超过 3K github 星星的流行 Web3 智能体框架是 RIG，一个基于 Rust 的开源智能体框架，它通过提供轻量级核心同时支持高级推理模式（从提示链到条件逻辑和并行任务执行）而脱颖而出。RIG 框架在支持的 LLM 提供商（OpenAI、cohere、DeepSeek 等）之间提供统一的 API，并为 RAG 实现提供简化的嵌入和向量存储支持。还可以创建自定义工具，使该框架可扩展用于基于 LLM 的应用程序。

利用 Rust 的异步功能，多智能体系统可以并发处理多个任务。尽管它目前在 23 个 Web3 原生集成方面落后于 ElizaOS。RIG 背后的开发人员 ARC 已与 Solana 基金会合作，通过向使用 RIG 构建基于 Rust 的智能体的开发人员提供有针对性的赠款来推动该框架的采用。此外，ARC 还推出了其智能体启动平台 Forge，该平台采用与 Virtuals 类似的启动平台模型，但目前仅允许列入白名单的团队访问该平台。RIG 和 Forge 启动平台的一个值得注意的用例是 AskJimmy 平台，这是一个多智能体对冲基金，它协调由交易策略库驱动的智能体群，以便在 Hyperliquid、Drift、GMX 等领先平台上跨 EVM 和 Solana 无缝执行交易。

G.A.M.E

Virtuals Protocol 团队开发的 G.A.M.E 框架是一个基于 Python 和 JavaScript 的开源多智能体框架，它促进了链上智能体的创建。它与 Web3 库 GOAT SDK 的集成，为智能体提供了跨各种协议的 200 多个链上操作。任务处理通过分层方法完成，其中任务规划器将任务分解为子任务，并将其委派给协调和通信以交付最终输出的专业工作智能体。目前，其大多数智能体都围绕社交媒体平台和游戏内环境展开，最著名的智能体是 AIXBT。自推出以来，AIXBT（一个具有自己 X 帐户的 AI 驱动的链上分析影响者）因其分析见解而广受认可，截至撰写本文时，拥有超过 49 万粉丝。

资料来源：Virtuals Protocol GAME 架构

uAgents

uAgents 是 Fetch.AI 开发的基于 Python 的多智能体框架，它已与 LangChain、Vertex AI、CrewAI 等各种 Web2 框架集成，从而可以在 Fetch.AI 区块链上轻松创建和部署自主智能体。创建后，智能体将在 Almanac 智能合约上注册，允许其他智能体轻松查询该合约并通过其智能体地址和 HTTP 端点识别接收者智能体。加密安全性确保智能体之间的交互保持安全，允许最合适的智能体在不影响安全性的情况下满足用户请求。

比较分析（Web2 框架和 Web3 框架）

Web3 多智能体框架的优势

尽管 Web2 多智能体框架已经相对成熟并获得了强大的机构需求，但与 Web3 多智能体框架相比，它们缺乏原生链上功能。使用 Web2 工具的开发人员必须附加第三方库才能与智能合约交互或解析区块链数据，从而引入复杂性和潜在的漏洞。使用 Web3 多智能体框架的开发人员可以受益于这些框架提供的内置链上功能，在部署链上智能体时提供更无缝的体验，因为他们可以更专注于设计良好的前端用户体验。此外，通过利用区块链和智能合约作为底层基础设施，链上智能体可以受益于加密轨道，例如让其钱包代表用户执行链上操作并确保激励一致性。

Web3 多智能体框架的性能指标

简化 Web3 中的工作流程

尽管 Web2 代理框架日益成熟和普及，但代理概念直到 2024 年第四季度才在 Web3 中获得关注。ElizaOS、Virtuals Protocol 和 RIG 等主要参与者（各自拥有自己的代币）实现了可观的市值，凸显了 Web3 中对 AI 代理的强烈需求，而不仅仅是投机交易。这些代币市值所反映出的兴奋并非毫无根据，因为 Web3 仍在努力实现主流采用。让区块链上的代理自主执行链上操作，具有改变用户体验的巨大潜力。除了可以实现的效率之外，Web3 中代理的问题还可以追溯到区块链中 AI 的类似论点，即透明度和可追溯性以及先进的安全功能。代理交易记录在区块链上，用户可以轻松跟踪和验证代理采取的行动。下面，我们重点介绍一些最适合代理采用的关键领域。

DeFAI

链上交易本质上是复杂的，要求用户至少对区块链和 Web3 钱包有基本的了解。这造成了糟糕的用户体验，并且仍然是非加密原生用户的重要障碍。尽管最近社交登录已被各种 Web3 钱包提供商广泛采用，但账户和链抽象的开发仍然缓慢且有限。用户在浏览 DeFi 格局时仍然需要理解 gas 费用、钱包地址、桥接等概念。相比之下，OpenAI 最近推出的 Operator Agent 仅需要用户进行简单的自然语言处理即可执行交易，通过后端代理处理抽象掉用户必须采取的多个步骤。Web3 也不应该有什么不同，我们认为将 AI 代理与各种 DeFi (DeFAI) 协议集成可以促进更轻松的用户入门和无缝体验。

Virtuals Protocol 最近推出了代理商务协议，该协议为代理如何相互通信和交互设定了标准化方法。这种方法引入了涉及请求、协商、交易和评估的 4 个阶段的过程。评估器、基于智能合约的托管和加密验证的引入是该框架的核心功能，可确保交付的交易满足任务的要求。一旦满足所有要求，智能合约触发器将解锁资金并交付服务，从而确保交易可以透明且无需信任地进行。代理商务协议只是一个示例，说明多智能体编排框架如何帮助在链上以无需信任且安全的方式驱动代理交互。

Olas Protocol 展示了 DeFAI 的实际应用：其 Pearl 应用商店包含 Mobius 和 Optimus 代理，它们使用 Olas 堆栈在 Uniswap、Balancer 和 Sturdy 等平台上自动化 DeFi 策略，涵盖 Optimism、Base 和 Mode 等网络。Olas Protocol 的 Mech 市场也充当代理工具和插件交换中心，允许部署的代理通过代理间通信外包任务。另一个值得注意的例子是 Questflow，它还提出了一个意图匹配的多智能体编排框架，用户的请求由识别相关代理的编排器处理，并通过监督代理工作流程执行的任务管理器将代理委派给这些任务。由于代理在 Deagent 代理注册表中分派，代理创建者也可以获得公平的报酬。

数据所有权

在庞大的代理格局和生成的大量链上数据中，链上分析正成为一个日益有价值的领域，许多项目都在寻求提供数据标记服务（例如 Sahara AI）、跟踪（Arkham Intelligence、Kaito）、证明注册表（EAS、BAS 等）。代理作为用户的得力助手，可以通过获得用户的许可，为 Web3 中不断增长的数据格局做出贡献，使用户可以因其数据贡献而获得公平的奖励。

游戏

在 Web3 游戏社区中，对 AI 支持的代理的兴趣和需求不断增长。游戏代理可以为非玩家角色 (NPC) 提供动力或管理游戏内经济。它们通过自主执行任务和响应玩家操作来帮助创建动态、响应式环境。该领域值得注意的项目包括 Parallel 的 WayFinder 平台，该平台正在构建一个知识图，可供 AI 代理在游戏中的不同代理工作流程中使用。Treasure DAO 是另一个值得注意的例子，它最近宣布即将推出由 ElizaOS 提供支持的 MAGE 代理启动平台，进一步朝着代理驱动的 Web3 游戏格局迈进。Virtuals Protocol 还推出了 Project WestWorld，这是一个 Roblox 中的交互式模拟，由 G.A.M.E 框架驱动的多智能体自主交互并驱动动态游戏叙事。

其他用例

AI 驱动的 DAO： 代理可以将冗长的提案提炼成主流用户易于理解和投票的易于理解的信息，从而增强去中心化的核心精神。
智能合约审计、网络分析、欺诈检测： 代理在调试中可以发挥至关重要的作用，通常比人类更快地识别潜在风险，从而在与人类智能结合时降低安全风险。
供应链优化： 通过使用 AI 的预测能力和区块链的透明和安全功能，这可以简化并实现更具成本效益的运营。

成熟 Web3 多智能体系统面临的挑战和努力

Web3 环境中的多智能体系统 (MAS)（其中代理在去中心化基础设施上运行，并且通常使用智能合约进行协调）面临着一些可能影响其设计、部署和性能的限制和挑战。以下是 Web2 和 Web3 代理可能面临的一些障碍：

与基于单个 LLM 的系统一样，多智能体系统也受到模型幻觉风险的影响。当幻觉从一个代理传递到另一个代理时，多智能体系统中的幻觉风险可能更严重，从而加剧了问题。代理之间管理不善的通信将导致次优的性能。因此，当我们走向未来的完全自主代理时，许多框架仍然需要一些人工监督。
实现代理之间的共识和状态同步。在多智能体系统中，为了成功完成任务，代理必须在复杂且分层的多智能体系统中导航，确保与整体任务、自身职责和多智能体通信保持一致。
Web3 中的代理还面临可扩展性和延迟问题，因为它们在底层区块链上运行，因此与其他类型的交易竞争区块空间。这可能意味着在区块链可扩展性挑战得到解决之前，我们在可预见的未来看不到大型代理网络的完全链上编排。区块链上的安全和隐私挑战在 Web3 环境中也是独一无二的，这增加了复杂性。然而，随着 Turnkey 等新兴解决方案的出现，这种情况正在慢慢得到解决，Turnkey 提供了一个 TEE 解决方案 (AWS Nitro Enclaves)，代理可以在其中安全且可验证地执行操作。Phala Network 还宣布与 GoPlus 建立合作伙伴关系，利用 Phala 的 TEE 功能和 GoPlus 安全功能来增强 ElizaOS 代理。
多智能体内存管理。在多智能体系统中，不同的代理执行不同的任务并存储不同的信息。因此，为了确保成功交付总体目标，达成信息共识是有帮助的，同时实施强大的访问控制机制至关重要，因为某些代理可能正在处理高度敏感的信息。未能实施强大的安全措施可能导致数据隐私泄露和任务执行失败。
某些领域（例如科学实验室实验、经济学建模和链上技能）缺乏全面的基准和评估标准可能会阻碍该领域的快速增长。

结论

多智能体框架的未来充满希望，但也充满挑战，这凸显了前路漫漫。与已建立且获得机构认可的 Web2 多智能体框架相比，Web3 多智能体框架仍处于相对起步阶段，生产就绪的用例狭窄。尽管如此，监管转变和为缓解上述挑战而做出的持续努力是进一步采用的关键催化剂。

此外，代理开发工具（例如 SendAI 套件、Coinbase 代理套件、ShellAgent 无代码平台、Olas 堆栈等）的增长，以简化代理创建并扩展代理的用例，继续取得进展，推动开发人员的增长和新的创新。GOAT SDK 等 Web3 库的进步有助于扩展代理实现的操作的可能性。最终，随着技术的发展和这些系统的成熟，我们可以期待代理工作流程在链上交互中变得司空见惯。就像有许多 Web2 多智能体框架一样，我们希望在 Web3 中看到更多提供通用和利基方法的代理框架。