浅析AI Agent赛道几大"确定性"趋势
394 2025-01-15
作者:accelxr,1KX;翻译:0xjs@金色财经
当前生成式模型的主要目的是内容创建和信息过滤。然而,最近关于AI智能体(使用外部工具完成用户定义目标的自主参与者)的研究和讨论表明,如果为AI提供类似于1990年代互联网的经济通道,AI可能会获得实质性的解锁。
为此,智能体需要对他们可以控制的资产进行代理,因为传统金融系统不是为他们设置的。
这是加密发挥作用的地方:加密提供了一种具有快速结算的、数字化的支付和所有权层,特别适合构建 AI 智能体。
本文我将向你介绍智能体和智能体架构的概念,研究中的示例如何证明智能体具有超越传统LLM的新兴属性,以及围绕基于加密的智能体构建解决方案或产品的项目。
AI 智能体是 LLM 驱动的实体,能够规划并采取行动,在多次迭代中实现目标。
智能体架构由单个只能或多个智能体组成,共同解决问题。
通常,每个智能体都被赋予个性并可以使用各种工具,这些工具将帮助他们独立或作为团队的一部分完成工作。
智能体架构与我们今天通常与 LLM 交互的方式不同:
零次提示是大多数人与这些模型交互的方式:你输入提示,LLM 根据其预先存在的知识生成响应。
在智能体架构中,你初始化目标,LLM 将其分解为子任务,然后它递归地提示自己(或其他模型)自主完成每个子任务,直到达到目标。
单智能体架构:一种语言模型自行执行所有推理、规划和工具执行。没有来自其他智能体的反馈机制,但人类可以选择向智能体提供反馈。
多智能体架构:这些架构涉及两个或多个智能体,其中每个智能体可以使用相同的语言模型或一组不同的语言模型。智能体可以使用相同的工具或不同的工具。每个智能体通常都有自己的角色。
垂直结构:一个智能体充当领导者,其他智能体向其汇报。这有助于组织小组的输出。
水平结构:一个关于任务的大型小组讨论,每个智能体都可以看到其他消息并自愿完成任务或调用工具。
智能体具有配置文件或个性,它们将角色定义为提示,以影响 LLM 的行为和技能。这在很大程度上取决于特定的应用程序。
可能许多人今天已经将其用作提示技术:“你是营养专家。为我提供一份膳食计划......”。有趣的是,为 LLM 提供角色可以提高其输出与基线相比。
配置文件可以通过以下方法制作:
手工制作:由人类创建者手动指定的配置文件;最灵活,但也耗时。
LLM 生成:使用 LLM 生成的配置文件,该配置文件包含围绕组成和属性的规则集 +(可选)少量样本示例。
数据集对齐:配置文件是根据现实世界的人员数据集生成的。
智能体的记忆存储从环境中感知到的信息,并利用这些信息制定新的计划或行动。记忆使智能体能够根据其经验自我进化和行事。
统一记忆:类似于通过情境学习/通过持续提示实现的短期记忆。所有相关记忆都会在每次提示中传递给智能体。主要受上下文窗口大小的限制。
混合:短期+长期记忆。短期记忆是当前状态的临时缓冲区。反射或有用的长期信息永久存储在数据库中。有几种方法可以做到这一点,但常见的方法是使用矢量数据库(将记忆编码为嵌入并存储;回忆来自相似性搜索)
格式:自然语言、数据库(例如,经过微调以理解 SQL 查询的 SQL)、结构化列表、嵌入
复杂任务解构为更简单的子任务以单独解决。
无反馈规划:
在这种方法中,智能体在采取行动后不会收到影响未来行为的反馈。一个例子是思路链 (Chain of Thought,CoT),其中鼓励 LLM 在提供答案时表达其思维过程。
单路径推理(例如零次CoT)
多路径推理(例如自洽 CoT,其中生成多个 CoT 线程并使用最高频率的答案)
外部规划器(例如规划域定义语言)
带反馈的规划:
根据外部反馈迭代细化子任务
环境反馈(例如游戏任务完成信号)
人为反馈(例如征求用户的反馈)
模型反馈(例如征求另一个 LLM 的反馈 - 众包)
Action负责将智能体的决策转化为具体结果。
行为目标有多种可能的形式,例如:
任务完成(例如在 Minecraft 中制作铁镐)
通信(例如与另一个智能体或人类分享信息)
环境探索(例如搜索自己的行为空间并学习自己的能力)。
行为的产生通常来自记忆回忆或计划遵循,行为空间由内部知识、API、数据库/知识库以及对自身的使用外部模型组成。
智能体要想在动作空间内正确执行动作,就必须具备特定于任务的能力。主要有两种方法可以实现这一点:
通过微调:在人工注释、LLM 生成或真实世界示例行为数据集上训练智能体。
无需微调:可以通过更复杂的提示工程和/或机制工程(即在进行反复试验时结合外部反馈或经验积累)使用 LLM 的先天能力。
生成式智能体:人类行为的交互式模拟:在虚拟沙箱环境中实例化生成式智能体,显示多智能体系统具有突发社交行为。从即将到来的情人节派对的单个用户指定提示开始,智能体会在接下来的两天内自动发送邀请、结识新朋友、相互约会,并协调在合适的时间一起参加派对。你可以使用a16z AI Town的实现亲自尝试。
描述解释计划选择 (DEPS) :第一个可以完成 70 多项 Minecraft 任务的零样本多任务智能体。
Voyager:Minecraft 中第一个由 LLM 驱动的体现终身学习的智能体,它可以不断探索世界,获得各种技能,并在无需人工干预的情况下做出新发现。根据反复试验的反馈不断改进其技能执行代码。
CALYPSO:为游戏“龙与地下城”设计的智能体,可以协助地下城主创作和讲述故事。它的短期记忆建立在场景描述、怪物信息和之前的总结之上。
Minecraft中的幽灵 (GITM) :Minecraft 中能力一般的智能体,获取钻石的成功率为 67.5%,游戏中所有物品的完成率为 100%。
SayPlan :基于 LLM 的机器人大规模任务规划,使用 3d 场景图形表示,展示了从抽象和自然语言指令为机器人执行长期任务规划的能力。
HuggingGPT:根据用户提示使用 ChatGPT 进行任务规划,根据 Hugging Face 上的描述选择模型,并执行所有子任务,在语言、视觉、语音和其他具有挑战性的任务中取得了令人印象深刻的成果。
MetaGPT:接受输入并输出用户故事 / 竞争分析 / 需求 / 数据结构 / API / 文档等。在内部,有多个智能体构成软件公司的各种功能。
ChemCrow:一种 LLM 化学智能体,旨在使用 18 种专家设计的工具完成有机合成、药物发现和材料设计等任务。自主规划和执行驱虫剂、三种有机催化剂的合成,并指导发现一种新型发色团。
BabyAGI :使用 OpenAI 和向量数据库(例如 Chroma 或 Weaviate)来创建、确定优先级和执行任务的通用基础设施。
AutoGPT:用于启动 LLM 智能体的通用基础设施的另一个示例。
(注意:并非所有示例都是基于 LLM 的 + 有些可能更松散地基于智能体概念)
来自Ritualnet的FrenRug:基于 GPT-4 土耳其地毯推销员游戏 { https:// aiadventure.spiel.com/carpet }。Frenrug 是一位经纪人,任何人都可以尝试说服他购买他们的Friend.tech Key。每条用户消息都会被传递给由不同 Infernet 节点运行的多个 LLM。这些节点在链上响应,并由 LLM 投票决定智能体是否应该购买提议的Key。当有足够多的节点响应时,投票就会聚合,监督分类器模型会确定操作并在链上传递有效性证明,从而可以验证多项分类器的链下执行情况。
Gnosis上使用autonolas的预测市场智能体:AI 机器人本质上是 AI 服务的智能合约包装器,任何人都可以通过付款和提问来调用它。服务会监控请求、执行任务并在链上返回答案。这种 AI 机器人基础设施已通过 Omen 扩展到预测市场,其基本理念是智能体将积极监控和押注新闻分析的预测,最终得出更接近真实赔率的汇总预测。智能体在 Omen 上搜索市场,自主向“机器人”支付有关该主题的预测,并利用市场进行交易。
ianDAOs GPT<>Safe演示:GPT 使用syndicateio交易云 API在自己Base链上的Safe 多重签名钱包中自主管理 USDC。你可以与它交谈,并就如何最好地利用其资本提出建议,它可能会根据你的建议进行分配。
游戏智能体:这里有多个想法,但简而言之,虚拟环境中的 AI 智能体既是同伴(比如《Skyrim》中的 AI NPC),又是竞争对手(比如一群胖乎乎的企鹅)。智能体可以自动执行收益策略,提供商品和服务(比如:店主、旅行商人、老练的生成式任务提供者),或者像在Parallel Colony和Ai Arena中的半可玩角色。
Safe守护天使(Guardian Angels):使用一组 AI 智能体来监控钱包并防御潜在威胁,以保护用户资金并提高钱包安全性。特性包括在发生异常或黑客攻击时自动撤销合约权限和提取资金。
Botto:虽然 Botto 是一个定义较为宽泛的链上智能体示例,但它展示了自主链上艺术家的概念,创作的作品由代币持有者投票并在 SuperRare 上拍卖。人们可以想象采用多模态智能体架构的各种扩展。 ---
(注意:并非所有项目都是基于 LLM 的 + 有些可能更松散地基于智能体概念)
AIWay Finder——协议、合约、合约标准、资产、功能、API 功能、例程 + 路径的去中心化知识图谱(即寻路者智能体可以导航的区块链生态系统虚拟路线图)。用户将因识别智能体使用的可行路径而获得奖励。此外,你可以铸造包含角色设置和技能激活的外壳(即智能体),随后可以将其插入寻路者知识图谱。
Ritualnet——如上文 frenrug 示例所示,Ritual infernet 节点可用于设置多智能体架构。节点监听链上或链下请求,并提供带有可选证明的输出。
Morpheus——个人通用 AI 的点对点网络,可以代表用户执行智能合约。这可用于 web3 钱包和 tx 意图管理、通过聊天机器人界面进行数据解析、dapps 和合约的推荐模型,以及通过连接应用程序和用户数据的长期记忆扩展智能体操作。
Dain Protocol——探索在 Solana 上部署智能体的多种用例。最近演示了一个加密交易机器人的部署,该机器人可以提取链上和链下信息以代表用户执行(例如,如果拜登输了,就出售 BODEN)
Naptha——智能体编排协议,具有用于签约智能体的链上任务市场、编排任务的操作员节点、支持跨不同节点异步消息传递的 LLM 工作流编排引擎以及用于验证执行的工作流证明系统。
Myshell——类似于http:// character.ai的 AI 角色平台,创作者可以在其中将智能体配置文件和工具货币化。多模态基础设施,包含一些有趣的示例智能体,包括翻译、教育、陪伴、编码等。包含简单的无代码智能体创建和用于组装 AI 小部件的更高级的开发人员模式。
AI Arena——一款具有竞争力的 PvP 格斗游戏,玩家可以购买、训练和对抗支持 AI 的 NFT。玩家通过模仿学习训练他们的智能体 NFT,其中 AI 通过学习玩家行为的相关概率来学习如何在不同的地图和场景中玩游戏。经过训练后,玩家可以派出他们的智能体参加排名战以获得代币奖励。不是基于 LLM,但仍然是智能体游戏可能性的一个有趣例子。
Virtuals Protocol——一种用于构建和部署多模态智能体到游戏和其他在线空间的协议。当今虚拟的三个主要原型包括 IP 角色镜像、特定功能智能体和个人替身。贡献者向虚拟贡献数据和模型,验证者充当守门人。存在一个经济层面的激励机制来促进开发和货币化。
Brianknows——为用户提供用户界面,以便与智能体进行交互,智能体可以执行交易、研究特定于加密货币的信息并及时部署智能合约。目前支持 100 多个集成中的 10 多个操作。最近的一个例子是让智能体使用自然语言代表用户在 Lido 中质押 ETH。
Autonolas——提供轻量级本地和基于云的智能体、共识运营的去中心化智能体和专业智能体经济。突出的例子包括 DeFi 和基于预测的智能体、由 AI 驱动的治理代表和智能体对智能体(agent-to-agent)工具市场。提供用于协调和激励智能体操作的协议 + OLAS 堆栈,这是一个供开发人员构建可共同拥有的智能体的开源框架。
Creator.Bid——为用户提供与 X 和 Farcaster 实时 API 相连的社交媒体角色智能体。品牌可以启动基于知识的智能体,在社交平台上执行与品牌一致的内容。
Polywrap——提供各种基于智能体的产品,例如 Indexer(Farcaster 的社交媒体智能体)、AutoTx(使用 Morpheus 和flock.io构建的规划和交易执行智能体)、predictionprophet.ai (有 Gnosis 和 Autonolas 的预测智能体)和fundpublicgoods.ai (用于拨款资源分配的智能体)。
验证——由于经济流动将由智能体指导,因此输出验证将非常重要(以后的文章中将对此进行详细介绍)。验证方法包括来自Ora Protocol,来自如Modulus Labs+Giza+ EZKL团队的zkML、博弈论解决方案以及像 TEE 这样的基于硬件的解决方案。
可拥有、可交易、代币门控的智能体,可执行各种类型的功能,从陪伴到金融应用,
可以代表你识别、学习并参与游戏经济的智能体;也可以作为协作、竞争或完全模拟环境中的玩家的自主智能体。
可以模拟真实人类行为的智能体,用于收益机会
多智能体管理的智能钱包,可以充当自主资产管理者
AI 管理的 DAO 治理(例如代币委托、提案创建或管理、流程改进等)
使用 web3 存储或数据库作为可组合的向量嵌入系统,用于共享和永久内存状态
本地运行的智能体,参与全局共识网络,执行用户定义任务
现有和新协议交互和 API 的知识图谱
自主守护者网络、多重签名安全、智能合约安全和功能增强
真正自主的投资 DAO(例如,使用艺术史学家、投资分析师、数据分析师和degen智能体角色的收藏家 DAO)
代币经济学和合约安全模拟与测试
通用意图管理,特别是在加密用户体验(如桥接或 DeFi)的情况下
艺术或实验项目
正如Varaint Fund联合创始人Jesse Walden最近所言,自主智能体是区块链使用方式的一次进化,而不是革命:我们已经有了协议任务机器人、狙击机器人、MEV 搜索器、机器人工具包等。智能体只是这一切的延伸。
加密的许多领域都是以有利于智能体执行的方式构建的,例如完全链上游戏和 DeFi。假设 LLM 的成本相对于任务性能呈下降趋势 + 创建和部署智能体的可访问性增加,很难想象一个AI智能体不会主宰链上交互并成为加密的下一个十亿用户的世界。
AI Agents That Can Bank Themselves Using Blockchains
The new AI agent economy will run on Smart Accounts
A Survey on Large Language Model based Autonomous Agents (I used this for identifying the taxonomy of agentic architectures above, highly recommend)
ReAct: Synergizing Reasoning and Acting in Language Models
Generative agents: Interactive simulacra of human behavior
Reflexion: Language Agents with Verbal Reinforcement Learning
Toolformer: Language Models Can Teach Themselves to Use Tools
Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents
Voyager: An Open-Ended Embodied Agent with Large Language Models
LLM Agents Papers GitHub Repo