智能体技术演进:场景分析、关键技术与发展趋势

导语:深度解析了智能体开发和通信涉及的关键技术提出了一套完整的智能体研发及运营能力框架最后展望了智能体发展趋势

智能体(agent)的概念来源于哲学,描述具有欲望、信念、意图和行动能力的实体。后来智能体概念被引入人工智能领域,用于表达能够感知周围环境、做出决策、开展行动的计算实体。其发展经历了 5 个阶段,即符号智能体、反应智能体、基于强化学习的智能体、具有迁移和元学习能力的智能体、基于大模型的智能体。在大模型爆发之前,智能体就在计算和仿真领域得到了广泛应用。


本文对基于大模型的智能体概念进行了定义,梳理了其核心组成;对典型的智能体应用进行了总结和分析,梳理了智能体开发、通信方面最新技术发展情况,并提出了一套企业进行智能体开发、运营、管理的体系框架;最后展望了智能体的 5 个发展趋势。


1 智能体定义


1.1 智能体的定义和特点


基于大模型的智能体是能够感知环境、自主规划、进行决策和执行动作以实现目标的人工智能系统,具有自主性、交互性、适应性等基本特征。大模型(如 GPT-4、Llama 等)是智能体的核心,承担了智能体的大脑角色,为智能体提供了感知和行动能力。表 1 梳理了3 个模块详细的功能和具体内容。


表 1 基于大模型的智能体核心模块

大模型是智能体的大脑,提供自然语言交互、知识存取、记忆管理、推理和泛化能力。大模型在自然语言交互方面表现较好,具备多轮对话和高质量内容生成的能力,但在意图理解方面还有一定的提升空间,尤其是面对模糊指令或隐含信息时,可以将隐含意义形式化为一个奖励函数,使大模型在新场景中选择符合用户偏好的选项。在知识存取方面,大模型存在知识过时、错误和生成内容“幻觉”等挑战。


一方面,可以通过编辑大模型来修改模型内部存储的特定知识来解决过时和错误的知识问题;另一方面,可以通过检索增强生成(RAG)等技术来避免“幻觉”问题。在记忆管理方面,基于大模型的智能体面临历史记忆长度受限和记忆提取困难等挑战,可以采用提升大模型的最大长度限制或者采用记忆摘要的方式来提升记忆的能力。


对于智能体来说,从环境中感知各类信息至关重要,感知能力能帮助智能体更好地理解环境、做出明智决策。大模型使智能体具备多模态感知能力,包括文本、视觉和听觉和其他输入形式。目前,大模型在文本处理方面变现较好,但在视觉和听觉方面还面临不少挑战。


在视觉方面,一方面通过直接输入图-文对数据,能够帮助智能体直接理解图像中的含义;另一方面,将图像编码器与大模型结合,通过优化大模型的图像处理能力,可提升智能体的视觉感知能力。在音频处理方面,可以通过音频频谱图等形式优化大模型,并以大模型为控制中枢,调用其他工具来增强对音频信息的感知。


在智能体的构建中,行动模块接收来自“大脑”模块发送的动作序列,并执行相应的动作与环境互动,主要的行动能力有文本输出、外部工具的使用和具身行动。大模型赋予了智能体优秀的文本输出能力,而外部工具的使用能够补充大模型专业知识不足、透明度不够的劣势,具身行动使智能体可以直接与物理世界进行交互,扩大了智能体的行动空间。


1.2 智能体架构设计


基于大模型的智能体,其核心能力来自于大模型,除此外还应该具备 3 个核心能力:记忆能力、规划能力和行动能力。规划能力在管理活动和促进明智决策方面发挥着关键作用,其核心能力分为任务分解和反馈驱动的迭代优化能力。它使智能体能够将复杂的任务分解为更小、更易于管理的子任务,并制定有效的实施策略,在实施过程中能够不断反思和改良,从而优化最终结果。


任务分解能够将复杂的任务分解为更小、更易于管理的子任务,并制定有效的实施策略,主要的任务分解策略有单路径链式分解和多路径树状扩展。单路径模式主要有 3 类实现:第一类是零样本思维链方式,将任务拆解为一系列相互依赖的子任务,然后按顺序依次执行子任务,但存在灵活性不足的问题;第二类是动态规划方法,允许智能体接受环节反馈调整计划,根据当前状态生成下一个子任务,从而增加鲁棒性;第三类方法是采用多个思维链来提高规划过程的稳定性。多路径模式采用树状结构规划数据,在规划过程中允许多个可能推理路径的存在,并可以根据反馈回溯到之前的状态。反馈驱动的迭代优化是规划能力的重要组成部分,使智能体能够从反馈中学习并随着时间推移不断提升其性能。反馈来源多样,包括环境输入、人类指导、模型内省和多智能体协作等。


记忆可以被定义为用于获取、存储、保持信息,并在之后检索信息的过程,记忆能力对于信息的存储和检索至关重要,它使智能体的交互具备上下文感知能力。类似人类记忆,智能体记忆结构分为短期、长期两种。短期记忆保留智能体内部的对话历史和环境的反馈信息,用来支持上下文敏感的任务执行。长期记忆系统地存储智能体中间推理过程,并将这些信息合成为未来可重用的工具,主要通过技能库、经验库、工具合成框架 3 种范式来实现。


智能体与环境之间的交互是通过 3 个关键的记忆操作来实现的:记忆读取、记忆写入和记忆反思。当智能体感知到信息后,其中的关键信息会通过记忆写入操作存储在数据库中,有的智能体系统设计了记忆控制器来决定何时执行写入操作,有的完全由智能体自主完成。当智能体需要进行推理与决策时,记忆读取操作将从存储中提取相关信息,由于记忆信息庞杂,如何设计读取机制,依据相关性和任务导向提取有用信息成为关键。有的智能体体系通过 SQL 语句来读取记忆;有的利用向量库作为记忆池,通过获取与当前任务相似度最高的轨迹来提取信息。记忆反思主要模拟人类大脑的工作机制,对记忆信息进行不断的加工和抽象,生成更高层次的信息。有的智能体系统将对话内容处理并提炼为日常事件的高层次摘要,并不断评估优化知识,形成每日洞察;有的智能体能够根据环境反馈对自己的记忆进行优化。


行动能力负责将智能体的决策转化为具体结果。行动模块需要关注 4 个方面的内容:行动的目标、行动是如何产生的、有哪些可用的行动以及行动会产生哪些影响。智能体执行的行动通常可以分为使用外部工具和利用大模型内部知识,外部工具主要有调用外部 API、集成外部数据库或知识库、调用外部大模型等。


2 智能体应用


2024 年第四季度到 2025 年初,智能体产业迎来快速发展,大型科技巨头和人工智能明星创业企业均布局智能体领域,推出多款功能强大的产品。科技巨头通过“智能体-开发平台-通信协议”来构建智能体生态。比如,谷歌近期并发布 Deep Search 智能体,升级 Astra、Mariner 等多款智能体,开源多智能体协议 A2A。初创公司致力于研发显著提升生产效率的智能体应用,比如 OpenAI 的研究智能体 Open Research、Cursor Lab 的代码智能体 Cursor、Monica 的通用智能体 Manus。


基于当前技术发展和行业实践,智能体可按照服务对象分为面向个人用户(2C)和面向企业用户(2B)两大类(见表 2),其核心差异在于服务场景的复杂度、技术深度及用户需求特性。


表 2 面向个人用户智能体与面向企业用户智能体差异比较

个人智能体主要面向个人用户,覆盖生活、娱乐、办公等高频场景,强调便捷性与个性化,其中通用智能体擅长完成跨领域多类任务,专用智能体聚焦垂直领域,解决特定的问题。


以 OpenAI 的 Deep Research 为例,它是一个研究类的专用智能体,采用单智能体架构,能够在 5~30 min 内搜索、解读并整合海量在线信息,生成专业级的研究报告。Deep Research基于优化版 o3 模型,通过端到端强化学习训练,使系统可以模拟人类研究者的决策过程,能够拆解任务,对执行过程进行动态调整,以及验证结论的可靠性。


Deep Research 的方案实现有 3 个重要进步:一是动态自适应地迭代研究工作流程,能够在任务执行中不断优化自身策略;二是强化了上下文记忆能力和多模态信息处理能力,能够有效整合多种信息来源;三是全面的工具集成能力,能够生成高质量的报告。Manus 是由中国团队 Monica.im 于2025 年 3 月推出的全球首款端到端执行型通用智能体,其具备从规划到执行全流程自主完成多种任务的能力,如旅行规划、市场研究、商业决策、金融分析等。Manus 采用了典型的多智能体体系架构,该架构由多个交互的智能体组成,每个智能体都有其独有的能力和目标,都能够感知、学习环境、做出决策并行动。智能体间通过信息共享和任务分工机制来协同工作,以完成更复杂的任务。


企业端智能体聚焦企业降本增效与决策优化,需深度适配行业知识与业务流程,强调精准性与可扩展性。根据不同的行业,企业端智能体还可以根据行业属性进行细分,比如金融业、通信业、医疗业智能体。以金融行业为例,金融智能体主要分为生成、识别和推理三大方向,生成类智能体能够支撑金融机构实现营销内容自动化、交互式报告生成等目的,识别类智能体能够支撑风险信息识别、合规与反欺诈监测、信用评估等场景,推理类智能体支撑金融机构动态风险管理、智能体营销等场景。典型金融智能体应用见表 3。


表 3  典型金融智能体应用


除了金融领域,智能体在医疗领域也有广阔的应用前景,医疗智能体可以应用于临床诊疗支持、患者服务于管理、医院运营管理、药物研发、医学教育五大方面。例如北京协和医院研发的“Med Agent”智能体,为临床医生智能推荐医学量表,实现数据自填充、量表自评估,同时支持参考文献一键追溯和医学量表自动更新。


3 智能体关键技术与管理体系


智能体的构建与管理需以开发平台为技术底座,以通信技术为协作纽带,以全生命周期管理为可持续保障,三者协同驱动智能体从实验室原型向产业级应用跨越。


3.1 智能体开发平台


智能体开发平台是支持构建、训练、部署和协同管理 AI 智能体的综合性工具环境。其核心定位在于降低智能体应用开发门槛,通过集成大模型、工具链、知识库和可视化界面,帮助开发者快速实现从需求分析到成果交付的全流程智能化。根据行业的需求,可以将智能体开发平台分为两类:通用性开发工具和企业级开发平台。


通用性开发工具主要面向个人用户,通过可视化界面、预置模版,降低开发门槛,帮助用户快速构建轻量级的智能体应用,典型的产品有 Dify 和字节的 Coze。其核心能力如下:一是低代码或零代码的开发能力,支持拖曳式工作流编排和预置模板,如 Coze 的电商客服模板,用户可通过自然语言指令快速生成应用原型;二是多模态交互和多模型兼容能力,形成文本、图像、音视频的输入输出能力,支持各类大模型的灵活切换;三是快速部署能力,能够一键发布到微信等终端,并内置各类插件。


企业级开发平台是针对复杂业务场景的深度定制化平台,强调与企业现有系统(ERPCRM、数据平台、大模型平台等)无缝集成,提供高安全性、可扩展性和全生命周期管理能力,典型的产品有字节跳动的 HiAgent、蚂蚁集团的 agentUniverse、百度千帆的AgentBuilder。企业级开发平台主要关注业务系统的深度集成、全栈的智能体开发和管理能力,以及完备的安全管控能力。


根据对业界技术平台的调研和抽象,本文提出了企业级智能体开发平台的技术框架,其可以用于智能体平台的选型、评测和能力研发(如图 1 所示)。技术框架定义了企业级智能体平台的核心能力要求,包括数据接入及管理、模型接入及管理、插件开发及管理、工作流设计及管理、智能体研发、智能体管理、智能体市场、安全管理八大能力域,详细分为 28个子能力。



图 1  企业级智能体开发平台技术框架


3.2 智能体通信技术


智能体通信指的是智能体在完成任务的过程中,通过标准化的协议框架,与其他多样化元素进行多模态信息交换和动态行为协调的行为,并将结果返回给用户。根据通信对象不同,智能体通信可以分为 3 种类型:用户-智能体交互、智能体-智能体通信以及智能体-环境通信。


用户-智能体交互指的是智能体接收用户的指令,并将执行结果反馈给用户的过程,典型的协议有学习解释型智能体通信协议(PXP)、空间群体协议、智能体用户交互协议(AG-UI)。PXP 的目的是在数据分析任务中构建一个用户与智能体交互的系统,主要面向科学、医学等应用场景。空间群体协议是一种分布式计算模型,主要解决物理空间中多个随机移动的计算单元(如机器人)分布式定位的问题。AG-UI 基于客户端-服务器架构,实现了用户与智能体之间的交互通信。


智能体-智能体通信是指两个或多个智能体之间通过标准化协作协议进行协商、任务分解、子任务分配以及结果汇总,从而协同完成用户指定任务的过程。基于智能体发现机制的不同,目前的通信协议可以分为 3 类:客户端-服务器(CS-based)、对等网络(P2P based)、混合型。


客户端-服务器协议基于客户端-服务器架构的通信协议,依赖于集中式服务器来管理智能体的信息,典型的产品有 ACP-IBM、ACP-AGNTCY。基于对等网络的通信协议通常使用全局标识符来支持智能体之间的搜索与发现,是一种去中心化的机制,其优势在于便捷的定位能力和全局搜索能力,典型的协议有智能体网络协议(ANP)、Agora。混合型通信协议同时支持基于客户端-服务器和基于对等网络的智能体发现机制,基于不同场景能够切换策略,典型的产品有谷歌的智能体对智能体协议 A2A、语言模型操作系统(lLMOS)协议。智能体对智能体协议由谷歌于 2025年 4 月发布,其设计重点是实现不同智能体之间的标准化通信,使它们能够跨平台、跨供应商和跨框架进行有效协作,核心解决了智能体之间能力发现、任务互操作和身份互信三大挑战。


智能体-环境通信指的是智能体通过一系列结构化的协议来调用外部工具、访问 API 并完成组合任务的行为,典型的智能体-环境协议有模型上下文协议(MCP)、函数调用(function calling)机制。


MCP 是 Anthropic 提出的一个开放标准,包含3 个核心组件(主机、客户端和服务器),它制定了一套清晰的规则,指导模型和智能体查找、连接和使用外部工具,旨在解决智能体和外部工具连通性的问题。其中,主机负责客户端生命周期管理;客户端发现可用工具、生成结构化调用,并在任务执行过程中处理同步或异步响应;服务器是一个集中式的注册中心,主要负责维护工具的信息和工作流模版。总结来看,MCP 有两个优点:首先,它是一个模型无关的协议,不绑定任何大模型,能够兼容市面上所有主流大模型,体现了一定的中立性和开放性;其次,它是标准化通信规范,开发者只需要按协议开发接口,即可被多个模型调用,实现“一次开发,全平台通用”的能力。


3.3 企业智能体开发运营体系


随着大模型能力的快速迭代、智能体开发框架的逐步完善,未来企业侧将产生海量专业智能体,并成为企业交互的核心入口,在智能体开发之外,它们的全生命周期管理将越发重要。然而智能体开发运营的理念刚刚开始,尚未形成体系化的方法,笔者参考软件领域DevOps 体系,提出了 AgentOps 理念。AgentOps 是围绕智能体全生命周期(研发、交付、监控、运维、运营等环节)构建的系统性建设方法论,通过标准化流程、自动化工具链及跨职能协作机制,提升智能体开发效率、增强智能体运营稳定性、优化多智能体协同能力、促进智能体系统同业务场景的紧密耦合。


AgentOps 核心关注 4 个方面的要点:一是研发的自动化,即构建敏捷、高效的智能体研发流水线,保证智能体快速的开发上线;二是行为的可观测性,即建立智能体全生命周期的可观测体系,及时发现智能体研发与运行过程的问题,快速解决问题;三是资源调度与编排,建设多智能体编排以及和外部系统间的协调能力,保障资源的有效利用;四是成本控制和效能度量,对各类智能体进行成本和效能的评价,减少无谓的支出。


4 结束语


2025 年被称为智能体元年,开年以来 Deep Research、Manus 等智能应用不断引领着智能体应用的创新,展现了良好的应用前景,让人们对智能体的落地充满了期待。同时智能体开发平台和通信协议在逐步完善,为智能体在个人市场和企业级市场广泛应用打好了基础。


展望未来,智能体发展呈现五大趋势。


第一,企业级专业智能体展现出巨大的发展潜力。为了充分利用这一潜力,企业不仅需要构建领域知识基础,还需要优化和梳理业务流程,并建立一套全面的智能体开发与运营体系。


第二,大型模型能力的迭代升级成为推动智能体进化的核心驱动力。模型的进步能显著提升智能体的思考和规划能力,产业界需要致力于做好多模型适配工作,以确保不同应用场景下的最佳性能和适应性。


第三,智能体生态系统的构建正逐渐成为行业发展的重要方向,特别是智能体通信协议成为业界关注的重点。目前,MCP和 A2A 协议正在逐步演变为行业内的事实标准,这些协议的进步对于促进智能体间的高效协作至关重要。


第四,相比单智能体,多智能体协作能更好地完成复杂任务,提升整体性能,多智能体推理框架和多智能体通信优化是业界关注的方向。


第五,多模态大模型的发展提升了具身智能体的环境感知、长程任务规划、短程动作控制等能力,为实现具身智能带来新的曙光。



原文刊载于《大数据》2025年9月  作者:中国信息通信研究院 姜春宇 韩晓璐 王超伦


暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码