halo 的技术博客

返回

ChatGPT 很强,但你知道它的局限吗?

它不能访问实时信息,不能执行实际操作,不能记住你上次说过的话,更不能自己完成一个复杂的多步骤任务。

直到 AI Agents 出现。


大模型的能力边界#

在理解 AI Agents 之前,先看大模型(LLM)的天花板:

局限具体表现
知识时效性训练数据截止后发生的事,它不知道
幻觉问题可能一本正经地胡说八道
无真实世界交互只能生成文本,不能执行操作
上下文限制记忆窗口有限,长期对话会遗忘
缺乏自主性你问它答,被动响应
推理能力局限复杂推理容易出错
这些局限,催生了 AI Agents。

什么是 AI Agents?#

AI Agents(智能体)是一种能够自主感知环境、进行决策规划并执行行动 的智能系统。

核心公式:

智能体 = 大模型(核心引擎) × [感知 + 记忆 + 规划 + 工具 + 执行 + 反馈]
plaintext
本质:在大模型基础上,增加了一整套”手脚和记忆系统”。 维度大语言模型AI Agents
交互模式被动响应主动执行
任务范围单次对话多步骤任务
工具使用不支持可调用 API、数据库、代码执行器
记忆能力仅上下文窗口持久化长期记忆
规划能力有限复杂任务分解与规划
自主性自主决策和执行
实时性知识截止日期限制可获取实时信息
错误处理无法自我纠错可检测错误并调整

六大核心能力模块#

1. 感知(Perception)#

智能体获取和理解环境信息的能力。

能”看到”什么?

  • 文本、图像、音频、视频(多模态输入)
  • API 返回的数据
  • 数据库查询结果
  • 系统日志、传感器数据

应用示例:

  • 智能运维:监控日志,识别异常
  • 智能客服:理解用户意图和情绪
  • 金融交易:获取实时行情数据

2. 记忆(Memory)#

智能体存储和检索历史信息的能力。

三层记忆体系: 类型存储位置生命周期用途
短期记忆Prompt 上下文当前会话对话连贯性
长期记忆向量数据库持久化用户偏好、知识沉淀
工作记忆临时存储任务期间中间计算结果
关键技术:
  • 向量数据库:Pinecone、Milvus、Chroma
  • 检索增强生成(RAG):突破上下文窗口限制

应用示例:

  • “我记得你上次说过不喜欢周五下午开会”
  • “根据你们项目的规范,这里应该用 async/await”

3. 规划(Planning)#

将复杂目标分解为可执行步骤的能力。

规划方法: 方法说明
任务分解将大任务拆解为原子性子任务
依赖分析识别串行/并行关系
资源分配时间预算、工具选择、成本控制
路径规划贪心策略、动态规划、回溯机制
关键技术:
  • 思维链(CoT) :让模型逐步展示推理过程
  • 思维树(ToT) :探索多条推理路径,选择最优
  • ReAct 框架 :推理(Thought)和行动(Action)交替进行

ReAct 示例:

Thought 1:需要查询今天北京的天气


Action 1:调用天气 API
Observation 1:晴,15-25℃
Thought 2:用户可能想知道是否适合户外活动
Action 2:基于天气数据生成建议


plaintext

4. 工具(Tools)#

调用外部资源和服务的能力。这是智能体突破大模型局限的关键

工具类型: 类型示例
信息获取搜索引擎、数据库、API
计算工具计算器、代码解释器、Wolfram Alpha
操作工具文件系统、邮件、日程管理
专业工具数据分析、图像处理、版本控制
关键技术:
  • Function Calling :模型原生支持的工具调用能力
  • MCP(Model Context Protocol) :Anthropic 提出的标准化协议
  • A2A(Agent-to-Agent) :智能体间通信协作

5. 执行(Execution)#

将计划转化为实际行动的能力。

执行策略: 策略适用场景
顺序执行步骤间有严格依赖
并行执行多个子任务相互独立
条件执行根据运行时状态决定路径
循环执行重复操作直到满足条件
关键技术:
  • 动作空间定义
  • 执行监控(状态跟踪、进度报告)
  • 异常处理(重试机制、降级策略)
  • 资源管理(速率限制、成本控制)

6. 反馈(Feedback)#

根据执行结果调整策略的能力。这是智能体自我进化 的核心。

反馈类型: 类型来源作用
即时反馈API 响应、系统状态指导下一步行动
评估反馈质量评估、性能指标长期策略优化
人类反馈用户确认、修正、评价高质量监督信号
环境反馈系统状态变化触发适应性调整
反馈循环:
执行 → 获取反馈 → 分析结果 → 调整策略 → 重新执行
plaintext

闭环工作流程#

AI Agents 的完整工作流:

感知环境 → 检索记忆 → 制定计划 → 选择工具 → 执行行动 → 获取反馈 → 更新记忆 → 调整计划 → ...
plaintext

这个闭环使智能体能够:

  • 自主适应 :根据环境变化调整行为
  • 持续改进 :从经验中学习优化策略
  • 目标导向 :始终朝着目标前进

实战对比:LLM vs AI Agent#

场景:查询实时天气并推荐活动 大语言模型:

用户:今天北京的天气怎么样?


模型:抱歉,我的知识截止到2023年,无法提供实时天气信息。
      建议您访问天气预报网站查询。


plaintext

❌ 无法获取实时数据 ❌ 只能提供建议,用户需自己操作

AI Agent:

用户:今天北京的天气怎么样?


Agent:
  1. [感知] 识别需要实时天气信息
  2. [规划] 决定调用天气 API
  3. [工具] 调用 API 获取数据
  4. [执行] 返回结果
  5. [生成] "今天北京天气晴朗,15-25℃,空气质量良好,
            适合户外活动。推荐:爬山、骑行、野餐。"


plaintext

✅ 直接提供准确信息 ✅ 一步到位


场景:分析销售数据并生成报告 大语言模型:

用户:帮我分析最近一周的销售数据并生成报告。


模型:我可以提供分析思路:
      1. 从数据库导出数据
      2. 使用 Python 进行分析
      3. 制作图表
      4. 撰写报告
      需要我提供代码示例吗?


plaintext

❌ 只能提供指导 ❌ 用户需手动完成所有步骤

AI Agent:

用户:帮我分析最近一周的销售数据并生成报告。


Agent:
  1. [规划] 制定执行计划
  2. [执行] 
     - 连接数据库,获取 15,234 条销售记录
     - 数据清洗,处理缺失值
     - 计算关键指标:总销售额 ¥1,250,000,同比增长 15%
     - 生成可视化图表
     - 撰写分析报告
  3. [输出] sales_report_2026_week14.pdf


plaintext

✅ 自动完成全流程 ✅ 直接产出结果


总结#

AI Agents 是大模型的进化形态:

大语言模型AI Agents
只能聊天能执行实际任务
被动响应主动行动
记忆有限长期记忆
无法联网可获取实时信息
不会自我纠错能从反馈中学习
关系:
AI Agents = LLM(核心引擎)× 闭环模块(感知+记忆+规划+工具+执行+反馈)
plaintext

大模型是”大脑”,AI Agents 是”大脑+手脚+记忆”。


你对 AI Agents 有什么看法?在你的工作场景中,哪些任务可以用智能体来自动化?

💬 评论区#

AI Agents深度解析:大模型如何进化成自主智能体
https://blog.halo26812.eu.org/blog/ai-agents-deep-dive
Author halo
Published at 2026年4月7日
版权声明 CC BY-NC-SA 4.0
Comment seems to stuck. Try to refresh?✨