2025 年 7 月17日,OpenAI 正式推出了 ChatGPT Agent 模式,标志着人工智能从对话助手向“行动体(Agent)”跃迁的重要节点。这项新功能打破了传统 AI 工具“只能聊天、不能动手”的限制,赋予 ChatGPT 执行任务、访问网页、处理文件等全新能力。

什么是 ChatGPT Agent?
ChatGPT Agent,是 OpenAI 在原有 ChatGPT 模型基础上构建的一个智能操作系统,它不仅能回答问题,还能代替用户完成一系列具体操作任务,例如:
- 访问第三方网站并提取信息
- 登录系统执行表单填写、内容搜索、资源采集
- 自动生成 PPT、报表、电子表格等文档
- 根据日历/邮件整理会议摘要或任务清单
它整合了之前的 Deep Research 深度调研模式与 Operator 浏览器控制能力,是更具操作性的升级。
核心能力概览
功能模块 | 说明 |
---|---|
网页访问 | 能主动访问网页、模拟用户操作,并提取或汇总页面数据 |
文档处理 | 生成并编辑 PDF、PPT、Excel 等办公文档 |
任务自动化 | 执行指定任务链条,如“预订酒店+写邮件+生成报告” |
系统交互 | 调用 API、脚本执行、本地模拟操作(企业用户) |
评估表现一览
在官方评估中,ChatGPT Agent 展现出多项行业顶尖表现:
- FrontierMath(高难度数学推理): 利用内置终端执行代码,准确率达 27.4%,显著超越以往模型 。

- DSBench(数据科学分析与建模任务): 在该面向真实任务的数据科学评测中,Agent 表现超过人类水平,体现其在分析与建模方面的实力。

- SpreadsheetBench(真实场景表格处理): 其在电子表格编辑任务中的得分为 45.5%,远高于 Excel Copilot 的 20% 。

- 投资银行财务建模任务: 在模拟财富 500 强企业财务模型构建与杠杆收购评估等任务中,Agent 表现优于此前版本,包括 Deep Research 模式与 o3 模型。

- BrowseComp(复杂信息检索): 在寻找难以获取的信息场景中,得分达到 68.9%,领先 Deep Research(约 51.5%)和基础 o3 智能体。

- WebArena(真实网页交互任务): 在模拟真实网页操作流程中,Agent 得分为 65.4%,略超以往 o3 智能体(约 62.9%),虽然仍未完全达到人类表现 (~78.2%),但进步明显 。

这些评估涵盖推理、数学、数据分析、表格处理、财经建模与网页浏览等多个现实任务维度,ChatGPT Agent 在每个领域均取得或刷新 SOTA 水准,全面证明其不再仅仅是“会聊天”的模型,而是一个兼具“理解 + 操作”能力的实用型智能体。
适合谁使用?
虽然目前该功能主要开放给 ChatGPT Plus / Pro / Team 用户,但它的设计面向以下典型使用场景:
- 开发者:用于原型搭建、任务链条自动执行、模拟用户流程
- AI 工具研究者:探索复杂多步任务的自动完成方式
- 生产力用户:日常办公文档生成、自动信息汇总处理
- 产品经理与自动化设计师:用于研究人机协同与任务代理模型
如何启用 Agent 模式?
在 ChatGPT 页面中,点击左下角 “Tools / 工具”,勾选并进入 Agent 模式 即可使用(需为付费用户)。企业与教育版本预计将在未来几周逐步开放。
安全与权限机制
OpenAI 为防止 Agent 滥用或误操作,设计了以下机制:
- 操作需授权:关键任务必须用户确认后才可执行
- 沙盒环境:对操作网站、系统的权限进行了严格限制
- 监控与回溯:所有 Agent 操作都有可追溯记录
未来趋势与开发方向
ChatGPT Agent 的推出不仅仅是功能叠加,更代表了AI 由感知理解转向“智能行动”的结构性飞跃。随着插件生态、终端权限管理、任务编排系统的发展,我们可以预见:
- AI 将成为每个人的“虚拟助理”
- 无代码任务自动化将更加普及
- 企业工作流程将大量引入 Agent 架构
结语
ChatGPT Agent 是 OpenAI 在“可执行任务的 AI 智能体”方向上的关键部署,为 AI 使用者打开了前所未有的空间。
官方文档:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/