/ 社区生态 / 3浏览

ChatGPT Agent 正式上线:AI 从对话走向行动的新纪元

文章目录
  • 什么是 ChatGPT Agent?
  • 核心能力概览
  • 评估表现一览
  • 适合谁使用?
  • 如何启用 Agent 模式?
  • 安全与权限机制
  • 未来趋势与开发方向
  • 结语
  • 2025 年 7 月17日,OpenAI 正式推出了 ChatGPT Agent 模式,标志着人工智能从对话助手向“行动体(Agent)”跃迁的重要节点。这项新功能打破了传统 AI 工具“只能聊天、不能动手”的限制,赋予 ChatGPT 执行任务、访问网页、处理文件等全新能力。

    什么是 ChatGPT Agent?

    ChatGPT Agent,是 OpenAI 在原有 ChatGPT 模型基础上构建的一个智能操作系统,它不仅能回答问题,还能代替用户完成一系列具体操作任务,例如:

    • 访问第三方网站并提取信息
    • 登录系统执行表单填写、内容搜索、资源采集
    • 自动生成 PPT、报表、电子表格等文档
    • 根据日历/邮件整理会议摘要或任务清单

    它整合了之前的 Deep Research 深度调研模式与 Operator 浏览器控制能力,是更具操作性的升级。

    核心能力概览

    功能模块说明
    网页访问能主动访问网页、模拟用户操作,并提取或汇总页面数据
    文档处理生成并编辑 PDF、PPT、Excel 等办公文档
    任务自动化执行指定任务链条,如“预订酒店+写邮件+生成报告”
    系统交互调用 API、脚本执行、本地模拟操作(企业用户)

    评估表现一览

    在官方评估中,ChatGPT Agent 展现出多项行业顶尖表现:

    • FrontierMath(高难度数学推理): 利用内置终端执行代码,准确率达 27.4%,显著超越以往模型 。
    • DSBench(数据科学分析与建模任务): 在该面向真实任务的数据科学评测中,Agent 表现超过人类水平,体现其在分析与建模方面的实力。
    • SpreadsheetBench(真实场景表格处理): 其在电子表格编辑任务中的得分为 45.5%,远高于 Excel Copilot 的 20% 。
    • 投资银行财务建模任务: 在模拟财富 500 强企业财务模型构建与杠杆收购评估等任务中,Agent 表现优于此前版本,包括 Deep Research 模式与 o3 模型。
    • BrowseComp(复杂信息检索): 在寻找难以获取的信息场景中,得分达到 68.9%,领先 Deep Research(约 51.5%)和基础 o3 智能体。
    • WebArena(真实网页交互任务): 在模拟真实网页操作流程中,Agent 得分为 65.4%,略超以往 o3 智能体(约 62.9%),虽然仍未完全达到人类表现 (~78.2%),但进步明显 。

    这些评估涵盖推理、数学、数据分析、表格处理、财经建模与网页浏览等多个现实任务维度,ChatGPT Agent 在每个领域均取得或刷新 SOTA 水准,全面证明其不再仅仅是“会聊天”的模型,而是一个兼具“理解 + 操作”能力的实用型智能体。

    适合谁使用?

    虽然目前该功能主要开放给 ChatGPT Plus / Pro / Team 用户,但它的设计面向以下典型使用场景:

    • 开发者:用于原型搭建、任务链条自动执行、模拟用户流程
    • AI 工具研究者:探索复杂多步任务的自动完成方式
    • 生产力用户:日常办公文档生成、自动信息汇总处理
    • 产品经理与自动化设计师:用于研究人机协同与任务代理模型

    如何启用 Agent 模式?

    在 ChatGPT 页面中,点击左下角 “Tools / 工具”,勾选并进入 Agent 模式 即可使用(需为付费用户)。企业与教育版本预计将在未来几周逐步开放。

    安全与权限机制

    OpenAI 为防止 Agent 滥用或误操作,设计了以下机制:

    • 操作需授权:关键任务必须用户确认后才可执行
    • 沙盒环境:对操作网站、系统的权限进行了严格限制
    • 监控与回溯:所有 Agent 操作都有可追溯记录

    未来趋势与开发方向

    ChatGPT Agent 的推出不仅仅是功能叠加,更代表了AI 由感知理解转向“智能行动”的结构性飞跃。随着插件生态、终端权限管理、任务编排系统的发展,我们可以预见:

    • AI 将成为每个人的“虚拟助理”
    • 无代码任务自动化将更加普及
    • 企业工作流程将大量引入 Agent 架构

    结语

    ChatGPT Agent 是 OpenAI 在“可执行任务的 AI 智能体”方向上的关键部署,为 AI 使用者打开了前所未有的空间。

    官方文档:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

    更新于
    从 Whisper 到 Voxtral:语音识别技术的新跃迁
    从 Whisper 到 Voxtral:语音识别技术的新跃迁
    从诞生到进化:Claude Code是什么?如何改变AI编程?
    从诞生到进化:Claude Code是什么?如何改变AI编程?
    本地化AI革命:Ollama与知识库结合,如何颠覆你的数据管理?
    本地化AI革命:Ollama与知识库结合,如何颠覆你的数据管理?
    科普:LLM是什么?起源、发展与未来
    科普:LLM是什么?起源、发展与未来
    Windsurf 24 亿美元收购内幕:谷歌截胡,创始人赚翻,员工却成牺牲品?
    Windsurf 24 亿美元收购内幕:谷歌截胡,创始人赚翻,员工却成牺牲品?
    AI大模型的标准化工具箱——MCP:MCP是什么?
    AI大模型的标准化工具箱——MCP:MCP是什么?