豆包专业版实测:2亿人都可以体验能干活的Agent了

新智元·2026年06月24日 19:03
豆包上线专业版及2.1系列模型,推出Agent办公任务模式

【导读】6 月 24 日,豆包上线专业版,首个 Agent 驱动的办公任务模式搭载豆包 2.1 Pro。实测调研报告、财报分析、自建 Skill 等办公场景,交付质量对标 Claude Opus 4.6。2 亿日活的国民 AI 应用,开始认真干活了。

刚刚,豆包正式上线专业版,同步发布豆包 2.1 系列大模型。

这次更新最核心的变化是全新的「办公任务模式」,分别为专业版用户和免费用户提供豆包 2.1 Pro 和豆包 2.1 Turbo 模型,这也可以被认为是豆包的第一个 Agent 版本。

在这个模式下,豆包能完成一个完整的工作目标,自主拆解步骤,调用本地电脑、浏览器、飞书办公套件等工具,产出可以直接交付使用的工作成品,一份行业报告、一张数据分析表、一套 PPT,或者一个带后端数据库的网站。

谈到模型能力,有个效果十分吸睛的 Demo:一个芯片设计 RTL 的测试,豆包 2.1 Pro 连续运行近 18 小时,完成 6 个核心模块、1303 行 RTL 代码,经历 9 轮迭代,还跑通了仿真、测试、综合检查等完整工程流程,展现出模型在真实工程场景里的生产级 Coding 交付能力。过去完成该任务需要 3-5 个工程师做数周。

豆包日活超过 2 亿,是中国用户量最大的 AI 应用。

这 2 亿人里大多数从未接触过 Claude Code 和 Codex 等专业 Agent 工具。

Agent 能力进入一个每天 2 亿人打开的 App,覆盖的是一个全新的用户群体。

免费用户不受任何影响,现有功能和额度保持不变,底层模型升级为豆包 2.1 Turbo,能力甚至有显著提升。

办公任务模式也在一定额度内向所有用户免费开放。

对于豆包的免费用户来说,免费服务的现有功能和额度保持不变,还整体接入了豆包 2.1 模型,能力有所提升。

此外,免费用户还能体验接入豆包 2.1 Turbo 模型的办公任务模式。

那么这个 Agent 模式到底能把活干到什么程度?

三大场景,实测豆包 Agent

办公任务模式的逻辑很简单,Agent 明确目标,拆解步骤,调用工具,交付成品。

产出物是可以直接发给同事、交给客户的工作成果。

以下三个场景按难度递进,用交付结果说话。

场景一:本地电脑操作 + 应用生成

第一个场景直接测豆包新推出的办公任务模式最硬核的能力之一——操作用户本地电脑上的文件,写代码、跑代码、发现问题自己修。

实测分两轮。

第一轮 Prompt:

设计一个可复用的本地软件,帮助我检测出重复照片中质量最好的,将其余质量相对更差的放入回收站。可以用我本地文件夹的这些照片来测试并完善软件。

豆包先查看了本地照片文件夹,了解测试数据,然后开始写代码。

过程中经历了多轮自我迭代,遇到依赖兼容性问题主动切换技术方案,发现评分算法和分组逻辑的 Bug 后自行修复重跑,直到测试结果达标才交付。

第二轮 Prompt:

能否加上一套极简 UI,让连运行 Python 代码都不会的人也能傻瓜式操作?

豆包用 tkinter 做了一个完整的图形界面,文件夹选择、严格度滑块、备份模式、可视化扫描结果、进度条、二次确认弹窗,删除默认进系统回收站。

生成了一个双击启动脚本,用户点一下就能打开。

最终交付四个文件,命令行版、GUI 版、启动脚本和使用说明。

最终,Agent 从两张相同场景的照片中成功挑出了质量最好的一张。

正确对焦的清晰照片:IMG_5676.jpg

错误对焦的模糊照片:IMG_5684.jpg

成功选出了更清晰的第一张照片:IMG_5675.jpg

一个完全不会写代码的人,全程鼠标操作就能清理完重复照片。

场景二:财报数据分析 + 对比图表

实测 Prompt:

帮我整理近半年全球 AI 芯片行业的财报核心数据,对比英伟达、AMD 两家公司的营收增速、毛利率变化,生成对比分析表格并给出行业趋势总结,输出为飞书表格 + 500 字以内的投资摘要文档。

Agent 要从多个数据源提取财务指标,清洗比对,生成可读性强的表格,还要写出有判断力的趋势分析。

从信息提取到数据处理到可视化到文字总结,这是一个多步骤链式任务,任何一环断了都交不出合格的活。

豆包交付了两个文件,一份双 Sheet 的飞书表格和一份投资摘要文档。

表格链接:https://my.feishu.cn/sheets/DFBHsfWtOh7zHMtJur4cootPn9c

文档链接:https://my.feishu.cn/docx/Xwxfd5Dv5opPaAxcGLPccvs6nbd

Sheet 1

Sheet 2

文档

表格做到了什么程度?

第一个 Sheet 是季度对比,按公司分列、按指标分行,英伟达 FY2027 Q1 营收 816 亿美元(同比 +85%)、GAAP 毛利率 74.9%、数据中心收入 752 亿美元(同比 +92%);AMD 2026 Q1 营收 103 亿美元(同比 +38%)、毛利率 53%。

第二个 Sheet 是年度核心数据,包括全年营收、AI 业务占比、市值等维度。

每个数字都有明确的时间范围标注,不需要人去猜「这个季度到底是哪几个月」。

投资摘要没有停留在复述数字的层面,而是提炼出了三个行业趋势判断,全球 AI 算力建设加速驱动需求持续超预期、英伟达 CUDA 生态加硬件迭代形成深厚护城河、竞争格局呈现「一超多强」分化。

最后给出了配置建议,英伟达超配、AMD 标配,并提示关注三季度新品节奏和云厂商资本开支变化。

AI 生成的财务数据仍需人工核验,文档也标注了「部分内容由豆包生成」。

但作为初稿,这份表格加摘要的双交付,已经覆盖了一个初级分析师大概半天的工作量。

场景三:自建 Skill + 世界杯数据分析

实测 Prompt:

创建一个可以生成数据可视化面板的技能,然后用这个技能把今天世界杯的所有比赛数据分析一下。

第三个场景展示的是 Agent 最有想象空间的能力,用户在教 AI 学一个新技能,然后让它用这个技能干活。

这条 Prompt 里包含两个任务。

第一步是创建一个自定义 Skill,第二步是调用刚创建的 Skill 执行具体分析。

豆包先生成了一个名为「data-dashboard」的 Skill,基于 ECharts 构建,支持统计卡片、柱状图、饼图、折线图、双轴图等多种图表类型,响应式设计,深色渐变主题,并附带了完整的 HTML 模板和使用指南。

然后豆包调用这个 Skill,抓取了 6 月 24 日世界杯 4 场比赛的实时数据,生成了一个交互式数据面板。

面板里的信息让人很难相信这是一句 Prompt 的产物。

6 个关键指标统计卡片(总进球、零封场次、场均进球等),各队进球数对比柱状图,比赛状态分布饼图,进球时间分布折线图,小组积分形势双轴图,外加一张完整的赛程数据表格。

数据的时效性也跟上了,葡萄牙 5 比 0 大胜乌兹别克斯坦,C 罗梅开二度(siuuuuu~),成为历史首位在六届世界杯中全部取得进球的球员(41 岁 138 天),这些细节都准确呈现在面板里。

图源:央视新闻

这个案例的价值在于 Agent 完成了「先造工具,再用工具干活」的复合指令。

传统工作流里,创建一个数据分析模板和用模板执行分析是两个独立步骤,通常需要不同的技能栈。

豆包只需要一句 Prompt。

而且这个 Skill 创建一次之后可以反复调用,明天、后天的世界杯赛事数据不需要重新描述需求。

三个场景之外,办公任务模式还有几项能力值得留意。

本地电脑操作方面,经用户授权后,豆包可以协助整理本地文件、归类文档、跨应用搬运信息。

定时任务方面,用户可以设定豆包在固定时间自动执行重复性工作,比如每周一上午 9 点自动生成 AI 行业动态周报。

网站和应用生成方面,办公任务模式支持创建带后端数据库的生产级网站,可供个人或团队快速搭建信息系统。

所有能力仍在持续迭代,更多专业 Skill 后续会陆续上线。

底座之变,豆包 2.1 Pro 是什么水平

办公任务模式的交付质量,底层由模型能力决定。豆包专业版搭载的是最新的豆包 2.1 Pro,免费版用户则可使用豆包 2.1 Turbo。

豆包大模型 2.1 Pro 已经达到了可用的标准,可以对标 Claude Opus 4.6 的水平,进入到了 Agent 的可用门槛。

一个有意思的变化是,此前 Seed 团队有单独的 Coding 模型 SeedCode,豆包 2.1 发布后 Coding 和 Agent 能力全部合并到了主版模型里,与此同时推出了 Seed Evolving 系列,在 2.1 基础上每一两周更新一次。

在面向真实 Coding 场景的众测开发者评估中,Seed 2.1 Pro 对比 Claude Opus 4.6 获得了 59.1% 的胜率。

在 ALE(Agents' Last Exam)基准评测中,这个覆盖 13 个行业集群、1000 多项高经济价值真实任务的测试里,Seed 2.1 Pro 处于第一梯队。

Agents' Last Exam 基准评测中,左侧为完整通过率,右侧为平均综合得分

GDPval 基准衡量模型在真实工作任务中的完成质量和经济价值,Seed 2.1 Pro 拿到了参评模型的最高分。

Terminal Bench 2.1 的得分为 71.0,与 Claude Opus 4.7 的 71.7 基本持平。

跑分是参考维度之一,前面的实测也更能反映 Agent 在真实办公场景中的交付水平。

两者结合来看,豆包 2.1 Pro 确实已经迈过了 Agent 的可用门槛。

价格方面,Seed 2.1 Pro 的 API 定价为输入 6 元/百万 Token、输出 30 元/百万 Token,约为海外同水平模型的四分之一。

豆包专业版采用三档订阅,标准 68 元/月,加强 200 元/月,高级 500 元/月,区别仅在使用额度,功能和模型完全一致。

与此同时,豆包即将推出面向在校大学生提供认证后 38 元/月的专属优惠,针对视障人群的视频通话功能也有特殊优惠方案。

再重复一遍关键信息:免费用户现有功能和额度不受影响。

办公任务模式也在一定额度内向所有用户免费开放,免费用户可以体验接入豆包 2.1 Turbo 模型的办公任务模式。

而专业版,主要解决的是专业用户在复杂任务场景下的额度需求。

2 亿人的 Agent 飞轮

豆包日活超过 2 亿。

这 2 亿用户里也有相当多使用智能手机还不算流畅的中老年人等相对的「科技弱势群体」。

他们大多数不知道 Claude Code 和 Codex 是什么。

Claude Code 

Codex

对这个群体来说,Agent 此前只是科技媒体报道里的概念。

办公任务模式把 Agent 工作流放进了这些人每天都在用的 App 里。

一个从没写过代码的行政人员,现在能用一句话让豆包帮她整理本地文件、生成周报,甚至部署一个内部查询网站。

一个大学生可以用 38 元/月的学生优惠价,获得搭载旗舰模型的办公 Agent。

让 2 亿普通用户零门槛使用专业级工作流,是 AI 普惠当下最务实的一步。

2 亿日活还带来一个结构性优势——海量用户在 Agent 模式下处理真实工作任务,积累的数据将持续反哺模型的 Agent 能力迭代。

用户量级带来数据量级,数据量级加速模型进化,模型进化再拉动更多用户使用 Agent 功能。

Seed Evolving 系列每一两周更新一次,就是这种飞轮效应的产品化体现。

办公任务模式将不断快速进化,即将上新的功能包括但不限于:

  • 技能商店页面,支持用户添加 / 管理;
  • 手机远程操作电脑;
  • 电脑端支持 GUI 操作;
  • 进一步和飞书融合打通。

方向已经很清楚了。

Agent 时代,跑分是入场券,2 亿日活才是战场。

当一个国民级应用开始替用户干活,改变的是 2 亿国民的工作方式。

本文来自微信公众号“新智元”,作者:ASI启示录,36氪经授权发布。

+1
10

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业