豆包专业版实测:4个办公任务,3个没干成
豆包不想只做2亿人的聊天搭子了。
6月24日,豆包正式上线专业版,核心是全新的“办公任务”模式,搭载最新的豆包大模型2.1能力。
据官方介绍,豆包专业版能操作本地电脑、调用浏览器、文档、表格、网页等工具,并接入办公套件能力,覆盖调研报告、财报分析、自建Skill等真实办公场景。
专业版用户可使用接入豆包2.1 Pro模型的办公任务模式,免费用户也可在一定额度内体验接入豆包2.1 Turbo模型的办公任务模式。
更引人注目的是,豆包大模型2.1 Pro在多个基准测试中超越了Claude Opus 4.6。
如此惊艳的数据,让人感觉国产大模型终于要崛起了,可以在办公生产力这个赛道上和国外掰手腕了。
付费体系同步亮相:标准版68元,加强版200元,高级版500元。
这两件事连在一起,其实豆包就是想告诉大家,新模型能打、值得付费。
但模型行不行,跑分说了不算,能不能真的帮干人活才是唯一检验标准。
所以【世界模型工场】第一时间上手体验,让豆包专业版在办公场景里上班。
需要说明的是,这次实测主要基于目前能用到的豆包大模型2.1 Turbo办公任务模式。
不完全代表2.1 Pro的能力上限,但至少它代表了大量普通用户第一时间能接触到的豆包专业版的体验。
作为对比,同样的任务,也交给了Codex,看看到底谁更会干活?
实测场景一:优化C盘空间
这次豆包专业版,把"办公任务模式"和"本地电脑功能"作为重点推出。
前者针对会议纪要、文档整理、日程管理这类标准白领工作流,可执行agent任务。
后者可以直接操控你的电脑,打开程序、浏览文件夹、执行系统级任务,相当于把AI从对话框里拖出来,塞进你的桌面。
这个方向是大势所趋,OpenAI的Codex、Anthropic的Computer Use,都在往这条路上走。
但字节这次把它做进了豆包的日常入口,这就不仅是给开发者的工具,而是给普通上班族用的。
那么,一个能操作电脑的AI,能不能真的替人干活呢?
我决定先用优化电脑磁盘空间来试试。毕竟C盘满了这件事,困扰过几乎每一个Windows用户。
我分别让Codex和豆包专业版做了同一件事:清理C盘。
测试Codex那次,C盘可用空间只剩0.46GB,已经到了亮红灯的边缘。
清理完之后,可用空间跳到了7.47GB,净腾出超过7GB,效果肉眼可见。
测试豆包时,起点条件比Codex好得多,C盘还有3GB可用。但清理跑完,剩余空间变成了2.82GB。
没错,C盘可用空间越清理越少。
在这个考验动手能力的本地操作场景里,豆包和Codex之间有明显的差距。
实测场景二:操作飞书表格
如果说C盘清理还算边缘任务,飞书才是真正的日常办公战场,文档、表格、会议记录、项目进度,全在里面。
能不能操控飞书,直接决定了AI办公助手这四个字能不能站住。
我设计了一个刻意压低难度的测试:
电脑上已经登录好飞书客户端,找到一个Excel文件,把其中一个页面的内容复制到另一个页面。
不需要创建文件,不需要写公式,不需要联网搜索,就是中学生也能随手完成的复制粘贴工作。
Codex整个过程跑了十几分钟,期间能看到它一步步点开客户端、定位文件、切换页面。
等待的时间有点煎熬,但结果出来了:任务完成,内容确实复制过去了。
豆包这边,测了两遍,两遍都卡在同一个地方:找不到飞书文件。
原因是,豆包不能接管电脑上的飞书客户端,它只能通过飞书API来完成。
为了进一步降低难度,我又在浏览器中打开了飞书文件的页面,只需要AI接管浏览器,完成复制粘贴的动作。
但结果依然是,Codex顺利完成任务,但豆包依然没能稳定读取并操作浏览器里的飞书页面,而是一遍遍建议我走飞书API。
同为字节旗下产品,豆包却不能在多种情况下接管飞书,那么豆包大模型宣传的"本地电脑"功能,在真实的桌面环境里,又能接管多少呢?
实测场景三:抓取小红书用户评论
前两个任务,豆包连续翻车,我决定换一个信息获取类的测试,看看它能不能找回节奏。
任务是:Chrome浏览器里我已经登录了小红书账号,去搜索豆包大模型2.1的相关帖子,把真实用户评论抓下来,至少10条,观点要不同。
这是一个很多做内容运营的人都会有的需求。
手动点进一条条帖子、复制筛选,费时费力。如果AI能接管浏览器直接干这件事,才算真正省事。
这一次,Codex和豆包都做到了。
两个模型都成功识别了浏览器里已登录的小红书状态,完成了搜索、浏览、抓取的全流程,各自带回了一批真实用户评论。
这是整组测试里,豆包第一次没有掉链子。
这个任务本质上是浏览器自动化,控制的是网页界面,不涉及本地客户端,也不需要调用系统权限。
换句话说,这是AI电脑操控里门槛相对较低的一类,只要能看到屏幕、会点鼠标,基本都能过。
尽管如此,要流畅地实现这一功能也并非很简单。
这说明豆包在浏览器自动化这条路径上,尤其是在适配中国打工人工作场景上,确实花了一些功夫。
场景四:写一个小工具
代码能力是大模型的基本盘,各家都敢拿出来比,这次我要求做一个能用的东西。
需求来自日常痛点:
视频号上有很多直播,嘉宾演讲内容有价值,但我没时间坐在那里听完。我想要的是,直播结束之后,把里面所有说过的话,以文字形式完整给我。
这个任务要求AI不只是写代码,还得理解需求、拆解产品路径、跑通工程细节。
Codex没有一次性出活。
我们来回对话了好几轮,比如:让它加前端界面,让它提升语音转文字的准确率和速度,让它把录制和转写进度显示出来。
每提一个要求,它改一版,改完继续跑。
这个过程没有想象中的花时间,且方向没有跑偏。
最后落到桌面上的,是一个真实可用的工具:
打开直播页面,再打开这个工具,就可以开始录制了,直播完之后给我一个高质量的转写word。
相比之下,豆包的速度更快,工具界面很快就出来了。
但点击屏幕录制,没有反应。
排查之后,豆包给出了解释:应用是通过iframe嵌入在妙搭平台里运行的,浏览器的屏幕录制接口getDisplayMedia在iframe环境下需要特殊权限,平台默认没有开启,所以功能失效。
豆包随即给了解决方案:把应用链接复制出来,在浏览器新标签页里单独打开,绕开iframe限制,屏幕录制就能正常使用了。
我照做了。链接打开之后,跳转到了飞书,要求登录,登录之后要求授权,授权流程走了一半,卡住了,授权不成功。
就这样,豆包给我的工具,看起来像模像样,但实际上完全用不了。
豆包离能干活还有多远?
四个场景测下来,结论不复杂。
C盘越清越少,飞书客户端找不到,代码工具跑不通,豆包在最需要动手的地方,接连掉链子。
和Codex这类工具比,豆包在真实办公场景里的Agent能力,确实差着一个身位。
想要AI真正接管电脑、变成我的手和脚,豆包现在给出的答案还不够硬。
这个差距,收费这件事让它更难说得通。
但如果只看这些翻车现场,就给豆包判死刑,我觉得也不公平。
实测过程中,我注意到豆包做了很多贴心的产品设计,比如:创建个人Skill、截图直接提问、屏幕共享协作、实时双语字幕。
这些功能背后能看出来,豆包的产品经理是真的在琢磨打工人日常办公到底需要什么。
它不是一个纯技术导向的模型,而是一个在努力理解用户场景、试图降低使用门槛的办公助手。
还有一件事更重要。
Codex干活确实更漂亮,但Codex要注册国外账户、绑定支付方式,要有一定的技术背景才能顺畅使用。
光是把前置条件凑齐,就已经把一大半普通人挡在门外了。
对大多数中国打工人来说,豆包是他们能摸得到的agent产品,打开就能试。
豆包正在做的事,是把agent这个概念,从程序员的工作台,搬到普通人的桌面上。
方向是对的,只是底座还不够结实。
但我愿意继续关注它。
只要字节愿意持续投入迭代,豆包这个"笨拙的实习生",总有一天会变成那个能独当一面的同事。
到那时候,68元、200元一个月的订阅费,我愿意续费。
#豆包 #大模型
(世界模型工场关注AI圈内部消息,交流八卦请添加作者微信:lovelisa1005,获取更多一手消息)
本文来自微信公众号“世界模型工场”,作者:世界模型工场,36氪经授权发布。















