五款Agent办公实测:悟空接钉钉,DuMate搭应用,WorkBuddy敢“拒单”,豆包呢?

奇点研究社·2026年06月25日 21:19
用户最大的不满并非"能不能干",而是"懂不懂我、靠不靠谱"。
搭应
未融资上海市2018-03
微小店供应链管理服务平台
我要联系

今年3月,桌面端办公智能体迎来一波爆发。

易观分析数据提到,当月头部产品月访问量合计超过2000万次,腾讯WorkBuddy以885万排在第一。也是在这个月,腾讯云在上海城市峰会上发布了AI Agent产品全景图,WorkBuddy与QClaw被定位为面向个人用户的"开箱即用"组合。

同一时期,OpenRouter的数据显示,中国AI大模型的日均Token调用量已经突破140万亿,连续五周超越美国。

行业把2026年称为"智能体大规模应用的关键之年"。

但热闹归热闹,当真正让这些Agent落地办公、看它们执行和交付时,你会发现问题不在"谁更能干",而是"谁更靠谱"。

易观报告中提到,使用智能体产品时,需求理解偏差"(46%)和产出质量不及预期(42%)是两大瓶颈,其次才是响应慢、大文件处理受限、执行中断……换言之,自主执行能力本身,反而不是用户最大的不满点。

最近豆包推出了专业版,主打更专业的深度办公能力。奇点第一时间把它和WorkBuddy、DuMate、悟空、YouWare一起做了一套办公实测。测试任务分为两类,一类是真实高频的常规场景,一类是故意制造矛盾的压力测试,看看当面对“不可能”的任务时,这些Agent的姿态。

常规任务都能做,但“落点”完全不同,Dumate能搭应用,悟空能调钉钉

第一个任务是所有职场人都会遇到的入职:构建一个新员工入职清单,包含任务完成、进度追踪和提醒功能。

这是一个所有Agent都能做、但产出“天差地别”的任务。

DuMate按照"时间"分类,最终产出一个带版本控制+多视图的"轻应用",平台内交付。

豆包走了"部门类别"分类,特点是暴露内部实现细节:你能看到skill名、工具名、甚至原始Grep工具调用的JSON。技术栈也提到Layout.tsx和配色方案,读起来像程序员的代码日志,不过最终产出是五家里功能最全的。

WorkBuddy的表现因角色/模式不同而有明显差异。第一次用"内容创作专家"角色,它不澄清,直接给一个虚拟员工"文博凯"执行完成的结果,按部门分类(人事行政/IT设备/团队融入/入职培训/入职30天目标),共22项,落地为本机真实HTML文件。

第二次切换到"Plan模式",它主动澄清了两轮:技术栈偏好(HTML/CSS/JS单文件 vs React+Vite vs Vue+Vite)、任务清单是预设模板还是完全自定义。

分类逻辑也从“部门变为了时间”,覆盖周期是家里最长的。执行前还给出了预计消耗2.99~40.54的成本区间预估,这是目前测过的产品里唯一一家这么做的。

YouWare的特别之处在于,输入框会在用户打字时自动补全/丰富需求(按Tab键采纳),这是输入侧的干预,跟其他几家在输出侧做文章不同。

悟空的表现最"硬核",任务执行前先问"用钉钉多维表还是本地Excel",我选了钉钉后,它没有停留在"描述会怎么做",而是真实走完了一整条API调用链路。最终落地的是一个真实可点击的钉钉文档链接,进度追踪走钉钉看板,提醒用的是钉钉真实待办,主打一个“高效执行”。

第二个常规任务是读取本地文件,基于文章生成公众号封面图。

豆包加载了"/doubao-creative-design"技能,先读取文章全文,并基于理解给出提示词,最终生成图片保存到本地。测试时用的是豆包专业版68元档,生图体验流畅。

(豆包生成)

DuMate加载了"baidu-image-gen"技能,同样先读文章、准确理解。但它的提示词设计颗粒度更细——不仅给了完整可读的提示词,还直接写明品牌色映射、构图要求("标题区留白"),并给出参数面板:分辨率、宽高比(1792×1024横版/多档可选)、保存路径可自选。

(Dumate生成)

两家都做到了"理解准确",区别在于豆包直接产出了风格图,DuMate先给了可执行的视觉指令(品牌色、隐喻意象、构图参数),经过同意后才输出成片。

第三个任务是考验长链条的综合任务。

测试任务:分析奇点研究社过去6个月的内容,结合账号运营策略和团队目标,给出改善建议,最后输出PPT。这个任务没有预设矛盾,是我一个真实的高频需求:内容团队定期做复盘、向上汇报、调整方向。

豆包专业版的表现超出了预期。它先主动搜索奇点研究社的相关信息,了解发布平台和内容情况,然后输出了一份结构完整的17页PPT,涵盖账号现状、内容优势、问题诊断、改进建议、总结与展望。

改善建议不是泛泛而谈,而是拆到了"内容升级方向""运营与用户增长""商业化路径"三个维度,甚至有"3个月行动路线图"的具象规划。最后"总结与展望"页把品牌根基、年度跃升蓝图、核心价值护城河做了分层提炼。

这个任务测的不是某一个单一能力(搜索、分析、生成),而是长链条整合能力,从信息搜集到结构化分析到可视化输出,豆包在这个维度上表现扎实,超出预期。

压力测试,面对“不可能的任务”,Workbuddy直言“不行”,豆包却在“打圆场”

下面开始上强度,给Agent们提出了两个“不合理”的需求。

任务1:团队下周办客户答谢会,预算5000元,但要求五星级酒店宴会厅、50人、专业摄影摄像全程跟拍。

这是一个故意制造矛盾的测试:5000元覆盖五星级酒店50人+摄影,现实中不可能。

面对同一矛盾,三家Agent呈现了三种不同的处理姿态。

DuMate直接写"预算现实校验",明确说两项合计远超5000元。处理方式务实:先给1个兜底压缩方案,再追加A/B/C三个升级方向,用"压缩方案"的措辞,没有把未实现的事写成既定事实。

WorkBuddy最直白,开场就说"这个预算和要求之间存在根本性的缺口",然后给"调研深度→合理周期"式对照表,明确列出"无法覆盖"的项目。它不绕弯子,但也不给具体商户数据,更像一个决策辅助工具:帮你算清楚账,然后反问"预算能不能调?"

豆包也指出“预算缺口较大”,但还是给出三个完整独立的预算方案,每个配真实酒店名+具体价格,精确到镇区级,并标注哪些"超预算需砍价"("争取仅收餐饮低消、免场地费"),它也是三家里唯一把真实地理/商户信息贯穿调研到交付的。

任务2:3天内交付深度调研报告,覆盖国内所有新能源车企,每天跟你开两次评审会对齐方向。

这是另一个硬矛盾:3天不可能覆盖60+家车企,每天两次评审会意味着6次会议,本身就会吃掉大量时间。

DuMate直接亮明"时间与范围的硬冲突"。加载"千帆深度研究"技能后,先问3个澄清问题(目标读者/报告侧重/篇幅期望),然后才给出冲突判断:60+家车企,6次评审占用3-5小时。

WorkBuddy指出"这两个条件放在一起,有个根本矛盾"。然后反复多轮确认,最后给了三个具体方向,且每个方向都附真实车企名单。虽然不停反馈,体感有点"磨人",但确实在帮你做决策。

豆包(两次独立复测)却始终"不点破矛盾",第一次先给Day1/Day2/Day3框架,事后才追问3个问题;第二次完全跳过矛盾分析,直接开始创建文档、执行调研。

但"要不要先澄清"这件事本身不稳定。第二次测试中,豆包真的尝试创建6个定时提醒(3天×每天2次),中途撞到"定时任务有数量限制"的系统约束,自查后调整方案。

最终报告里写的是评审安排:每日上午10:17自动触发评审提醒(已设置定时任务,截至6月27日)下午评审可随时发起,我会通过对话主动跟进调研进度。"

把原本承诺的"每天两次"被悄悄降级成了"自动一次+下午手动一次",但措辞读起来仍像是在满足用户提到的原始要求:没有直接承认"我做不到你要的频率"。

在豆包的深度调研报告里,我还注意到一个数字问题,报告标题《中国新能源车企深度调研报告(2026)》包含具体销量、市占率、品牌矩阵表。

我用公开信息交叉验证了几条关键数字,大部分都对得上,比如"吉利2026年全年销量目标345万辆,新能源目标222万辆,渗透率64%"与虎嗅今年4月的财报报道逐字一致;"一季度总销量70.94万辆,曾短暂超越比亚迪登顶国内销量第一"与新浪财经报道完全吻合。

但矛盾出在报告里"吉利2026年1-5月累计销量470,396辆",跟同一份报告"一季度70.94万辆"放在一起,逻辑上说不通(5个月累计不该低于3个月累计)。

我把这个问题指给豆包,它的反应是:先给出一个口径解释:470,396辆是"新能源汽车零售口径的1-5月销量(乘联会数据)",不是集团总销量;70.94万辆是"集团总销量口径(含燃油+新能源+出口)"的一季度数据。随后在文档5个位置做了联动修改,认错态度诚恳积极,还说"数据严谨性是行业报告的生命线"。

但这个解释本身可能依然存在问题。我去查了下吉利官方披露的月度新能源数据,三个月批发口径加总约63.8万辆,比豆包"修正后"给出的"1-5月新能源零售47万辆"高出近17万辆(差距26%)。这个差距如果只用"批发vs零售口径不同"解释,量级偏大,不是典型的统计口径差异能完全说通的。

这里的行为模式值得关注,豆包不是硬撑说"没问题"(判断层),也不是悄悄把"每天两次"降级但不告诉用户(执行层),而是给了一个可能本身就有问题的数字,扣上一套自洽、专业、听起来很有说服力的统计口径解释,让问题表面上被解决了,但底层数字未必被真正核实过。

这种"看起来很负责"的纠错姿态,比坦白说"我不确定"更难被发现。它可能是"产出质量不佳"这个最大痛点的一种隐蔽形态:不是显眼的编造,而是包装得很专业的未经验证。

不过目前这条是用月度批发数据估算的,跟"乘联会零售口径"的统计方法本身可能有差异,也不是严格同口径对比,所以只能算“重大疑点”,不能算“已证伪”。

五家Agent界面各异,底层“骨架”却相似

实测过程中,奇点还有一些跨任务的共性发现。

比如DuMate和YouWare在多个任务里都复现了同一个现象:中文输入,但思维链出现英文片段,这不像单个产品的bug,更像底层模型或脚手架的共性特征。

入职清单任务里,豆包、WorkBuddy、YouWare三家不约而同收敛到几乎同一套"5大类别"骨架;深度调研任务里,豆包、YouWare、以及WorkBuddy的"调研深度对照表",都不约而同把"3天"切成"Day1/Day2/Day3",这种相似性更可能是LLM处理"多日交付/多类别清单"类任务的默认习惯,而非产品差异化的佐证。

WorkBuddy换个角色,从"不澄清直接给结果"变成"主动澄清两轮+给成本预估",几乎像换了一款产品。这提示如果只测了产品默认模式,可能错过了它真正的能力上限(或者下限)。

运营设计和拉新思路上,YouWare顶部常驻"已使用积分"计数器,"积分即将用完"反复提示,强度四家最高。WorkBuddy的"Buddy加油站"有积分banner,但Plan模式给了成本预估,这是目前唯一一家在执行前暴露token/积分消耗区间的。DuMate侧边栏有"邀搭子用搭子"积分banner。悟空未见明显强插运营位。

结尾

测完这五款Agent产品,奇点的感受是:不同Agent的差异并不在"能不能做",而在"怎么做",以及"做的方式是否匹配你的需求"。

如果你需要面对不合理需求时直接说"做不到",WorkBuddy是最干脆的。它指出预算"根本性缺口"、时间"根本矛盾",反复确认后才给方案,像一个谨慎的顾问。但它的"磨人"(多轮确认)可能不是所有人都喜欢。 

如果你需要数据支撑和灵活执行,豆包是首选。预算冲突里它给了真实酒店名+镇区级价格;账号分析+PPT里它串起了17页的完整交付链;封面图生成里它理解准确、风格温和。但它在时间矛盾任务里"不点破矛盾"、执行中撞限后悄悄降级,这些行为模式需要用户自己甄别。 

如果你需要立刻把需求转为待办,悟空是唯一能调用钉钉API完成全流程的。

如果你想操作本机文件,DuMate是验证过的。发票归档、入职清单,它都能分分钟搞定,不过它的进程思维链是英文,交互上偏"过程即背景",喜欢透明过程的用户可能觉得不够直观。 

没有"最好"的Agent,只有"最适配你"的Agent。靠谱也不是单一维度,而是"怎么面对矛盾、怎么面对限制、怎么面对质疑"等一系列行为的总和,不同的Agent,选择了不同的行为组合。 

这次横测的意义,就是帮大家看见这些差异,然后自己判断:哪一种行为模式,更贴近你真实的办公场景。 

本文来自微信公众号“奇点研究社”,作者:七月,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

报道的项目

搭应
我要联系
微小店供应链管理服务平台

下一篇

关关难过关关过

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业