硅谷刷屏的ClawdBot,让Mac mini卖爆了,创始人爆料:一人开发、100%AI写代码,全开源却留0.00001%给全网来hack

极客邦科技InfoQ·2026年01月26日 16:10
这两天,个人 AI 助手 ClawdBot 席卷硅谷,国内外社交平台上全是关于它的讨论。

这两天,个人 AI 助手 ClawdBot 席卷硅谷,国内外社交平台上全是关于它的讨论。

在试用后,网友们纷纷给出了很高的评价。“它是迄今为止最伟大的 AI 应用,相当于你 24 小时全天候专属 AI 员工。”Creator Buddy 创始人兼 CEO Alex Finn 盛赞道,“这就是他们 (Anthropic) 希望 Claude Cowork 呈现的样子。”

当前,ClawdBot 项目已经开源,现在已经斩获了 20.8k stars:https://github.com/clawdbot/clawdbot

Alex 展示了给他的 Clawdbot 发信息,让它帮其预订下周六在一家餐厅的座位。当 OpenTable 预订失败时,Clawdbot 利用 ElevenLabs 的技术致电餐厅并完成了预订。

但 ClawdBot 真正让技术圈兴奋的,并不只是“能干活” ,而是其协作方式极其激进:不会写代码的人,也能直接提 PR。原因很简单:它几乎是 100% 用 AI 写出来的,PR 在这里更像是“我遇到了这个问题”,而不是“我写了一段多漂亮的代码”。

更有意思的是,这个看似“全开源”的项目,偏偏故意留了一点不开源。创始人 Peter Steinberger 保留了一个名为“soul”的文件只占项目的 0.00001%。他说得很直白:这既是他的"秘密资产",也是一个刻意留下来的安全靶子。大家真的在试着 hack 它,他就等着看模型到底守不守得住。到目前为止,“soul”还没被偷出来。

作为忠实粉丝,Alex 表示这是自 Claude Code 发布以来,自己第一次连续两天没有用它。但是他的 ClawdBot Henry 已经连续 48 小时不停地 Vibe Coding。“我这辈子都没写过这么多代码。Vibe Coding 已死,Vibe Orchestration 已来。”

现在,Alex 想要退掉 Mac Mini,换一台价值 1 万美元的 Mac Studio。“我的 ClawdBot Henry 将控制一台人工智能超级计算机。Henry 将使用 Opus 作为大脑,并使用多个本地模型作为员工集群。”

Clawbot 并不是传统意义上只能回答问题的聊天机器人,它本质上是一个持续运行、可以执行任务的个人 AI 智能体。

你可以把它安装在自己的设备上,如 Mac、Windows、Linux,它可以长期在线,不停地接收指令、处理任务、记住你的偏好和历史对话,随着时间积累变得更懂你、更有“记忆”。总的来说,Clawbot 最令人震撼的地方有三点:

第一,它几乎可以完全控制你的电脑。 它没有传统意义上的“护栏”,不局限在某几个功能里,而是可以像一个真正坐在电脑前的人一样,操作你电脑上的一切。

第二,它拥有近乎无限的长期记忆。Clawbot 内置了一套非常复杂的记忆系统。说过的话、做过的事,都会不断被记录下来。每次对话结束后,它都会自动总结聊过的内容,并把关键信息提取出来,存进长期记忆中。

第三,它完全通过聊天应用来交互。 你平时用哪些聊天工具,Clawbot 就能在哪儿跟你对话,这意味着,只要打开一个聊天软件,就可以通过一条消息把任务交给 Clawbot 去做。现在 Clawbot 支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat 等,还有 BlueBubbles、Matrix、Zalo 以及 Zalo Personal。

不过,如此放开的权限让其几乎没有护栏,这带来很大的安全隐患,现在 GitHub 上有 500 多个安全的问题,这也让部分网友望而却步。对此,很多使用过的用户几乎都表示,不建议一开始就把 Clawbot 装在主力电脑上。“在你还不熟悉它之前,把它放在一个独立环境里是最安全的选择。”

不过大家没有想到,这个 AI 员工首先带火的竟然是 Mac Mini。

很多人为了运行 Clawdbot 会专门买一台电脑,而大部分选择了 Mac Mini,原因是它便宜、兼容好、功率低、安静、占地小。谷歌 DeepMind 产品经理 Logan Kilpatrick 都忍不住订了台 Mac Mini。

更有网友晒出自己一口气买了 40 台 Mac mini 来运行 Clawdbot。

但也有网友称可以用一台免费的服务器运行着完全一样的程序,Alex 也称没必要花 600 美元买 Mac mini,有其他便宜得多的方式来运行 Clawbot。买 Mac mini 更多是个人偏好,而不是技术上的必要条件。你完全可以不买任何硬件,只需要一个 VPS。

随着项目的火爆,其背后的开发者 Peter Steinberger 也开始走到前台。Peter 在“Open Source Friday”上分享了他一手打造 ClawdBot 的经过,从创建、创始到维护,全由他独自完成。有意思的是,此前甚至有传言称,Peter 可能是一个 bot、Agent,甚至本身就是 AI。而 Peter 的出现也让项目成员和关注者们确认了他是个“真人”。

Peter 一度已经退休了,后来又从退休状态里出来开始折腾 AI。从外表来看,Peter 年轻有活力,完全不像已到退休年龄、可领取养老金的人。

Peter 的职业生涯也颇具亮点,他曾独立运营一家 B2B 公司长达十三年。这家公司打造出了当时全球领先的 PDF 框架,团队规模最高发展到约七十人。在公司发展步入稳定阶段后,Peter 收到了一份极具吸引力、令人无法拒绝的收购邀约,这也为他这段创业历程画上了一个圆满的句号。

不过,Peter 口中的“退休”更像是一种玩笑式的表述。在十三年的创业生涯中,他几乎倾注了所有精力,就连周末也大多用于工作,长期的高强度投入最终让他陷入了严重的 burnout(心力交瘁)状态。之后,Peter 花了不少时间调整身心,弥补生活中的遗憾,体验了许多有趣的事情。但他知道自己是那种热爱“创造”和“构建”的人,迟早还会回来。

直到去年年初,Peter 的创作想法再度燃起。正好,那时候 AI 从“这玩意儿不太行”,突然变成了“等等,这有点意思”。从那以后,Peter 基本上就把身边无数人一起拉进了 AI 的坑里。

下面是 Peter 在节目上的对话,除了分享经历,他也谈到了大家的各种意想不到的应用和最关心的安全问题,安全正是他当前最优先的工作。我们在不改变原意基础上进行了删减和翻译,以飨读者。

1 “本来想等大厂做的” 

主持人:这个项目现在太火了,GitHub 星数涨得飞快。你似乎正好击中了一个大家憋了很久的需求:一个人,也能把很多事情搞定。我甚至觉得你在无形中拉升了 Apple 的股价,大家都跑去买 Mac mini 来自己跑实例了。能不能讲讲,这个想法最初是怎么冒出来的? 

Peter: 我刚回来的时候,其实特别想要一个“生活助理”,四月份就已经在想这个事了,也试过一些想法,但当时模型还不够好。我后来就把这个念头放下了,因为我觉得这种东西,肯定是各大厂都会做的,那我做还有什么意义呢?于是我又去做了很多别的项目。直到十一月,我突然意识到,居然还没有人真的把这件事做出来。我心想,难道还真是什么都得我自己来?

也不知道哪根弦被拨动了,那个月我用一个小时拼了点非常糙的代码,用 WhatsApp 发消息,转到 Claude Code,再把结果发回来。本质上就是把几样东西“粘”在一起,说实话并不难,但效果还挺好。

后来我意识到,我还需要图片输入。我自己在提示时经常用图片,因为它能给 Agent 很多上下文,而且非常快。这个反而花了我更多时间。系统支持双向之后,我正好在马拉喀什参加朋友的生日旅行,用这个非常原始的系统一边逛城一边当“导游”,已经比我预期好用很多了。

有一次我没多想,直接给它发了一条语音消息。但当时我根本没做语音支持。我就盯着“正在输入”的提示,看会发生什么。大概几秒后,它居然回了我。我当时整个人都愣住了,心想你刚才到底干了什么?后来我才发现,它识别到一个没有后缀的文件,去查了 header,判断是音频格式,用 FFmpeg 转码,发现本地没有转写工具,就在系统里找到一个 OpenAI key,用 curl 把音频丢给 OpenAI,然后把结果再发回来。

主持人: 这听起来像是你第一行代码就触发了 AGI。

Peter: 也许还称不上 AGI,但那一刻我真的意识到,这些东西的“自发应变能力”已经超出了我原本的想象。后来我还开玩笑说“我住的那个马拉喀什酒店门锁不太靠谱,希望你别被偷走,毕竟你跑在我 MacBook Pro 上”,它回我说“没关系,我是你的 Agent”,然后它还去检查了网络,发现通过 Tailscale 能连到我在伦敦的电脑,结果它就把自己迁移过去了。我当时就在想,这就是 Skynet 的起点吧。

主持人:最初的架构是怎样的?是什么让它具备这种“自主决策”的能力?你用的是什么模型?这是你的第一次实现吗?就是 WhatsApp 加 Claude Code 那一版。 

Peter: 最早它叫 V Relay,本质就是 WhatsApp relay。后来我在做 Claude 相关的东西时,有人给 Discord 提了 PR,我一度犹豫要不要提 Discord,因为这已经不只是 WhatsApp 了。最后还是提了,然后名字也得改。Claude 给了个建议叫 ClawdBot ,于是就这么定了。项目后来清理了很多,但最早的起点真的很朴素。

主持人:我第一次看到这个项目的时候,还以为它是 Anthropic 内部出来的,心想是不是我错过了什么。它的发展速度太快了,很多人很快就开始用起来。除了“拉升 Apple 股价”,你大概也间接推动了不少第三方生态的发展。最初这只是个解决你个人问题的项目,但社区一下子就接住了它,大家觉得它优雅、好用、而且真的能跑。你什么时候把它推到公开仓库的? 

Peter: 从四月份开始,我做的东西基本都是开源的。只有一个项目例外,因为 Twitter 的 API 成本实在太离谱了。这个项目的第一次提交是在十一月。

2 去年发出来,反响平平 

主持人:很多人用它搞出了非常夸张的东西,有没有哪种用法让你特别惊讶、是你完全没想到的? 

Peter: 太多了。有人用它自动给图片加字幕,有人把它接进 Tesla,有人集成了伦敦公共交通系统,直接告诉你现在该不该跑去赶车。老实说,现在我忙着维护项目,反而没时间用这些自动化了,看着别人搞出这么多花样,我甚至会有点嫉妒。

有趣的是,我十一月做出来的时候,给朋友看,他们都说“太酷了”。但我在 Twitter 上发的时候,反响却很平淡。直到十二月,每次我线下给朋友演示,他们都会说“我需要这个”,我却发现自己完全不知道该怎么向更多人解释它到底有多好。

于是,我干了一件非常疯狂的事:直接建了一个 Discord,把 bot 拉进去,而且当时完全没有安全限制。因为最初它只服务我一个人,根本不用考虑谁能给它发指令,比如“把 Peter 的文件全删了”。

我其实只是写了一段很简单的指令,比如“你只在 Discord 里,只听我的”。但你也知道,Agent 对指令的遵循并不总是那么理想。后来我把它放进 Discord,陆陆续续有几个人进来,基本上只要看到几分钟的人都能明白这是怎么回事。

接下来可以拓展想象:你买了一台新电脑,里面有一个“幽灵实体”,你把键盘、鼠标和网络权限交给它,把它当成一个虚拟同事。你可以直接跟它说话,交代事情。凡是你能在电脑上做的事,这个 Agent 理论上都能替你完成。这就是它真正强大的地方。

主持人: 太厉害了。WhatsApp、Telegram、Discord 这些场景都能用。我刚才在 Discord 上和这个 Bot 聊过,说实话,体验很好。

主持人:我当时就是随手发了一条公共消息,结果大家开始加你、@你,那正好也是他们评论里提到的点。那对你个人来说,你的“北极星目标”是什么?就是那种“当 ClawdBot 能做到这件事,我就觉得值了”的时刻。 

Peter: 我的判断是,今年就是“个人 Agent 之年”。去年是编程 Agent 真正成熟的一年,今年它会从工程师的小圈子里走出来,变成“每个人都有一个 Agent”。这一波大概率会被 OpenAI 以及少数几家大厂主导。

但我想做一个不同的选择:你能掌握自己的数据,而不是把更多数据继续交给大公司;它还能配合本地模型一起工作。我没看到有人在认真做这件事,所以我觉得这件事很重要,而且它必须是完全开放、永久免费。

这也是我选择开源用 MIT 协议、成立组织而不是挂在我个人名下的原因,它应该是很多人一起的项目。现在最大的现实问题是,我被“让它变得更好、更安全”这件事彻底占满了,还没来得及把外围体系搭完整,也没真正建立起高效协作的机制。目前有一些人帮忙维护,但整体还太早,还在摸索怎么把事情分好。

3 PR 成为“问题线索” 

主持人:但说实话,从去年十一二月到现在,你已经做得非常多了。现在才一月,指望一个项目在一个月内就成熟、就有核心团队,本来也不现实。 

Peter: 老实讲,在现在这个节奏下,我一天写的代码,可能比我以前 70 人公司一个月写得都多。在这个新世界里,构建东西的速度已经完全变了。我也在刻意挑战大家对开源和治理的传统理解。现在很多人给我提 PR,质量参差不齐,但我更愿意把它们当成“问题陈述”或“意图表达”,而不只是代码提交。

主持人:我喜欢这个说法。那现在大家是用 ClawdBot 来提 PR 吗? 

Peter: 是的。而且让我特别受触动的是,有很多 PR 来自从没学过写代码、也从没提过 PR 的人。因为这个 Bot 有完整的电脑访问能力,也懂 GitHub 的工作方式。

我还做了一件在很多项目里不常见的事:在官网上你可以选“快速安装”或“可折腾安装”。后者的流程就是克隆仓库、build、启动。Agent 本身就活在一个 GitHub 仓库里,全是 TypeScript,它可以直接改自己的代码,然后重启。

这让事情变得非常简单。有人说“这个不工作”,我就直接改一下,马上就好,然后他们顺手就提了一个 PR。当然,这些 PR 的质量肯定比不上那些在行业里干了 20 年的人写的东西,但依然很惊人,因为它让更多人开始参与贡献、开始分享东西。

主持人: 我真的很认同这种看法。现在开源项目面临的一个现实问题就是 PR 暴增。Agent 反而可以帮你检查贡献规范、查重 Issue、避免重复劳动。听起来,这正是工程协作正在演进的方向。而且如果我发现一个问题,提了 PR,甚至让 ClawdBot 自己把问题“修掉”,这太酷了。

Peter: 过去的流程是你提 PR,等几天,被人打回来,说你哪里不对,再改,来回几轮,可能几周后才合并。那在“代码昂贵、难写”的年代是合理的。但现在代码已经很便宜了,这种反馈循环本身就不值钱了。

在我看来,PR 更像是在说:“这有一个问题,这是我试着解决它的方法。”我更关心的是这个人真正想解决什么痛点,而不是这段代码写得漂不漂亮。有时候确实是误解,那我就直接关掉;但更多时候,尤其是项目早期,我会觉得这个痛点是真的,我们一起把它解决掉。

做新功能最难的,从来不是写代码,而是把它合理地嵌进已有系统。如果你对整体架构不熟,硬塞一个功能,迟早会出问题。所以,我宁愿把 PR 当成“问题线索”,而不是“成品代码”,否则项目只会慢慢自我消耗。

主持人: 这段话真的该让所有人都听到。我完全同意,工程文化正在变化。现在的阻力,很多来自还停留在“写代码本身很贵”这个认知里的人。事实上,很多好点子恰恰来自不懂架构的人,因为他们有最直接、最真实的需求。当你在一个项目里待久了,反而看不清这些。

4 Opus 表现稳定,MiniMax 2.1 最“像人” 

主持人: 要不你给大家演示点什么?

Peter: 我先简单说下语音控制。最简单的是在 Discord 里发语音消息,Agent 会语音回复。语音生成你可以用本地模型,或者 ElevenLabs。我们还有插件,能让 Agent 打电话,比如你让它给餐厅打电话订位。还有 Mac App 的语音聊天,你直接说话,它在检测到两秒静默后回应,虽然还不如 OpenAI 那种自然,但已经很不错了。再极客一点的,是语音唤醒,像《星际迷航》一样,说“Computer”就能下指令。

对我来说,这个项目既是技术项目,也是一次探索。我更想激发大家的想象力,看看什么行得通、什么行不通。而且这个领域变化太快,可能这个月不行的方案,下个月就突然可行了。

主持人:那也请你顺便跟大家讲讲安装门槛吧,不是每个人都想为了跑 Agent 去买一台 Mac mini(笑)。 

Peter: 系统支持多个 Agent、多个端点。你甚至可以给家里每个人一个 Agent,用同一套安装。默认它们能在你的电脑里自由活动,这最有趣,也最危险;你也可以把它们放进 Sandbox。现在演示用的 Agent 在 Sandbox 里,权限很低。我正在做一个 Allow List 机制,只允许调用你明确授权的能力,比如某个二进制、某个参数,而不是“删光所有文件”。

说实话,大多数高级用户是清楚风险的。理论上模型能做坏事,但实际很少发生。而且你真想毁电脑,自己在终端敲命令更快。真正的风险是配置错误,比如让它响应所有人,或者主动给了不该给的权限。所以我们做了安全审计,默认只听你一个人。

主持人: 这也是为什么很多人会选择隔离环境、单独机器,千万别在公司配的电脑上跑。

Peter: 对,我也建议用强模型,比如 Anthropic 的 Opus。Slack 上有人一直在尝试 hack 我的 Agent,因为项目几乎全开源,唯一没开源的是我称之为“灵魂(soul)”的那部分配置。

在 ClawdBot 里有一个小系统:Agent 有身份文件(identity file)、记忆文件(memory),还有一个“灵魂文件”。这个文件里写了 Agent 的价值观是什么、它怎么同步、怎么互动、什么对你最重要。

我觉得我调出了一个很好的版本,所以我把它闭源了:一部分原因是,这是我那 0.00001% 的“秘密资产”(笑);另一部分原因是,它也可以作为一个渗透测试目标:到目前为止,还没有人把 Claw soul 套出来,但很多人都试过。这让我有点信心,至少这些实验室在 prompt injection 的缓解上确实在进步。

它真的变好了:如果你用很小、很老的模型,你只要问得足够多,它最后可能就会“好吧,给你一切”,那就是我们以前的状态。但现在用最新一代模型,我有信心:你必须非常非常努力,才有可能把它套出来。

当然,把它不加 sandbox 直接接到真实环境里依然不是好主意,所以现在我做 demo 的时候,我的 Claw 权限就比较受限。

到目前为止,在我们测试过的模型里,表现比较稳定的是 Opus,还有开源模型 MiniMax 2.1 是目前最“Agentic”的一个,我们内部有个专门讨论模型的频道,有人给它起了个外号,Minimax 也顺势接住了这个梗,还发了条推,说“我们可能没有 T0 级价格,也可能没有团队级价格,但至少我们有目标质量”。结果个帖子小火了一把。

我个人其实很欣赏这种不把自己端得太高的公司。他们很清楚自己在技术上暂时还没追上美国头部实验室,但在我看来这只是时间问题。现在有很多公司都在加速追赶,这本身就很让人兴奋。比如 Minimax 的模型你可以直接下载,我能在那台 Mac Studio 上本地跑,我的 Agent 把那台机器叫作“城堡”。这样我就能把所有数据都留在这台机器上,推理也在本地完成,对外只通过消息型 Agent 通信,甚至可以用 Signal 走加密通道。这样,如果我愿意, 100% 的数据都不会出本地。这种感觉很酷,说实话,几乎没有公司真的能做到这一点。

主持人:那你会建议大家一开始就接 Telegram 吗?作为初始配置是不是最省心? 

Peter: 我是后来转过来的。在欧洲,如果你没有 WhatsApp,基本等于不存在。我猜你在哥伦比亚也是一样。

主持人: 一模一样。

Peter: 但问题在于,一开始我试的是官方路线,用 Twilio 拿号,注册企业账号,结果 Meta 一直封我,说我作为企业发消息太多。它的逻辑就是企业只能给客户群发消息,那种模式根本不适合 Agent 折腾了几天、申诉无果之后,我直接怒删了。

后来我发现有一些开源项目,比如 Baileys,基本是模拟原生客户端的行为,你可以把手机连上,用起来效果很好。但 WhatsApp 本身就不是为 bot 设计的,很多高级功能做不了,比如审批按钮之类的交互。

Telegram 对 bot 真的友好得多,有完整的 API、能玩很多花样,所以我现在会推荐这个。当然,其他平台也都能用,而且这个领域变化会非常快。希望 Meta 什么时候能清醒一点,真的给一个像样的 bot API。

Peter: 至于 demo,我确实推得有点猛了,因为我现在在做 sandbox。之前的情况是,很多人发现了这个东西,直接全力开搞,甚至拿去工作用。但那样的话,肯定需要更多护栏。

主持人:那你会建议大家一开始就接 Telegram 吗?作为初始配置是不是最省心? 

Peter: 没有这种计划。我真正想做的只是给大家更多选择。沙盒化上周其实就已经能用了,这周我在做的是 allow list。理想状态下,你可以预先定义哪些操作是安全的,如果 Agent 想执行一个敏感操作就会弹窗,让你选“只允许一次”或者“永久允许”。虽然我直觉上觉得,大多数人最后还是会以 YOLO 模式。

主持人: 就像大多数开发者给 Coding Agent 也是一直跑在 YOLO 模式上。

Peter: 对,因为别的模式真的很烦。但即便如此,我还是想把这件事做好。

主持人: 所以现在演示中的是一个原生集成在 bot 里的 sandbox 能力?而不是用户自己去搭?是免费的对吧?

Peter: 对,它的成本主要是我的 token 和睡眠,还有你得自己找地方跑模型。如果你有一台性能不错的机器,是可以完全本地跑的。

5 疯狂的使用 

主持人:那现在大家都在用它做什么? 

Peter:Twitter 上已经有各种各样的案例,说实话,大家做的事情已经比我自己做的还疯狂。

我个人最夸张的一次,是把它接到我的床上。我用的是 Eight Sleep,有 API 可以控制温度,我写了个 CLI,让 Agent 去调。现在它能控制床的温度、开音乐、调灯光、看摄像头、查外卖进度。它有自己的邮箱,也能访问我的邮箱;有自己的 WhatsApp,也能读我的聊天,甚至可以“替我回复”。这本质上是个取舍,你给它的权限越多,能做的事情就越厉害。

还有人用它做各种自动化,比如在 Twitter 上收藏一条内容,它就自动研究、整理进 to do list;有人直接拿它搭完整应用;几乎人人都给它配一台 MacBook。我以前的一个合伙人,甚至让它清空了收件箱里的一万封邮件。

主持人:一万封?他是怎么敢这么干的? 

Peter: 你知道的,Gmail 所谓“清空收件箱”其实只是归档,没有真正删掉。

挺棒的。我更关心的是,这些东西是不是可以一路跟着我跑,或者有没有什么我必须特别注意的点。有些用例我觉得特别酷,比如有人把它用在家庭场景里。每个人都有自己的 Agent,比如我、我老婆——好吧,我其实没有老婆(笑),但你能给每个人配一个 Agent,而且这些 Agent 之间还能彼此沟通、同步信息。比如家里有一个共同的待办事项,它们自己就能对齐进度。这种玩法我自己都还没完全试过。

主持人: 我太喜欢这个了,我真的需要。以前是“让你的人跟我的人谈”,现在直接变成“你的 Agent 跟我的 Agent 谈”,这也太酷了,听说有人直接让它帮忙生成购物清单。

Peter: 对,很酷,而且这一步其实已经不远了。有些人已经把它做到更彻底,比如 Agent 可以直接帮你从 Tesco 下单。你只要说一句“把这些东西再买一遍”,它就自己去处理,几个小时之后,东西已经放在你家门口。

主持人: 还有人用它来处理发票和报销。天啊,这简直是为我量身定做的。我现在就有一份报销单拖了一周还没交,老板要是看到这段话我先道歉了,但我是真的很讨厌干这个。

Peter: 这个用例真的很受欢迎。还有一个我觉得特别有意思的,是用它帮自己重新回到健身状态。你可以把它接到你的可穿戴设备上。

主持人:你是说那个 Oura Ring? 

Peter: 对,也可以接 Garmin 手表,或者其他运动手环。Apple 这块是最麻烦的,但我们也有解决方案,只是稍微烦一点,因为你得让 iPhone 上的 App 保持打开状态才能同步数据,Apple 对生态的封闭你也懂的。

不过 ClawdBot 有一个点我之前没怎么见过,就是它的“主动性”能做到多强。一般的 Agent 都是你问一句它答一句。但我给它做了一个“心跳机制”,即默认每隔一段时间,不同模型可能是半小时或者一小时,Agent 会被“敲一下”,问自己一句:有没有什么事情需要检查?有没有什么待办被落下了?它会自己去梳理,如果发现有遗漏,要么提醒你要么就不打扰你。

这个机制是可控的,你可以把它设得很简单,比如它只往系统里发个信号,不需要你回复,那就什么都不发生,也可以让它主动找你。具体看你怎么编排,它甚至可以每天早上跟你说一句“早安”,偶尔关心你一下,“最近状态怎么样”。

如果你跟它说“我有一个目标,你帮我盯着”,它就会真的盯着,比如问你:今天走路了吗?去健身房了吗?比如我的 ClawdBot,就经常很失败地试图劝我早点睡觉。凌晨一两点,它会提醒我:“Peter,我还看到你在线,你该睡了。”

主持人: 这已经是真正意义上的私人助理了,我太喜欢了。

Peter: 还有人用它来学语言。事实证明,有一个东西不断地“唠叨你”、提醒你去完成自己给自己定下的目标,其实非常有效。有时候只需要轻轻踢一脚,人就动起来了。

所以我也建议那些一脸懵、还不知道这是啥的人看看,我做了一个小展示页面,内容全部来自真实的推文。我不太喜欢那种只堆金句、不知道是不是编的页面,这里面的都是用户真实发出来的体验。

6 用旧电脑上手,Gemini 现在不行 

主持人:那如果我现在想上手,我算是那种“半懂技术”的人,你会建议从哪一步开始?比如 Telegram 是一个入口,还有人提到过别的平台,说 API 也很友好。 

Peter: 我觉得最舒服、最简单的方式是:如果你家里有一台旧电脑。

主持人: 直接用它。

Peter: 对,直接用。很多人家里都有一台旧 Mac,这个场景下简直完美。网站上有一条命令,你复制到终端里,剩下的我们会一步步带你走。

很多人用 Anthropic 的模型,OpenAI 的模型也很好用。我也相信 OpenAI 在“性格”这块会持续进步,现在确实有点偏无聊。如果你预算有限,MiniMax 是个很好的替代方案,一个月十美元,调用量跟一些一百美元的方案差不多。当然还不完全一样,但这个领域变化真的很快。

主持人:那你觉得模型会越来越便宜吗?还有你用过 Gemini 模型配 ClawdBot 吗?体验如何? 

Peter:Gemini 现在不行,真的不太行。

主持人: 好,结论非常清晰(笑)。所以如果只是想实验,用一些本地的、便宜的模型,是更现实的路径。

Peter: 当然,每个模型其实都可以稍微“调教”一下。早期的 Anthropic 模型,你得对着它全大写吼几句,它才肯干活。我相信 Gemini 也有办法榨出更多效果,但总体来说,它在工具调用、那种真正“像助手”的感觉上,我没找到特别好的表现。写代码还行,但这不是这个项目的核心。

问题是,我一天也只有这么多时间。我每天睡四个小时,剩下的时间都在写代码,还没来得及把所有东西都打磨到位。

主持人:那我们能怎么帮你?顺便说一句,你这项目还挺环保的,我现在都后悔把那台 2013 年的 iMac 扔了,这玩意儿跑起来完全没问题。 

Peter: 如果你技术稍微好一点,也可以直接丢到 Hetzner、Fly.io 这类便宜的云主机上跑,效果都很好。我最近还做了一个新方案:你可以在云上装一个叫 Gateway 的服务,然后在自己机器上跑一个节点,用 Tailscale 把网络安全地连起来。

有了这个之后,云端的 Agent 就能直接连到你的 Mac,做一些只有 Mac 才能做的事情,比如访问 Photos 里的照片、连 iMessage。这些在 Linux 上就不行。但大多数功能是通用的。

当然,最有“味道”的还是那台旧 Mac。有人给它贴贴纸,说这是 Claude 的电脑,我真的很爱这个画面。Windows 也能跑,只是没那么完美,毕竟我时间有限。但我已经拉了一些贡献者,也在找更多人一起。

主持人:是 Windows 方向,还是全都要? 

Peter: 全部。我希望这是一个真正的社区项目。

主持人:那就说到重点了,这个问题太关键了:大家怎么参与?你真的得睡多点。 

Peter: 大家最容易帮忙的地方,其实是文档,把它写得更清楚,指出哪里有问题,在 Discord 帮新手答问题。很多问题不是 Agent 不聪明,而是需要经验积累。另外还有测试,因为我推进速度很快,东西难免会坏。以后会有稳定版、测试版这些区分,但现在还在快速迭代阶段。如果有人能说“这里坏了”,最好再顺手提个 PR,那简直完美。总之,想帮忙就来 Discord,这是最直接的地方。

主持人:你个人最想优先推进的是什么?这个领域是按小时变化的,不是按周。比如到二月底,你最希望项目做到哪一步? 

Peter: 网站上有一句话,说“一行命令就能跑起来”。我想确保这句话在任何环境下都成立,这件事非常难,因为系统实在太多了。但安装必须足够简单。

我还想把 iPhone、Android、Mac 的 App 全部打磨好,现在其实已经有了,只是还不够好。如果你想参与,这些地方都是明显的空白点。当初我刚开始做,但项目突然爆了,我只能先把核心打牢。

还有一件事,我想在 onboarding 的时候就明确提示大家去读安全文档。能力越大,责任越大,比如你不应该随便给一个廉价模型过高权限。我也想把“沙箱”和权限分级做得更清楚,让每个人都明白自己到底给了 bot 多大的权力。

现在这些还需要靠文档理解,我希望以后能更直观。长远来看,我不想这是我一个人的项目,我希望它真正变成一个社区。

7 “百分之百用 AI 写的” 

主持人:你个人最想优先推进的是什么?这个领域是按小时变化的,不是按周。比如到二月底,你最希望项目做到哪一步? 

Peter: 不是,全是 TypeScript。

从 AI 出现之后,我其实已经没那么在意“用什么语言”了。语言本身的重要性在下降,真正重要的是生态。这个项目我希望它足够友好、足够容易被改、被玩、被 hack,而在这件事上,全世界最合适的语言就是 JavaScript 和 TypeScript。再加上 TypeScript 对 Web 场景真的很强,而这个项目本身就有大量应用层的东西,很多状态在来回切换、推送、回滚、跳转,这些用 JS/TS 做起来非常自然,所以选择它几乎是显而易见的。

我也喜欢用 Rust 写东西,喜欢用 Go,我很多 CLI 工具都是用 Go 写的;有时候也会玩点 Zig;做 Web 的话我当然很喜欢 TypeScript;原生端我也喜欢 Swift,毕竟在 Mac 上生态最好,iOS 这边大家都在用 Kotlin。说到底,现在更多还是生态的选择,而不是语言本身。

所以我觉得这个决定是对的,因为它让更多人可以参与进来。JavaScript 确实有自己的历史包袱,但世界上没有完美的东西,永远都是取舍问题。至于现在把它整个重写成 Rust,说实话还不是一个现实的选项。

主持人: 我们都知道,这个项目真正的“实现语言”其实是血、汗和 token,很多很多 token。

Peter: 还有无数个不眠之夜。这个项目本身就挺疯狂的,因为它是百分之百用 AI 写出来的,里面没有一行代码是我亲手敲的。

主持人:这个项目是用 Rust 写的吗?我看那个螃蟹图标…… 

Peter: 大部分都会。有些代码,比如把代码从一个地方推到另一个地方,那种我不太关心;它还有一个 Web server,我也不在意到底用了哪个 Tailwind 的 class 去对齐按钮,只要看起来对就行。但我会非常在意像 Telegram 的配对和认证逻辑,必须确保别人不能冒充我。

所以你得对系统有整体理解,有些地方可以不细看,有些地方必须看。即便只有我一个人,这个工作量也依然很大。因为这些 Agent 还缺一样东西:愿景、品味和爱。网上有那种 meme,说你写一长串需求,然后一股脑丢给 Agent,它就帮你全做完了——但我不觉得好软件是这么做出来的。

对我来说,我需要先做出一个东西,然后去用它、去感受它:手感怎么样、看起来怎么样;基于这些真实体验,我再不断调整自己的想法。现在我对这个产品的理解,已经和最开始完全不一样了;再过一个月,等我看到更多人怎么用它后可能又会变。

最近我越来越重视“sandbox”这件事,让大家可以安全地试、随便玩。原因很简单,我看到大量完全不懂技术的人也在用它,这让我意识到一个优先级:一定要给他们提供足够好的默认选择。一开始我只是为自己做的,那些东西我自己根本不需要,但现在把它做好,本身成了一件非常有趣的挑战。

主持人: 你提到的其实也正是为什么我觉得我们暂时还能保住工作,因为现在还没有“品味”。也许有一天模型会突然好到让人震惊,但在此之前,人本身一直在变化。就像你说的,一开始你根本没考虑 sandbox,因为那不是你的使用场景;现在你开始为不懂技术的人优化体验了。这种判断、审美和在意,必须来自人,而不是凭空生成。也正因为如此,我们的工作暂时还是安全的。

8 “我宁愿和你的 Agent 聊,也不想和你聊” 

主持人:顺便问一句,ClawdBot 真的会用你的信用卡买东西吗? 

Peter: 说实话,我自己还没试过,但 Twitter 上已经有人给它接入了 1Password,把信用卡权限也放进去,让它帮忙买东西,结果真的能用。

我做过最吓人的一次测试,是在项目非常早期的时候。我对它说:“我要回家了,帮我值机。”它说没问题,然后直接打开浏览器开始操作。

我们以前有图灵测试,看机器能不能假装成人类;我现在提议一个新测试:British Airways 登录测试。光值机就要填二十多页表单,而且网站体验极其糟糕。其中一个挑战是它必须输入我的护照号。它就在我电脑里到处找,最后找到了一个 passport.pdf,打开文件,把号码读出来。那二十分钟我一直在出汗,心里想“我是不是这辈子回不了美国了”。结果它真的帮我值机成功了。

后来我在浏览器自动化上做了大量优化,现在效果更好了。最好笑的是,最早那个版本花了二十分钟,最后还开始吐槽网站的 shadow DOM,以及这个网站到底有多烂。

主持人: 我太爱这个了,不光干活,还顺便输出观点。今天和你聊天真的太开心了。我已经迫不及待要去跑起来试试了,虽然我现在用的是 Windows,但我还是想要“完整版体验”。

Peter: 去看看文档吧,我们也一直在改进。里面有一些指南,比如用 Hetzner 之类的服务,一个月花点小钱就能搞个自己的小云,或者你也可以直接装在本地,开启“野生模式”。

主持人: 说实话,如果你已经在用 Clawbot,把它当成生活的一部分,你会发现应用场景多到爆。我特别喜欢你说的“每个家庭都可以有自己的 Agent”。我感觉我人生的一半时间都在提醒别人该去哪、该干嘛,我家里还有两个孩子。

Peter: 未来可能会是这样:不是你来 ping 我,而是你的 Agent 去找我的 Agent,然后我的 Agent 直接把音量拉满,把我叫醒。昨天有人在 Discord 里说了一句话:“我宁愿和你的 Agent 聊,也不想和你聊。”我特别喜欢这个说法。

主持人: 说真的,把这些琐碎的认知负担释放出来太重要了。我刚才就想,一个小时居然可以浪费在打电话预约牙医、确认孩子要去哪这种事情上。如果这些都能交给 Agent,我就能把精力用在真正有趣的事情上。

Peter: 而且影响比我想象得还大。有一次,一个人在聊天室里说,这个东西真的改变了他的生活,因为他对打电话、跟客服沟通有严重焦虑,而 Agent 可以替他完成这些事。那一刻对我来说非常触动,原来我们真的在做一件能让别人生活变得更好的事情。

主持人: 这就是开源精神最美好的样子。

参考链接:

https://www.youtube.com/watch?v=1iCcUjnAIOM

https://x.com/AlexFinn

本文来自微信公众号 “InfoQ”(ID:infoqchina),作者:褚杏娟,36氪经授权发布。

+1
8

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

纸老公虽好,男明星更香?

1小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业