他们做了个加强版「龙虾」,手掌大小,连续完成两轮数千万元融资
如果你对最近火热的「龙虾」(OpenClaw)感兴趣,那你可能会知道它依旧存在安装门槛高、难用、安全存在巨大隐患的问题。
而 Violoop 是一个各方面加强版的存在。
简单讲,Violoop 是一款巴掌大小的硬件,有一块触屏屏幕,用来显示它当前正在处理的任务。
这是一款即插即用的产品,不挤占电脑的 CPU/GPU资源,无需安装任何软件,一台普通电脑通过一根 HDMI 线连上 Violoop,就能秒变「AI 电脑」,成为升级版「龙虾」。
左下角为 Violoop,可以放置在桌面|图片来源:Violoop
它内置了常用的 Skills,没有任何门槛,你可以指挥它 7x24 小时工作。当然,它的特色不止如此,下文会详细介绍。
Violoop 并非一个追逐风口的项目。我们最早和他们交流的时候是在 2025 年的 11 月初,那时 OpenClaw 还没有诞生。而 Violoop 的起步也在更早的时候。
2 个月之后,OpenClaw 爆火,Violoop 也「意外」站上了风口,火速完成了种子轮和天使轮的数千万元的融资。
据悉,本轮融资将主要用于产品量产落地、全球市场推广以及 Action Model 数据集的持续构建。Violoop 产品即将于 4 月登陆 Kickstarter 开启全球众筹。
毫无疑问,它成为了当下最为抢手的 AI 硬件项目之一。
Violoop 有两位创始人。CEO Jaylen He 是一位连续创业者,毕业于 UC San Diego 的 CS 专业,他的上一个项目,为留学生提供长租公寓管理的服务,曾入选过 YC 创业营。
CTO King Zhu 是一位天才学霸,曾在 MIT 的 EECS 专业用 3.5 年完成本硕,同届最快毕业,后来在微软的 Xbox、HoloLens、Surface 等多个业务线担任核心工程师。
Violoop 的出现,代表着 AI OS 的软硬件形态远未定格,竞争才刚刚开始。
只要一跟线,无需下载软件,让普通电脑秒变升级版「龙虾」
Violoop 要通过 HDMI 物理接入电脑的目的在于,可以无损、全量获取「视频流+操作系统 API+HID 操作」完整数据链。
在设备联动上,支持 Telegram、飞书接入,团队也开发了专属 APP,专属 APP 的优势的是,能实现 IM 工具无法实现的功能——实时查看接入电脑的画面,观察 AI 的操作过程。
通过手机发号指令,Violoop 的屏幕上可以显示电脑上在运行的任务|图片来源:Violoop
「比如让 AI 编写前端代码,HTML 文件在手机上无法预览,用户就能通过实时视频流,直接查看效果是否符合需求。」
Violoop 的一个亮点是,它更有主动性,真的「眼里有活」。
Jaylen He 介绍,「在确保安全性、具备控制主机能力以及感知用户屏幕状态的基础上,主动为用户提供服务。」
比如,当 AI 看到用户在电脑上整理发票,即便用户不知道 AI 能做什么,AI 也会主动推送询问:「检测到您在整理发票,是否需要接手帮您做自动化?」或者看到用户在 Bilibili 或 YouTube 上学习 AI 相关视频,它会询问:「您对这个方向感兴趣吗?我们可以为您提供相关报告或收集其他视频链接。」
Violoop 能看到用户的操作,主要是基于他们自研的视觉模型,来识别屏幕内容,并像人一样操作电脑上的软件。
这一设计主要是考虑到有很多软件不提供 API、命令行接口,「我们一直遵循「能走命令行就走命令行」的原则。只有当软件没有命令行接口时,我们才通过视觉接管。」
作为对比,即便是一些 OpenClaw 没有办法操作的很古早的软件系统,Violoop 也能够操作,大大扩展了行动范围。
Violoop 的硬件参数|图片来源:Violoop
在安全方面,Violoop 在设备里设计了一套双芯片架构。
主控芯片负责运行 AI 和系统。而另一颗独立的安全芯片,则专门负责权限审查。
比如:AI 想读取文件,安全芯片可以自动放行。但如果 AI 想删除文件、发送信息、或者访问敏感数据,就必须经过用户确认。
用户可以通过手机 App 或设备上的触屏进行审批。
这种设计,本质上是在 AI 和系统之间增加了一层「护栏」。
前段时间,Meta 安全部门的一位负责人在 Mac mini 上运行 OpenClaw 时,AI 误删了 2000 多封邮件。
这类问题在 Agent 时代可能会越来越常见。
而 Violoop 希望通过硬件层的设计,把风险控制在更可控的范围内。
无需 prompt,看一遍就学会
另一个很有意思的设计是 Violoop 的技能学习系统。
它不需要用户输入任何 prompt,能够看一遍用户的操作、工作流,就学会,然后自行升级。
方法很简单:用户只需要在设备的触控屏上向左滑动,即可进入录屏状态。AI 会记录整个操作过程,并提炼出一条完整的行为证据链:
- 用户输入了什么
- 操作系统做了什么响应
- GUI 界面发生了什么变化
这些数据会被打包发送到云端进行分析。
随后系统会把任务拆解成一系列步骤,并通过强化学习寻找更优的执行路径。
值得注意的是,AI 并不会完全复刻用户的操作。因为在很多情况下,人类的操作并不是最高效的。系统会尝试找到成本最低、成功率最高的执行方式。
比如,「当 AI 知道了起点是『寻找文件』,终点是『发给微信好友』,它会学习如何以最低成本、最快速度、最高成功率完成任务。」
Jaylen He 说,「我们会设计奖励函数,鼓励 AI 尽量少地移动鼠标、少地通过截图判断,从而优化执行效率。」
最终生成一个可复用的技能。
Skills 可能是「中间态」,个性化的端侧模型是未来
在 Violoop 团队看来,当下火热的 Skills 更多是结构化的文本,他们一方面建立便于用户分享 Skills 的社区,一方面也在探索一个更长远的方向。
当用户录制了足够多的数据,AI 对用户产生足够了解、累积了足够的个人记忆后,团队计划将这些专属于个人的数据,通过后训练的方式训练进一个专属的端侧模型中。
「现在的 AI 记忆主要通过外部数据库(如 RAG)提取,而未来端侧模型可以直接内化这些记忆和技能。这样模型在理解用户信息、记忆调取速度以及执行技能的泛化能力上,都会有质的提升。」
在共处的每一秒,它都在默默捕获用户的意图与决策偏好,积累成属于个人的「专属记忆」|图片来源:Violoop
也就是说,当用户积累了足够多的数据之后,AI 不再只是调用工作流,而是直接把这些能力「内化」进模型里。
在这种情况下,每个人的 AI 都会逐渐变得不同。
它会记住你的习惯、理解你的工作方式,并逐渐演化成一个专属于你的模型。
Jaylen He 说,他们想象的未来一定是「端侧模型 + 云端模型」的组合,且端侧模型会变得越来越高度定制化。
「就像现在的手机应用更新,美团更新了,所有人一并更新。但未来的软件一定是高度定制化的,每个人的更新频次和内容可能不同。当个人数据累积到一定量时,它会自动进行一轮独立的模型更新。」
无论对于用户个人还是 Violoop 本身,这都会比单纯的构建工作流、Skills 分享社区,更能够构建长期护城河。
OpenClaw 是 AI 时代的 Linux,Violoop 想成为 Mac
在比较 OpenClaw 和 Violoop 时,Jaylen He 给出了一个类比:「OpenClaw 就是这个时代的 Linux,是开源的底层操作系统。」
Linux 之后没有出现纯软件的 OS 能与之竞争,却长出了 Windows 和 macOS 这样基于硬件分发的商业巨头。
因此,Violoop 想做的是 AI 时代的 Mac,做软硬一体的产品。
「我们认为,下一代 OS 一定是『云端模型+端侧模型』的组合。」
Jaylen He 表示,「云端大模型的算力成本极高,我们团队每天在自己软件上的使用成本可能超过 1500 美金。通过端侧能力,我们可以将多模态处理放在本地,既能节省成本,又能利用端侧即时响应和感知的优势。」
在这种形态中,云端大模型像 CPU,内存像 DRAM,而端侧模型则像 GPU,分摊特定部分的运算。
多模态处理主要在本地完成,因为音视频传到云端有传输时间,且云端处理多模态的成本更高。
端侧模型理解内容后将信息(如 JSON 格式)传给云端,云端再进行后续的推理和任务规划。
除了电脑,Violoop 还可以轻易接入智能家居的 IoT 体系,比如控制灯光、音乐、空调等。
「现在智能家居有比较统一的协议,比如 HomeKit。我们把协议装在硬件上,通过局域网扫描设备,就能直接进行更新和控制。」
另外,他们在手机上运行了一个安卓虚拟机,来实现类似操控手机的功能。
这不是直接控制用户的实体手机,而是生成一个模拟环境,Agent 与其进行底层交互。有点类似于「豆包手机」,但没有实体。
他们团队介绍,如果用户想用美团或携程,需要重新下载并登录。因为这些应用支持多设备登录,登录后它就像一个助手,可以帮您订票或外卖。
到这里,一个 AI 时代 OS 的雏形已经变得清晰:电脑、手机、智能家居等任何设备都变成了这个 OS 的物理外设。
换句话说,电脑只是它的一个入口。未来,这类产品甚至有机会成为整个家庭的 AI 控制中心。
「Violoop 在自我迭代」
Violoop 的起点源于自身的真实痛点——一个「偷懒」的需求。
23 年到 24 年期间,Violoop 团队主要在为世界 500 强等企业做端侧模型的部署和微调。
Jaylen He 回忆,24 年年中,客户的知识库调取和商业决策类需求趋于稳定,但需求非常零散且随时可能进来。「我们当时不想一直守在电脑前,尝试过 TeamViewer 或向日葵,但交互体验很差。」
于是,开始投入研究,最终在 2025 年中旬摸索到了现在的方向。
「近期最让我们惊艳的,是我们的 AI 几乎已经实现了自我编写。」
Violoop 团队发现,他们只需框定研发范围,为每个 Agent 分发其负责的组件,AI 就能实现自我迭代。
目前,他们维持着「三天一次重构」的惊人节奏。
「编写代码的 AI 先完成多轮自我编写,并梳理出上百个测试用例,再由负责测试的 Agent 逐一完成并提交 issue。另一类 Agent 负责监控并修复 issue。最后人工进行实际验证。」Jaylen He 说。
每次重构后,代码库的行数大概能精简 20%~30%,能用更少的代码、更精准的编排实现同等的功能。
这种「自我进化」的背后是真金白银的投入——目前,团队大概有 20 个月付 200 美元的套餐用于代码编写,而测试环节只能通过 API 调用,日均 API 费用大概在 1500 美元。
「我们团队的核心价值观就是:能在算力上投入的资金,绝对不会吝啬。」Jaylen He 认为,「算力是这个时代赋予个人和团队最大的杠杆。」
对于 Violoop 的未来,团队表示,「我们对它的愿景和目标是,当产品发展到成熟阶段时,但凡是人类在电脑上能完成的工作,希望它都能自己完成。」
Violoop 的出现,证明了个人 Agent 的形态、AI OS 的形态远未定格。
这种「不向现有生态妥协」的极客精神值得钦佩。它所代表的方向——软硬一体、主动式 AI、端云协同、高度定制化——或许也正是 AI 时代操作系统的正确打开方式。
不过,一旦进入到「AI OS」的领域,各路互联网、AI、手机、PC 等科技巨头的后续入场,这个战场将有多卷,自然不必多说。
当大模型的能力越来越强时,这个最初的小工具,能否逐渐演变成一个新的基础设施,一个 AI 时代的计算平台,值得期待。极客公园将持续追踪这一赛道的演变。
本文来自微信公众号“极客公园”(ID:geekpark),作者:苏子华,编辑:郑玄,36氪经授权发布。















