10分钟解读VSLAM技术与一级市场投资机会
Software is eating the world!
ChatGPT带来了NLP行业新范式,人机文本交互来到了全新的高度。那么移动机器人的行业新范式将如何跃迁呢?本文将试图以智能机器人传感器的发展迭代为线索,探讨下一代移动机器人的新机会。
服务机器人写入“十四五”规划,国家战略顶格推动行业发展。随着劳动人数供给不足、成本提升以及人工智能和机器人技术的进一步成熟,机器人成本低于人工成本的拐点将近,这其中起到关键作用之一的就是基于VSLAM(VisualSimultaneous Localization And Mapping)算法的机器人视觉融合导航技术。预计从2022年到2031年其市场规模年复合增长率将达到25%以上,2031年全球市场规模将达到171亿美元。在五类潜在进入者中,VSLAM技术创业者具有独特竞争优势,且有望实现垄断的行业终局,但仍需面临技术、资金、市场三大考验。
链兴资本致力于为前沿科技创业者提供一流股权投融资服务,成为创业者的资本合伙人。本文由链兴资本访谈行业一线专家,以及综合网络资料、研报后整理撰写。欢迎朋友们交流讨论。
以下为本文目录,方便您进行快速阅读:
01. 人类发展史就是一部工具提升效率史
02. SLAM——Watching & Thinking,我在哪?我去哪?怎么去?
03. 人类的信息获得百分之九十来自于视觉感官
04. VSLAM——下一代机器人核心,构建机器认知与决策的基础设施
05. 视觉SLAM可全面替代激光SLAM?
06. 保守预计至2031年,全球导航模组供应市场规模可达160至170亿美元
07. VSLAM主要有五类潜在进入者
08. VSLAM创业者需要经历三大考验
人类发展史就是一部工具提升效率史
从石器时代到正在经历的第四次工业革命,人类的工具从石铁棍棒到机械装置,从蒸汽时代到信息时代,其最显著的特点就是从工具的“不动”到“动”,从“被动”到“主动”,并最终走向更加自主、更加智能决策。这其中最关键的环节就是从“被动”到“主动”,这意味着工具(机器)对外界的探索,从感知层面上升到了认知层面。
在机器人的发展过程中,最早期的机器人就是通过执行固定程序完成固定工作,如机械臂夹取、焊接。之后,在此基础上又加入了移动能力,通过遥控车辆完成特定作业,如探索、排爆。后续,加入了各类传感器的机器人可以更好地获得外界信息,如力觉、听觉、视觉等等,但在人工智能算法加入之前,机器人的操作人员仍然需要分析判断这些信息,并且给予机器人进一步的行动指令。当今前沿的科技探索,正是如何让机器人自己“动”起来以完成某些特定任务。
对机器而言,“自己动起来”即包括了观察(Watching),思考(Thinking),移动(Walking),工作(Working)的全过程。在这个过程中,Walking & Working在各自领域已经有了相对成熟的解决方案,而Watching & Thinking正是从“被动”到“主动”的关键过程。
SLAM——Watching & Thinking,我在那?我去哪?怎么去?
SLAM (Simultaneous Localization And Mapping,同步定位与地图构建),主要为了解决移动机器人在未知环境运行时定位导航与地图构建的问题,这个问题一直是机器人和相关领域的热门话题。它主要解决的问题是:机器人在哪里?我周围的环境是什么样子的?我应该如何移动?
机器人可以配置多种传感器来实现SLAM,包括激光雷达(3D,2D),毫米波雷达,超声波,RGB-D,摄像头(单目,多目)等,通常根据使用场景、制造成本、设备功率、算力的需求与约束,机器人采用不同传感器或组合的解决方案,以减少误差并提高准确性。目前两个主流的解决方案是基于激光雷达的Lidar SLAM以及基于摄像头的Visual SLAM。
Lidar SLAM使用2D或3D激光雷达传感器制作地图并在地图中定位。一般来说,2D激光雷达用于室内应用,而3D激光雷达用于户外应用。由于使用了主动传感器和传感器融合算法,激光雷达SLAM是最精确的SLAM技术。但是,即使经过多年发展,几大核心问题始终无法被有效解决,以至于今天我们仍然很难见到他们的普遍应用:
- 首先,高精度激光雷达的相对成本较高,中大型机器人在安全和成本之间只能选择前者,其注定是商业场景(重型清洁机器人)或高端消费场景(智能汽车)的解决方案。
- 其次,激光雷达扫描结果缺乏语义信息,仅能对物体切面轮廓进行建模、进行基本的感知和避障,无法进行识别,更不用说进一步的认知以及交互决策。
- 第三,激光雷达解决方案高度依赖于高精地图信息的建立。受限于激光雷达扫描结果的特性影响,通常在初步扫描建图结束后,工程师团队仍然需要进行地图的人工效验、识别激光雷达风险区域、并设立大量“人工禁区”,否则机器人无法独立开展工作。而且,一旦场景中的物体发生了较多移动,用户又需要对地图进行重新建图。
从以上问题不难看出,一个配备昂贵的激光雷达解决方案的机器人,不仅需要工程师团队的辅助与支持,还无法识别周围的环境与物体信息,因此,这样的设备更多地可以理解为“移动的机器”,而非“机器人”。
人类的信息获得百分之九十来自于视觉感官
借助仿生学的研究、将生物35亿年进化的结果作为发明的参考,我们发现,对人类自身而言,至少有80%以上的外界信息经由视觉获得。对机器人而言,则是依赖各类传感器获取外界信息:从最早期的碰撞反馈(前后的一维感知),到激光雷达扫描(一个平面的二维感知),再到双(多)目摄像头组成的基于仿生的立体视觉系统(对空间的三维感知)。
对人类视觉的仿生,帮助机器获得了对空间的感知,使其具备了“人”的基本能力与前提,这就是VSLAM的意义与价值。
VSLAM——下一代机器人核心,构建机器认知与决策的基础设施
视觉传感器可以比任何其他传感器在颜色和每个像素上获取更多、更可行的位置信息。视觉传感器受到青睐,因为人和动物正在使用视觉作为主要传感器在复杂位置有效导航。VSLAM的原理很简单,目标是根据图像序列中像素的感知运动顺序估计摄像头或机器人的运动。
VSLAM传感器:
- 单目摄像头:由于很难测量与单个图像的真实距离,已逐渐不再被厂家采用。
- 立体(多目)摄像头:如双目摄像头,在两个摄像头之间存在一定距离(基线),模仿人的双眼可以有效测量物体距离,但同时需要大量实时计算。
- RGB-D摄像头:提供了出除RGB图像外,包含每个点深度值的深度图像的密集的点云。由于其对光线影响十分敏感,通常用于室内环境。
VSLAM框架:
- 传感器数据读取:从摄像头读取数据,以便系统处理;
- 前端视觉里程计:进行前端的连续图像帧之间的运动估算(视觉里程),会产生一定的位置的累积漂移;
- 后端优化:根据传感器引起的噪音调整视觉里程测量结果;
- 回环检测:当一个点被识别两次时进行检测,校正整个地图的累积漂移误差;
- 建图:根据测量和校正步骤构建地图。地图可以是度量的(强调对象的度量位置)和拓扑的(强调地图对象之间的关系)。
VSLAM主要技术类型:
- 语义 SLAM:多是对密集的点云(point cloud)通过ICP来进行点对点alignment,这种做法比较准确,把所有的数据都联合起来就可以得到地图与sensor的轨迹。但因为纯是点对点运算,可能会丢失一些画面中属于画面特征的重要信息。
- Direct SLAM:直接使用图像,没有任何特征检测器和描述符。这种无特征方法使用光度一致性来记录两个连续的图像(对于基于特征的方法,注册基于特征点的几何位置)。其中最著名的是DTAM、LSD-SLAM、SVO或DSO等算法。但Direct SLAM方法很耗时,通常需要基于GPU的处理。
- RGB-D SLAM:基于结构化的光基RGB-D相机传感器的SLAM技术。可以实时提供3D信息,主要用于范围低于四到五米的室内导航。
- Event Camera SLAM:可以通过检测视觉“事件”,即图像的变化来提供“无限”帧速率。这种传感器最近被用于V-SLAM。然而,这项技术还不够成熟,无法就其在SLAM应用中的性能得出结论。
VSLAM流行算法:
- RTAB-Map SLAM:代表基于实时外观的映射,支持视觉和激光雷达SLAM,允许用户为具有不同机器人和传感器的广泛应用程序实现和比较各种3D和2D解决方案。它使用带有RGB图像的深度图像来构建地图。
- SLAM的深度学习:基于深度学习的视觉里程法可以直接从数据中估计相机的姿势。对于监督视觉里程测量,它需要外部地面真相作为监督信号。相比之下,无监督视觉里程法使用其输出作为监督信号的成本更低。
- ORB-SLAM:用于计算相机轨迹和稀疏的3D重建。它可以实时检测循环并重新定位相机。该系统在各种环境中在标准CPU上实时工作。基于束调整的后端与单目和立体观测,允许使用公制尺度进行准确的轨迹估计。该系统包括一个轻量级本地化模式,该模式利用未映射区域的可视化里程测量轨道,并匹配允许零漂移定位的地图点。ORB SLAM的主要功能是特征跟踪、映射、环路闭包和本地化。
视觉SLAM可全面替代激光SLAM?
首先,从技术发展和演变历程来看,SLAM技术主要分为三个阶段:经典阶段,算法分析阶段和鲁棒感知阶段(如下图)。激光SLAM自2016年google开源了Cartographer算法后,近几年几乎没有显著进展,主要原因就是受制于激光只能构建单纯的几何环境模型,机器人的交互能力严重受限,缺乏对环境内容的解读能力是限制其智能化的瓶颈之一。因此人们研究的重点转入了以视觉语义为基础的下一阶段。
内容摘自:公众号混沌无形《机器人环境感知研究现状简述》
- 经典阶段(1986-2004):SLAM算法的早期尝试,系统效率及鲁棒性方面有待提升。
- 算法分析阶段(2004-2015):该阶段主要研究SLAM系统的基本性质,包括可观测性、收敛性和一致性,SLAM算法在系统效率、鲁棒性及环境表达等方面已经取得非常大的突破,且已成功应用于部分实际场景。
- 鲁棒感知阶段(2016至今):要求SLAM系统具备更稳健的性能、更高阶的理解能力等多智能特征。要求语义SLAM将“环境语义信息”与“传统SLAM几何地图”有效结合,丰富环境模型表达内容,更利于机器人理解环境。
其次,从实际商业应用角度对比激光SLAM与视觉SLAM解决方案(如下表),视觉SLAM在实际场景应用方面具有更高的商业价值。
注1:即50元成本的视觉方案效果相当于100元成本的激光效果
最后,从人力替代的成本角度分析,以目前行业成熟度最高的商业清洁领域为例,国内一个普通清洁服务人员每月成本约3000元,年成本约4万元。虽然,机器人理论上可以做到7*24小时工作,相较于每天8小时的人工效率至少可以提升5倍,但由于受到机器人电池容量、日常维护、以及可用工作时间、工作环境等综合因素影响,仍然以1:1替代人工进行考虑计算。
在商业清洁机器人中,导航BOM(Bill of Material)成本占比约40%,以50%毛利率计算机器人售价,达到商业场景应用精度的导航模组,视觉SLAM解决方案BOM成本约6000元,整机售价约3万元,激光SLAM解决方案BOM成本约1.2万元,整机售价约6万元。按3年使用寿命计算,视觉SLAM解决方案回本时间约10个月,年均ROI约87%,激光SLAM解决方案回本时间约1年8个月,年均ROI约27%。
因此,视觉SLAM方案将更有机会带来机器人成本低于人工成本的拐点,率先实现产业爆发。
保守预计至2031年,全球导航模组供应市场规模可达160至170亿美元
潜在市场包括,所有遵循Watching & thinking & Walking & Working模式的工业、服务场景。对VSLAM来说,可以赋能自主移动机器人(AMR),让后者能够自动绘制环境地图、具备自动避障、上坡和越坎等功能,这是服务机器人是最主要的应用方向。根据世界机器人联合会(IRF)对服务机器人的分类,服务机器人包括家用机器人以及商用机器人两个大类,如下图:
根据可替代人类劳动的标准进行划定各个领域的成熟度,目前商用清洁机器人、终端配送机器人、讲解引导机器人、家用清洁机器人等细分领域对VSLAM规模化应用的潜力最大。将作为其目标市场做进一步分析。
根据Globe Newswire预测,2021年全球清洁机器人市场规模约92亿美元,至2031年将以年化复合增长率25%快速增长,至2031年全球清洁机器人市场规将达到约857以美元,同样以机器人50%毛利率、导航成本占比40%进行计算,导航模组市场规模约171亿美元。
此外,根据Research and Markets预测,全球服务机器人2028年市场规模将达到1686亿美元,2022至2028年年复合增长率约23.1%。假设以该增长率至2031年,则全球服务机器人市场规模将达到3145亿美元,按清洁机器人占比26%计算,则清洁机器人市场规模将达到818亿美元,导航模组市场规模约164亿美元。
除了商用与家用清洁机器人,巡视、草坪修剪、配送、讲解、引导等众多领域将应用到导航模组,其市场规模会进一步提升。
VSLAM主要有五类潜在进入者
首先从机器人产业链方面,会存在上游SLAM技术公司,以及中游机器人集成品牌厂商两种可能。
- 上游SLAM技术公司将以创业者姿态研发新技术,再不断通过与中游成熟厂商或下游终端客户的磨合提升技术成熟度,进一步扩大市场。
- 中游品牌厂商主要通过自研技术创新实现VSLAM突破,这中间又存在两种类型的厂商,传统设备厂商转型做机器人,以及原生机器人厂商。
其次从AI技术角度出发,同样存在两类潜在进入者:传统AI技术大厂以及车规级自动驾驶技术厂商。
- 传统AI技术大厂:综合AI技术储备较多,但往往深度不足,全球仅Intel和Google在立体视觉领域进行过体系化(全技术栈)的研究尝试,其他大厂对立体视觉方向尚未见到商业应用尝试(未推出相关产品,未参与机器人厂商相关技术招投标)。
- 车规级自动驾驶厂商:依赖预建高精地图以及超强的计算能力,对大量高精度高成本传感器获得的数据进行快速实时处理以实现超复杂情况下车辆的高速安全运行。与AMR要求的匹配相对低成本低功耗设备、达到高精度定位导航的需求,存在较大的技术路线差异。
从技术实力、市场销售能力、商业条件综合对比以上五类潜在进入者,其优劣势小结如下:(1分为极弱,7分为极强)
目前来看,VSLAM的竞争主要存在于技术创业者与原生机器人厂商之间。鉴于VSLAM技术属于产业链上游,而产业链上游发展的终局目标应当是不断提升技术的通用性和易用性进而实现行业垄断。但原生机器人厂商的技术受其自身商业竞争影响又很难销售给其他品牌。因此,若其持续投入研发,最终将因为高昂的研发成本影响毛利率,甚至带来亏损,除非可以快速提升出货量摊薄研发成本。若不再持续投入研发,则其技术终将被上游VSLAM厂商超越,而其竞争对手更容易获得先进的第三方技术,从而在下游市场实现弯道超车。
VSLAM创业者需要经历三大考验
首先就是全技术栈技术积累与研发能力:包括各类VSLAM技术能力和工程能力。VSLAM技术能力主要指基于不同场景、光线、材质、信号源、终端业务要求,是否可以实现持续、稳定、精准、实时的定位与导航(最好能有一些技术名词)。工程能力主要指各类型传感器的适配,特别是对低端低成本传感器信号的解读优化,首先通过技术本身实现持续降本增效,其次才是通过量产规模压低硬件成本。
其次是启动资金与持续融资的能力。以相对创新的技术一般研发周期和规律来看,第1-2年通常属于实验室研发阶段,第2-3年开始获得种子客户的商业机会,与种子客户洽谈、POC、部署实施、持续反馈调优至打造首个行业标杆,通常也需要1-2年的时间。在此之前总计需要4-5年进行早期研发投入。以人工智能领域平均50万左右年人事费用计算,30人左右团队4年人事投入需要约6000万元。且该阶段很难通过市场反馈或数据指标来证明公司价值。因此无论是对创业者估值融资,还是对机构或个人投资,都带来不小的压力。
最后是市场拓展与跨场景复制的能力:拥有标杆客户案例之后,是否可以成功的完成相同领域不同客户的销售,以及不同领域不同场景客户的销售,进一步验证技术的通用性以及公司的销售能力,将会是检验创业公司能否最终存活的关键一环,如果对于不同场景无法全面适配,仍然需要工程师逐一调参调优,将很容易进入项目制的商业模式,作为机器人上游厂商则无法形成最终的垄断地位。
更进一步,在商业模式方面的突破路径是否可以从技术买断、到按机器人台数收费、再到云服务收费呢?