谢邀，人在路口画8字，谷歌Gemini突然对着我耳边：往红房子走，铁憨憨

新智元·2026年03月30日 14:54

Gemini接管步行骑行导航，说人话懂物理世界

【导读】GoogleMaps核弹更新：Gemini接管步行骑行导航！问厕所咖啡馆？问EV充电剩几个坑？问街区Vibe？Gemini秒懂人话、懂物理世界。路痴起立，再也不用举手机转圈自闭了！

世界上最恶毒的诅咒，就是导航里那句云淡风轻的： 「请向东步行500米。」

哪怕你把手机举到天上像跳大神一样画8字，那个该死的箭头依然在原地转圈。

在「分不清东西南北」这件事上，人类的尊严被GPS羞辱了整整20年。

但就在今天，这种「降智感」被彻底终结了。

GoogleMaps刚刚扔出一枚核弹：Gemini正式接管步行和骑行导航。

从此，你的手机不再复读经纬度，而是会贴在你耳边低语：「就在前面那个星巴克路口右转，对，就是那个贴着海报的红房子。」

路痴星人，全体起立！

别拿坐标羞辱我，请说「人话」！

传统的导航基于GPS坐标，这是一种机器语言，它不懂500米对于人类来说代表着什么。

Gemini介入后，将这种机器指令转化为语义理解。

为了实现「在加油站后右转」这种极其简单的指令，Gemini在后台交叉引用了全球2.5亿个地点的信息与海量的Street View图像。

它必须准确识别出哪个建筑是「显眼的」、哪个地标是「著名的」，并确保这些信息在现实中具有视觉排他性。

直到今天，Google一直在尝试通过Gemini让地图具备「上下文意识」。

在2025年11月的早期更新中，这种能力还仅限于驾驶场景；而现在，它已经渗透到了步行和骑行中。

你可以随时打断它：「告诉我我现在所在的这个街区有什么好玩的？」或者「这附近有带厕所的咖啡馆吗？」

你不再需要反复确认那个模糊的箭头，而是根据路口那个标志性的「蓝色雕像」。

Google正在将Maps从静态方向引导，转型为实时、对话式的导航体验。

「无手化」代理，你是来走路的，不是来搓屏幕的

大脑理解这一问题解决了，那么要怎么做到「感官协同」呢？

1月29日，Gemini正式「走下」了汽车仪表盘，进入了步行和骑行这种对交互宽容度极低的场景。

如果你在骑单车，或者手里拎着两斤刚买的排骨，Gemini的「代理权限」就是救命草。

不用停下、不用摘手套、不用在大街上对着屏幕一顿输出。直接问：

路边这个长得像外星飞船的楼是什么？顺便搜下附近有带厕所的咖啡馆吗？

这种深度的App联动，让地图变成了一个流动的任务中心。

如果你漫步在陌生街头，Gemini也能成为实时百科。

你也可以随意发问：「我正处在哪个街区？」或者「附近有哪些必看的景点？」

也可以问针对具体生存需求的复杂长查询，例如：「这条路线上有没有带厕所的平价咖啡馆？」

这种涉及物理设施细节（厕所、停车位、价格档位）的多维度筛选，是普通AI搜索难以企及的物理数据深度。

并且，Gemini支持在导航屏幕内进行连续对话。

你可以先问：「前方2英里内有无素食餐馆？」得到结果后再追问：「那里的停车情况如何？」

注意，这不是简单的语音识别。这是把Maps、Gemini、微信和日程表焊死在了一起。

这种针对「物理生存需求」的多维度筛选，才是AI真正的战斗力。

「全知之眼」Google Lens的三维瞬移

如果说地标导航解决了「怎么去」，那么Gemini+Google Lens，则解决了「去哪儿」以及「到了之后干什么」的信息差难题。

地图从一个二维的坐标平面，进化成了一个三维的物理世界解码器。

在Maps的搜索栏中，当你点击那个相机图标并指向眼前的建筑时，Gemini开始实时解码物理实体的语义。

你可以像问它：「这是哪儿？为什么出名？」或者「这里的氛围如何？」

AI会瞬间调取2.5亿个地点的档案，结合海量用户评论，给你一个带温度的答案，而不是冰冷的评分。

Google甚至能挖掘出「隐秘知识」。

通过全新的Gemini Tips模块，你甚至可以在出发前就知道某些餐馆的「隐藏菜单」、最聪明的预订方式，甚至是大型商场里那个最难找的特定入口。

这种微小的细节，是传统搜索通过关键词筛选几乎无法实现的。

电动汽车车主也不用费劲儿找充电桩了，它不仅告诉你哪有充电桩，还能通过历史数据和实时网络，预测你到达时具体还剩几个空位。

这种信息差的降维打击，让传统搜索看起来就像上个世纪的产物。

维度战争，为什么SearchGPT暂时赢不了？

硅谷天天喊着SearchGPT或Perplexity要颠覆Google。

但在「物理世界」，根本打不过。

SearchGPT是个全知的「数字幽灵」，它懂网页、懂逻辑，但它在马路上是「瞎子」。

它没有横跨20年的全球街景，更没有对2.5亿个商户的实时掌控力。

当你想知道「那家餐馆的招牌好不好看」或者「那个路口是否有台阶」时，AI无法靠逻辑推导出来，它必须「亲眼见过」。

Google通过Gemini将这些沉睡的视觉资产激活，让AI具备了物理语义，这是目前任何纯文本训练的大模型都无法逾越的鸿沟。

根据SOCi发布的本地可见性指数报告，在处理具体的本地商户信息（地址、营业时间、即时动态）时，ChatGPT的信息准确率仅为68%，而深Gemini则实现了100%的全覆盖与精准对齐¹。

在导航这种容错率极低的场景下，32%的差错率足以让用户投票给Google。

Google的野心远不止于地图。有人推测，Google正在构建一个全场景的Agent闭环：Chrome负责搞定数字世界的复杂任务（订票、比价），而Maps负责搞定物理世界的复杂任务（引路、探店、代理沟通）。

这场竞争的本质，是「认知」与「存在」的竞争。

OpenAI拥有更敏捷的大脑，但Google拥有最厚重的肉身。

在AI代理时代，只有那个能真正看见并行走在物理世界里的AI，才能被称为真正的代理人。

未来，你可能不再使用地图，而是「对话」城市。

Google正在用Gemini缝合数字世界与物理世界的最后一道裂缝。

从Chrome的自动化代理，到Maps的全场景「盲操」，AI正在接管我们的感官。

下次站在陌生的十字路口，别再像个铁憨憨一样盯着旋转的箭头了。戴上耳机，直接问那个硅基副驾：

「带我去那家本地人才知道的隐藏餐厅，顺便帮我查查，那里现在有没有能看风景的露天座？」

如果你还没感受到这股焦虑感，建议去路口走500米试试。

参考资料：

https://techcrunch.com/2026/01/29/google-maps-now-lets-you-access-gemini-while-walking-and-cycling/

https://techcrunch.com/2025/11/05/google-maps-bakes-in-gemini-to-improve-navigation-and-hands-free-use/

本文来自微信公众号“新智元”，编辑：倾倾，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

谢邀，人在路口画8字，谷歌Gemini突然对着我耳边：往红房子走，铁憨憨

别拿坐标羞辱我，请说「人话」！

「无手化」代理，你是来走路的，不是来搓屏幕的

「全知之眼」Google Lens的三维瞬移

维度战争，为什么SearchGPT暂时赢不了？

最近内容

下一篇