谢邀,人在路口画8字,谷歌Gemini突然对着我耳边:往红房子走,铁憨憨
【导读】GoogleMaps核弹更新:Gemini接管步行骑行导航!问厕所咖啡馆?问EV充电剩几个坑?问街区Vibe?Gemini秒懂人话、懂物理世界。路痴起立,再也不用举手机转圈自闭了!
世界上最恶毒的诅咒,就是导航里那句云淡风轻的: 「请向东步行500米。」
哪怕你把手机举到天上像跳大神一样画8字,那个该死的箭头依然在原地转圈。
在「分不清东西南北」这件事上,人类的尊严被GPS羞辱了整整20年。
但就在今天,这种「降智感」被彻底终结了。
GoogleMaps刚刚扔出一枚核弹:Gemini正式接管步行和骑行导航。
从此,你的手机不再复读经纬度,而是会贴在你耳边低语:「就在前面那个星巴克路口右转,对,就是那个贴着海报的红房子。」
路痴星人,全体起立!
别拿坐标羞辱我,请说「人话」!
传统的导航基于GPS坐标,这是一种机器语言,它不懂500米对于人类来说代表着什么。
Gemini介入后,将这种机器指令转化为语义理解。
为了实现「在加油站后右转」这种极其简单的指令,Gemini在后台交叉引用了全球2.5亿个地点的信息与海量的Street View图像。
它必须准确识别出哪个建筑是「显眼的」、哪个地标是「著名的」,并确保这些信息在现实中具有视觉排他性。
直到今天,Google一直在尝试通过Gemini让地图具备「上下文意识」。
在2025年11月的早期更新中,这种能力还仅限于驾驶场景;而现在,它已经渗透到了步行和骑行中。
你可以随时打断它:「告诉我我现在所在的这个街区有什么好玩的?」或者「这附近有带厕所的咖啡馆吗?」
你不再需要反复确认那个模糊的箭头,而是根据路口那个标志性的「蓝色雕像」。
Google正在将Maps从静态方向引导,转型为实时、对话式的导航体验。
「无手化」代理,你是来走路的,不是来搓屏幕的
大脑理解这一问题解决了,那么要怎么做到「感官协同」呢?
1月29日,Gemini正式「走下」了汽车仪表盘,进入了步行和骑行这种对交互宽容度极低的场景。
如果你在骑单车,或者手里拎着两斤刚买的排骨,Gemini的「代理权限」就是救命草。
不用停下、不用摘手套、不用在大街上对着屏幕一顿输出。直接问:
路边这个长得像外星飞船的楼是什么?顺便搜下附近有带厕所的咖啡馆吗?
这种深度的App联动,让地图变成了一个流动的任务中心。
如果你漫步在陌生街头,Gemini也能成为实时百科。
你也可以随意发问:「我正处在哪个街区?」或者「附近有哪些必看的景点?」
也可以问针对具体生存需求的复杂长查询,例如:「这条路线上有没有带厕所的平价咖啡馆?」
这种涉及物理设施细节(厕所、停车位、价格档位)的多维度筛选,是普通AI搜索难以企及的物理数据深度。
并且,Gemini支持在导航屏幕内进行连续对话。
你可以先问:「前方2英里内有无素食餐馆?」得到结果后再追问:「那里的停车情况如何?」
注意,这不是简单的语音识别。这是把Maps、Gemini、微信和日程表焊死在了一起。
这种针对「物理生存需求」的多维度筛选,才是AI真正的战斗力。
「全知之眼」Google Lens的三维瞬移
如果说地标导航解决了「怎么去」,那么Gemini+Google Lens,则解决了「去哪儿」以及「到了之后干什么」的信息差难题。
地图从一个二维的坐标平面,进化成了一个三维的物理世界解码器。
在Maps的搜索栏中,当你点击那个相机图标并指向眼前的建筑时,Gemini开始实时解码物理实体的语义。
你可以像问它:「这是哪儿?为什么出名?」或者「这里的氛围如何?」
AI会瞬间调取2.5亿个地点的档案,结合海量用户评论,给你一个带温度的答案,而不是冰冷的评分。
Google甚至能挖掘出「隐秘知识」。
通过全新的Gemini Tips模块,你甚至可以在出发前就知道某些餐馆的「隐藏菜单」、最聪明的预订方式,甚至是大型商场里那个最难找的特定入口。
这种微小的细节,是传统搜索通过关键词筛选几乎无法实现的。
电动汽车车主也不用费劲儿找充电桩了,它不仅告诉你哪有充电桩,还能通过历史数据和实时网络,预测你到达时具体还剩几个空位。
这种信息差的降维打击,让传统搜索看起来就像上个世纪的产物。
维度战争,为什么SearchGPT暂时赢不了?
硅谷天天喊着SearchGPT或Perplexity要颠覆Google。
但在「物理世界」,根本打不过。
SearchGPT是个全知的「数字幽灵」,它懂网页、懂逻辑,但它在马路上是「瞎子」。
它没有横跨20年的全球街景,更没有对2.5亿个商户的实时掌控力。
当你想知道「那家餐馆的招牌好不好看」或者「那个路口是否有台阶」时,AI无法靠逻辑推导出来,它必须「亲眼见过」。
Google通过Gemini将这些沉睡的视觉资产激活,让AI具备了物理语义,这是目前任何纯文本训练的大模型都无法逾越的鸿沟。
根据SOCi发布的本地可见性指数报告,在处理具体的本地商户信息(地址、营业时间、即时动态)时,ChatGPT的信息准确率仅为68%,而深Gemini则实现了100%的全覆盖与精准对齐¹。
在导航这种容错率极低的场景下,32%的差错率足以让用户投票给Google。
Google的野心远不止于地图。有人推测,Google正在构建一个全场景的Agent闭环:Chrome负责搞定数字世界的复杂任务(订票、比价),而Maps负责搞定物理世界的复杂任务(引路、探店、代理沟通)。
这场竞争的本质,是「认知」与「存在」的竞争。
OpenAI拥有更敏捷的大脑,但Google拥有最厚重的肉身。
在AI代理时代,只有那个能真正看见并行走在物理世界里的AI,才能被称为真正的代理人。
未来,你可能不再使用地图,而是「对话」城市。
Google正在用Gemini缝合数字世界与物理世界的最后一道裂缝。
从Chrome的自动化代理,到Maps的全场景「盲操」,AI正在接管我们的感官。
下次站在陌生的十字路口,别再像个铁憨憨一样盯着旋转的箭头了。戴上耳机,直接问那个硅基副驾:
「带我去那家本地人才知道的隐藏餐厅,顺便帮我查查,那里现在有没有能看风景的露天座?」
如果你还没感受到这股焦虑感,建议去路口走500米试试。
参考资料:
https://techcrunch.com/2026/01/29/google-maps-now-lets-you-access-gemini-while-walking-and-cycling/
https://techcrunch.com/2025/11/05/google-maps-bakes-in-gemini-to-improve-navigation-and-hands-free-use/
本文来自微信公众号“新智元”,编辑:倾倾 ,36氪经授权发布。















