刘浩教授:Agent世界的信号灯——Agent Insights
在中国,超大城市的管理问题变得越来越突出,智慧城市概念早在 2015 年就被写入政府工作报告,后续国家接连发布智慧交通计划、城市时空大数据平台、国家立体交通网等政策。2023 年中国智能交通大会再次强调了 AI 与交通行业的深度融合。
港科大(广州)USAIL团队近期也发布了最新城市基础模型综述与方案。城市基础模型(UFM)是在广泛的多源、多粒度和多模态的城市数据上预训练的大规模模型。UFMs可以深入理解和适应各类城市数据及任务,通过整合不同类型的城市数据,能够为复杂的城市环境提供全面的洞察,揭示复杂动态的时空模式,提高在各种城市环境中的决策能力,从而有效促进城市通用智能的实现,引领城市系统朝着更加一体化、智能化、响应式的方向发展。团队负责人刘浩现任香港科技大学(广州)AI 学域助理教授、博导。曾担任百度研究院资深研究员,主要进行人工智能与数据科学的基础研究,及其在智能交通、城市计算、推荐系统等领域的交叉应用,并因此入选福布斯中国区 30U30 精英榜。
《LLMLight:Large Language Models as Traffic Signal Control Agents》
论文链接:https://arxiv.org/abs/2402.01749
解决问题:传统交通指示灯无法进行智能化车流预测,新型交通灯指示将有效提高交通效率
模型架构:交通控制可视为一定条件下的可观测马尔科夫博弈模型(Markov Game,LLMLight)通过环境感知 +GPT-4 决策能力进行车流分析预测
使用效果:司机路口平均等待时间可减少50%,缓解司机等待焦虑,优化交通
应用空间:智能交通信号灯、多岔路口交通控制、智慧城市规划
为了更深 入了解 LLMLight Agent,我们有幸邀请到刘浩教授,从他的视角进行解读。
绿洲:在智能交通领域,过去强化学习对于交通规划以及信号灯控制有什么痛点?LLM 为智能交通领域的自动化 Agent 带来什么可能?
刘教授: 我本身关注智慧城市,目前落脚点主要在智慧交通,LLMLight 是关于信号灯控制的 Agent。过去信号灯控制可以分为三个阶段:第一阶段是传统交通专业设计中提出的启发式算法;第二阶段基于机器学习;目前我们处于第三阶段,开始用 LLM 完成交通控制。
强化学习的方式至少有近百篇论文,已经有几十种算法。这些算法虽然能够做相应的控制,甚至信息输入过程中融入了实时数据,但仍面临需要历史数据做训练,过程容易崩溃,难以收敛等痛点。
强化学习强调的是探索(exploration)和利用(exploitation),利用局域历史数据搭建起来的模拟器做探索和利用,但无法在真实交通环境下试用,因此真实和模拟世界之间存在落差。 这种情况下,交管部门不会使用,服务商也不会买单。 深度学习本身缺乏可解释性,但可解释性对于甲方买单尤为重要。
未来基于 LLM 的智慧交通 Agent 不需要对不同城市、路口、信号灯进行专门训练,本身又具有自然语言的可解释性,生成的决策可以直接交给交管部门专家审查。 LLM 在拥有较强通用知识的情况下,融合 Agent 框架还能够收集新的动作探索,实时更新策略,其能力大大超越强化学习。
绿洲:目前智慧交通的真实数据如何获取?
刘教授: 智慧交通解决方案目前以集中式数据采集为主,每个路口通过摄像头进行识别。有些路口有比较复杂的红绿灯功能,可以采集例如路口有多少车在排队的数据信息。摄像头识别交通数据的精度已经很高,未来车路协同路侧的设施建设可以进一步提升对路口的态势感知。
绿洲:GPT-4V、Gemini 等多模态大模型能否对智能交通 Agent 起到促进效果?
刘教授: LLMLight 下一步很重要的优化方向是融入多模态信息。GPT-4V 最直接的应用是在自动驾驶上,本质和交通控制相同。自动驾驶中的 context understanding 问题在交通控制中同样会有,只不过交通控制中路口是不动的。
对比语言模型,需要输入者写 prompt 提供信息,大语言模型决定使用哪些信息,哪些不用做 reasoning。 但多模态大模型能够将整个环境的视频直接做信息抽取,不用专家去做。 模型自己可以探索有用的视觉特征,例如排队车辆数量、障碍物等。
过去做自动驾驶的理解和控制是两个单独的课题,视觉抽取的信息也是为策略模型做准备。 许多强化学习的方式已经加入 GPT-4V 功能进行升级,整体做推理和控制 , 完全基于视觉的端到端逐渐被人接受。
目前视觉语言模型以 GPT-4V 为主,其常识推理效果更好,视觉定位(Vision Grounding)也是缓解”幻觉”问题的良好方案。 因此用多模态大模型做交通控制,可以在抽取更多相关信息的同时解决“幻觉”问题。
绿洲:LLMLight 在交通信号灯的应用,能为其他哪些 Agent 应用领域带来类似的启发?
刘教授: 智慧交通本质上有三个核心,第一是理解,第二是预测,第三是决策。LLMLight 本质是在做交通中的决策,不管是智慧交通、自动驾驶、智能驾驶都基于不同力度的决策。
其他应用空间譬如停车场、充电桩、道路规划等领域,将提示模板里的信息喂给 Agent 获得相应输出,对于不同的策略都可以复用。
绿洲:5 年后,您眼中的 AI Agent 世界是什么样子的?
刘教授:Agent 概念在 2023 年年中火起来,目前构建 Agent 的主要思路还是构建系统,类似于计算机体系结构做任务分解,每个 Agent 分别承担任务,最终完成特定任务并评定完成指标。我认为短期之内 Agent 的应用效果不会特别突出,5 年之后 Agent 会逐渐落地。长期如果能够通过大模型实现 AGI,Agent 是必要框架。Agent 除了对复杂任务的分解,还有对图像等多模态数据处理理解、外部知识库协调、任务定制优化、工具学习的能力。Agent 提供了一个非常开放的框架,LLM 本身又具有零样本学习(Zero-shot)及泛化能力,两个技术天然适合结合,共同实现长期目标。
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。















