AI五小时发现MoE新算法,比人类算法快5倍,成本狂降26%
AI,不仅在使用算法,更在创造算法。
其创造的新算法甚至比人类的还要快5倍。
加州大学伯克利分校的研究团队提出了一种AI驱动的系统研究方法ADRS(AI-Driven Research for Systems),它可以通过“生成—评估—改进”的迭代循环,实现算法的持续优化。
基于现有的开源ADRS框架OpenEvolve,团队在多个领域的案例研究表明,其发现的算法显著优于人类设计算法,实现了高达5倍的运行效率提升或26%的成本降低。
下面具体来看。
使用OpenEvolve发现新算法
如今,大型语言模型的巨大规模能够通过混合专家架构等变得易于管理。
在该模型中,路由器将输入文本的每个token动态分配给少量特定的“专家”网络。这使得请求在推理时仅需使用模型总参数的一小部分,从而极大提升了推理效率。
然而,这种架构也带来了一个关键的性能挑战——如何在各专家间实现负载均衡。
不可避免地,某些专家会变得更受欢迎或“热点化”,从而产生计算瓶颈。承载这些热点专家的GPU会过载,而其他GPU则处于空闲状态,浪费了宝贵的资源。
解决方案是一种专家并行负载均衡器(Expert Parallelism Load Balancer,EPLB),该算法通过动态调整专家在GPU间的分布,以最小化负载不均、最大化系统吞吐量。
基础版EPLB算法分三个阶段运行:
1、将专家组分布到各个节点以平衡负载;2、为热点专家创建副本;3、将这些副本分配到GPU上,进一步优化负载均衡。
给定工作负载、MoE配置及GPU资源后,EPLB算法会确定各专家所需的副本数量,并将这些副本映射到具体GPU上。
可以说,EPLB算法追求两个核心目标:
最小化负载不均衡:尽可能均匀地分配负载;
最小化运行时间:重新分配过程本身必须快速,以避免成为新的性能瓶颈。
该算法可直接影响生产环境中LLM服务的成本与性能表现。
在寻找更优的EPLB算法时,团队考虑了两个基线方法。
首先,他们对DeepSeek开源的EPLB实现方案进行了评估。该方案采用贪心的“箱子装载”策略:先按负载从高到低对专家排序,然后将每个专家放置到具有容量且负载最轻的GPU上。
此方案虽然简单,但由于其用Python编写,并通过for循环进行线性搜索以找到最适合的GPU,运行速度较慢。
平均而言,重新平衡这些专家大约需要540毫秒,实现的负载平衡因子为0.66(计算公式为:每GPU生成token的平均数量与最大数量之比)。
之后,团队还将一个来自前沿实验室的非公开实现纳入考量。该实现方案避免了显式迭代,在达到与开源算法相同负载系数的同时,将重新平衡算法的运行时间缩短至19.6毫秒。
为进一步优化运行时间,研究团队选择用OpenEvolve来搜索EPLB算法。
实验采用基于PyTorch实现的MoE模型分布式GPU推理引擎,工作负载为基于ShareGPT和GSM8K数据集的负载变化。
其优化目标包含双重维度:既要最大化负载均衡因子(即每GPU生成token平均数与最大数之比),又要降低负载变化时专家重平衡算法的运行时间。
因此,他们根据负载均衡因子与运行时间倒数的加权平均值对算法进行评分(评分越高代表算法越优)。
实验使用80% Gemini 2.5 Flash与20% Gemini 2.5 Flash Lite混合配置运行OpenEvolve。进化过程以开源贪心算法作为初始程序,设置300次迭代上限。完整进化流程耗时约五小时,成本低于10美元。
OpenEvolve生成的新算法发现了一种巧妙的启发式方法,用以替代线性for循环。
它没有采用传统的箱子装载方式,而是通过对表示专家索引的张量进行重塑与转置,利用PyTorch的高速张量操作,以“之字形”在高负载与低负载GPU之间交错分配专家。
此外,OpenEvolve还引入了一些细微优化,包括更完善的排序逻辑和更具适应性的张量重塑策略。
最终,该算法在保持与其他基线相当的负载平衡因子的同时,将运行时间缩短至仅3.7毫秒,较内部参考实现的性能提升达5倍。
三位一作皆为华人
Audrey Cheng,本科毕业于普林斯顿大学运筹学和金融工程系,目前在加州大学伯克利分校计算机系攻读博士,师从Ion Stoica和Natacha Crooks。
她的研究方向主要集中于数据库系统的事务处理,尤其是利用调度算法提升系统性能。
此外,她还与Meta的Themis团队密切合作,研究大规模系统中的一致性与隔离性,获得过Meta博士研究奖学金。
Shu Liu,加州大学伯克利分校博士生,本科毕业于美国威斯康星大学麦迪逊分校应用数学专业。
Melissa Pan,加州大学伯克利分校计算机科学专业的博士二年级学生,师从Matei Zaharia教授,并隶属于Sky Computing Lab。她的研究主要关注在大规模机器学习和数据中心系统中,将可持续性作为与效率同等重要的优化目标。
在去伯克利之前,她在多伦多大学获本科学位,在卡内基梅隆大学获得了硕士学位。
学术之余,Melissa Pan曾在IBM 担任约三年的软件工程师,参与Db2数据库核心引擎的开发,主要负责高可用性功能,例如备份、恢复和数据恢复。
One More Thing
无独有偶,Nature官网前几天也报道了一篇关于AI创造新算法的新闻。
Oh及其同事开发了一种能发现新型强化学习算法的元学习算法。
该架构的元学习层与基础层均采用神经网络。在元学习层,研究人员设计了一个充当强化学习算法的神经网络,并将其命名为元网络。
通过元网络,该算法在多项陌生任务中的表现超越了人类设计的强化学习算法。
看来,AI不仅能帮我们工作、帮我们学习,连创新也自己上手了。
下一个突破,可能还是它自己发明出来的。
论文链接:https://arxiv.org/abs/2510.06189Github
链接:https://github.com/UCB-ADRS/ADRS
参考链接:
[1]https://adrs-ucb.notion.site/moe-load-balancing
[2]https://www.nature.com/articles/d41586-025-03398-6
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。















