大芯片,何去何从?
半导体行业正处于一个关键时刻。人工智能激发了对计算性能、内存带宽和系统级创新前所未有的需求,推动着该行业走向许多领导者所描述的结构性转型,而非典型的市场周期。然而,机遇与挑战并存,同时也带来了一系列复杂的挑战——电力限制、供应链压力、成本不断攀升以及技术复杂性,这些挑战如今已远远超出了传统的晶体管尺寸缩放的范畴。
在最近举行的SEMI产业战略研讨会(ISS)上,AMD技术与产品工程高级副总裁Mark Fuselier和英特尔晶圆代工执行副总裁兼首席技术与运营官Naga Chandrasekaran分别发表了主题演讲,从互补的角度阐述了行业如何发展以满足人工智能时代的需求。他们的演讲围绕几个核心主题展开:节能计算、系统级协同优化、先进封装和互连创新、供应链韧性以及生态系统范围内的协作的必要性。
结合近期在节能型人工智能架构方面的技术工作来看,可以清楚地看到:半导体创新正在从以器件为中心的规模化转向对晶圆制造工艺技术、封装、架构和系统集成进行整体优化。
人工智能作为半导体增长的
结构性驱动力
两位发言者都强调,人工智能不仅仅是又一波应用浪潮。相反,人工智能从根本上重塑了对半导体技术的要求。
“我们都应该为我们所取得的成就感到非常自豪,”Chandrasekaran在回顾行业在推动人工智能快速发展中所扮演的角色时说道,“但这一切的基础早在几十年前就已经奠定了。”
增长规模前所未有。人工智能工作负载——尤其是大型语言模型和生成式人工智能系统——对计算能力、内存带宽和互连吞吐量提出了指数级增长的需求。训练集群现在由数千到数万个加速器组成,这些加速器以纵向和横向扩展架构连接,这显著增加了系统级功耗和数据传输需求。
这种转变从根本上改变了创新发生的地点。计算扩展不再局限于芯片层面,而是发生在集群层面,网络效率、散热限制和电源供应直接影响着可实现的性能。
Fuselier 强调了挑战的严峻性,指出如今训练前沿模型可能需要持续长时间的超大规模计算。“从商业角度来看,这行不通,”他强调,必须通过提高效率来取代蛮力扩展。
能源效率成为主要设计约束条件
从历史上看,半导体技术的进步主要通过频率提升和晶体管密度提高来衡量。在人工智能时代,每瓦性能已成为主要的衡量指标。
节能型人工智能架构现在需要在提高总计算吞吐量的同时降低每次操作的能耗。根据Fuselier和AMD工程师最近发表的技术成果,提高加速器效率可以直接提高数据中心级别的效率,因为它可以减少达到给定性能目标所需的节点数量,从而降低网络开销和冷却需求。
这种转变反映了架构的根本性变化。人工智能工作负载以并行计算和数据传输为主,而非串行执行。因此,缩短计算和内存之间的距离已成为降低能耗的最有效手段之一。
缩短数据路径可以降低延迟和每比特传输的能耗,使得异构集成和内存邻近成为至关重要的设计策略。先进的封装技术,例如 3D 堆叠,可以更紧密地集成计算和内存,从而显著降低数据传输能耗。
Fuselier将这种演变描述为一种范式转变:以更低的电压提供计算能力,而不是最大化频率。更低的运行电压可以降低动态功耗,尤其是在高利用率的人工智能数据中心环境中,动态功耗在总能耗中占主导地位。
Chiplet、3D集成和架构协同优化
节能型人工智能架构越来越依赖于基于芯片组的方法,而非整体式设计。模块化芯片组允许每个功能模块(计算、内存、I/O)使用最合适的工艺节点进行制造,从而提高性能和能效。
近期的加速器设计体现了这种转变。例如,AMD 的 MI300 架构通过 2.5D 中介层技术集成了多个加速器复合体芯片 (XCD) 和输入/输出芯片 (IOD),同时采用 3D 堆叠技术来提高计算密度并降低能耗。集成大型封装内缓存(例如 Infinity Cache)可以减少 DRAM 访问次数,并通过缩短内存和计算引擎之间的路径来降低平均内存访问能耗。
这种架构方法反映了更广泛的行业趋势。提高人工智能规模的计算密度和效率已不再能够通过晶体管尺寸缩小来实现。相反,设计技术协同优化——将架构选择与封装和工艺技术相结合——已变得至关重要(图 1)。
这意味着:系统架构决策如今对能源效率的影响与工艺节点选择的影响一样大。
节能计算工艺技术
尽管封装和架构日益受到关注,但工艺技术仍然是提高能效的关键因素。
节能计算 (EEC) 优化主要集中在三个方面:动态与静态功耗优化、晶体管和互连结构中的寄生效应降低以及器件固有静电性能的改进 。
降低电源电压 (Vdd) 是降低动态功耗的最有效手段之一,但它会带来漏电功耗和性能波动方面的权衡。
因此,实现最佳效率需要晶体管设计、物理布局和架构之间的协调优化。
新兴的器件结构,例如互补场效应晶体管 (CFET) 架构(垂直堆叠 NMOS 和 PMOS 纳米片),通过减小逻辑面积和导线长度并改善静电性能,为实现这一目标提供了一条途径。研究表明,通过此类方法,芯片级功耗有望降低高达 30%,从而将节能型微缩技术扩展到传统纳米片技术之外。
这些进展强化了 ISS 中反复强调的一个关键主题:工艺创新现在必须服务于系统级效率目标,而不是独立的器件指标。
封装作为一项基础技术
半导体创新领域最深刻的转变或许在于封装技术从一项辅助技术提升为一项主要的性能驱动因素。
先进的封装技术突破了光罩尺寸的限制,实现了集成化,并通过高密度互连提高了能源效率。硅中介层和短距离芯片间连接使芯片组能够以接近片上金属互连的带宽进行通信,与传统的板级连接相比,显著提高了能源效率。
3D互连技术进一步提升了效率。混合键合和硅通孔(TSV)技术实现了垂直连接,与传统的微凸点连接方式相比,互连能效最高可提升三倍。
这些技术对于人工智能工作负载尤为重要,因为数据传输能耗在系统总功耗中占据越来越大的比例。
电源供应和散热管理也成为设计中的核心挑战。功率超过1000瓦的人工智能加速器需要集成电压调节、深沟槽电容器和先进的导热界面材料,以维持效率和可靠性。
散热管理直接影响系统级能耗,因为温度升高会增加漏电功耗,从而对计算性能产生“热税”。
图2展示了这种极端尺寸扩展所需的封装创新。
互连、光学和系统级扩展
随着人工智能集群规模扩大到数千个加速器,系统互连效率变得与芯片级性能同等重要。
在数据速率超过 224 GT/s 时,电互连正接近实际极限,这推动了业界对光互连和共封装光学器件的兴趣。将硅光子学与计算硅集成,为降低长距离数据传输的功耗提供了一条途径,同时提高了带宽和传输距离(图 3)。
Fuselier和Chandrasekaran 都强调,互连技术必须被视为一项战略技术。未来的性能提升将取决于封装、网络和系统架构等方面的协调创新,而不仅仅是更快的计算引擎。
制造复杂性和规模经济
该行业面临的技术挑战与经济挑战不相上下。目前,最先进的晶圆厂需要近200亿至300亿美元的投资,而制程节点的转换则涉及呈指数级增长的复杂性。
Chandrasekaran 将现代半导体制造描述为“以原子级精度运行”。他强调“我们实际上是在一次控制一个原子”,以此凸显维持创新所需的工程规模。
与此同时,供应链的复杂性已从晶圆和设备扩展到材料、劳动力供应和基础设施限制等各个方面。人工智能的蓬勃发展加剧了这些压力,因为需求增长速度超过了产能增长速度。
技术论文和主题演讲中反复出现的一个主题是生态系统协调的必要性。节能型人工智能架构需要硬件制造商、软件开发商和材料供应商之间的合作。
共享标准和开放的生态系统使投资能够更加集中而非分散,从而加快产品上市速度并降低供应链风险。Fuselier强调,围绕通用规范达成一致对于高效扩展产能和创新至关重要。这种协作方式不仅体现在技术层面,还延伸至人才培养和社区投资,确保半导体行业在人工智能重塑全球经济的背景下保持可持续发展。
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:编辑部,36氪经授权发布。















