一文看遍热门芯片,Hot chips 2025首日盘点

半导体行业观察·2025年08月26日 11:29
Hotchips2025:Intel 288核、AMD RDNA4、IBM Power11、RISC-V发布

一年一度Hotchips盛会正式拉开帷幕。来自全球各地的领先厂商在会上分享了他们在芯片方面的观点和设计,在这篇整合文章中,我们将分享来自英特尔、IBM以及初创RISC-V新贵的领先CPU设计,以及来自英伟达等GPU巨头的设计。

以下为文章全文:

一款高性能 RISC-V 设计

Condor Computing 是晶心科技的子公司,专注于开发高性能 RISC-V 核心。Cuzco 是他们的首个设计,由一支仅有 50 名工程师的相对较小的团队完成。

目前有多家公司正在开发高性能 RISC-V 内核。Condor 致力于成为行业翘楚,在相似的功耗范围内提供最高的性能。RISC-V 生态系统仍在不断成熟,因此我们目前正处于一个发展阶段,未来仍有大量参与者可以参与,但最终会经历一场淘汰赛,最终只剩下少数参与者。

从非常高的层面来看,Cuzco 的设计与其他高性能处理器非常相似。这意味着它拥有宽阔的前端、相当深的 256 条目重排序缓冲区、8 条执行流水线等等。Condor 并不打算重新发明轮子;他们的目标是打造一个比 RISC-V 生态系统中其他厂商更优化的轮子。

Cuzco 是一个完整的 IP 设计。也就是说,它不仅仅是一个 CPU 核心,还具备缓存和一致性管理功能;它基本上可以接入内存和 I/O 总线。但毋庸置疑,CPU 核心才是本次设计的亮点——而这也是 Condor 最关注的重点。

Cuzco 符合 RISC-V 的 RVA23 规范,这是首个面向高性能 RISC-V 计算的主要规范。尤其值得注意的是,该规范包含了对矢量指令的支持,这对于高性能计算至关重要——更不用说以节能的方式处理大量数据了。

Condor 为 Cuzco 采用了基于时间的微架构。这种架构很快就会变得非常先进,无法在一篇实时博客中完整解释,但他们本质上是使用硬件编译来进行指令排序。简而言之,他们试图通过设计一种需要更少晶体管、从而更节能的方法来改进乱序执行。从某些方面来看,这听起来像是传统的在软件中(通过编译器)预先进行静态指令调度方法的一种变体,但其中一部分工作转移到了硬件上,但并没有完全摒弃这种想法。

最终,Condor 相信他们的硬件调度系统能够以比传统 OoO 调度更低的功耗和复杂度实现更佳的效果。由于功耗是整体性能的关键瓶颈,因此此处的优化将带来更高的性能。

Cuzco 采用基于切片的 CPU 设计,总共最多 8 个 CPU 核心。

与母公司的其他 OoO 设计相比,Cuzco 团队认为,他们的设计在 SPECint2006 中每时钟的性能几乎是 Andres 当前 AX65 核心的两倍。

IP本身将以最多8个核心交付,具有私有的L2和共享的L3。通过宽CHI总线进行连接。

古怪的日本CPU

今天的 Hot Chip 2025 CPU 专题中排名第二的是 Pezy Computing,这是一家古怪的日本 CPU 开发公司,专门从事多指令多数据 (MIMD) CPU 设计。

MIMD 是 CPU 设计中的一个古老概念,但在现实世界中我们并不常见。大多数设计都是单指令多数据 (SIMD) 的变体。但 MIMD 有潜力在性能上超越 SIMD,因为它能够更优雅地处理高度独立/发散线程的场景,在这些场景中,只有少数(如果有的话)线程同时使用同一条指令。

PEZY SC4s 采用台积电 5nm 工艺制造。单颗芯片尺寸较大,约为 556 平方毫米。

除了设计工作之外,PEZY 还对其设计进行了仿真,以了解其功耗和性能表现。与 SC3 设计相比,他们预计在执行 DGEMM 工作负载时,其功率效率将提高 2 倍以上。

在性能模拟中,他们看到 Smith-Waterman 算法(一种基因组序列比对算法)的性能提高了近 4 倍。

第五代 PEZY 的设计工作也已启动。该公司正在设计采用 3 纳米(或更小)工艺的 PEZY 5,预计将于 2027 年发布。

IBM Power11 处理器架构亮相

今天的 CPU 专题讨论中,IBM 位列第三。蓝色巨人在会上介绍了其最新一代 Power 架构芯片 Power11。

IBM 首先回顾了 Power。它存在的原因,以及 IBM 对这款处理器和架构的目标。IBM 非常注重系统,而不仅仅是销售 CPU。从单处理器和双处理器系统,一直到 16 处理器的“无缝”系统。

回顾 Power 的发布历史,事实证明 Power10 对 IBM 来说非常成功,“超出了我们最大胆的想象”。因此,Power11 与 Power10 相比并没有实质性的变化;它建立在 Power10 的基础上,而不是替换了它的大部分功能。这也意味着,这次的 Power 11 不像过去的 Power 演示,甚至不像其他 Hot Chips 演示那样,没有那么多新内容。

需要注意的是:Power11 系统已经发布。因此,本次 Hot Chips 演示更多的是为了让大家快速了解最新情况,而不是用新信息来震撼大家。

IBM 的理念是更少、更大的核心,然后根据需要增加核心数量。

Power10 带来的一大变化是什么?需要将 AI 集成到处理器核心中。

在某些方面,IBM 凭借其 Power10 中的矩阵乘法引擎已经走在了前列。但当然,这还不够。

Power10 基于三星 7LPE 工艺打造。Power11 则基于 7nm 工艺(基于客户反馈),因此重点在于速度而非密度。因此,它基于三星 7nm 技术的较新版本打造。

Power11 也采用了堆叠设计。IBM 正在使用硅中介层,同样基于三星晶圆厂的产品。

除了进行少量核心架构变更外,Power11 还专注于整个系统堆栈。这意味着要开展方方面面的工作,从量子安全(以抵御未来攻击)到改进系统更新的部署方式。

更重要的一点是 Power11 内存子系统的升级,IBM 将其称为 OMI 内存架构。这种分层内存架构意味着一块芯片最多可支持 32 个 DDR5 内存端口,最高可达 38.4Gbps 的传输速度,最终将带来定制化的内存规格 OMI D-DIMM。

顺便说一句,IBM 对 HBM 并不十分看好。并不是说它速度不快(它确实很快),而是它的容量相对较低。IBM 想要全部都实现:他们想要 8TB 的 DRAM 和每秒 1TB 以上的内存带宽。OMI 可以实现这个目标,而且所有这些都建立在经典的 DDR5 内存之上。据 IBM 称,这些 OMI 缓冲区会增加 6 到 8 纳秒的延迟。

Power11 还将带来对外部 PCIe 加速器的改进支持。IBM 在这方面拥有自己的 Spyre 加速器。

当然,IBM 并不止步于 Power11。下一代 Power——Power Future——正在开发中。IBM 必须考虑到行业变化来设计下一代芯片,这既要考虑用例,也要考虑构建未来芯片的可用技术。简而言之,与其他公司一样,IBM 不能依赖更小的制程节点来实现性能和密度的大幅提升。

除了眼前的制造问题外,带宽也是关注的重点。芯片的使用带来了新的挑战,即芯片边缘(beachfront)空间的可用空间。当仅仅将芯片连接在一起就需要如此大的带宽时,情况就变得更加复杂。OMI被视为解决这一问题的一种解决方案。

搭载288 个核心的英特尔至强

英特尔发布了其下一代 288 核处理器。这款处理器采用英特尔 18A 工艺和 3D 封装技术,较上一代 Sierra Forest 有了重大飞跃,拥有更大的缓存、更快的 E 核和更大的内存带宽。

Clearwater Forest是英特尔的第二款 Forest芯片,它继承了 Sierra 的特色,采用英特尔专注于多核的设计。Forest 芯片不再依赖英特尔传统的大核心(P 核),而是完全由较小的高效核心组成。这使得它们专注于需要以节能的方式运行多个不同线程的工作负载,但并不一定要求每个线程都拥有最高的性能。

Clearwater Forest 已经在英特尔实验室里待了几个月了,很快就会投入生产。这是英特尔首批采用 18A 工艺的芯片之一,因此对英特尔来说意义重大。

Clearwater Forest 将使用与英特尔当前的 Xeon 6 代芯片(Granite Rapids 和 Sierra Forest)相同的平台。

能效是 Clearwater 的核心竞争力。英特尔在这次演讲中反复强调这一点。18A 不仅带来了能效的大幅提升,也带来了核心架构的改进。

另一个重要部分是切换到使用 3D 芯片堆叠,通过 Foveros Direct 3D 实现。

18A 工艺带来了多项创新。英特尔尤其注重背面金属/背面供电,将电源(以及供电轨)从晶体管后方而非上方输送。(这对英特尔来说也是一个重要点,因为他们在这项技术上远远领先于台积电)

BSPDN 还实现了一定的单元密度改进,据英特尔报告,他们的单元利用率已达到 90% 以上。

至于架构本身,英特尔表示,其对 Clearwater 能效提升的影响不容小觑。主要有四个因素:

与 Sierra Forest 相比,Clearwater 通过三个 3 宽解码器,将解码宽度从 6 宽提升至 9 宽。分支预测器也得到了改进,不仅能跟上更宽的前端,还能提高整体准确性。

在后端,乱序执行引擎从能够调度 5 个操作到时钟周期提升到了 8 个操作。总计每个时钟周期可以退出 16 个操作,是 Sierra 的两倍。

执行端口的数量也大大增加,尽管 Clearwater 是一个小型效率核心,但它的执行端口数量已达到 26 个!

整数和向量执行吞吐量翻倍。存储地址生成也翻倍。只有加载地址生成没有翻倍——它们“仅仅”是 Sierra 的 1.5 倍。

至于内存接口,L2 未命中缓冲区的大小增加了一倍,使其能够存储 128 个未命中数据。这与 Clearwater 的整体内存带宽直接相关,英特尔必须根据 Clearwater 提供的额外带宽按比例扩展它。

虽然它有点像脚注,但这里核心启用了几个 RAS 功能。

再往上一层,单个 Clearwater Forest 模块拥有 4 个核心,共享 4MB 统一二级缓存,与 Sierra 类似。不过二级缓存带宽翻倍,达到 400GB/秒。

至于性能,英特尔声称 SPECint 2017 的 IPC 提升了 17%。

与采用 2.5D 设计的 Sierra 不同,Clearwater Forest 采用 3D 设计,CPU 芯片位于更大的基础芯片之上,其余非核心硬件也位于其上。

稍微计算一下规格,1152MB 的 LLC 意味着每个插槽有 576MB 的末级缓存。也就是说,在 288 核心的 Sierra Forrest 上,每个 144 核心的 Tile 上只有 108MB,总共只有 216MB。我们的平台也有 576 个核心,也就是每个插槽有 288 个核心。

基础芯片基于英特尔 3.0 工艺打造。IO 芯片则沿用了 Sierra Forest 的工艺,采用英特尔 7.0 工艺打造。

英特尔仍在使用 EMIB 进行芯片间互连。

12 个 CPU 小芯片、3 个基础芯片、2 个 I/O 芯片。

在双插槽系统中,每个芯片有12个DDR5-8000内存通道(标准配置,而非MRDIMM)。总计1300GB/秒的内存带宽(显然是100%读取;实际容量)。

再简单回顾一下机架方面的情况。由于数据中心的功耗受限,因此能够整合以降低功耗(从而降低总体拥有成本)可能至关重要。总而言之,与 Sierra 相比,英特尔声称 Clearwater 机架能够提供 3.5 倍的每瓦性能提升。

Microsoft Azure 硬件安全

在 2025 年 Hot Chips 大会上,微软介绍了其 Azure 硬件安全。由于 Azure 是一项庞大的云服务,其目标是确保其安全。微软不仅需要防范外部流量威胁,还需要保障多租户工作负载的安全,一些客户甚至希望确保自己免受 Azure 本身的威胁。

请注意,我们正在现场报道此事,因此请原谅拼写错误。

微软有很多出色的数据。他们拥有 70 多个 Azure 区域、400 多个数据中心、27.5 万英里光纤、190 多个网络 POP 点以及 3.4 万名专职安全工程师。

因此,他们的系统是作为公司安全未来计划 (SFI) 的一部分为安全而设计的。

微软也在深入研究其系统架构。值得注意的是,这看起来像是一种较新的英特尔散热解决方案,每个 CPU 有 12 个 DIMM 插槽。这 12 个 DIMM 插槽要么是 6 通道 2DPC,要么违背行业惯例,使用不同颜色的锁定卡扣来表示交替的通道,而不是指示通道中的第一个或第二个 DIMM。

该架构的一部分还包括硬件安全模块。这些模块可以作为 PCIe 卡或服务器和机架安装解决方案提供。

在典型的硬件安全设计中,有一个中央 HSM 集群。

微软正在将其硬件安全从集中式模式转变为集成到每台服务器中。

这是 Azure 集成 HSM,是微软的安全芯片。通过使用本地 ASIC,无需与中心化服务器进行 TLS 握手。

拥有自主研发的芯片意味着需要在芯片设计上做出权衡。以前,当芯片采用集中式设计时,微软会在集群级别扩展 HSM。现在,它需要将其规模调整到适合单台服务器的规模,同时还要保持低功耗和小尺寸。

微软不仅需要 AES 和 PKE 加密加速,还需要检测入侵和篡改等行为的能力。

微软也进军机密计算领域。

其目的是保护正在使用的数据,特别是在多租户云环境中。

微软目前正在谈论其 Caliptra 2.0 开源硅信任根。

这太酷了。微软正在详细分析不同功能的门数。这或许是我们今年见过的最热门的芯片幻灯片了。

以下是验证释放门。

由于这是微软定制的 ASIC,那么问题可能是为什么要开源它?微软的理由如下:

总体来说,这非常整洁。

这不仅让我们清晰地了解了微软正在做什么,还探讨了“为什么?”以及微软在云安全方面的理念。微软在这方面比其他一些云提供商更加开放,因此这次调查非常有意义。即便没有其他,了解到网络犯罪市场规模超过 10 万亿美元,甚至比人工智能市场还要大,而且微软拥有 3.4 万名专门的安全人员,也是一件非常有意义的事情。

AMD RDNA 4 GPU 架构亮相

美国加州时间今天下午,AMD 在 Hot Chips 2025 的图形专题上拉开了序幕。该公司于今年早些时候推出了 RDNA 4 架构和相关的 Radeon RX 9000 系列显卡,迄今为止已发布了两款 GPU。

由于 AMD 目前已深入开发这一代 Radeon GPU,因此该公司在今年的 Hot Chips 大会上未必会有什么重大消息。但他们仍在展会上向与会者更新了 RDNA 4 架构的最新情况,并透露了一些首次发布时未涉及的细节。

快速回顾一下 AMD RDNA 4 的设计目标。这是一个专注于图形(游戏)的架构,对光线追踪和机器学习 (AI) 硬件进行了重大更新。AMD 对架构采取了前瞻性的视角,旨在应对未来的图形工作负载。

其他显著的改进:压缩、媒体和显示引擎。

回顾 AMD 的逻辑设计,单个 GPU 由(最多)多个着色器引擎组成。本代 L2 缓存有所扩大,以便更好地为实时工作负载做好准备。这也标志着 AMD Infinity Cache 的第三代。所有这些功能都有助于确保核心的正常运行。

RDNA 4 的一大改进是媒体和显示引擎。AMD 在 Navi 48 GPU 中配备了两个这样的媒体引擎。媒体模块进行了一些重要的编码器更新,例如为 AV1 编码添加了 B 帧,并降低了整体延迟。

同时,显示块添加了一些功能,例如将 Radeon 图像锐化 2 集成到块本身,而不是将其作为着色器效果进行处理。

至于数字运算,一切始于计算引擎。值得注意的是,标量单元增加了浮点支持。更不用说显著的机器学习 (ML) 改进(稍后会详细介绍)。

在 RT 方面,RDNA 4 的光线交叉性能提升了一倍。此外,还新增了一个专用的硬件传输器,将该任务从着色器程序中转移出来。

BVH 结构也进行了加宽,从 4 列加宽至 8 列。这与双倍的交叉引擎相辅相成。另一方面,节点压缩也减少了 BVH 的尺寸。

RT 硬件的一项新特性是定向边界框:一种处理与世界轴不对齐的几何体的解决方案,会导致误报交叉。

简而言之:旋转边界框以更好地匹配世界几何。

上面的热图显示了重新定位的边界框如何显著减少误报。

由于 RT 极其不同,乱序内存访问也是光线追踪的主要性能组成部分。

某些请求(只要它们彼此独立)可以优先于其他请求,从而打破严格的顺序。与其他形式的延迟隐藏一样,这有助于通过将准备执行的工作排队并执行,而无需等待其他延迟的工作来提高效率。

RT 性能概述:BVH 吞吐量翻倍,带来了 RDNA 4 的大部分 RT 性能提升。此外,OoO 内存、硬件实例转换和定向边界框等特性也进一步提升了性能,使 RT 性能相比 RDNA 3 提升了约 2 倍。

RDNA 4 还通过动态寄存器分配对着色器引擎进行了一些更新。

RT 往往会占用大量寄存器,但并非在所有执行阶段都会占用。例如,遍历操作使用的寄存器相对较少。

RDNA 3 会根据最坏情况分配寄存器。而 RDNA 4 可以动态分配寄存器,只允许使用所需的寄存器,一旦不再需要,就会释放。

实际上,这使得 AMD 能够通过将另一波挤入释放的寄存器来增加与 RDNA 3 相比的飞行波数。

对于 ML/AI 工作负载,RDNA 4 增加了 FP8 功能以及结构化稀疏性。

路径追踪虽然能产生更好的结果,但需要大量的射线。实际发送所有需要的射线成本太高。这时,AI 便应运而生,它利用神经辐射缓存以及神经超采样和去噪技术来填补因使用过少射线而造成的空白。

AMD 的重点从图形处理转向 GPU 的 SoC 架构。具体来说,AMD 展示了数据在着色器引擎、各种缓存和内存控制器之间的流动方式。Infinity Fabric 的带宽高达 1KB/时钟频率。

RDNA 4 在结构上是模块化的。AMD 设计的 Navi 48 可以将其切成两半,从而制造出更小的 GPU,从而减少了开发 GPU 变体所需的工作量。

这也是 RAS 功能发挥作用以提高可靠性的地方。

如前所述,RDNA 4 具有新的内存压缩/解压缩功能。这些功能对软件完全透明,全部由硬件处理。AMD 已将结构带宽占用率降低了约 25%。

即使在单个 GPU 中,所有这些都是灵活的,允许融合各种块来制作新的视频卡 SKU 并回收不完美的芯片。

总而言之,RDNA 4 凭借其光线追踪和 AI/ML 功能,专为下一代游戏而打造。

NVIDIA GeForce RTX 5090

与 AMD 一样,NVIDIA 当前一代图形产品正处于中期,首款产品早在 2024 年底就已推出。因此,他们在 Hot Chips 上的演讲更像是一次回顾,重点关注 Blackwell 架构为图形技术——尤其是基于机器学习的神经渲染领域——带来的影响。

NVIDIA 设计的 Blackwell 架构能够从数据中心扩展到移动端。从某些方面来说,AI 就是 AI——无论是为 ChatGPT 生成令牌,还是为光线追踪执行神经降噪。因此,NVIDIA 能够根据需要扩展或缩减其规模,以适应专业级和消费级 GPU。借助 Blackwell,NVIDIA 正大力押注 FP4 ML 计算,以最大限度地提升性能。

本次演讲的重点是:神经渲染。利用机器学习来生成帧。NVIDIA 想要突破“恐怖谷”——这项任务在传统的光栅化过程中需要大量的额外计算。但机器学习技术或许可以更快地实现这一目标。

NVIDIA 在这方面的视角颇具一格。即使在 Turing 推出七年后,他们仍在努力向用户推销机器学习的各种功能。所以,这不仅仅关乎图形处理,还关乎利用这种扩展来节省笔记本电脑的电量,以及在游戏中使用机器学习代理。

反过来,Blackwell 也进行了多项改进,以提升 ML 性能。同时,它不断提升效率,力求确保每个 SM 在每个周期都能发挥作用,无论是图形处理还是各种 ML 模型。此外,它还配备了一整套 AI 管理处理器,以确保数据传输和 SM 的高效运行。

尽管如此,这里仍然有大量的原始马力被释放。360 RT TFLOPs 的 RT 性能、GDDR7 内存,以及如此多的张量 FLOPS。

NVIDIA 大量使用着色器执行重排序技术,以保持 SM 的满载。重排序工作可以避免气泡,从而保持运行。这是软件和硬件的结合。显然,这里进行了大量整数运算来完成排序,这就是为什么在 Blackwell 时代,整数性能对 NVIDIA 来说至关重要。

NVIDIA 正在大力发展 FP4。他们预计它能够保持图形模型所需的精度,同时只消耗一半的内存和计算资源。附注:FP4 的动态范围比 INT4 更宽,这会带来更多好处。

Blackwell 增加了 GDDR7 支持,显著提升了总内存带宽。与 PAM4 (GDDR6X) 相比,PAM3 提供的每时钟位数较少,但更高的信噪比 (SNR) 允许更高的时钟速度,足以弥补差异。此外,它还允许更低的电压。

NVIDIA 希望缩短首次令牌执行时间,尤其是在混合图形/机器学习工作负载下。这为机器学习模型/AI 代理更适用于交互式游戏奠定了基础。

人工智能管理处理器在其中发挥着重要作用,它有助于协调图形和机器学习的交错工作,而不会因昂贵的上下文切换而导致 GPU 停滞。

调度需求非常复杂,尤其是在不同的工作负载具有不同的延迟要求的情况下。例如,机器学习代理的截止时间与实时图形处理并不完全相同。这些都是人工智能管理处理器需要考虑的因素。

帧生成:无需耗费功耗渲染帧,只需花费极少的功耗,即可用插值帧代替。功耗最高可降低 2 倍。

Graphics Blackwell 还支持通用 MIG(多实例 GPU),这之前是数据中心 GPU 独有的功能。这项功能通过为每个客户端分配不同的 SM 集,改进了为多个客户端(例如流媒体服务)拆分图形 GPU 的功能。

与单纯的时间切片相比,NVIDIA 发现 MIG 的性能提升高达 60%。这得益于单个 1080p 客户端工作负载过小,无法完全满足 RTX Pro 6000 的计算需求;将其拆分为多个较小的 vGPU 后,可以通过并行执行多个工作负载来保持 GPU 的负载饱和。

Meta谈图像芯片

当天最后一个与图形相关的演讲来自 Meta,他的演讲或许是图形领域最新颖的。Meta 的前 Oculus 头显部门并没有谈论已经向客户发货几个月的 GPU 架构,而是在展会上探讨如何使用专用 IC 来加速世界锁定渲染 (WRL)。WRL 是 Meta 特别关注的话题,因为它是 AR/VR 眼镜开发的一部分,其中最引人注目的是其原型 Orion 眼镜,这款眼镜正在突破相对较小的眼镜在空间和功耗预算方面的极限。

简而言之,世界锁定渲染 (World-Lock Rendering) 是一种技术,当用户的头部移动时,渲染图像会锁定在世界某个点上。它可以让图像漂浮在你面前,但会根据你周围的世界进行锁定。这还包括遮挡等功能,即现实世界的物体遮挡虚拟物体。

回顾 WLR 的原理:锚定对象、深度计算、渲染世界与现实世界的真正融合,甚至音频空间渲染。这些原理不仅涵盖渲染步骤,还涵盖了快速完成渲染的需求,同时尽可能降低功耗。

这是基本 WRL 算法的框图。输入来自惯性单元和其他传感器,然后经过几个计算阶段,最后进行合成和投影。

由于眼镜的物理限制,WRL 的功耗预算极其有限。Meta 运用了所有行业尖端技术,包括尖端工艺节点(Orion 构思之初为 5nm)、有限的 DRAM 使用、压缩以及全面的电源管理。即便如此,物理尺寸也是一个问题,因为眼镜几乎没有留下太多芯片空间。

因此,Orion 将计算任务拆分到眼镜和外部 Puck 中。WRL 对延迟极其敏感,因此需要在眼镜中进行。Puck 中总共包含 3 个主要处理芯片:显示处理器、眼镜处理器和计算协处理器。

WLR 是一种特殊的工作负载,因为它始终在运行。因此,它不会像大多数传统工作负载那样出现突发情况。因此,在某些方面,它的硬件需求截然不同。

眼镜处理器负责处理所有眼部和手部追踪以及摄像头输入。它采用全系统级封装 (SiP),将 SoC、LPDDR4X 内存和 NVMe 闪存集成在同一封装中。总共集成了 24 亿个晶体管,采用 5nm 工艺制造。Meta 甚至在芯片中植入了安全信任根,确保所有进出芯片的数据都经过加密。

冰球传来的图像采用 HEVC 编码,因此眼镜处理器需要对其进行解码。最终,它会被重新编码为显示处理器的专有格式。

有两个显示处理器,每只眼睛一个。重新投影(时间扭曲)在这里进行。这里没有外部存储器,所以所有内容都存储在片上 SRAM 中。这意味着这里的 SRAM 容量异常大。

最后,还有冰球中的计算协处理器。这是性能最强、功耗和发热量最高的处理器。计算机视觉处理、机器学习执行、音频渲染、HEVC 编码等功能都在这里进行。这是一款具有相对较大片上 SRAM 缓存的芯片。整个芯片由 57 亿个晶体管组成,采用 5nm 工艺制造;并配备 LPDDR4X 内存。

把所有这些组合在一起,您就得到了猎户座眼镜。

Rebellions 144GB HBM3E 加速器亮相

Rebellions 在 Hot Chips 2025 大会上展示了其全新的 AI 加速器。值得注意的是,Rebellions REBEL-Quad 采用四个 HBM3E 插槽,可支持 144GB 内存,同时还采用 UCIe 作为芯片互连技术。我们多年来一直关注 UCIe,而这是一款采用芯片互连技术的现代芯片,我们为此深感自豪。

这是基于三星 SF4X 和 CoWoS-S 构建的封装。每个封装上都有四个计算 ASIC、四个 HBM3E 接口和四个集成硅电容器 (ISC)。有趣的是,这是一张双 PCIe Gen5 x16 接口卡。鉴于 NVIDIA GB300 即将迎来 PCIe Gen6,而且我们正在看到 REBEL-Quad 的开发板,感觉这款显卡可能是 PCIe Gen6 接口,以匹配 NVIDIA。另一个重要特点是,它使用 UCIe-A 来提供大带宽。

这是一张 REBEL-Quad 卡,它是一张 PCIe 卡。

这是封装。你可以看到它是如何因为四组硅片而得名“Quad”的。

许多公司都在展示硅片封装,但我们看到的却不一样。这家公司的新芯片已经在开发板上运行了。

这里正在运行一个实时的 Llama 3.3 70B 演示。对于一些更关注 AI 加速器的 STH 读者来说,这是一个正在运行的新硬件。对于关注芯片技术的朋友,这里是一个正在运行的 UCIe 芯片。

对于那些好奇的人来说,这个演示中的 Llama 3.3 70B 的输出速度为 35.5 毫秒(平均)/令牌。然而,正如你所见,这是一个开发板。

看到UCIe运行起来真是太酷了!每次我和UCIe的团队聊天,我都会问什么时候能看到运行的产品。我得到的答案通常是,由于UCIe集成在封装内,所以每家公司都自行决定是否使用UCIe进行市场推广。现在我们有一个很好的例子来说明这一点。他们有东西可以集成这么多硅片在一个大封装里,并且正在演示运行,这也说明了很多问题。许多AI加速器公司都有加速器的想法,但这些想法往往连硅片都无法实现公开演示。祝贺Rebellions团队(以及UCIe的团队)。

本文来自微信公众号“半导体行业观察”(ID:icbank),作者:编辑部,36氪经授权发布。

+1
3

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

最有深度的半导体新媒体,实讯、专业、原创、深度。

下一篇

行业会从“拼噱头”转向“拼真技术”。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业