一家GPU初创公司浮出水面,Raja Koduri创立,基于RISC-V
日前,曾在ATI、AMD、苹果和英特尔任职的的传奇GPU架构师Raja Koduri对外公布了其成立的GPU公司Oxmiq Labs。
据Raja Koduri在其社交媒体介绍,Oxmiq Labs Inc. 是一家全新的 GPU 软件和 IP 初创公司,从隐形中脱颖而出。“我们组建了一支由 GPU 和 AI 架构师组成的世界级团队,他们拥有 500 多年的综合经验。OXMIQ 的可许可 IP 从头开始重新构建 GPU。”Raja Koduri说。
“我们希望成为下一代的 Arm”,Raja Koduri在接受路透社采访时表示。
Oxmiq Labs指出,公司正在采用软件优先的方法来构建其芯片设计,并开发了一种工具,允许为 Nvidia 的 CUDA 编写的软件程序在非 Nvidia 硬件上运行,“而无需修改代码或重新编译”。
“我们可能是硅谷 25+ 年来第一家新的 GPU 初创公司,GPU 并不容易”,Raja Koduri说。
一款基于RISC-V的GPU
据Oxmiq Labs所说,现代计算已从根本上转向多模态体验,文本、音频、视频、图像和 3D 环境无缝交互,GPU 架构成为这一转变的基石。与处理特定任务的固定功能 AI 加速器不同,GPU 提供了这些不同模态所需的通用计算灵活性,同时通过标准化 API 和统一的内存模型与主流操作系统保持深度集成。这种架构优势使 GPU 成为当前应用程序和新兴多模态 AI 领域(其中异构工作负载必须协调处理)的必备计算引擎。
基于这个见解,OXMIQ专注于开发GPU硬件和软件IP,并将其授权给感兴趣的各方。
Oxmiq表示,可授权 GPU IP 从第一性原理重新架构了 GPU,并融合了突破性技术,包括利用 RISC-V 内核的硅片纳米代理、近内存和内存计算以及光传输。OXMIQ 为客户提供的解决方案,在多模态计算灵活性与下一代图形和 AI 工作负载所需的根本性性能提升之间取得平衡。
在硬件方面,Oxmiq 提供了一个基于 RISC-V 指令集架构 (ISA) 的 GPU IP 核 OxCore,该核将标量、矢量和张量计算引擎集成在一个模块化架构中,并支持近内存和内存计算功能。
Oxmiq 还提供基于chiplet的系统级芯片 (SoC) 构建器 OxQuilt,使客户能够根据特定工作负载需求,快速且经济高效地创建集成计算集群桥接器(CCB,可能集成 OxCores)、内存集群桥接器 (MCB) 和互连集群桥接器 (ICB) 模块的 SoC。
例如,用于边缘应用的推理 AI 加速器可以封装一个或两个 CCB 和一个 ICB,推理 SoC 则需要更多 CCB、MCB 和 ICB,而用于 AI 训练的大规模 SoC 则可能封装数十个chiplet。Oxmiq 尚未透露其 OxQuilt 是仅支持构建多芯片集系统级封装 (SiP),还是也可用于组装单片处理器。
据该公司在官网介绍,OXMIQ 还提供完整的GPU 硬件 IP堆栈,为从边缘设备和自主机器人中的物理 AI 到企业边缘基础设施和泽级数据中心的各种硅片解决方案提供支持。其可扩展的 GPU 核心OXCORE将标量、矢量和张量计算引擎集成在一个模块化架构中,可根据特定工作负载进行定制,从而支持nano-agents、原生 Python 加速以及与 SIMT/CUDA 范式的兼容性。
OXCORE可通过OXQUILT chiplet 架构无缝扩展,从适用于紧凑型物理 AI 应用的单核到适用于数据中心的数千核。通过OXQUILT,客户可以根据自身需求配置最佳的计算、内存和互连比例,并显著缩短上市时间,降低研发和生产成本,相比当前行业标准方法,大幅降低产品上市时间。
软件是核心
Oxmiq Labs强调,从数十年的行业发展中吸取教训,OXMIQ 秉承软件优先战略,通过与基于 OXMIQ IP 的硅片以及第三方 GPU 和 AI 加速器平台兼容的全面软件堆栈,优先考虑开发人员体验。
据介绍,该软件包旨在抽象异构硬件的复杂性,并支持在各种硬件平台上部署 AI 和图形工作负载,而不仅仅是那些使用公司 IP 的平台。其中,OXCapsule是整个软件生态的核心,是OXMIQ 的统一软件生态系统,它抽象了硬件复杂性,可在不同的计算平台上提供无摩擦的部署,消除了传统上困扰异构环境的配置挑战。
具体而言,这是一个统一的运行时和调度层,用于管理工作负载分配、资源平衡和硬件抽象。该层将应用程序封装到独立的环境中,该公司称之为“异构容器”。这些容器被设计为独立于底层硬件运行,使开发人员无需修改代码库或处理底层配置即可针对 CPU、GPU 和 AI 加速器进行开发。
OXPython则是 OXMIQ 的旗舰组件,它使基于 Python 的 NVIDIA CUDA AI 应用程序能够在非 NVIDIA 硬件上无缝执行,无需修改代码或重新编译。OXPython 将于今年晚些时候在Tenstorrent 的AI 平台上首次推出,目前正与多家供应商进行集成。OXPython展现了OXMIQ致力于打破硬件孤岛、加速整个行业高性能计算普及化的决心。
换而言之,这将是一个兼容层,将以 CUDA 为中心的工作负载转换为 Oxmiq 的运行时,并允许基于 Python 的 CUDA 应用程序在非 Nvidia 硬件上无需修改即可运行,无需重新编译。
据了解,OXPython 最初不会在 Oxmiq 的 IP 上发布,而是在 Tenstorrent 的 Wormhole 和 Blackhole AI 加速器上发布。事实上,Oxmiq 的软件堆栈从根本上设计为独立于 Oxmiq 硬件,这是其战略的核心部分。
Tenstorrent首席执行官 Jim Keller 也表示: “我们很高兴与 OXMIQ 合作开发他们的OXPython软件栈。OXPython 能够将 CUDA 的 Python工作负载引入 Wormhole和 Blackhole等 AI 平台,这对于开发人员的可移植性和生态系统的扩展非常有利。这与我们让开发人员开放并拥有整个 AI 栈的目标相一致。”
该公司在官网中强调,Oxmiq Labs致力于重构 GPU 全栈架构,从原子到代理,以满足下一代游戏、图形和多模态 AI 的需求。公司开发可授权的 GPU 软硬件 IP,通过集成突破性技术(包括基于 RISC-V 的硅片nano agents、近内存计算和内存计算、先进光传输以及其他创新技术)来平衡灵活性和性能。OXMIQ 的架构旨在实现从物理 AI 设备到数据中心规模的无缝扩展。
联发科已经投资
除了Raja Koduri 以外,如他们所说,该公司已经聚合了一支极具竞争力的团队。
值得一提的是,Oxmiq Labs不但不像 AMD Radeon或 Nvidia GeForce 那样打造消费级 GPU。与 Arm 或 Imagination Technology 不同,Oxmiq 也并未开发构建 GPU 所需的所有 IP 模块:它不支持开箱即用的完整消费级图形功能(例如纹理单元、渲染后端、显示流水线、光线追踪硬件、DisplayPort 或 HDMI 输出),因此,如果 Oxmiq 授权用户计划构建 GPU,他们必须自行在芯片中实现这些功能。
依赖于这些领先团队和积累,该公司也已从知名科技投资者(包括联发科等移动和人工智能芯片领域的战略参与者)处获得 2000 万美元种子轮融资,并已实现首轮软件收入。OXMIQ强调,凭借授权优先模式,避免了芯片初创公司依赖昂贵 EDA 工具和物理流片的巨额资金需求,从而实现了卓越的资本效率。
联发科高级副总裁 Lawrence Loh 表示:“OXMIQ 拥有令人印象深刻的远见卓识和世界一流的团队。公司的 GPU IP 和软件创新将推动跨设备计算灵活性的新时代——从移动设备到汽车,再到边缘 AI。”
本文来自微信公众号“半导体行业观察”(ID:icbank),作者:编辑部,36氪经授权发布。