装机量超2000万、全球主流GPU与AI框架“开箱即用”,OpenCloudOS成AI时代优先选项
尽管企业仍持续不断地加大硬件投入,但行业数据显示,GPU 有效利用率长期徘徊在 30% 以下,企业即便投入十倍预算采购硬件,真正获得的算力提升却常常不到三倍,结构性浪费愈发显现。
造成低效率的根源,被业内总结为三类:资源碎片、潮汐式负载波动、以及在线与离线任务的冲突。然而,更深层的矛盾并不仅限于调度侧,而在于整个行业正面临的基础设施割裂:一方面,AI 训练与推理规模持续爆发;另一方面,底层硬件形态、上层模型框架、编译环境与加速库均呈“百家争鸣”态势,缺乏统一标准。这种生态碎片化,使得开发者在不同硬件、不同框架之间频繁进行适配、调优与迁移,进一步拉低集群整体效率。
在这样的背景下,如何通过标准化体系重塑底层软件栈、如何在异构算力环境中实现统一编排与高效调度,成为产业讨论的核心议题,这也是今年 OpenCloudOS 操作系统生态大会备受瞩目的原因。
1 聚焦“易用”和“安全”,南北软硬件生态全兼容
12 月 6 日,2025 OpenCloudOS 操作系统生态大会在北京举办,AMD、Arm、沐曦、海光信息、腾讯云等近 30 家生态企业围绕技术创新、最佳实践与协同共建分享了各自的最新进展。
自 2021 年成立以来,OpenCloudOS 社区始终秉持全链路自主可控、全场景兼容、全生态开源开放的发展路线。得益于腾讯云将多年积累的内核技术、云原生能力及大规模服务器运营经验全面融入,该社区如今已发展为国内规模领先的开源操作系统生态之一。截至今年,OpenCloudOS 操作系统装机量已突破 2000 万节点,服务超过 62000 家企业用户,并完成了超过 97500 项软硬件适配。
生态建设方面,社区已汇聚 1200 多家生态伙伴及 400 多家深度合作伙伴,并拥有超过 18 万名开发者。随着参与社区的厂商不断增加,OpenCloudOS 的生态版图也从传统数据中心延伸至云原生、边缘计算、高性能计算以及 AI 训练与推理等新型场景。
过去数年间,社区已建立覆盖 x86、Arm、RISC-V、龙芯等多体系结构的兼容认证体系,用户仅需通过标准 yum/dnf 命令即可一键部署底层依赖,无需再进行复杂的编译调试工作,这使 OpenCloudOS 成为国内适配广度最全面的开源操作系统之一。同时也孵化出了如 TencentOS、东华的 NTOS、红旗 Linux 等十余款操作系统的衍生版,形成了开源协同商业落地的良性循环。
在技术层面,随着 AI 工作负载全面云原生化,底层基础设施正面临前所未有的复杂性:大模型镜像动辄数十 GB,拉取与分发成本急剧上升;AI 软件栈依赖链长且更新频繁,环境配置难度不断攀升;硬件形态快速多元化,驱动安装、版本兼容与性能调优成为企业最沉重的运维负担;而节点规模越大,这些问题被放大得越明显。无论对企业成本、交付效率还是资源利用率而言,传统操作系统与工具链都已难以满足 AI 时代的需求。这些现实压力使得构建面向 AI 的新一代操作系统能力体系成为必要且紧迫的方向。
基于此,OpenCloudOS 围绕 AI 原生需求进行了系统性的技术升级,重点聚焦轻量化、快速分发、自动化维护与生态适配四大方向。
首先,在 AI 镜像结构扩张带来高成本负担的情况下,OpenCloudOS 推出镜像小型化能力,通过自动去冗与自研 chisel 工具对软件包进行切片,结合静态与动态依赖分析,大幅压缩 AI 镜像体积,降低构建和传输成本。
其次,针对大型模型镜像拉取耗时过长的问题,OpenCloudOS 构建镜像加速体系:基于 stargz-snapshotter 实现懒加载,在内核侧引入 fuse passthrough 降低访问开销,并通过优化预取策略加速模型启动。同时,利用 chunk 级索引实现镜像文件去重,进一步降低网络与存储开销。
在大规模集群落地场景中,OpenCloudOS 也强化了镜像分发能力。通过分片并发、乱序下载、Range 请求代理等增强的 P2P 加速机制,可在集群内快速同步镜像,并支持限速策略与 RDMA 加速,显著缩短大规模分发的耗时。
针对异构硬件加速卡数量激增带来的维护复杂,OpenCloudOS 提供自动化硬件服务,可自动识别设备、匹配适配驱动,并支持多版本并存,从根源上降低 GPU 等硬件在云原生环境中的运维门槛。
面对海量且高速迭代的 AI 软件栈,OpenCloudOS 构建 Agent 自动化适配流程,实现从版本跟踪、构建测试到容器封装的全链路自动化。目前已适配超千款 AI 软件,并可根据硬件后端自动开启加速路径,使用户获得开箱即用且经性能优化的体验。此外,OpenCloudOS 还提供完整的 AI 上层环境,包括 RPM 源、PyPI 源及多类 AI 容器镜像,使用户可通过简单命令完成环境部署,并减少重复构建投入。
通过这一系列围绕 AI 全链路的升级,OpenCloudOS 已系统性构建起云原生 AI 应用所需的操作系统能力闭环,从镜像构建、拉取、分发,到硬件管理与软件生态覆盖,为企业提供高效、轻量、自动化、可持续演进的 AI 基础设施底座。
要支撑这一系列面向未来的技术演进,仅有“先进能力”并不足够,真正关键的是这些能力能否在产业场景中形成可验证的价值闭环。海光芯片、作业帮、东软等企业与 OpenCloudOS 的合作,便是这种价值落地的典范。
许多海光芯片的首发版本,其关键的软件套件就来自 OpenCloudOS 社区,实现了“首发即兼容、首发即适配”;东华软件更是基于 OpenCloudOS 操作系统底座,成功推出了两款自研操作系统,解决了业务系统中长期存在的依赖冗余、漏洞修复链条长、权限越界等顽疾,系统稳定性与安全性大幅提升。
作业帮内部长期面对的是“资源碎片化 + 基建割裂 + 框架异构”的叠加难题。OpenCloudOS 通过统一的系统底座,让跨地域 GPU 的行为一致、驱动链路一致、框架版本一致,使得调度器能够以真正全局的视角去整合算力资源。从底层适配到上层框架拉通,OpenCloudOS 构建的多版本 AI 生态,不再要求企业去“押注”某一种硬件或单一框架,而是让所有硬件都能在同一操作系统生态中获得最优解。这一能力成为作业帮解决算力利用率难题、推进统一算力池建设的关键基础。
2 面向 AI 深度进化,OpenCloudOS Infra 智能基座正式发布
随着大模型与各类 AI 应用进入规模化落地阶段,行业面临的核心矛盾正在从“模型能力不够”,转向“算力复杂度过高”。爆发式增长的算力需求与标准不一、生态割裂的软硬件体系之间的矛盾愈发突出,导致开发者不得不在驱动适配、环境部署、框架兼容等繁琐工作上投入大量时间与人力,产业创新效率被严重掣肘。
在此背景下,借 OpenCloudOS 操作系统生态大会之机,OpenCloudOS 社区联合昇腾、海光、AMD、沐曦、昆仑芯,以及 vLLM、SGLang、作业帮与腾讯云等合作伙伴,共同推出“OpenCloudOS Infra 智能基座”,旨在构建统一 AI 算力底座、并由产业伙伴共同驱动的开放技术体系。
这一发布背后的逻辑十分明确:要推动 AI 在产业中真正走向工程化、大规模和低成本普及,就必须在操作系统层面建立一个统一、稳定、高兼容、可持续演进的“AI 算力底座”。
OpenCloudOS 之所以能够把如此多的合作伙伴拉到同一张桌子上,根本原因在于它解决的是所有参与方的共同痛点——碎片化的算力生态导致巨大重复成本。
对于芯片厂商而言,没有统一的适配标准和通用的软件栈,他们每次新品上市都要花费大量成本完成基础驱动适配;对于框架开发者而言,面对不同操作系统、不同驱动、不同硬件的组合,需要重复进行性能调优与稳定性验证;对于企业用户而言,部署一个 AI 框架往往需要跨越数十道依赖、冲突和配置障碍。OpenCloudOS 通过智能基座提供统一接口、统一集成和统一运行时环境,让不同厂商能够在同一生态内协作,从根源上降低全产业链的技术摩擦。
在这一协同机制之上,OpenCloudOS Infra 智能基座构建了一个覆盖全栈的 AI 基础设施体系,包含“AI 开箱即用、AI 软件支持生态、AI 硬件支持生态”三大核心层级。依托 OpenCloudOS 9 版本,社区已完成对国内外多家主流 AI 加速芯片官方驱动及计算栈的深度整合与验证。过去开发者需要花费数小时甚至数天手动下载、编译和调试驱动程序,而如今只需通过 yum install 或 dnf install 即可一键安装所有底层依赖,大幅降低了环境准备成本。
具体而言,OpenCloudOS Infra 智能基座能提供哪些能力?
在软件与框架层,OpenCloudOS 通过容器化技术完成了近 20 款主流 AI 框架及智能体应用的深度适配、依赖清理和性能优化,并封装成可直接拉取使用的标准化镜像。传统部署一个 AI 框架可能需要经历数十个步骤,而在智能基座体系中,以“一键安装容器依赖—启动预制框架—启动服务”三步即可完成,部署时间从天级、小时级缩短到分钟级。这不仅让开发者不再被环境问题拖慢工程节奏,也为企业大规模部署 AI 服务提供了可复制、可扩展的基础。
在性能和调度层面,智能基座也带来了显著提升。容器镜像体积最高缩减 94%,降低存储和传输成本;镜像与模型分发速度逼近硬件极限;自研的 FlexKV 分布式 KVCache 系统在高并发场景下可降低首 Token 延迟约 70%。这些针对 AI 工作负载特征的系统优化,使 OpenCloudOS 不仅能“跑 AI”,还能“高效、稳定、规模化地跑 AI”。
与此同时,OpenCloudOS 还将 AI-ready 能力延伸到云端。在腾讯云 HAI 平台上架的 OpenCloudOS 镜像已内置 CUDA 组件,用户无需手动配置即可获得开箱即用的 AI 开发与推理环境,实现从本地到云端的无缝协同。这种能力使企业能够快速构建、验证并上线 AI 服务,进一步缩短工程化周期。
3 结语
回望整场大会,OpenCloudOS 过去几年的技术演进与生态扩展,在这一刻呈现出一种清晰的方向感:AI 时代的基础设施已经不再是单点优化的堆叠,而是一种跨芯片、跨框架、跨场景的系统工程。无论是镜像小型化、按需加载、P2P 加速等底层能力,还是智能基座对多样性算力的统一支撑,抑或超过千款 AI 软件与框架的自动化适配,这些看似独立的技术动作最终汇聚成一个共同目标——让开发者、硬件厂商和行业应用真正站在同一套“可用、好用、稳定可控”的操作系统底座上。
本次大会的意义并不止于发布了新的技术能力或生态计划,而是宣告了一种新的 AI 基础设施范式:在算力爆发、模型多样、框架迭代的时代,真正的创新不在于单点性能的提升,而在于提升整个产业链的协作效率与系统韧性。
OpenCloudOS 正在让这一目标具象化——通过可持续的技术路径、标准化的生态接口以及开放共建的社区机制,让 AI 的基础设施变得更普惠、更可靠,也更具规模化能力。
本文来自微信公众号 “InfoQ”(ID:infoqchina),作者:冬梅,36氪经授权发布。















