中国算力,如何像水和电一样自然流动?
火热的大模型训练,让算力成了AI时代像石油一样的稀缺资源。
2023年—2024年之间,智算中心成了“新基建”的主旋律。数据显示,截至2024年9月,我国算力规模已达246 EFLOPS,智能算力同比增长超65%,各行业算力应用项目超过1.3万个。然而,与智算中心建设的火热形成鲜明对比的是,今年其实际运营状况堪忧,平均机柜利用率仅 20%~30%,部分企业级中心甚至低至10%。
“量”的突破并未带来“质”的同步,对于中国算力落地的尴尬,半导体产业纵横采访了无问芯穹生态总监张帅,深入探寻无问芯穹针对这一困境的破局思路与实践路径。
01算力很多,但用不起来
评估智算中心的算力使用情况,上架率和点亮率是两个关键指标。上架率关注的是设备是否安装上架并通电可运行,而点亮率关注的是设备是否在实际执行计算任务,为业务所用。据中国信通院报告显示,全国已上线的智算中心,算力的整体利用率仅32%。
4月16日,关于地方发展改革委摸排算力的信息开始爆出。据报道,多地将陆续下发关于开展算力摸底有关工作的通知,摸底工作涉及已建、在建和拟建算力中心项目,摸底数据将作为国家算力资源统筹布局的重要依据。据报道,相关部门此举旨在从更高层面统筹规划,避免各地盲目重复建设。在业内人士看来,监管的最新动作,一定程度折射出行业面临的供需失衡、资源错配等结构性问题。下一步,算力基础设施建设有望进入提质增效的新阶段。
细看国内的算力市场,三个层面的问题尤为突出:
第一,优质算力供给不足,许多企业难以找到符合业务需求的算力资源。大部分智算中心的规模都在1000P(1P算力每秒能够进行一千万亿次计算)上下,由非常分散的社会资本建设,这些资金不懂行业,很难去找到合适的需求方。
第二,使用门槛过高。找不到、用不起算力,是目前创业公司面临的普遍问题。有的公司找到了算力,但面对这些裸金属疙瘩,又不会用。
第三,国产芯片生态存在割裂。国内特有的AI基础设施情况是多模型和多芯片,存在大量的异构算力,不同厂商的芯片架构和指令集互不兼容,导致算力资源无法实现高效流动。由于生态还不完善,一些国产卡企业用不起来。
于是今年的智算中心出现了一种新的现象:人工智能企业“算力荒”,智算中心却在“卖卡”求生。在“多芯片”无法与“大算力”画等号的情况下,无问芯穹切入了算力赛道。
02清华系的“理想主义”
2023年5月,清华大学电子工程系教授汪玉作为发起人,其博士生夏立雪、戴国浩等人联合创立了无问芯穹。这家公司的诞生,带着鲜明的清华基因——汪玉是国际电气与电子工程师协会会士,清华大学电子工程系主任,也是AI芯片公司深鉴科技的联合创始人之一,后者在2018年被赛灵思收购。夏立雪本科和博士均毕业于清华电子系,研究方向是AI芯片与算法协同优化。联合创始人颜深根曾担任商汤科技数据与计算平台部执行研究总监,带队搭建过万卡集群,现任清华大学副研究员。这种纯正的清华背景,让无问芯穹在成立之初就获得了资本市场的青睐。成立不到两年,公司已完成近10亿元融资,投资方包括红杉中国、百度、智谱AI、启明创投、君联资本等知名机构。在AI算力这个硬科技赛道,这样的融资速度和规模并不多见。
资本认可的不只是无问芯穹的背景,更是无问芯穹的野心。
无问芯穹将公司定义为大模型时代的“算力运营商”。核心目标直指中国算力市场的痛点:在英伟达CUDA生态占据绝对优势的背景下,国产芯片厂商各自为战,开发者每更换一种硬件就需要重新适配代码,这种生态割裂严重制约了国产算力的实际应用价值。
国产卡也好,英伟达卡也好,对使用者来说,能完成任务的就是好算力。针对这种情况,无问芯穹打造以“M×N”为特点、将全局的异构、异域、异属的算力汇聚成一张“智能感知、实时发现、随需获取”云端算⼒网络,不仅连得起来,还调得出来、调得过去、调得准。在技术实现路径上,无问芯穹的策略一是通过统一的中间层屏蔽硬件差异,让开发者无需关心底层芯片;二是针对大模型的训练、推理等场景优化国产芯片的性能表现,把使用差距压到体感阈值以下。
这种技术理念,在第二十届研电赛中得到了验证。作为命题企业,无问芯穹设置了“端侧/云侧协同应用电子设计挑战赛”,吸引了25支高校团队参与。最终入围决赛的作品涵盖端侧AI加速器、机器人控制框架、智能检测等多个领域,展现出年轻开发者在技术深度和应用广度上的双重突破。“我们希望通过产学研用协同机制,缩短科研成果产业化的周期。”无问芯穹生态总监张帅表示。在研电赛中,公司不仅提供了真实的产业命题,更将企业的技术需求直接反馈给高校团队。“通过联合培养既懂算法又懂硬件的复合型人才,共同构建从底层芯片到上层应用的完整AI基础设施生态,加速人工智能技术在各行各业的规模化落地。”
03三个“盒子”的野心
无问芯穹作为一家成立仅两年多的初创公司,正处于产品打磨和早期商业化落地的阶段,以云端结合的方式推进商业化进程。在谈到无问芯穹如何通过技术与生态布局保持竞争力时,生态总监张帅给出了三个关键指标:“易用性、稳定性和性价比。”
2025世界人工智能大会上,无问芯穹推出了全规模 AI 效能跃升方案的三大核心产品,被形象地称作 “三个盒子”。这三个产品涵盖了服务从万卡至十万卡全局算力网络的“无穹AI云”,到服务百卡至千卡级大型智算集群的“无界智算平台”,再到服务单卡至十卡级有限算力终端的“无垠终端智能”解决方案,试图在单卡至十万卡算力的全规模软硬件场景中,释放每一份算力的最大潜能。
大盒子:无穹AI云
无穹AI云的底层是⼀张深度覆盖全国的广域算力网,基于无问芯穹“一网三异”调度架构,目前已经成功覆盖“东数西算”国家战略布局的关键节点,汇聚了来自 26个省市、53个核心数据中心的庞大算力资源,整合超15种主流芯片架构的异构算力池,总算力规模超25000P。基于强大的广域高性能专线内网互联互通,用户能够按需在不同地域、不同型号的算⼒资源之间进行实时切换与无缝迁移。充分体现了“易用性” 与 “稳定性” 的设计理念。
中盒子:无界智算平台
“中盒子” 面向百卡至千卡级大型智算集群,以 “全链路解决方案” 提升算力性价比。据了解,在与上海算法创新研究院的合作中,它基于 3000 卡沐曦国产 GPU 集群,稳定支撑百亿参数大模型训练 600 小时不间断,创造了国产算力训练纪录。服务云南移动时,高效利用 2000 张华为昇腾 910B 加速卡,实现千亿参数模型的分布式部署与大规模推理,为商业化服务注入核心竞争力。这些案例印证了其在复杂场景下的稳定性与性价比优势。
小盒子:无垠终端智能
“小盒子” 针对单卡至十卡级的有限算力终端,让终端算力好用又经济。携手上海创智院共同打造的全球首款端侧本征模型无穹天权Infini-Megrez2.0,在实现云级21B参数智能水平的同时,将内存占用控制在7B规模、实际计算量控制在3B规模,突破了终端设备的资源局限,可以完美地适配当下的各类终端设备,成功打破了终端“能效-空间-智能”的不可能三角,让终端设备无需依赖云端也能完成复杂任务,进一步扩展了算力服务的边界。
04结语
当无问芯穹服务的全球最大人工智能孵化场景——上海模速空间的算力调度大屏显示日均Token调用量突破100亿时,这个数字背后折射的不仅是一家企业的成长,更是中国算力生态的艰难蜕变。无问芯穹的“三个盒子”正在尝试解答一个产业级命题:在芯片性能暂时落后的客观条件下,如何通过系统级创新释放国产算力的潜在价值?
面对“算力碎片化”与“成本高昂”的问题,无问芯穹通过底层的算子、通信、调度、容错等方面的技术创新和实践,大幅提升算力资源的实际利用率,显著提升单位算力的性价比和服务质量。据了解,异构情况下的确出现过相同数量的国产芯片加上国际主流芯片,训练表现不如单独国际主流芯片的情况。随着技术的逐渐成熟和上下游生态的共同努力,如今,部分不同芯片混合的算力利用率最高能达到97.6%,使用者已几乎感觉不到算力异构的体验差异。
在这个算力定义AI竞争力的时代,中国需要的不仅是更多的智算中心,更是一套能让算力真正流动起来的生态体系。当开发者可以像使用水电一样调用国产算力,当芯片厂商能根据真实场景需求迭代产品,中国AI产业才有望走出“有算力难用”的困境。
无问芯穹的实践,正为这场生态突围提供着珍贵的样本。
本文来自微信公众号 “半导体产业纵横”(ID:ICViews),作者:九林,36氪经授权发布。