对话「后摩智能」吴强:从科学家到创业者的惊险一跃

晓曦·2025年08月06日 08:00
以存算一体为矛,击穿端边大模型芯片最后一公里。

只要你逛了刚刚结束的WAIC 2025(世界人工智能大会)的H1馆,就会发现今年中国算力领域最炙热的,非这两项莫属——“超节点”和端侧AI芯片。

这足以印证,AI大模型轰轰烈烈发展至今,算力呈现两极发展的趋势。

一方面是,大模型训练已经成为刚需,云端算力还需要持续扩展,“超节点”支撑了国产云端算力持续向上求索,WAIC上华为和多家云端AI芯片公司都展示了让人震撼的计算“超节点”;

另一方面,当AI持续落地千行百业,尤其当Deepseek爆火,大大降低了生成式AI的计算需求,带动大模型推理应用落地,特别是在端边侧应用的火热。WAIC上多家公司展示了小巧玲珑的端侧AI芯片及其相关智能硬件。

可以说,未来生成式AI计算将是云端计算和端边计算的完美组合。后摩智能的CEO吴强判断,未来生成式AI推理计算,90%左右的数据处理都将在端侧和边侧进行,只有10%左右的复杂推理任务需要走向云端。只有这样,才能真正让AI普及,走进千家万户,无处不在。

在过去2年,云端的机会,让英伟达的市值翻了6倍,公司价值突破了四万亿美金,成为这波AI的最大受益者。而端边侧的蓝海市场,大幕缓缓拉开,未来端边侧的市场也正在孕育着“下一个英伟达”的机会。甚至,端边侧会比云端市场更大,能容纳更多玩家。

后摩智能,便是其中可圈可点的一家。后摩智能创始人兼CEO吴强,研究背景深耕于高能效比芯片及分布式计算,最早在英特尔、AMD及Facebook工作过,后来又回国加入地平线,4年多前,他开启芯片创业,创办了后摩智能。他们如今的战略很清晰,希望以存算一体为矛,直穿端边大模型计算的最后一公里。

不过,为什么选择以存算一体作为核心技术,切入端侧芯片?存算一体能给AI计算带来什么?

如许多人所感知,经典的冯诺依曼架构的“内存墙”和“功耗墙”问题已经越来越严重,尤其随着大模型的参数量还在持续扩大,动辄百亿千亿,数据搬运耗能大有超过计算本身的趋势。对此,曾有行业人士笑称,“未来AI的尽头,是能源”。而存算一体正是一种釜底抽薪的办法,直接在存储单元里把矩阵乘加操作,消灭掉数据搬运这个流程。

在WAIC 2025前夕,后摩智能便发布了基于存算一体的端侧芯片产品“后摩漫界M50”。据吴强介绍,M50最大的特点是,通过自研的存算一体技术实现了计算架构上的创新突破——比如,运用了全新一代的底层存算IP,使得能效比和面效比都大大提升。

后摩智能创始人兼CEO吴强现场发布后摩漫界M50

另外,在AI处理器架构层面,M50使用了自研的新一代“天璇架构”IPU,让浮点模型在存算一体架构中得以直接运行,提升应用效率。同时,为了降低客户的使用门槛,M50还配备了新一代编译器工具链“后摩大道”,让其简单易用,支持主流深度学习框架,让客户无感无痛地做芯片的适配迁移。

在种种技术创新的加持下,M50的产品性能也很突出,它实现了160 TOPS@INT8、100 TFLOPS@bFP16的物理算力,搭配最大48GB内存与153.6GB/s的超高带宽,而典型功耗仅10W,相当于手机快充的功率。这一性能指标意味着,平板/PC、智能语音设备、机器人等智能移动终端无需依赖云端,即可高效运行7B到70B参数的本地大模型。

后摩漫界M50

吴强表示,端边侧AI的特点是,分散且极致。因此,对于端边端大模型的场景使能者,M50系列还采用原方案+AI的模式,适配X86、ARM等主流处理器架构,满足多元化边端需求。

在产品明确后,后摩智能的商业化也在快速铺开。吴强表示,目前他们已经有了多个标杆性的意向客户,包括联想的AI PC产品、讯飞听见的智能语音设备、以及中国移动的5G+AI落地。

在接近两个小时的访谈里,后摩智能的创始人吴强非常坦诚,与我们分享了他创立后摩智能的历程、袒露了他如何完成从科学家到创业者的惊险一跃、以及分享了他如何看待AI热潮下端侧芯片和存算一体的技术机遇。

以下为36氪与后摩智能创始人兼CEO吴强的对谈整理:

01. 痛苦转型,竟意外撞上大模型风口

36氪:后摩第一代产品更多是聚焦在智能驾驶的市场,现在更多是讲通用端边侧大模型的应用。从智能驾驶到AI PC这类消费终端的转型,背后有什么样的思考和策略?

吴强:从一开始创业,就确定用存算一体技术做更高效的AI芯片,这个方向一直没有变过。但是AI芯片到底应用在什么场景?这个我们一直在探索,中间也有改变。刚开始创业的时候,差不多在21年初,基于之前的背景和经验,选择了做智能驾驶芯片。当时看到,随着Tesla的“软件定义汽车”培养了用户心智,国内智驾有很大的市场机会。

但做了第一代产品后,2023年下半年就感觉到这条路有些走不通。一方面赛道很卷,巨头和先行者的格局逐渐形成,留给新入局者的机会越来越少。另外一方面,我们第一代产品定义有个很大的缺陷。

当时,为了体现存算一体的技术和能效优势,我们的一代芯片算力做得很大(256T物理算力,按照稀疏算力可以到512T),但是算力大就意味着成本高,这和23年智驾芯片市场需求是不符合的,23年下半年市场都在卷价格,讲智驾系统价格低至千元,讲L3永远不可能到来(一直L2+++++下去),不需要大算力。

所以我们那个算力太超前、太冗余了,更不用说,你作为一个新玩家,别人还要适配你的软件系统,就很难切入。我们也尝试想在二代产品里边降低算力,提升性价比,但是又感觉智驾芯片的入局时间窗口越来越窄,等二代产品出来市场窗口可能就错过了。

如果确定走不通,就需要改变。但改变是非常痛苦的一件事。一方面,当时二代智驾芯片产品已经研发做了一半,要放弃对研发同学来说是件非常惋惜痛苦的事情,前面的工作就白干了。我自己也很矛盾和痛苦,也担心,如果改变,会不会被业界看成不坚定,是逃兵。但是最后,生存的压力战胜了面子,我们还是果断决定要改变,要转型。

下一个问题是,转型做什么?从2023年开始,我就开始关注到大模型,并且和团队对大模型的技术和市场做了大量的调研。我们开始意识到,大模型属于既需要大算力又需要大带宽的应用,这个和存算一体的技术路线是契合的,因为存算一体解决的就是数据和计算的问题。

另外,大模型计算也在从云端往端边侧渗透,也许做相对通用的端边大模型计算是个契合后摩的机会。有了这个认知以后,我们在2024年初,就快速把第一代芯片调整了一版,推出M30,针对大模型做了一些裁剪和优化。

我们的第一次亮相是在24年初中国移动巴塞罗那展,当时我们用M30运行60亿参数的智谱大模型,发现效果还不错,给了我们很多的信心,我们股东中国移动也鼓励我们多探索通用的端边大模型计算。多方因素综合下来,我们就坚定了转型做通用端边大模型AI芯片这个方向。转型后团队非常努力辛苦,用了1年多的时间,推出了我们的M50。 

36氪:你们有几个意向客户,包括联想、讯飞听见和中国移动。你们未来会着重在往哪些场景去扩展?

吴强:我们做的是相对通用的端边大模型AI芯片。目前我们重点布局几个应用领域,一是平板和电脑这种消费终端类,大模型是生产力工具,是很有用的。

二是智能语音系统,大模型语音/会议这些也是我们重点布局的一个方面。三是运营商的边缘计算,5G+AI是一个趋势。中移当时投资了我们,5G+AI也是一个趋势,空间很大。

当然我们精力比较有限,先重点把这些弄好。其他的,只要是端边,只要对大模型有需要,对功耗敏感,都有可能是我们的客户,这个需要我们逐步地拓展。目前大的方向是消费终端、智能办公、智能工业,机器人这些领域。 

36氪:您提到您也跑市场,您觉得端侧芯片有什么样的市场特点?

吴强:成本敏感,功耗敏感,而且东西要小,不能是一张大卡。另外它对散热要求也很高,端侧的场景就是很极致。

36氪:您之前的研究领域是高能效比芯片,您现在创业也选择存算一体这个方向,正好存算一体又和大模型计算天然适配,在转型的时候又正好撞上了大模型的机会。我感觉,似乎您过去很多的经历,就是为了今天这一刻做准备。

吴强:是的,或许一切都是冥冥之中为了今天这一刻,国家和行业给了这次机会,我们也承接住了大模型带来的新机会。现在来看,我们算是转型早的,尽管当时感觉非常非常痛苦。我觉得就是做好布局,做好准备,等风来。

02. 存算一体:从冷板凳到百花齐放

36氪:存算一体技术很前沿,目前的共识和非共识有哪些?行业大概处于一个什么阶段?

吴强:存算一体这个技术方向,相比四年前我刚入局时有很大的变化。

第一,越来越多的主流AI芯片公司在谈存算一体,许多上市AI芯片公司或者独角兽公司,都在说要布局下一代芯片架构,存算一体,颠覆冯诺伊曼架构等等。四年前不是这样的,当时主流芯片公司里边只有一些存储公司比如三星半导体在谈论存算一体。

第二,国家和政府也开始重视存算一体,把存算一体和光电计算等看成是新一代芯片技术方向。近一年来,我们参加了多次国家发改委、工信部相关部门组织的闭门座谈。 

另外,现在许多投资机构都对存算一体有比较深的了解,不像四年前,存算一体是很小众的概念,只有少数的投资机构对存算一体有深的了解。  

我觉得存算一体对于AI计算的价值,已经逐渐成为一种共识。但是,存算一体怎么做,怎么产品化,现在行业里面还是处于一种探索的状态,大家对此的理解都不太一样。

比如,以前更多是做小算力的存算一体,现在更多是做大算力的存算一体。存算用的存储介质也有很多的非共识,Nor-flash、SRAM、DRAM、RRAM,都有。

总结起来,现在属于存算行业路线百花齐放,跑马圈地的阶段。关键在于,谁能推出一个真正好用的、能效比高,面效比高的产品。相较于其他友商,后摩聚焦在SRAM和DRAM的存算,做高精度大算力的存算。对于SRAM-CIM大算力存算,我们公司是做得最早的也是走的最远的。DRAM-PIM存算我们也布局有一年多了。

36氪:存算一体技术上有优势,但作为一个创新的架构,在产品化的过程中,都有哪些挑战?

吴强:在存算一体技术落地的道路上,我们已经实实在在地做了四年。存算一体技术从学术界走向产品,走向市场,中间有很大的鸿沟,其中最难的卡点有几项——

首先是电路设计方面。学术研究关注的是技术可行性,证明理论上可行。但是作为一个产品,电路设计上要有许多突破,做出产品级的设计来,去满足真实应用场景需要的大算力,高精度,可靠性等等。这个需要在已有学术研究的基础上,做许多在应用层面的设计创新。

第二是产品量产所面临的许多工程问题。芯片产品量产需要解决可测性问题,良率问题等等。这些都需要我们在现有传统EDA工具的基础上,去自行拓展,开发与存算一体相关的设计工具。四年下来我们摸索出一套相应的技术方案,包括MBIST/CBIST等等,并在实际流片中得到了验证。

再举个例子,存算一体的一大优点是面效比高,就是同等面积可以提供更大的算力,但是那么大计算密度也会带来许多工程问题,比如瞬间电流很大,造成电压降过大,这些都需要在芯片设计过程中想办法提前规避。过去四年了,我们趟过许多坑,也解决了许多的问题。回过头看,这些都是我们积累的宝贵财富。

第三是AI处理器架构设计和软件编译器的设计。存算一体是一种底层技术,对客户是无感知的。需要一个好的AI处理器架构和软件编译器,才能把存算一体的技术优势充分发挥和体现出来。

举个例子,像是盖房子,存算一体是你用了一种新型的砖,高科技的砖,但你需要好的房屋架构和控制系统才能把这种高科技砖的性能和优势发挥出来。翻译成芯片,这些就是我们积累下来的“天璇”IPU架构,以及“后摩大道”编译器工具链。

后摩智能“天璇”IPU架构

36氪:引进存算一体的AI计算单元,那这一单元和其他单元的协作负担会不会很大?软件部分需要做出大的改动吗?

吴强:其实不会。对于客户来说,上层的应用是一样的,都是PyTorch、和TensorFlow这些。起点是一样的,终点也是一样的,但是在中间的路径不一样,对于我们来说,我们的电路、AI处理器架构设计、编译器框架也需要作出改变。工作量在我们,对客户来说尽可能做到无感。

36氪:存算一体有对芯片先进制程的依赖吗?

吴强:反而会弱,因为存算一体意味着芯片进行数据搬运的时候能够更高效,搬运的次数变少了,对于芯片的先进制程的依赖是更弱的。

36氪:是否存在一个情况是,SOC厂商后续自己做外挂的NPU芯片,对你们进行降维打击?国内的AI芯片创业终局是什么,会不会走向被整合,被收购?

吴强:我觉得做SOC/CPU和做NPU各有各的市场,大家的能力栈和基因也不太一样。后摩擅长的是做AI计算以及相应的编译器工具链。必要的时候,我们也会做一些不太复杂的集成SOC,但那个不是公司的核心竞争力,更多的是做一个能够体现我们核心竞争力的载体。 

做SOC/CPU和做NPU/GPU的公司有时候也会相互越界,但谈不上降维打击,谁打击谁。并且越界起来也不是那么容易。2002年左右的时候,我在英特尔工作过,当时英特尔市值是差不多是2000亿美元,英伟达是几十亿上下,相差十几倍。英伟达曾经想做过手机SOC/CPU,但是放弃了,英特尔也在努力做GPU/NPU,但是到现在也还没有成功,说明大家各自还是有能力壁垒的。

NPU有没有可能被CPU/SOC给整合掉?这个取决于目标应用场景到底对AI计算的需求有多大,有多复杂?如果需求不大,那么就很有可能被集成到多功能、高集成度的SOC芯片中,变成集成iNPU。

但是,反过来,如果应用场景对AI计算性能有几乎无穷的需求,那独立NPU就会一直发展壮大。有点类似,英特尔的CPU里边一直有个iGPU,但是那么多年来,英伟达的独立GPU一直发展壮大,因为应用场景对GPU的性能要求几乎是无限的,新的性能出来后总能被消化掉。  

03. 从科学家到创业者,两次转变

36氪:地平线的余凯曾经有一句经典名言——“最好的战略是不赌”,您之前的交流中也反复提及“生存”二字,我感觉您身上好像也有一种不赌的气质,很务实。

吴强:之前在英特尔、AMD、FaceBook或者其他创业公司,我都或多或少经历过公司的生存危机,给我的经验教训是,只有技术炫酷是没用的,企业最关键的还是商业闭环。要活下来,才能真实持续地去做技术,活下来是后面一切的基础。当你看过了企业在生死边缘的情况,你就知道生存多么重要。

36氪:其实科学家创业非常难的一点是,如何完成科学家的身份到商人身份的转变,您这个转变就是当时发生的吗,还是后续自己创业之后发生的?

吴强:我觉得都有。科学家创业,因为是做技术出身,以前关注的是参加竞赛,发表论文这些,比较容易走入一个误区,只关注技术。但是你创业后才发现,光有技术的炫酷没用,没有客户,不能商业闭环,公司就没法生存下去。

所以,你要活下去,就需要商业落地,那这个时候就会逼着你去改变,很多科学家创业后的转变都是被逼的。

36氪:对于您来说这个转变会很痛苦吗?

吴强:还蛮艰难的。在以前的公司做技术,做高管,也有亲眼目睹过困难和转变,但那时候我不是当事人,感受不那么深。当自己真正创业的时候,感受就特别明显,20年底开始这段时间其实还挺好,我专心做技术,做产品。

但到22年下半年,资本市场变冷,美元资本回撤,不投中国的半导体了,就开始艰难了,开始有生存焦虑了。那段时间我感觉就像是在一个密闭的房间里面,空气逐渐在稀少,你要赶快尽快想办法,突破出去。从那个时候开始,我开始改变,走出技术男的舒适区,亲自帮着去融资,去跑客户,做个商人,为了生存,你就要放下身段,做必要的转变。

36氪:后摩的名字是什么深意,是后摩尔时代的意思吗?在大模型出来之后,你们的愿景有变化吗?

吴强:对,2020年底我刚刚开始创业的时候,也是国产化替代的高峰期,当时我朴素的想法是,不仅仅要做国产替代,还要做国产创新,要用一些创新的技术架构才可能和国际巨头竞争,才有可能弯道超车。

我当时也在看一些新的创新架构,包括存算一体、光电、量子计算等等,最后选择了存算一体,一方面是我的创始团队有存算一体的背景,另外一方面,我也觉得这也是后摩尔时代新技术里边最接近落地的一个方向。

后摩漫界M50系列产品

在大模型出来之后,也没有什么大的调整,我们是希望用未来50年的新技术,用存算一体打造一个极致效率的芯片,这是我们的愿景和使命,我不仅仅希望做一个国内先进的东西,而是希望未来,也能去国际上和硅谷的公司PK一下。

36氪:创业4年多以来,您有什么坚定不移的判断?

吴强:正如我的微信签名,创业就是要勇敢穿越混沌。

+1
16

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业