单卡算力超过1000T,存算一体进攻AI大算力芯片赛道

36氪VClub·2023年09月19日 18:52
新的AI应用场景会对芯片提出不同需求,这将会是人工智能芯片的机会所在。

“AI大模型”无疑是今年最热的话题。

2023 年 1 月末,ChatGPT 的月活用户在两个月内突破 1 亿,成为了史上用户增长速度最快的消费级应用程序。此后,中国企业百舸争流,纷纷开启大模型创业。

前微软全球副总裁、百度COO、奇迹创坛创始人陆奇曾说:“AI是未来10到20年推动社会进步最重要的因素。从现在开始,不论工作还是创业,请确保自己跟AI有关。”

仅仅过去半年多,百度文心一言、智谱AI、 百川智能、抖音云雀、商汤日日新等8家企业/机构的大模型便在8月31日正式上线,开始面向公众提供服务。自此,中国的大模型群雄逐鹿战正式拉开序幕。

超级AI的能力边界在一次次迭代中不断扩展,企业和个人使用量持续增多,全世界在人工智能上的投入也将越来越大,但同时,这一切都给算力供应带来了更大的挑战。

生成式AI的算力消耗巨大,并且仍在加速狂飙。据中国信通院等机构的调研数据,仅ChatGPT的单日运营算力消耗就已占2021年整个中国智能算力总规模的3%。中国信通院曾测算,2021年,全球计算设备算力总规模将达到615EFLOPS(每秒一百京次(=10^18)浮点运算);到2025年,全球算力规模将达6.8 ZFLOPS(每秒十万京次(=10^21)的浮点运算),与2020年相比提升30倍;到2030年,有望增至56ZFLOPS。

不难发现,算力需求翻倍时间在明显缩短。大模型的出现带来了新的算力增长趋势,平均时间仅为9.9个月。这也意味着,市场对算力增长的需求越来越迫切。

此外,AI算力的使用成本同样巨大。在2023年世界半导体大会(WSCE)上,AI大算力芯片公司亿铸科技在演讲中表示:“假设目前的ChatGPT3平均每张H100每秒可以生成6个tokens(FP16,参数350GB),在不考虑级联或者模型稀疏化的前提下,假设每人每天提5个问题,每个问题会和GPT交互5次,每次消耗30个tokens,那么每人每天会消耗750个tokens,如果每天有1亿人在线使用查询,就需要约15万颗H100芯片,仅仅H100卡的硬件成本会达到50亿美元以上。如果计算系统成本的话,100亿美元也很难覆盖。”

大算力的需求激增以及高企的使用成本都无一不刺激着AI芯片朝着更高算力、更低功耗的方向发展。

但另一个残酷的现实是,过去数十年间,通过工艺制程的提升改善芯片算力问题的“老办法”正在逐步失效,摩尔定律正在走向物理极限,HBM、3D DRAM、更好的互联等传统“解法”也“治标不治本”,晶体管微缩越来越难,提升算力性能兼具降低功耗这条路越走越艰辛。

此外,现有主流AI芯片架构将难以满足日后AI发展的需求,GPGPU受制于高功耗与低算力利用率,ASIC芯片的弱通用性难以满足下游不断涌现的应用需求,同时传统存算分离的架构也难以突破数据传输的功耗和数据搬运速度瓶颈。

越来越多行业人士认识到,新的计算架构或许才是算力破局的关键。

  • 存算一体,突破“存储墙”的算力困境

在AI发展历史上,曾有两次“圣杯时刻”。

一次发生在2012年10月,卷积神经网络(CNN)算法凭借比人眼识别更低的错误率,打开了计算机视觉的应用盛世;第二次则是AlphaGo,2016年3月,DeepMind研发的AI程序战胜世界围棋冠军李世石,让全世界惊叹于“人工智能”的实力。

这两次“圣杯时刻”的幕后,都有芯片创新的身影。适配通用算法的英伟达GPGPU(通用图形处理单元)芯片,以及走专业化路线谷歌TPU(张量处理单元)芯片都在这两次大发展中大放异彩。

但不论是哪一种路线,本质上都没有突破“存储墙”、“能耗墙”和“编译墙”的难题。过去,凭借先进制程不断突破,这三座“大山”的弊病还能通过快速提升的算力来弥补。而在芯片先进制程升级,无限贴近性能极限、技术极限、成本极限的当下,“三道墙”的问题日益凸显。

在传统冯·诺依曼架构下,由于“存储墙”的存在,数据需要频繁搬运——在存储、计算单元间来回转移,导致严重的功耗损失,撞到“能耗墙”上。

英特尔的研究表明,当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。另有统计表明,在大算力的AI应用中,数据搬运操作消耗90%的时间和功耗,数据搬运的功耗是运算的650倍。

“编译墙”则隐于二者之中,极短时间下的大量数据搬运使得编译器无法在静态可预测的情况下对算子、函数、程序或者网络做整体的优化,手动优化又消耗了大量时间。

大模型时代来临,未来模型对于芯片算力的需求将会要突破1000TOPS,更大量的数据计算,无疑进一步放大了“三道墙”的影响。

由此,“存算一体”芯片架构的优越性更为明显,存算一体架构将所有的计算都放在存储器内实现,从根本上消除了因存算分离带来的“存储墙”问题,提升了数据传输和处理的速度,大大降低功耗。

同时,由于计算编程模型被降低,编译器也可以感知每一层的数据状态,编译效率也将大幅度提升,“编译墙”的问题也得到了解决。AMD、特斯拉、三星、阿里巴巴等公司都曾在公开场合表示,下一代技术的储备和演进的方向是在存算一体技术架构中寻找新的发展动能。

例如,阿里达摩院就曾表示,相比传统CPU计算系统,存算一体芯片的性能可以提升10倍以上,能效提升超过300倍。

在中国,“存算一体”也被众多公司视为AI芯片弯道超车的机会。亿铸科技、知存科技、苹芯科技、九天睿芯等十余家初创公司都采用存算一体架构,但各家方向略有不同。

亿铸科技选择了专注AI大算力。目前,亿铸科技原型技术验证(POC)芯片已回片,并成功点亮且功能验证完成。该 POC 是首颗基于 ReRAM 的面向数据中心、云计算、自动驾驶等场景的存算一体芯片,能效比超过预期表现,达到同等工艺下传统架构AI算力芯片的20倍以上,进一步验证了公司的技术实力和市场潜力。

  • 亿铸科技的新思路

面向大算力场景,亿铸科技提出了极具创新的芯片设计方案。

首先是在存储介质方面,亿铸科技选择了新型存储器ReRAM(RRAM,阻变存储器)。

ReRAM基于忆阻器原理设计,通过“记忆”电流阻值变化来存储信息的运行方式,类似于人脑神经元突触的运行方式,更能够满足神经形态计算等应用对能耗、性能和存储密度的要求。对比其他新型存储器,ReRAM在读写速度、密度、微缩性、成本等方面具备明显优势。

ReRAM的单元面积极小,读写速度是NAND FLASH的1000倍,同时功耗下降15倍,兼容CMOS工艺,工艺成熟,可量产出货。

其次,亿铸创新性地采用了全数字化技术路径。

一般来说,芯片中模数和数模 (AD/DA) 转换的电路设计会占据芯片整体70%面积和80%以上的功耗,这也正是存算一体芯片在精度、能效比、性能和算力的瓶颈所在。

亿铸科技的全数字存算一体架构,无须AD/DA(数模转换)部分,将芯片的面积和能耗用于数据计算本身,从而实现大算力和高精度的多维度满足,真正使得存算一体架构在大算力AI推理计算上落地。

不仅如此,亿铸科技还提出了“存算一体超异构”这一系统级创新理念,即以存算一体(CIM)AI加速计算单元为核心,以统一ISA指令集和架构对不同的计算单元进行异构集成和系统优化,从而实现更大的AI算力及更高的能效比,并提供了一个更易于编程和更为通用的应用生态,为大模型时代AI大算力芯片换道发展提供全新思路。

亿铸科技的技术路线与应用创新是超前的。这一切都根植于亿铸科技团队在产、学、研各界的深厚积淀。

亿铸科技带头人熊大鹏博士在中美有近30年的芯片行业经验,曾任世界著名AI芯片公司Wave Computing中国区总经理;带领Apexone Micro的芯片产品线击败AWAGO夺得全球市场第二名;也曾作为ADC Telecomm最年轻的资深技术经理和大产品线经理,带领70多人的核心研发团队成为公司明星团队,贡献了数亿美元年度销售额。

2015年,熊大鹏便开始用GPU支持AI算法的芯片规划和设计落地,基于他对GPU深刻的认识,以及对不同应用场景需求和痛点的了解,让亿铸科技更能站在用户的角度思考。

亿铸科技的研发团队来自国内外多家知名芯片企业和多所国内外著名大学,比如斯坦福、哈佛大学、上海交大、复旦大学等,团队在顶尖学术和产业价值的峰会上发表论文达40+篇,超过国内其他同类赛道团队的顶会论文总和。

此外,亿铸科技拥有全链条的芯片团队建制。公司的核心设计团队完整覆盖器件、芯片架构、SoC设计、软件系统及AI算法等全部技术领域,这让亿铸科技具备充足的人才,去解决系统性难题。

虽然团队成员有着丰富的研发经验,但基于存算一体架构做大算力计算这件事本就处于研究起步阶段,亿铸科技面临的挑战并没有定性的答案,需要团队克服很多难关。

例如,为了实现浮点计算,亿铸科技团队探索了多种不同的解决方案,需兼顾能效比合理,工程的可行性和落地性等各类问题。“探讨难度即使不到一篇博士论文级别,也是一个相当复杂的研究课题了。”亿铸科技创始人熊大鹏告诉36氪。

经过不懈努力,亿铸科技团队终于攻克了重重挑战,寻找出一条新路。而破解各个问题的过程,也是亿铸科技团队为行业提出新解法的过程。

  • 向着大模型进军

大模型对算力需求庞大,目前大模型训练主要采用的是英伟达的A100、H100产品。马斯克曾指出,GPT-5可能需要3万~5万张H100,摩根士丹利也曾表示训练GPT-5需要2.5W张GPU。但H100产能有限,且存在价格昂贵、购买艰难和到货时间不稳定等问题。

英伟达的H100也因此成为硬通货,AI算力公司CoreWeave甚至用英伟达H100来抵押贷款了165亿,以建设更多的数据中心,英伟达显卡堪称科技界的“黄金”。

虽然目前行业内几乎仅有英伟达一个选择方案,但这是国内的云厂商、数据公司等并不希望看到的。如为了满足高效运行人工智能系统的需要,微软已将与AMD的合作拓展到人工智能处理器领域。

市调机构Gartner调查称,用于执行AI工作负载的芯片市场正以每年20%以上的速度增长,到2024年达到671亿美元,而到2027年将达到超千亿美元。

随着强AI(大模型)在一定范围内替代弱AI(小模型),催生新的AI应用场景,不同的AI应用场景会对芯片硬件提出不同的需求。这也将会是人工智能芯片公司的机会所在。

多位行业人士曾告诉36氪,不同于以往的人工智能算法,大模型所需算法对硬件有着特殊需求,因此,传统的人工智能处理器芯片在运行大模型算法的效率会存在偏差。

亿铸科技提出“存算一体超异构”方案,便是希望能提高芯片对不同场景算法需求的支持力度。

熊大鹏告诉36氪:“为了更好提高芯片的算力和性能,我们首创了存算一体超异构架构,结合chiplet、先进封装等技术方向,让大模型能更好地在各种应用场景落地。”

亿铸科技的另一大优势在于,可以提供更好的可编程性和更为通用的应用生态。

亿铸科技的存算一体架构,大幅减少了工程师们对产品进行平台迁移时,在算子层面的开发量。

“以往数据从存储单元搬运到计算单元时,需要通过手动调优算子来保证动态情况下数据不发生堵塞。而亿铸选择的存算一体架构无须大量搬运数据,易于通过工具在编译器层面实现执行代码自动优化,通过‘一键迁移’工具就可以实现平台迁移,减轻了软件开发量。”熊大鹏告诉36氪。

亿铸科技预测,强AI(大模型)将会以IAAS(Intelligence As A Service) 的产品形式赋能千行百业,极高的AI研发投入将会进一步带来“通用智能寡头”的格局,但其泛化性也将让市场迎来“垂直行业通用智能落地百花齐发”的格局。

随着芯片硬件技术的日益成熟,除英伟达以外,市场上会出现更多可供行业玩家选择的产品方案。

而伴随着大模型竞争进入下半场,成本的重要性会愈发受到玩家的重视,AI大算力芯片的竞争核心也会逐渐从算力向“能效比、算力密度、性价比、算力发展空间”等维度过渡。

亿铸科技认为,在未来,谁能“破除存储墙、回归阿姆达尔定律”,谁就能够赢得AI大算力芯片市场。

  • 结语

“成功点亮,对于我们来说还只是一个开始。”熊大鹏说,“只有真参数、真落地才能让业界消除怀疑的态度。”

而伴随着大模型训练和推理需求的日益增长,以及各行各业对大模型应用的需求逐步细化,市场迫切需要更具针对性的芯片产品。

在芯片的万亿市场中,永远不可能只有英伟达一个玩家,如何选择属于自己的方向和路径,是当下所有人工智能芯片公司需要共同面临的问题。

未来,亿铸科技也将进行进一步的产品性能测试,跑通在小模型上的应用,再拓展到更多大算力场景中。

 


+1
8

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

从歪嘴战神到学猫叫的腾格尔,网文营销还能怎么卷?

2023-09-19

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业