推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

【专家纪要】存算一体与云边端一体化行业趋势交流

   日期:2026-04-20 09:51:44     来源:网络整理    作者:本站编辑    评论:0    
【专家纪要】存算一体与云边端一体化行业趋势交流

存算一体芯片通过集成存储与计算单元,旨在突破冯·诺依曼瓶颈,实现降本增效。当前以SRAM和MRAM为主要技术路线,分别侧重推理速度与低成本、长寿命。该技术主要面向AI推理市场,尤其是行业智能体部署。中美研发进度接近,中国在行业应用及部分前沿技术上可能领先,有望通过满足普惠算力需求实现差异化竞争。

总结

本次会议围绕存算一体芯片的技术路径、发展现状、挑战与未来前景进行了深入探讨。核心观点总结如下:

1.技术定位与优势:存算一体被视为突破冯·诺依曼瓶颈、实现降本增效的下一代计算芯片形态。其核心优势在于将存储与计算单元集成在同一芯片上,从而大幅降低功耗(预计可降低50%以上)和硬件成本(目标售价低于5万元,较高端GPU打对折),并减少对高带宽显存和先进制程的依赖。
2.发展驱动力:当前GPU架构存在算力冗余、功耗高、成本高昂(显存成本占芯片30%以上)等问题,无法满足中小用户对“普惠算力”的需求。AI推理场景的爆发(预计未来将占芯片需求的80%)催生了专用化、低成本芯片的强烈需求,这是存算一体发展的核心动力。
3.主要技术路线与现状
SRAM路线:以被英伟达收购的Groq为代表。优势是推理速度极快(可达GPU的5-10倍),适合对实时性要求极高的场景。劣势是存储容量小,导致部署大模型时硬件成本反而比GPU高10-15倍,且目前多采用成熟制程。
MRAM路线:被视为更有前景的方向。优势是数据非易失(断电不丢失)、寿命极长、抗辐射、功耗低,适合太空计算等特殊场景。劣势是当前存储容量更小,技术成熟度和成本挑战更大
其他路线:DRAM路线目前走通可能性低;ReRAM是潜在选项;量子专用计算也可被广义划入存算一体范畴。
4.商业化挑战与进展:
核心瓶颈:受底层存储材料物理特性限制,单芯片存储容量小,导致部署成本高。此外,软件工具链生态适配芯片间高速互联也是主要挑战。
进展:英伟达收购Groq后,通过融入CUDA生态和复用NVLink等技术,正着力解决软件和互联问题。采用先进制程和先进封装有望提升存储密度和算力,从而降低成本。
中美对比:中美在存算一体研发上起步时间相差不大,预计产品推出时间差在半年内。中国在行业智能体应用、光互联/光交换等前沿技术上可能领先美国在CUDA软件生态和成熟互联方案上仍有优势。中国芯片更可能围绕国产大模型(如DeepSeek、通义千问)构建生态。
5.市场前景与格局:
存算一体芯片主要瞄准推理市场,尤其是海量行业智能体(Agent)的部署需求。训练市场仍将由GPU等通用芯片主导。
未来可能出现多种技术路线(SRAM、MRAM等)并存,满足不同场景(要速度、要成本、要可靠性)的需求。
对于中国,存算一体是实现算力普惠、避开先进制程和高端GPU生态垄断的重要路径。通过满足最大公约数用户的低成本推理需求,并在丰富的行业应用中迭代,有望实现差异化竞争力。

会议实录:

主持人:近年来,随着AI算力和存储需求的快速发展,整个AI产业链对算力的效能和成本都提出了更高要求。因此,存算一体作为一种旨在降本增效、突破冯·诺依曼瓶颈的技术路径,受到越来越多关注。目前存算一体有哪些优点?在我国及全球的推进进度如何?今天我们非常荣幸邀请到一位行业专家与大家交流。

专家:好的。其实存算一体受到集中关注是在前些天英伟达的GTC大会之后。在此之前,国内只有零星几家企业在朝这个方向努力,但大部分做的是“存”而不是“算”,因为存算一体有较高的技术门槛。另外,在降本方面,受限于材料本身的物理特性,目前技术难度也很高。

但是,存算一体这四个字,更接近于计算芯片本来的样子。从我观察AI芯片十几年的发展趋势来看,存算一体才是计算芯片的终极形态。像GPU这种中间计算、四周放高带宽显存的架构,其实是一种过渡状态。这也导致了现在高端计算芯片被高带宽显存“卡脖子”,某种程度上英伟达是在给三星、海力士、美光打工。一块GPU芯片里,光存储部分就占到成本的30%甚至更高,这个状态是不正常的。

从成本角度、先进制程导致的流片成本大幅攀升、以及广大中小用户依然觉得算力太贵这些供需矛盾来看,普惠算力芯片需要降价、降功耗,还要保证一定的计算速度,这是明确的需求趋势。沿着这个需求,芯片的专用化发展成为必然。因为GPU在很多行业的推理场景中,算力是冗余的。用户花了十几万买一张卡,上千瓦的功耗,真正用于推理的算力可能只有60%,剩下40%闲置,既多花了采购成本,也承担了更高的能耗成本。

所以,我们看到前一段时间GTC大会上,英伟达深度合作/收购了一家做存算一体的芯片公司Groq。这只是英伟达从通用芯片向专用芯片丰富产品线的第一步,接下来还会有第二步、第三步。同时,英伟达也在密集关注光交换、光互联、光计算方向的初创公司和技术。

从目前通用芯片的市场价格和功耗中位数来看,存算一体这类专用芯片,未来的降价空间至少有50%,功耗下降也至少是50%甚至更多。现在主流的800瓦芯片,存算一体架构可能把功耗压到100瓦以下。

对于存算一体芯片,主要是底层物理材料不同,导致了不同的技术路线。以美国的Groq为代表,其底层存储用的是SRAM介质。但SRAM受限于物理存储容量,目前只有几百兆,比高带宽显存小很多,需要很多块拼起来才能跑几十B大小模型的推理。因此,同样部署70B参数的模型推理,基于SRAM的存算一体产品,其部署成本其实比GPU要高10-15倍,这是一个很恐怖的数字。

这看起来是一个悖论,但实际上,Groq这种基于SRAM的存算一体芯片有特殊的应用场景。它做成的板卡集群在跑模型推理时,速度是GPU的至少5倍,甚至在5-10倍之间。这个“快”是很多行业客户的刚需。比如我们日常使用大模型时,输入问题条件越多,等待答案的时间就越长。对于很多对速度有极致要求的用户来说,GPU太慢了。Groq的“快”贴合了这部分用户的需求,这部分需求量几乎能占到推理需求的将近50%。

所以,英伟达第一步收购基于SRAM的Groq,补齐了其GPU在模型推理速度上的短板。另一个短板是如何大规模降低物理部署成本和使用成本,这就涉及到其他材料的存算一体芯片,主要有DRAM和MRAM。

目前来看,DRAM这条路基本上不太可能走通。剩下一条有前景的路线就是MRAM。MRAM目前不是市场主流,但是未来发展的趋势。因为MRAM的材料、存储原理以及在之上做计算单元的分布方式,从硬件材料特性来看,最接近于物理器件本身的特性。同时,MRAM有一个巨大优势:即使断电,存储的信息也永远不会丢失。而且从原理上讲,这种芯片不会损坏,抗辐射能力强,是可以“上天”的,贴合了太空算力的大方向。它的功耗也比较低。

现阶段以及未来两三年能看到有希望落地的,就是Groq的SRAM,以及今年或明年会冒出来的基于MRAM的存算一体芯片。从存储容量看,MRAM比SRAM本质上还要小,受限于材料本身和目前尚未采用先进制程(如7nm、6nm、5nm)。可能要等到明年,才会有初创公司基于MRAM和先进制程流片出来。

同样部署70B模型,MRAM芯片所需的数量和物理成本在某种程度上跟SRAM类似,硬件部署成本都会高一些。这个成本一方面跟材料本身有关,另一方面跟芯片间的高速互联关系很大。如果高速互联能用上光交换、光互联甚至光电共封装技术,并在明年开始商用,就能在一定程度上降低存算一体集群的部署成本。

同时,以Groq为例,它成立较早(2017年),当时用的是十几纳米的成熟制程,其存储容量和计算能力是几年前的水平。如果基于先进制程(如8nm、7nm)重新设计,就有希望把单芯片算力翻倍甚至更多,存储密度也会提升。这样,原来比GPU硬件成本高10-15倍的情况就会下降,有可能变成GPU部署成本的5倍,从而实现成本的降低。

基于MRAM的存算一体芯片在跑大模型推理时,除了速度快,在整体芯片功耗和实际成本上有望比SRAM压得更低。我作为从业者,比较乐观地相信,未来存算一体板卡的售价能够压到5万元以下,比英伟达的H200、A100等芯片至少打对折,功耗也更低。

从整个算力结构来看,英伟达的GPU可以放在云端跑大模型训练。在端侧推理场景,如果用户对速度有要求,就用Groq的SRAM芯片集群;如果对成本敏感、对速度要求不高,就用MRAM的存算一体芯片。基于DRAM的优化版本也可能是方向,但目前没看到实质性突破。

从物理成本上看,高带宽显存在一颗大芯片里成本占30%,而存算一体不存在这个瓶颈,它将存和算放在同一颗芯片面积上(下面是存,上面是算)。但SRAM和MRAM的存算一体芯片有一个天生缺陷:它们只能做推理,做不了训练。因为MRAM介质在数据写入时速度比GPU和SRAM慢很多,这注定它只能做推理。SRAM则有希望训练和推理都做。

在存算一体芯片之外,还会有其他架构的芯片,比如量子专用芯片。在未来2-3年或3-5年,量子专用计算很有希望落地,它严格意义上也可以划到存算一体的大范畴里。

至于近存计算、存算融合等,从广义上讲都属于存算一体,但近存计算严格意义上不算,因为存和算还有一点距离。真正的存算一体一定是放在同一颗芯片上,计算时直接调用下面的存储,本质上实现了存算合一。

从原理上讲,基于MRAM主要是利用电子自旋来实现0和1(向上是0,向下是1),这与传统硅基芯片基于电子流动的0和1有区别。一个是基于电子,一个是基于物理材料的隧穿效应。电子流动需要更高功耗,而电子自旋不需要太高电流,这是其功耗低的原因。

从落地来看,存算一体芯片真正的商用在今年还看不到大规模展开。在英伟达收购Groq之前,Groq在中东计划部署千卡级别的集群,但没看到真正项目落地,因为物理部署成本太高导致事情搁置。

被英伟达收购后,情况会有几个好的变化:一是原来不友好的软件生态被纳入CUDA体系,大大提升了芯片的通用性和易用性;二是芯片间的互联可以复用英伟达的NVLink、NV Switch以及未来的光交换技术。

放到国内来看,目前我们国家基于SRAM的存算一体芯片公司很少,处于萌芽阶段,今年能看到一些初创公司获得融资。基于MRAM的,有零星一两家企业在做,但产品还没出来,可能明年才能实现少量行业客户的POC验证交付。

不管是国内还是美国,在存算一体芯片的技术积累和研发起始时间上相差并不太久。预计明年中美两国的存算一体芯片会前后脚出来,时间差不会超过半年,只是技术路径可能有所不同。国内的芯片可能更多是适配国内几个主流通用大模型(如DeepSeek、通义千问)及其衍生的行业应用生态。

从未来市场空间看,以存算一体为代表的低成本、不依赖先进制程、使用成本低、寿命长的端侧推理芯片,市场空间很大。特别是随着各种行业智能体(Agent)的爆发,会伴随推理芯片需求量的猛增。预计三年或五年后,推理芯片将占到所有训练和推理芯片需求的80%甚至更高。也就是说,接近八成的用户需要买的是比英伟达GPU更便宜、功耗更低、维护和使用成本更低的推理侧专用芯片。只有少数互联网大厂和独立大模型研发厂商在做模型训练时,还会用到高功耗、依赖先进制程的GPU类通用芯片。因此,存算一体、量子专用计算、NPU或其他AIC专用架构的行业芯片,市场前景会非常好。

主持人:非常感谢专家的详细介绍。我先问两个问题:第一,从商业化角度看,目前存算一体芯片的主要难点在哪里?第二,如果从每瓦输出token的效率来看,国产芯片水平能达到Groq的水平吗?

专家:目前的主要瓶颈在于存算一体底层存储材料本身的特性。受材料特性限制,存储容量上不来,特别是相比高带宽存储,容量低很多。容量直接关系到部署模型时能否放下参数,放不下就需要更多芯片,导致成本反而比GPU更高。这是最大的瓶颈。

另外,不管是英伟达与Groq的合作,还是国内的企业,芯片本身有难度,但更多的工作量或者说麻烦是在软件端,即工具链侧。需要去适配主流的开发框架和算子,无论是CUDA生态还是华为的CANN生态,这需要时间、投入和成本,也是一个大瓶颈。

还有一个瓶颈是芯片间的互联。这有两种方式:芯片厂商自研(难度非常高)或找外部合作伙伴。但对于合作伙伴来说,存算一体芯片的物理架构和器件特性与传统硅基芯片不同,通信协议、IP接口等都不一样,意味着互联芯片厂家也要做较大改变来配合,这也是一个瓶颈。

关于第二个问题,在性价比上,中美目前没有一个大概的数字可以拿出来对比,因为产品尚未真正商用,缺乏参照物。但能看到一个趋势:在行业智能体(如生物医药、智能交通、智慧城市)的应用侧,中国是超过美国的,我们在金融、政府治理、生物医药等行业做得更快。所以在行业部署成本上,中国有希望在性价比上超过美国。

从存算一体芯片研发时间、落地及生态优势上看,英伟达体系有开发侧的生态优势,在硬件架构和生态复用(网络、光电一体、CPU)上有一定优势。但硬件优势相对小一些,因为国内有像华为带头做出的超节点架构(包含自研ARM CPU、计算芯片、网络、存储等全套方案),其他厂商可以借鉴。某种程度上,英伟达下一代的“费曼”架构就有抄华为作业的影子。在硬件侧,中国的存算一体芯片未必比美国差,甚至在超节点侧可能略微领先。

更多的差距,一个是在生态上,另一个是在行业应用的落地上。从芯片供应链制程来看,存算一体芯片对先进制程的依赖度较低,它并不需要台积电2纳米、1点几纳米这样的尖端制程,7nm、6nm、5nm对它来说已经是很好的配置了。所以在供应链侧,大家的差别并没有太大,国内在相对成熟制程上,除了良率区别,其他区别可能不大。

主持人:再问两个问题:第一,目前我们国家有哪些主要企业参与了存算一体芯片的设计与代工?第二,国产存算一体芯片有可能基于NPU等不同协议的处理器吗?

专家:国内这方面的初创企业确实不多。我知道的有前寒武纪CTO梁军先生牵头成立的一家初创公司(技术路线往存算一体走)。杭州也有一家三个字名字的初创企业,拿到了兆易创新的投资,也在做存算一体。还有以北大物理系或北大系为背景的两家初创企业也在做。代工方面,华虹、中芯国际完全有能力做存算一体芯片的代工。

关于第二个问题,Groq的底层是SRAM,跟GPU或其他PU关系不大。对于国内来说,华为的NPU、百度的昆仑芯(ASIC架构)、燧原科技(ASIC架构)、寒武纪等,这些还是遵循以GPU产品设计路线来做的,即中间是计算单元,旁边需要高带宽的显存缓存。它们自身无法存储数据,所以是“高带宽显存+计算芯片”的组合。因此,NPU、GPU或其他ASIC架构的芯片是做不到存算一体的。必须在能够做“存”的介质(如DRAM、SRAM、MRAM)上直接进行计算才行。

主持人:最后补充一个问题:您感觉存算一体芯片算是我们国家有望在AI领域实现弯道超车的细分赛道吗?

专家:好问题。存算一体,我能看到的其实不算是严格意义上的“弯道超车”,更可能是通过一种区别于被英伟达定义的GPU架构、以及对先进制程依赖的路线,我们能够实现不依赖那一整套路线。从低成本、相对成熟制程、对高带宽显存无依赖、低功耗等特点切入,更切合中小用户(最大公约数用户)的需求场景。

我们国内的最大优势,就是能用更高的性价比去满足最大数量用户的模型推理需求,同时叠加我们在行业智能体侧领先美国的趋势。那么在各个行业的专用存算一体芯片领域,我们在性价比、易用性、灵活性上都有可能赶上甚至超过美国。

但是,在依赖先进制程、能做模型训练的那一侧,我们依旧会跟英伟达有一定差距。能够弥补差距的是类似华为昇腾910那样的全新架构和超节点设计,这是所谓在大芯片上弯道超车的方向。

在芯片研发时间及底层材料选择上,我不认为英伟达选择的SRAM路线是特别好的。我认为英伟达是不得已找到了Groq,因为他在众多存算一体公司里找不到更好的了。接下来英伟达一定还会找第二个“Groq”,因为存算一体要满足的刚需一个是“快”,一个是“低成本”。低成本现在是较大瓶颈,“快”已经可以做到。所以英伟达需要找另一个“Groq”来弥补基于SRAM成本高的问题。

对于国内来说,情况也类似。可能有基于MRAM的,也有基于SRAM在做的,甚至有针对DRAM做进一步挖掘的,不排除会有更新的底层计算架构设计出来。在这一侧,至少会有两种甚至三种存算一体架构并存,共同把芯片在成本和推理速度上做优化。

中美相比,有点像“东方不亮西方亮”。英伟达最先做出来的是SRAM,可能晚点做MRAM;国内可能比较早基于MRAM研究和开发,晚点再做SRAM。略有区别,但整个目标是一致的,就是“算力普惠”,让芯片不再那么贵,让老百姓、中小用户和个人用户能用得起。

主持人:谢谢专家。会议助理,麻烦播报一下提问方式。

(提问环节)

提问者1(电子分析师):专家好,请问未来英伟达如果找其他标的做专用芯片,有可能用ReRAM或MRAM吗?为什么可能是SRAM或MRAM?

专家:目前来看,ReRAM的可能性略高一些。如果排序,第一是已经出来的SRAM,往后是MRAM,再往后是ReRAM,第四才是DRAM。我个人预测英伟达不排除在接下来时间里,去收购美国另外做MRAM的公司,或进行深度战略合作。另一个可能的技术路线就是ReRAM。首选是MRAM,其次是ReRAM。

因为MRAM的物理特性有优势:一是数据非易失性,断电永不丢失;二是材料不会坏,寿命长;三是抗辐射,可用于卫星、太空。所以从物理特性看,MRAM是接下来的热点。美国也有两家初创企业在做MRAM产品,但目前单颗粒存储容量比SRAM还小,所以在跑大模型推理时,技术成熟度和部署成本比SRAM还高,这是最大瓶颈。

如果英伟达能将相对先进的制程与MRAM或SRAM结合,进行全新设计,是有希望把单颗粒存储量提上来的,或者通过3D堆叠等先进封装技术做到。从产品形态发展看,观察英伟达要出来的“费曼”架构,它很可能把多种芯片封装到一起,比如最下面是存算芯片,上面是GPU,旁边直接放光电共封装,用这种极端方式实现算力特点的全打通(训推一体+急速推理)。这对国内也是一个启发和参考,不排除未来会把SRAM、MRAM、ReRAM三种形态的芯片封装在一起。所以,我认为英伟达接下来要补的就是MRAM和ReRAM。

提问者1:谢谢。另一个问题,关于Scale up(纵向扩展),国内发展挺快,能否大致介绍目前水平?

专家:在芯片间互联方向上,国内在新技术的出现和应用上,我认为不比美国晚,甚至更快。比如准备在香港上市的上海曦智,做光交换、光互联乃至光计算,其光互联和光交换已有实际案例在上海落地。而英伟达的光交换和光互联目前还没有在实际项目上落地。所以,在Scale up的前沿技术(光电直联、光互联、光交换)上,国内相对领先。

但在光互联/光交换之下,基于传统高速网卡的卡间互联,以及基于私有协议(类似NVLink)的芯片卡互联,我们比英伟达要落后。英伟达早先收购了Mellanox,有了高速网卡(如400G、800G的InfiniBand)。对于国内很多算力中心或服务器厂商,在交付千卡、万卡集群时,最快的网络方案就是买英伟达的InfiniBand整套方案。慢一点的是基于RoCE协议的自研高速网卡(有200G、400G,最快可能到800G但成本太高未大规模铺开)。在传输速度上,RoCE协议网卡及各厂商自研的私有协议,还是比英伟达要慢。

但在架构设计上,国内做了一些创新,比如华为的超节点,它绕开CPU,在GPU之间完成了全新的通信架构设计,从软件和通讯链路上做了新设计。从这个角度讲,我们跟英伟达类似,甚至走得更快一步。总结就是:在传统的Scale up和Scale out上,我们比美国差一些;但在全新的计算服务器内通信架构设计上,我们更新、优化得更好;在前沿的光交换、光互联技术上,我们比美国做得更快;再往前看的光电共封装(将光互联/光交换直接封装在计算芯片旁边),国内也比英伟达略快一点点,但时间差不大,可能就半年左右。

提问者2(线上):请问目前在哪些领域,AIC芯片需求比较旺盛?

专家:专用芯片(AIC)其实是在DeepSeek等模型出来之后,才真正“活过来”的。在2024年上半年之前,专用芯片面对“百模大战”中基于CUDA生态衍生出的各种大模型,根本做不到适配,几乎卖不掉或用户不会用。大家都等着买英伟达的A100、A800。

但到了DeepSeek、通义千问、MiniMax等真正能在行业里干活的国产大模型出现后,情况变了。这些模型进入政府、医疗、教育、金融等行业面对用户需求时,专用架构的AIC芯片只需要做到适配DeepSeek或通义千问这一个模型即可,不用适配那么多。行业用户只用一个模型,他们可以用更少的钱购买基于AIC专用芯片的DeepSeek一体机或千问一体机。

基于这种需求背景,众多国内专用架构芯片公司的产品一下活过来了,比如华为、寒武纪、百度昆仑芯等。在2024年下半年,特别是2025年,他们芯片上搭载的DeepSeek一体机卖得很好。

所以,回答您的问题:专用架构芯片现在在交通、能源(石油石化天然气)、政府委办局、教育、科研、生物医药等但凡需要行业智能体的领域,只要是基于通用大模型底座跑行业模型的行业用户,都可以用。专用芯片的吸引力在于成本可能更低,与特定模型的适配性能可以调得比GPU更好,功耗原则上也更低。因此,在行业智能体应用上,AIC专用架构芯片比GPU通用架构芯片更友好、更有竞争力。

提问者3(线上):投资者想咨询,您对大模型和AIC芯片这两个赛道,更看好哪一个?

专家:这个问题很有水平。我认为还是“卖铲子的”更有前景,即卖AIC芯片的更有前景。因为从模型发展趋势看,最终可能只剩下几个大玩家做通用大模型,并基于此孵化行业智能体,这本质上是几个大厂垄断的。

但从AIC芯片硬件本身来说,基于行业需求(特别是中国市场够大),以及未来中国模型、算力、智能体可能出海竞争的趋势,会有比模型厂商更多的一些“小而美”的专用芯片公司,能够在特定行业场景里活下来。它们基于一个或几个行业,把自己的芯片性价比或护城河做起来。

从这两个维度看,模型厂商最后剩下没几家,但芯片厂商我个人觉得会比模型厂商更多。另外,因为硬件是用户花钱能买到、拿在手里沉甸甸、看得见摸得着的东西。从这个角度讲,AIC芯片产生的营收、物理实体本身、以及伴随模型落地卖出的数量,都比模型要多。

主持人:好的,谢谢专家。今天的会议到此结束,后续有问题欢迎继续交流。谢谢大家。

每日精选最新的重点行业研究纪要,欢迎各位老师动动发财的小手转发、点赞和收藏!

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON