【专家纪要】存算一体与云边端一体化行业趋势交流_展会资讯_资讯

【专家纪要】存算一体与云边端一体化行业趋势交流

存算一体芯片通过集成存储与计算单元，旨在突破冯·诺依曼瓶颈，实现降本增效。当前以SRAM和MRAM为主要技术路线，分别侧重推理速度与低成本、长寿命。该技术主要面向AI推理市场，尤其是行业智能体部署。中美研发进度接近，中国在行业应用及部分前沿技术上可能领先，有望通过满足普惠算力需求实现差异化竞争。

【总结】

本次会议围绕存算一体芯片的技术路径、发展现状、挑战与未来前景进行了深入探讨。核心观点总结如下：

1.技术定位与优势：存算一体被视为突破冯·诺依曼瓶颈、实现降本增效的下一代计算芯片形态。其核心优势在于将存储与计算单元集成在同一芯片上，从而大幅降低功耗（预计可降低50%以上）和硬件成本（目标售价低于5万元，较高端GPU打对折），并减少对高带宽显存和先进制程的依赖。

2.发展驱动力：当前GPU架构存在算力冗余、功耗高、成本高昂（显存成本占芯片30%以上）等问题，无法满足中小用户对“普惠算力”的需求。AI推理场景的爆发（预计未来将占芯片需求的80%）催生了专用化、低成本芯片的强烈需求，这是存算一体发展的核心动力。

3.主要技术路线与现状：

SRAM路线：以被英伟达收购的Groq为代表。优势是推理速度极快（可达GPU的5-10倍），适合对实时性要求极高的场景。劣势是存储容量小，导致部署大模型时硬件成本反而比GPU高10-15倍，且目前多采用成熟制程。

MRAM路线：被视为更有前景的方向。优势是数据非易失（断电不丢失）、寿命极长、抗辐射、功耗低，适合太空计算等特殊场景。劣势是当前存储容量更小，技术成熟度和成本挑战更大。

其他路线：DRAM路线目前走通可能性低；ReRAM是潜在选项；量子专用计算也可被广义划入存算一体范畴。

4.商业化挑战与进展：

核心瓶颈：受底层存储材料物理特性限制，单芯片存储容量小，导致部署成本高。此外，软件工具链生态适配和芯片间高速互联也是主要挑战。

进展：英伟达收购Groq后，通过融入CUDA生态和复用NVLink等技术，正着力解决软件和互联问题。采用先进制程和先进封装有望提升存储密度和算力，从而降低成本。

中美对比：中美在存算一体研发上起步时间相差不大，预计产品推出时间差在半年内。中国在行业智能体应用、光互联/光交换等前沿技术上可能领先；美国在CUDA软件生态和成熟互联方案上仍有优势。中国芯片更可能围绕国产大模型（如DeepSeek、通义千问）构建生态。

5.市场前景与格局：

存算一体芯片主要瞄准推理市场，尤其是海量行业智能体（Agent）的部署需求。训练市场仍将由GPU等通用芯片主导。

未来可能出现多种技术路线（SRAM、MRAM等）并存，满足不同场景（要速度、要成本、要可靠性）的需求。

对于中国，存算一体是实现算力普惠、避开先进制程和高端GPU生态垄断的重要路径。通过满足最大公约数用户的低成本推理需求，并在丰富的行业应用中迭代，有望实现差异化竞争力。

会议实录：

主持人：近年来，随着AI算力和存储需求的快速发展，整个AI产业链对算力的效能和成本都提出了更高要求。因此，存算一体作为一种旨在降本增效、突破冯·诺依曼瓶颈的技术路径，受到越来越多关注。目前存算一体有哪些优点？在我国及全球的推进进度如何？今天我们非常荣幸邀请到一位行业专家与大家交流。

专家：好的。其实存算一体受到集中关注是在前些天英伟达的GTC大会之后。在此之前，国内只有零星几家企业在朝这个方向努力，但大部分做的是“存”而不是“算”，因为存算一体有较高的技术门槛。另外，在降本方面，受限于材料本身的物理特性，目前技术难度也很高。

但是，存算一体这四个字，更接近于计算芯片本来的样子。从我观察AI芯片十几年的发展趋势来看，存算一体才是计算芯片的终极形态。像GPU这种中间计算、四周放高带宽显存的架构，其实是一种过渡状态。这也导致了现在高端计算芯片被高带宽显存“卡脖子”，某种程度上英伟达是在给三星、海力士、美光打工。一块GPU芯片里，光存储部分就占到成本的30%甚至更高，这个状态是不正常的。

从成本角度、先进制程导致的流片成本大幅攀升、以及广大中小用户依然觉得算力太贵这些供需矛盾来看，普惠算力芯片需要降价、降功耗，还要保证一定的计算速度，这是明确的需求趋势。沿着这个需求，芯片的专用化发展成为必然。因为GPU在很多行业的推理场景中，算力是冗余的。用户花了十几万买一张卡，上千瓦的功耗，真正用于推理的算力可能只有60%，剩下40%闲置，既多花了采购成本，也承担了更高的能耗成本。

所以，我们看到前一段时间GTC大会上，英伟达深度合作/收购了一家做存算一体的芯片公司Groq。这只是英伟达从通用芯片向专用芯片丰富产品线的第一步，接下来还会有第二步、第三步。同时，英伟达也在密集关注光交换、光互联、光计算方向的初创公司和技术。

从目前通用芯片的市场价格和功耗中位数来看，存算一体这类专用芯片，未来的降价空间至少有50%，功耗下降也至少是50%甚至更多。现在主流的800瓦芯片，存算一体架构可能把功耗压到100瓦以下。

对于存算一体芯片，主要是底层物理材料不同，导致了不同的技术路线。以美国的Groq为代表，其底层存储用的是SRAM介质。但SRAM受限于物理存储容量，目前只有几百兆，比高带宽显存小很多，需要很多块拼起来才能跑几十B大小模型的推理。因此，同样部署70B参数的模型推理，基于SRAM的存算一体产品，其部署成本其实比GPU要高10-15倍，这是一个很恐怖的数字。

这看起来是一个悖论，但实际上，Groq这种基于SRAM的存算一体芯片有特殊的应用场景。它做成的板卡集群在跑模型推理时，速度是GPU的至少5倍，甚至在5-10倍之间。这个“快”是很多行业客户的刚需。比如我们日常使用大模型时，输入问题条件越多，等待答案的时间就越长。对于很多对速度有极致要求的用户来说，GPU太慢了。Groq的“快”贴合了这部分用户的需求，这部分需求量几乎能占到推理需求的将近50%。

所以，英伟达第一步收购基于SRAM的Groq，补齐了其GPU在模型推理速度上的短板。另一个短板是如何大规模降低物理部署成本和使用成本，这就涉及到其他材料的存算一体芯片，主要有DRAM和MRAM。

目前来看，DRAM这条路基本上不太可能走通。剩下一条有前景的路线就是MRAM。MRAM目前不是市场主流，但是未来发展的趋势。因为MRAM的材料、存储原理以及在之上做计算单元的分布方式，从硬件材料特性来看，最接近于物理器件本身的特性。同时，MRAM有一个巨大优势：即使断电，存储的信息也永远不会丢失。而且从原理上讲，这种芯片不会损坏，抗辐射能力强，是可以“上天”的，贴合了太空算力的大方向。它的功耗也比较低。

现阶段以及未来两三年能看到有希望落地的，就是Groq的SRAM，以及今年或明年会冒出来的基于MRAM的存算一体芯片。从存储容量看，MRAM比SRAM本质上还要小，受限于材料本身和目前尚未采用先进制程（如7nm、6nm、5nm）。可能要等到明年，才会有初创公司基于MRAM和先进制程流片出来。

同样部署70B模型，MRAM芯片所需的数量和物理成本在某种程度上跟SRAM类似，硬件部署成本都会高一些。这个成本一方面跟材料本身有关，另一方面跟芯片间的高速互联关系很大。如果高速互联能用上光交换、光互联甚至光电共封装技术，并在明年开始商用，就能在一定程度上降低存算一体集群的部署成本。

同时，以Groq为例，它成立较早（2017年），当时用的是十几纳米的成熟制程，其存储容量和计算能力是几年前的水平。如果基于先进制程（如8nm、7nm）重新设计，就有希望把单芯片算力翻倍甚至更多，存储密度也会提升。这样，原来比GPU硬件成本高10-15倍的情况就会下降，有可能变成GPU部署成本的5倍，从而实现成本的降低。

基于MRAM的存算一体芯片在跑大模型推理时，除了速度快，在整体芯片功耗和实际成本上有望比SRAM压得更低。我作为从业者，比较乐观地相信，未来存算一体板卡的售价能够压到5万元以下，比英伟达的H200、A100等芯片至少打对折，功耗也更低。

从整个算力结构来看，英伟达的GPU可以放在云端跑大模型训练。在端侧推理场景，如果用户对速度有要求，就用Groq的SRAM芯片集群；如果对成本敏感、对速度要求不高，就用MRAM的存算一体芯片。基于DRAM的优化版本也可能是方向，但目前没看到实质性突破。

从物理成本上看，高带宽显存在一颗大芯片里成本占30%，而存算一体不存在这个瓶颈，它将存和算放在同一颗芯片面积上（下面是存，上面是算）。但SRAM和MRAM的存算一体芯片有一个天生缺陷：它们只能做推理，做不了训练。因为MRAM介质在数据写入时速度比GPU和SRAM慢很多，这注定它只能做推理。SRAM则有希望训练和推理都做。

在存算一体芯片之外，还会有其他架构的芯片，比如量子专用芯片。在未来2-3年或3-5年，量子专用计算很有希望落地，它严格意义上也可以划到存算一体的大范畴里。

至于近存计算、存算融合等，从广义上讲都属于存算一体，但近存计算严格意义上不算，因为存和算还有一点距离。真正的存算一体一定是放在同一颗芯片上，计算时直接调用下面的存储，本质上实现了存算合一。

从原理上讲，基于MRAM主要是利用电子自旋来实现0和1（向上是0，向下是1），这与传统硅基芯片基于电子流动的0和1有区别。一个是基于电子，一个是基于物理材料的隧穿效应。电子流动需要更高功耗，而电子自旋不需要太高电流，这是其功耗低的原因。

从落地来看，存算一体芯片真正的商用在今年还看不到大规模展开。在英伟达收购Groq之前，Groq在中东计划部署千卡级别的集群，但没看到真正项目落地，因为物理部署成本太高导致事情搁置。

被英伟达收购后，情况会有几个好的变化：一是原来不友好的软件生态被纳入CUDA体系，大大提升了芯片的通用性和易用性；二是芯片间的互联可以复用英伟达的NVLink、NV Switch以及未来的光交换技术。

放到国内来看，目前我们国家基于SRAM的存算一体芯片公司很少，处于萌芽阶段，今年能看到一些初创公司获得融资。基于MRAM的，有零星一两家企业在做，但产品还没出来，可能明年才能实现少量行业客户的POC验证交付。

不管是国内还是美国，在存算一体芯片的技术积累和研发起始时间上相差并不太久。预计明年中美两国的存算一体芯片会前后脚出来，时间差不会超过半年，只是技术路径可能有所不同。国内的芯片可能更多是适配国内几个主流通用大模型（如DeepSeek、通义千问）及其衍生的行业应用生态。

从未来市场空间看，以存算一体为代表的低成本、不依赖先进制程、使用成本低、寿命长的端侧推理芯片，市场空间很大。特别是随着各种行业智能体（Agent）的爆发，会伴随推理芯片需求量的猛增。预计三年或五年后，推理芯片将占到所有训练和推理芯片需求的80%甚至更高。也就是说，接近八成的用户需要买的是比英伟达GPU更便宜、功耗更低、维护和使用成本更低的推理侧专用芯片。只有少数互联网大厂和独立大模型研发厂商在做模型训练时，还会用到高功耗、依赖先进制程的GPU类通用芯片。因此，存算一体、量子专用计算、NPU或其他AIC专用架构的行业芯片，市场前景会非常好。

主持人：非常感谢专家的详细介绍。我先问两个问题：第一，从商业化角度看，目前存算一体芯片的主要难点在哪里？第二，如果从每瓦输出token的效率来看，国产芯片水平能达到Groq的水平吗？

专家：目前的主要瓶颈在于存算一体底层存储材料本身的特性。受材料特性限制，存储容量上不来，特别是相比高带宽存储，容量低很多。容量直接关系到部署模型时能否放下参数，放不下就需要更多芯片，导致成本反而比GPU更高。这是最大的瓶颈。

另外，不管是英伟达与Groq的合作，还是国内的企业，芯片本身有难度，但更多的工作量或者说麻烦是在软件端，即工具链侧。需要去适配主流的开发框架和算子，无论是CUDA生态还是华为的CANN生态，这需要时间、投入和成本，也是一个大瓶颈。

还有一个瓶颈是芯片间的互联。这有两种方式：芯片厂商自研（难度非常高）或找外部合作伙伴。但对于合作伙伴来说，存算一体芯片的物理架构和器件特性与传统硅基芯片不同，通信协议、IP接口等都不一样，意味着互联芯片厂家也要做较大改变来配合，这也是一个瓶颈。

关于第二个问题，在性价比上，中美目前没有一个大概的数字可以拿出来对比，因为产品尚未真正商用，缺乏参照物。但能看到一个趋势：在行业智能体（如生物医药、智能交通、智慧城市）的应用侧，中国是超过美国的，我们在金融、政府治理、生物医药等行业做得更快。所以在行业部署成本上，中国有希望在性价比上超过美国。

从存算一体芯片研发时间、落地及生态优势上看，英伟达体系有开发侧的生态优势，在硬件架构和生态复用（网络、光电一体、CPU）上有一定优势。但硬件优势相对小一些，因为国内有像华为带头做出的超节点架构（包含自研ARM CPU、计算芯片、网络、存储等全套方案），其他厂商可以借鉴。某种程度上，英伟达下一代的“费曼”架构就有抄华为作业的影子。在硬件侧，中国的存算一体芯片未必比美国差，甚至在超节点侧可能略微领先。

更多的差距，一个是在生态上，另一个是在行业应用的落地上。从芯片供应链制程来看，存算一体芯片对先进制程的依赖度较低，它并不需要台积电2纳米、1点几纳米这样的尖端制程，7nm、6nm、5nm对它来说已经是很好的配置了。所以在供应链侧，大家的差别并没有太大，国内在相对成熟制程上，除了良率区别，其他区别可能不大。

主持人：再问两个问题：第一，目前我们国家有哪些主要企业参与了存算一体芯片的设计与代工？第二，国产存算一体芯片有可能基于NPU等不同协议的处理器吗？

专家：国内这方面的初创企业确实不多。我知道的有前寒武纪CTO梁军先生牵头成立的一家初创公司（技术路线往存算一体走）。杭州也有一家三个字名字的初创企业，拿到了兆易创新的投资，也在做存算一体。还有以北大物理系或北大系为背景的两家初创企业也在做。代工方面，华虹、中芯国际完全有能力做存算一体芯片的代工。

关于第二个问题，Groq的底层是SRAM，跟GPU或其他PU关系不大。对于国内来说，华为的NPU、百度的昆仑芯（ASIC架构）、燧原科技（ASIC架构）、寒武纪等，这些还是遵循以GPU产品设计路线来做的，即中间是计算单元，旁边需要高带宽的显存缓存。它们自身无法存储数据，所以是“高带宽显存+计算芯片”的组合。因此，NPU、GPU或其他ASIC架构的芯片是做不到存算一体的。必须在能够做“存”的介质（如DRAM、SRAM、MRAM）上直接进行计算才行。

主持人：最后补充一个问题：您感觉存算一体芯片算是我们国家有望在AI领域实现弯道超车的细分赛道吗？

专家：好问题。存算一体，我能看到的其实不算是严格意义上的“弯道超车”，更可能是通过一种区别于被英伟达定义的GPU架构、以及对先进制程依赖的路线，我们能够实现不依赖那一整套路线。从低成本、相对成熟制程、对高带宽显存无依赖、低功耗等特点切入，更切合中小用户（最大公约数用户）的需求场景。

我们国内的最大优势，就是能用更高的性价比去满足最大数量用户的模型推理需求，同时叠加我们在行业智能体侧领先美国的趋势。那么在各个行业的专用存算一体芯片领域，我们在性价比、易用性、灵活性上都有可能赶上甚至超过美国。

但是，在依赖先进制程、能做模型训练的那一侧，我们依旧会跟英伟达有一定差距。能够弥补差距的是类似华为昇腾910那样的全新架构和超节点设计，这是所谓在大芯片上弯道超车的方向。

在芯片研发时间及底层材料选择上，我不认为英伟达选择的SRAM路线是特别好的。我认为英伟达是不得已找到了Groq，因为他在众多存算一体公司里找不到更好的了。接下来英伟达一定还会找第二个“Groq”，因为存算一体要满足的刚需一个是“快”，一个是“低成本”。低成本现在是较大瓶颈，“快”已经可以做到。所以英伟达需要找另一个“Groq”来弥补基于SRAM成本高的问题。

对于国内来说，情况也类似。可能有基于MRAM的，也有基于SRAM在做的，甚至有针对DRAM做进一步挖掘的，不排除会有更新的底层计算架构设计出来。在这一侧，至少会有两种甚至三种存算一体架构并存，共同把芯片在成本和推理速度上做优化。

中美相比，有点像“东方不亮西方亮”。英伟达最先做出来的是SRAM，可能晚点做MRAM；国内可能比较早基于MRAM研究和开发，晚点再做SRAM。略有区别，但整个目标是一致的，就是“算力普惠”，让芯片不再那么贵，让老百姓、中小用户和个人用户能用得起。

主持人：谢谢专家。会议助理，麻烦播报一下提问方式。

（提问环节）

提问者1（电子分析师）：专家好，请问未来英伟达如果找其他标的做专用芯片，有可能用ReRAM或MRAM吗？为什么可能是SRAM或MRAM？

专家：目前来看，ReRAM的可能性略高一些。如果排序，第一是已经出来的SRAM，往后是MRAM，再往后是ReRAM，第四才是DRAM。我个人预测英伟达不排除在接下来时间里，去收购美国另外做MRAM的公司，或进行深度战略合作。另一个可能的技术路线就是ReRAM。首选是MRAM，其次是ReRAM。

因为MRAM的物理特性有优势：一是数据非易失性，断电永不丢失；二是材料不会坏，寿命长；三是抗辐射，可用于卫星、太空。所以从物理特性看，MRAM是接下来的热点。美国也有两家初创企业在做MRAM产品，但目前单颗粒存储容量比SRAM还小，所以在跑大模型推理时，技术成熟度和部署成本比SRAM还高，这是最大瓶颈。

如果英伟达能将相对先进的制程与MRAM或SRAM结合，进行全新设计，是有希望把单颗粒存储量提上来的，或者通过3D堆叠等先进封装技术做到。从产品形态发展看，观察英伟达要出来的“费曼”架构，它很可能把多种芯片封装到一起，比如最下面是存算芯片，上面是GPU，旁边直接放光电共封装，用这种极端方式实现算力特点的全打通（训推一体+急速推理）。这对国内也是一个启发和参考，不排除未来会把SRAM、MRAM、ReRAM三种形态的芯片封装在一起。所以，我认为英伟达接下来要补的就是MRAM和ReRAM。

提问者1：谢谢。另一个问题，关于Scale up（纵向扩展），国内发展挺快，能否大致介绍目前水平？

专家：在芯片间互联方向上，国内在新技术的出现和应用上，我认为不比美国晚，甚至更快。比如准备在香港上市的上海曦智，做光交换、光互联乃至光计算，其光互联和光交换已有实际案例在上海落地。而英伟达的光交换和光互联目前还没有在实际项目上落地。所以，在Scale up的前沿技术（光电直联、光互联、光交换）上，国内相对领先。

但在光互联/光交换之下，基于传统高速网卡的卡间互联，以及基于私有协议（类似NVLink）的芯片卡互联，我们比英伟达要落后。英伟达早先收购了Mellanox，有了高速网卡（如400G、800G的InfiniBand）。对于国内很多算力中心或服务器厂商，在交付千卡、万卡集群时，最快的网络方案就是买英伟达的InfiniBand整套方案。慢一点的是基于RoCE协议的自研高速网卡（有200G、400G，最快可能到800G但成本太高未大规模铺开）。在传输速度上，RoCE协议网卡及各厂商自研的私有协议，还是比英伟达要慢。

但在架构设计上，国内做了一些创新，比如华为的超节点，它绕开CPU，在GPU之间完成了全新的通信架构设计，从软件和通讯链路上做了新设计。从这个角度讲，我们跟英伟达类似，甚至走得更快一步。总结就是：在传统的Scale up和Scale out上，我们比美国差一些；但在全新的计算服务器内通信架构设计上，我们更新、优化得更好；在前沿的光交换、光互联技术上，我们比美国做得更快；再往前看的光电共封装（将光互联/光交换直接封装在计算芯片旁边），国内也比英伟达略快一点点，但时间差不大，可能就半年左右。

提问者2（线上）：请问目前在哪些领域，AIC芯片需求比较旺盛？

专家：专用芯片（AIC）其实是在DeepSeek等模型出来之后，才真正“活过来”的。在2024年上半年之前，专用芯片面对“百模大战”中基于CUDA生态衍生出的各种大模型，根本做不到适配，几乎卖不掉或用户不会用。大家都等着买英伟达的A100、A800。

但到了DeepSeek、通义千问、MiniMax等真正能在行业里干活的国产大模型出现后，情况变了。这些模型进入政府、医疗、教育、金融等行业面对用户需求时，专用架构的AIC芯片只需要做到适配DeepSeek或通义千问这一个模型即可，不用适配那么多。行业用户只用一个模型，他们可以用更少的钱购买基于AIC专用芯片的DeepSeek一体机或千问一体机。

基于这种需求背景，众多国内专用架构芯片公司的产品一下活过来了，比如华为、寒武纪、百度昆仑芯等。在2024年下半年，特别是2025年，他们芯片上搭载的DeepSeek一体机卖得很好。

所以，回答您的问题：专用架构芯片现在在交通、能源（石油石化天然气）、政府委办局、教育、科研、生物医药等但凡需要行业智能体的领域，只要是基于通用大模型底座跑行业模型的行业用户，都可以用。专用芯片的吸引力在于成本可能更低，与特定模型的适配性能可以调得比GPU更好，功耗原则上也更低。因此，在行业智能体应用上，AIC专用架构芯片比GPU通用架构芯片更友好、更有竞争力。

提问者3（线上）：投资者想咨询，您对大模型和AIC芯片这两个赛道，更看好哪一个？

专家：这个问题很有水平。我认为还是“卖铲子的”更有前景，即卖AIC芯片的更有前景。因为从模型发展趋势看，最终可能只剩下几个大玩家做通用大模型，并基于此孵化行业智能体，这本质上是几个大厂垄断的。

但从AIC芯片硬件本身来说，基于行业需求（特别是中国市场够大），以及未来中国模型、算力、智能体可能出海竞争的趋势，会有比模型厂商更多的一些“小而美”的专用芯片公司，能够在特定行业场景里活下来。它们基于一个或几个行业，把自己的芯片性价比或护城河做起来。

从这两个维度看，模型厂商最后剩下没几家，但芯片厂商我个人觉得会比模型厂商更多。另外，因为硬件是用户花钱能买到、拿在手里沉甸甸、看得见摸得着的东西。从这个角度讲，AIC芯片产生的营收、物理实体本身、以及伴随模型落地卖出的数量，都比模型要多。

主持人：好的，谢谢专家。今天的会议到此结束，后续有问题欢迎继续交流。谢谢大家。

每日精选最新的重点行业研究纪要，欢迎各位老师动动发财的小手转发、点赞和收藏！