推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  带式称重给煤机  减速机型号  无级变速机  链式给煤机  履带  减速机 

存算一体与云边端一体化行业趋势交流

   日期:2026-04-18 10:29:08     来源:网络整理    作者:本站编辑    评论:0    
存算一体与云边端一体化行业趋势交流

存算一体与云边端一体化行业趋势交流

全文摘要1、存算一体发展动因与产业价值·GPU架构痛点与算力需求:存算一体技术具备较高技术门槛,降本进程受限于物理材料特性,当前落地难度较高,但存算融合是计算芯片的终极发展形态,更贴近AI芯片、计算芯片的原生设计逻辑,与CPU的存算融合架构方向一致。当前主流GPU采用中间计算单元、四边布置高带宽显存的硬件架构,属于过渡性形态,存在明显结构性缺陷:一是高端计算芯片供应受限于高带宽显存,单颗GPU芯片中高带宽显存的成本占比达30%甚至更高,芯片厂商利润被存储厂商大幅分流;二是2nm等先进制程的推进使得芯片流片和设计成本大幅攀升,而广大中小用户仍面临算力价格过高的问题,供需矛盾突出;三是通用GPU在很多行业的推理场景下存在大量算力冗余,通常仅约60%的算力被有效利用,剩余40%处于闲置状态,用户既要承担不必要的算力采购成本,还要支付额外的能耗成本。在此背景下,算力普惠成为核心需求,要求算力芯片实现降价、降功耗同时保障计算速度,芯片专用化发展成为必然趋势。·英伟达存算一体布局动向:英伟达正推进从通用芯片向专用芯片延伸的产品线布局,丰富自身产品线矩阵。在GTC大会上,英伟达已与存算一体芯片企业Groq达成收购或深度合作,这是其向专用芯片领域拓展的第一步。后续英伟达还将持续推进相关领域布局,预计会有更多同类型企业被纳入英伟达整体体系及CUDA生态体系中。除存算一体技术外,英伟达也在密集关注光领域的前沿技术与初创企业,覆盖光交换、光互联、光通信、光计算等多个方向,未来将通过收购或深度合作补齐通用芯片之外的专用芯片短板。·存算一体核心产业价值:存算一体作为专用算力芯片的核心技术路径,相较于当前市场主流的通用GPU具备十分显著的降本、降功耗优势,能够有效匹配当前行业内算力普惠的核心需求,高度顺应算力芯片的长期发展趋势。从当前通用芯片普遍的市场价格中位数与功耗水平来看,存算一体这类专用芯片未来的降价空间至少可达50%,能够大幅降低算力采购成本,覆盖更多中小用户的算力需求,有效缓解当前算力供需矛盾。在功耗优化方面,存算一体及其他ASIC架构的专用芯片的功耗下降空间同样至少达50%,甚至可以实现更高幅度的功耗优化:当前市场主流的800瓦算力芯片,采用存算一体架构后可将功耗压低至100瓦以下,功耗水平得到大幅降低。功耗的下降一方面能够直接减少用户的能耗使用成本,另一方面结合采购成本的下行,能够从整体上推动算力成本的大幅下降,为算力普惠目标的落地提供核心支撑。2、存算一体技术路线与落地前景·主流技术路线对比:当前存算一体主流技术路线分为SRAM、MRAM、DRAM三类,介质特性、优劣势、适用场景与商业化可行性差异明显:a. SRAM路线:以Groq产品为代表,计算单元部署于SRAM介质之上,核心优势为推理速度可达GPU的5-10倍,可同时支持训练与推理,适配对推理速度有极致要求的客户,这类需求占整体推理需求的近50%;核心劣势为单颗SRAM存储容量仅数百兆,远低于高带宽显存,当前部署70B参数量模型推理的成本为GPU的10-15倍,原因包括单颗SRAM存储空间有限、计算单元与芯片架构暂未应用先进制程。未来随着光交换、光互联、光电共封装等互联技术商用,以及先进制程落地,单颗芯片算力与存储密度将明显提升,SRAM路线部署成本有望降至GPU的5倍左右。b. MRAM路线:核心特性为断电后存储信息不丢失、理论寿命无损耗、抗辐射、功耗低,可适配太空算力场景,长期成本压缩空间高于SRAM路线,未来单块板卡售价有望压到5万元以下,较英伟达H200、A100等产品价格至少对折,功耗也更低;劣势为当前存储容量小于SRAM,暂未应用7nm、6nm、5nm等先进制程,部署70B参数量模型推理的成本与SRAM路线相近,且仅支持推理,无法完成训练任务。c. DRAM路线:目前暂无实质性技术突破,商业化可行性较低。存算一体架构不存在传统GPU高带宽显存占比达30%的成本瓶颈,存算单元集成在同一芯片面积上,可有效降低显存成本压力。从算力结构分工来看,GPU更适合云端大模型训练场景,存算一体芯片侧重推理场景,其中SRAM路线适配速度敏感型推理需求,MRAM路线适配成本敏感型推理需求。·相关技术边界辨析:严格意义上的存算一体需满足存与算部署在同一颗芯片上,计算时可直接调用片上存储的要求,依此标准:1. 近存计算不属于严格意义上的存算一体,其存与算仍存在物理距离,仅属于广义存算融合范畴。2. 量子专用计算广义上属于存算一体大范畴,本质已实现存算融合,未来2-5年专用量子计算有望落地,通用量子计算仍较为遥远。MRAM的底层技术逻辑区别于传统硅基芯片:其基于电子隧穿效应带来的自旋方向区分0和1,电子自旋向上为0、向下为1,无需如传统硅基芯片依靠高电压驱动电子流动判定0和1,因此功耗远低于传统硅基芯片。·全球与国内落地节奏:全球层面,2026年暂未出现存算一体芯片大规模商用,此前Groq计划在中东部署的千卡级存算一体芯片项目因成本过高搁置。Groq被英伟达收购后获得两大核心优化:一是软件生态纳入CUDA体系,原有CUDA框架的算子、框架可直接迁移适配,大幅提升产品通用性,解决了此前生态不兼容、开发难度大的痛点;二是芯片互联可复用英伟达的NVLink、NVSwitch技术,后续英伟达还将采用类似华为、上海西智的光交换、光互联技术应用于Groq产品,进一步降低集群部署成本。Groq原有产品采用十几纳米成熟制程,属于上一代产品,更新版本预计2026年下半年或2027年推出。国内层面,SRAM路线存算一体芯片处于萌芽阶段,2026年已有初创公司获得融资布局相关技术;MRAM路线仅有零星企业布局,产品尚未落地,预计2027年有望实现行业客户少量POC验证交付。中美存算一体芯片落地时间差不超过半年,国内技术路线与海外不同,不会侧重适配CUDA生态,而是以适配国内主流通用大模型、衍生行业模型与行业应用为主。·市场空间与发展前景:未来行业智能体(Agent)将迎来爆发式增长,带动推理侧算力需求快速攀升。从算力芯片需求结构变化来看,3-5年后推理芯片需求将占整体训练加推理芯片总需求的80%以上,这类需求主要来自对芯片成本、功耗、维护成本较为敏感的中小用户推理场景,仅少数互联网大厂、独立大模型厂商的预训练、微调场景仍需依赖GPU类通用算力芯片。存算一体芯片具备部署成本低、使用寿命长、功耗低、对先进制程依赖度低等多重优势,高度适配推理侧需求,叠加量子专用计算、NPU、ASIC等专用推理芯片的技术发展,专用推理芯片整体市场空间广阔,增长确定性较强。3、存算一体商业化瓶颈与中美对比·商业化落地核心瓶颈:存算一体商业化落地目前面临三大核心瓶颈:a. 存储材料特性限制:底层存储介质固有特性导致容量远低于高带宽存储产品,大参数模型如70B参数无法单芯片搭载,需堆叠更多芯片满足部署需求,最终综合成本反而高于GPU,是当前商业化落地的最大制约;b. 软件工具链适配难度大:芯片本身研发存在一定难度,但支撑其实际落地运行的核心工作量集中于软件工具链端,目前存算一体芯片产品与全球开发者主流使用的CUDA、CANN等开发生态存在大量算子、框架适配需求,需投入大量时间与成本,也是重要阻碍;c. 片间互联研发壁垒高:片间互联分为厂商自研与外部合作两种路径,自研技术难度极高,多数初创企业(如Groq)无自研能力,需依赖外部合作方,但存算一体芯片的物理架构、器件特性与传统硅基芯片的通信协议、IP接口均存在明显差异,互联厂商也需针对性调整技术方案,额外增加了研发成本与落地周期。·中美发展水平对比:当前存算一体芯片尚未正式商用,中美双方暂无明确的每瓦输出token效率等性能对比数据,双方优劣势主要体现在四大维度:a. 应用场景:国内行业智能体覆盖金融、政府治理、生物医药、智慧城市等领域,发展速度远超美国,落地部署成本有望具备性价比优势;b. 技术生态:英伟达及Groq等厂商依托原有技术体系,在开发者生态、全栈架构整合上具备先发优势;c. 硬件架构:国内已形成华为鲲鹏CPU、计算芯片、网络、存储全栈超节点架构,其他厂商可复用相关设计经验,超节点领域具备一定领先性,甚至英伟达下一代费曼架构也参考了相关设计思路;d. 制程依赖:存算一体芯片对先进制程依赖度低,5/6/7nm即可满足流片需求,国内成熟制程供应链与海外差距较小,仅良率存在一定差异。4、国内存算一体产业参与主体·国内相关企业与代工厂:当前国内存算一体芯片赛道初创参与主体数量较少,主要涵盖三类布局企业:一是寒武纪前CTO梁军牵头成立的初创企业,技术路线围绕存算一体方向布局;二是杭州的三字名初创企业,已获得兆易创新投资,开展存算一体相关研发;三是2家具备北大物理系背景的北大系初创企业,也在推进存算一体芯片研发。除上述三类背景明确的初创企业外,还有其他市场主体同样在开展存算一体相关研发。代工环节方面,目前华虹、中芯国际均已完全具备存算一体芯片的代工能力,可承接相关产品生产需求。·现有架构可行性分析:存算一体核心底层架构逻辑与现有主流处理器架构存在本质差异,Groq的LPU底层基于SRAM,与GPU、其他通用处理器架构关联度较低。当前国内主流的华为NPU、百度昆仑芯(ASIC架构)、燧原科技(ASIC架构)、寒武纪专用芯片架构等均无法实现存算一体,核心原因在于这类架构仍沿用GPU类产品设计路线:中间为计算单元,数据存储完全依赖计算单元旁的高带宽显存,芯片自身不具备数据存储能力,无法实现存算融合。存算一体的核心技术要求是必须在可实现存储功能的介质上直接完成计算,现有NPU、GPU、ASIC等架构均不满足这一要求,因此无法实现存算一体。5、存算一体国产替代价值·国产AI芯片破局逻辑:存算一体区别于英伟达定义的GP GPU技术路线,可绕开对先进制程、高带宽显存的依赖,具备成熟制程、低成本、低功耗的特性,更契合中小用户这类最大公约数用户的场景需求。国内凭借更高性价比可满足最大数量用户的模型推理需求,同时行业智能体发展领先美国,拥有更成熟、更好用的各类行业智能体,二者叠加下,国内在各行业专用存算一体芯片领域的性价比、易用性、灵活性都会赶上甚至超过美国。但需明确,在依赖先进制程的算力芯片尤其是可支持模型训练的芯片侧,仍与英伟达存在一定差距,大芯片层面的弯道超车可通过华为384超级点这类全新架构实现。·技术路线发展趋势:存算一体赛道将呈现多技术路线并行共存的格局,不会出现单一技术垄断,目前基于SRAM、MRAM、DRAM优化的路线以及全新底层计算架构设计的路线均在推进。中美在路线布局上各有侧重,美国英伟达当前选择基于SRAM的Grok路线,但该路线成本较高,后续仍需寻找其他方案弥补成本劣势,国内在MRAM路线的研发进展更早,中美双方最终目标一致,均为实现低成本的算力普惠,让中小用户、个人用户能够用得起芯片。6、存算一体技术演进方向·英伟达布局方向:当前存算一体技术路线的存储介质优先级排序为SRAM>MRAM>RRAM>DRAM,英伟达不排除通过收购美国MRAM领域初创企业或开展深度战略合作的方式布局相关技术,优先布局MRAM,其次为RRAM,最后为DRAM。MRAM核心物理特性优势包括:a. 断电后数据永久不丢失,不受停电时长影响;b. 寿命远长于硅基、SRAM、DRAM类存储介质,材料本身不易损坏;c. 抗辐照能力强,可应用于卫星、航天器等太空场景。目前MRAM商业化应用存在瓶颈,单颗存储容量小于SRAM,在大模型推理场景下技术成熟度更低、部署成本也高于SRAM。·技术优化路径:存算一体技术的存储容量瓶颈可通过多路径突破:采用先进制程结合MRAM、SRAM等存储材料开展全新设计,有望提升单颗粒存储容量;通过3D封装、先进封装的堆叠方式,也可在单颗大芯片上实现存储容量提升。英伟达后续将推出的费曼架构,很有可能采用多芯片整合封装方案,底层部署存算一体芯片,上层设置GPU,芯片旁直接配置光电一体封装,通过该设计实现训推一体加极速推理的算力全打通,这一技术路径可为国内相关领域发展提供启发与参考。此外,将SRAM、MRAM、RRAM三类形态的存储芯片整合封装,也是具备可行性的技术方向。7、芯片互联技术发展现状·国内互联技术优劣势:在芯片互联领域,国内与英伟达的技术发展呈现差异化特征,可从前沿技术与成熟技术两大维度梳理发展水平。前沿技术层面,国内光交换、光互联技术的出现及应用进度不晚于甚至快于美国,华为、上海曦智相关技术均处于领先位置:其中主打光交换、光互联及光计算的上海曦智,相关技术已在上海落地实际案例,并有芯片公司配合推进,而英伟达的光交换、光互联技术目前尚未在实际项目中落地。成熟技术层面,国内基于传统高速网卡的卡间互联、类NVLink的私有协议芯片卡间互联均落后于英伟达:英伟达早前收购IB技术,推出私有协议IB网卡,速率可达400G、800G,国内智算中心、服务器整机厂商、芯片设计厂商交付千卡乃至万卡集群时,最快方案为采购英伟达IB整套网络方案;次一级方案为国内厂商自研的RoCE协议高速网卡,现有200G、400G产品,最快可达800G但成本过高未大规模铺开,且RoCE协议网卡及国内自研类NVLink私有协议的传输速度仍落后于英伟达方案。·国内架构创新进展:国内在智算服务器通信架构层面已有创新设计,例如华为的超级点方案,绕过CPU实现GPU间直接通信,完全不同于传统GPU服务器通讯架构,从软件和通信链路层面均做了全新设计,架构设计较美国更优化,进度与英伟达相近甚至更快。同时在前沿的光电共封技术领域,国内领先英伟达约半年,该技术将光互联、光交换直接封装在计算芯片旁,可本质提升数据传输速度。8、ASIC芯片需求与发展前景·ASIC需求爆发动因与场景:2024年上半年,ASIC专用芯片因无法适配百模大战中基于英伟达CUDA生态衍生的各类大模型,产品滞销严重,甚至出现用户采购后不通电闲置的情况,彼时市场普遍优先选择英伟达A100及阉割版A800,核心原因是其生态成熟易用。随着DeepSeek、千问、MiniMax等可落地国产大模型推出,此前百模大战中多数大模型无法支撑行业实际应用的痛点得到解决,泛政府、医疗、教育、泛金融等领域的行业用户仅需ASIC芯片适配少量主流落地大模型即可,无需兼容全量模型。ASIC芯片仅需针对单款或几款主流大模型调优算力,推出DeepSeek一体机、千问一体机等配套产品即可满足用户需求,因此2024年下半年ASIC芯片需求开始爆发,2025年相关搭载主流大模型的ASIC一体机销量表现亮眼。当前ASIC芯片应用场景涵盖交通、能源(石油石化天然气等)、教育、科研、生物医药等所有需基于通用大模型底座跑行业模型、部署行业智能体的领域,核心吸引力为成本更低,适配后性能更优。·芯片与模型厂商前景对比:从产业发展前景来看,ASIC芯片厂商的发展前景优于大模型厂商,属于更具确定性的"卖铲子"角色。通用大模型赛道最终将由少数头部大厂垄断,剩余大模型玩家将基于自有通用大模型孵化垂域行业智能体或行业模型,整体玩家数量极少。而ASIC芯片赛道依托中国庞大的本土市场,以及后续中国模型、算力、智能体出海与美国产品竞争的趋势,将涌现更多小而美的专用芯片企业,这类企业可聚焦单个或几个行业打磨芯片性价比、构建核心护城河,在垂直场景中具备充足生存空间,整体数量多于大模型厂商。此外,ASIC芯片作为可感知的硬件实体,用户接受度更高,营收确定性更强,长期产业价值更突出。Q&AQ: 存算一体芯片相较于传统近存计算芯片的核心优势是什么?目前该技术在中国及全球的发展进展如何?其他芯片提效技术当前处于何种发展阶段?A: 存算一体芯片将存储与计算单元集成于单一芯片,规避了传统GPU架构中高带宽显存的成本瓶颈,具备显著降低功耗与部署成本的潜力。全球范围内,英伟达通过收购Groq布局存算一体,其芯片推理速度可达GPU的5至10倍,但当前70B模型部署成本约为GPU方案的10至15倍;同时英伟达正密集关注光交换、光互联及光计算技术。中国存算一体产业处于萌芽阶段,已有少量初创企业基于SRAM与MRAM技术路线研发,预计2027年进入行业POC验证;在光通信领域,上海曦智等企业在光交换、光互联方面已有实际项目落地,前沿技术进展快于国际,但在传统高速网络方案上仍落后于英伟达InfiniBand体系。

Q: 从商业化角度,存算一体芯片当前面临的主要瓶颈有哪些?国产存算一体芯片在每瓦输出token效率等关键性能指标上能否达到Groq的水平?A: 主要瓶颈包括存储材料物理特性限制、软件生态适配挑战、芯片间高速互联技术开发难度。目前尚无商用产品数据支持国产与Groq的性能直接对比;中国在行业智能体应用落地广度与速度领先,有望在特定推理场景性价比上形成优势,美国在开发生态与硬件架构整合方面具备先发优势。两国在成熟制程供应链上差距有限,因存算一体芯片对先进制程依赖度较低。

Q: 目前中国有哪些主要企业参与存算一体芯片的设计研发与代工生产?国产存算一体芯片能否基于现有NPU等处理器架构实现?A: 国内参与设计的初创企业包括寒武纪前CTO梁军牵头成立的公司、杭州获兆易创新投资的企业及北大系背景的两家初创公司;代工方面,华虹半导体、中芯国际已具备相关工艺能力。存算一体需在存储介质上直接集成计算单元,而NPU、GPU或现有ASIC架构均依赖外部高带宽显存进行数据存取,物理架构上无法实现存内计算,因此国产存算一体芯片必须采用全新设计架构,无法基于现有NPU协议实现。

Q: 存算一体技术是否为中国在人工智能领域实现技术差异化竞争的关键路径?A: 存算一体并非传统弯道超车,而是通过低成本、成熟制程、低功耗的差异化路径满足中小用户及行业模型推理的普惠算力需求。中国核心优势在于行业智能体应用生态成熟度高,可驱动专用芯片在性价比与场景适配性上快速迭代;但在依赖先进制程的大模型训练芯片领域仍与国际领先水平存在差距。技术路线上,中美将并行探索SRAM、MRAM、RRAM等多种架构,MRAM因具备非易失性、抗辐照、理论寿命长等特性被视为重要方向,共同推动算力成本下降与能效提升。

Q: 英伟达在拓展存算一体技术时,是否会考虑采用DRAM或NAND等存储介质?当前技术路线为何更倾向于SRAM或MRAM?A: 技术路线按可行性排序为:SRAM、MRAM、RRAM、DRAM。英伟达后续可能通过收购或合作布局MRAM、RRAM领域企业以弥补SRAM成本短板;MRAM单颗粒存储容量目前较小,大模型部署成本高,需结合先进制程或3D封装提升密度。未来英伟达可能采用多芯片异构封装实现训推一体与极速推理融合。

Q: 中国在ScaleUP技术领域的发展水平与国际相比处于何种位置?A: 中国在光交换、光互联等前沿技术已实现项目落地,产业化进展快于英伟达;但在传统高速网络方案的传输速率与生态成熟度上仍落后于英伟达InfiniBand体系。架构创新方面,华为超级节点在服务器内部通信优化上具备领先性;光电共封等下一代互联技术中美差距约半年,中国保持同步跟进态势。

Q: 当前哪些应用领域对ASIC专用芯片的需求增长最为显著?A: 自2024年DeepSeek、通义千问等具备行业落地能力的国产大模型推出后,ASIC芯片需求在泛政府、医疗、教育、金融、交通、能源、生物医药等领域显著提升。行业用户倾向采购针对单一主流模型优化的专用芯片一体机,以实现低成本、高能效推理部署。相较于模型研发领域趋于头部集中,ASIC芯片因硬件实体属性、行业定制化需求及中国模型+中国算力出海趋势,市场数量与商业前景更为广阔。

如下知识星球,每日实时更新(调研纪要、会议录音)等实时资讯。年度5万篇以上,赶快扫码加入。

如果想成为一名合格的投资者,一款辅助工具特别重要,本星球将会是您一个优质的选择,现开放运营以来,已受到部分朋友的关注,需要了解更多投资资讯,调研纪要,会议纪要、行业分析报告关注上方星球二维码,每日最新推送,专业研究工具。基本面爱好者的集聚地
 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON