本文完全借助agent生成,是作为一个外行人对高科技行业了解的第一次尝试。通过这次尝试,得到的感受是在AI时代,agent一定程度上已经改写了研究工作的价值生态,过去像这样一篇几万字的深度报告至少需要数周去完成,而这篇报告借助agent只花了大概半天时间,过去是需要将大量的时间花在资料收集上,如今问一问AI即可搞定,研究工作的重心发生了彻底的改变。
本文虽然由AI生成,但是对于我自己而言,还是对这个行业、对竞品、对未来发展趋势产生了一些新的认知,总体而言是十分有用的。
由于本文全部由AI生成,而我是一个完全的门外汉,文中的数据、观点、结论如有常识性错误,欢迎看官们在评论中指出。
--------------------------------------------马赫100芯片深度研究报告:技术路径与架构
研究阶段:Stage 1/5 — 技术路径与架构
文档版本:v3.2(精简版)| 最后更新:2026-05-19
数据来源:理想汽车官方发布会、IT之家、新浪新闻、ISCA 2026论文信息、百度百科、地平线官网、EET China、CSDN技术博客等公开渠道
声明:本报告仅基于已公开的官方信息与权威媒体报道,所有数据均标注来源
目录
第一章 专业术语注释 第二章 车端智驾运行流程与冯·诺依曼架构瓶颈 第三章 马赫100芯片:参数、架构、优势与劣势 第四章 五款芯片横向对比与架构定位 第五章 各芯片架构技术细节与运行流程对比 第六章 L3/L4级别对模型参数量的需求研判 第七章 静态数据流 vs 动态数据流深度对比 第八章 结论与研究判断
第一章 专业术语注释
本章集中解释全文涉及的核心专业术语,便于查阅。
1.1 硬件与架构类
| TOPS | ||
| FP16 / INT8 / INT4 | ||
| MAC | ||
| GPGPU | ||
| DSA | ||
| BPU | ||
| NPU | ||
| TPB | ||
| PE | ||
| LPDDR5X | ||
| HBM | ||
| ISP | ||
| MCM |
1.2 性能分析类
| 峰值算力 | ||
| 有效算力 | ||
| 利用率 | ||
| TPOT | ||
| Roofline模型 | ||
| 岭点 | ||
| 算术强度 | ||
| 内存墙 | ||
| Decode阶段 | ||
| Prefill阶段 | ||
| KV Cache |
1.3 模型与算法类
| E2E | ||
| VLA | ||
| WA / 世界模型 | ||
| Transformer | ||
| BEV | ||
| DETR | ||
| Scaling Law | ||
| 知识蒸馏 | ||
| 混合栈 / Hybrid Stack |
1.4 安全与标准类
| ASIL-D | ||
| ODD | ||
| SAE L2+/L3/L4 | ||
| ISCA | ||
| TSMC N5A | ||
| AEC-Q100 |
1.5 企业与产品类
| Orin-X | |
| Blackwell | |
| Neoverse V3AE | |
| Cortex-A78AE | |
| FSD Chip v1/v2 | |
| Drive OS | |
| MindVLA / VLA2.1 | |
| 杨戬NX6031 |
第二章 车端智驾运行流程与冯·诺依曼架构瓶颈
本章目标:阐明为何传统冯·诺依曼架构在车载大模型时代面临根本性物理瓶颈,以及这一瓶颈如何催生了以马赫100为代表的新型芯片架构。
2.1 车端智能驾驶的标准运行流程
所有智驾芯片在车端都遵循相同的外部流程,不同架构的差异集中在第二步(芯片内部处理)的实现方式上:
传感器观察 → 数据输入 → [芯片内部处理] → 推理判断 → 控制指令输出 → 车端执行 (共同) (Step 1) (⚠ 核心差异区) (Step 3) (Step 4) (Step 5)时间预算分配
智驾系统端到端响应通常要求 <100ms。典型分配:
可用时间预算(端到端 < 100ms):├── 感知特征提取:~30ms ← CNN骨干网├── 推理判断(VLA Decode):~30ms ← ⚠ 内存墙制约区├── 指令转换 + 传输:~20ms└── 执行器响应:~20ms? 在30ms推理预算下,传统冯·诺依曼架构能有效推理的最大模型仅约 2B参数(FP16)或 ~4B参数(INT8)——远小于L3/L4所需的7B-30B级别。
2.2 冯·诺依曼架构的根本矛盾:内存墙
2.2.1 内存墙概念
1995年,Wulf & McKee在其奠基性论文中提出**"内存墙"(Memory Wall)**概念:
处理器速度每 18个月翻一番(摩尔定律),但DRAM速度每年仅提升 ~7%;两者速度差距持续扩大,内存访问延迟将成为性能的主导性瓶颈。
该预言在30年后的AI大模型时代完全应验甚至更加严峻。
冯·诺依曼架构的根本矛盾:计算单元与存储单元分离——每次运算都需从全局内存搬运数据到计算单元,运算后再写回。对于Transformer/VLA等大参数量模型,数据搬运开销远超实际计算开销。
2.2.2 核心公式:TPOT
在冯·诺依曼架构下,LLM/VLA大模型Decode阶段存在由物理学决定的最低延迟:
关键含义:延迟与参数量线性正比,与峰值算力完全无关。 算力再高,带宽不够大模型照样慢。
以 273 GB/s 内存带宽为例:
| 1.3B | ~9.5 ms/token | ~4.8 ms/token | |
| 7B | ~51 ms/token | ~26 ms/token | |
| 13B | ~95 ms/token | ~48 ms/token | |
| 30B | ~220 ms/token | ~110 ms/token | |
| 70B | ~513 ms/token | ~257 ms/token |
⚠️ 智驾端到端通常要求 <100ms。核心结论:在273 GB/s带宽下,模型超过约13B参数后,仅权重的内存读取时间就已接近或超出整个延迟预算。
2.2.3 Roofline模型:量化距离岭点多远
Roofline模型(Williams & Patterson, ISCA 2009)将硬件性能画成二维图:
左侧斜线(内存受限区):性能 = 带宽 × 算术强度 右侧水平线(计算受限区):性能 = 峰值算力
岭点(Ridge Point) = 峰值算力 ÷ 内存带宽
| 岭点值 | 区域判定 | ||||
|---|---|---|---|---|---|
| 138.9 OPS/Byte | |||||
| H100 SXM (BF16) | 591 OPS/Byte | 1-2 | |||
| Thor-U / 马赫100 | ~2565-4688 OPS/Byte | 1-2 |
直观理解:H100运行70B模型(batch=1)时,距岭点差了295-591倍——相当于法拉利引擎装在自行车上,99.7%以上的算力因等不到数据而空转。
2.2.4 GPU实测:三层证据链
Barcelona Supercomputing Center(2025)对四种LLM进行逐周期微架构分析:
① 计算单元活跃度(Warp Usage):
| 12.91% | |||
| 9.85% | |||
| LLaMA-2-13B | 13B | 10.27% | 76.75% / 97% |
? 反直觉:模型越大,峰值Warp使用率反而越低(13B仅72% vs 1.3B的100%)。
② 内存等待停滞率:即使batch=1,13B模型已有55%的计算周期因等待内存停滞;batch=Max时>80%。
③ L1缓存命中率崩塌:LLaMA-2-13B在最大Batch时L1命中率仅**1.61%**。
三层证据链总结:
第一层(公式):TPOT = 2×Params/Bandwidth → 延迟 ∝ 参数量(与算力无关)第二层(Roofline):LLM Decode的AI=1-2 << GPU岭点(139-591) → 利用率仅0.17%-0.34%第三层(GPU实测):13B模型Warp使用率仅10.27%,55%周期内存停滞,L1命中率1.61%结论:✅ "规模越大,内存墙瓶颈越严重"——三重验证2.3 "有效算力"的概念辨析
| 峰值算力(Peak TOPS) | |
| 有效算力(Effective TOPS) |
? 峰值TOPS只是理论上限,真正决定实际表现的是有效TOPS。厂商宣传均为峰值,不同架构利用率差异巨大。
影响利用率的四大因素:
| 内存带宽瓶颈(Memory Wall) | ||
| 数据依赖停滞 | ||
| 软件-硬件协同效率 | ||
| 负载不均衡 |
2.4 GPU利用率30%-50%的完整论证
| Wulf & McKee (1995) | |
| Mind the Memory Gap (2025) | |
| Roofline分析 (2024-2025) | |
| Neureality(2025) | |
| 网易(2026) |
车端智驾场景数据:
| 20%-40% | ||
| 30%-40% | ||
| <30%,70%浪费 |
规律:感知CNN > 规划Transformer ≫ VLA大模型(算术强度递减);专用NPU/DSA > 通用GPU。
? 论证链条:
Wulf&McKee(1995)理论→AI大模型放大效应→GPU逐周期微架构实测→Roofline验证→业界多方独立验证→ ✅ 30%-50%是GPGPU架构AI推理的可信利用率区间
第三章 马赫100芯片:参数、架构、优势与劣势
3.1 基本参数总览
| 芯片全称 | ||
| 架构类型 | ||
| 定位 | ||
| 制程工艺 | 5nm | |
| 单芯片算力 | 1280 TOPS | |
| 双芯片总算力 | 2560 TOPS | |
| 计算效率 | ||
| 内存类型/带宽 | ||
| CPU配置 | ||
| AI加速单元 | ||
| 流片时间 | ||
| 量产时间 | ||
| 首发车型 |
3.2 架构核心理念:彻底抛弃冯·诺依曼
"马赫100采用的动态数据流架构,是一种为AI原生设计的芯片架构。" ——理想汽车CTO谢炎
与传统架构的本质区别:
| 驱动方式 | 指令驱动 | 数据驱动 |
| 数据搬运模式 | ||
| 瓶颈问题 | 无此瓶颈 | |
| 有效算力利用率 | 82%/86% | |
| 可编程性 | 完全可编程 | |
| AI适应性 | AI怎么进化,就怎么进化 |
3.3 为什么数据流架构能做到82%利用率
数据流架构消除了内存墙这一首要瓶颈:
| 数据路径 | ||
| 每次计算额外I/O | 0次 | |
| 内存墙影响 | 严重受制于 | 基本消除 |
| 控制单元开销 | 无控制单元 | |
| 利用率天花板 | 30-50% | 82%+ |
ISCA 2026论文独立佐证
| UniAD整体帧率 | 30 FPS | 3.8× 加速 | |
| 集群利用率 | 85.7%(12/14) | ||
| 6.3× | |||
| 4.4× | |||
| 4.1× | |||
| 1.95× |
来源:M100 ISCA 2026 Industry Track 论文
关键洞察:在DDR内存带宽完全相同(均273 GB/s)、Die面积接近(400mm² vs 415mm²)的条件下,M100实现近4倍帧率优势——标称算力差仅1.8×,2倍+优势来自架构效率的根本性提升。
有效算力量级对比
| Thor-U | ~30-40% | 210-280 TOPS | ||
| 马赫100单颗 | 82% | ≈ 1050 TOPS | ≈ 3.8-5.0× | |
| 马赫100双颗(L9) | 82% | ≈ 2100 TOPS | ≈ 7.5-10.0× |
⚠️ 理想汽车尚未公开82%的详细测试方法论白皮书,完整方法需等待ISCA 2026论文全文公开后补充披露。
3.4 学术背书:ISCA 2026论文收录
| 会议 | |
| 赛道 | |
| 论文标题 | |
| 历史意义 | 全球首家被ISCA工业分区录用论文的汽车企业 |
| 同级别参考 |
3.5 四大核心优势
✅ 优势一:消除"内存墙"瓶颈
数据流架构让数据在计算单元间直接传递,无需反复读写全局存储。模型越大,优势越明显——与冯·诺依曼架构"规模越大越慢"形成鲜明对照。
✅ 优势二:高有效算力
82%利用率使马赫100有效算力达 ~1050 TOPS(单颗) / ~2100 TOPS(双颗),分别为Thor-U的3.8-5倍和7.5-10倍。
✅ 优势三:面向未来的灵活性
李想强调:"它不是把算法焊死的ASIC,AI怎么进化,它就怎么进化"——支持当前Transformer/VLA,未来若出现新AI范式仍可适配,完全可编程。
✅ 优势四:软硬一体化协同
与理想自研马赫VLA2.1系统深度绑定:多模态计算量提升10倍(相比上一代)、端到端延迟下降40%、车辆反应速度比人类快一倍。
3.6 劣势与挑战
| 生态从零构建 | ||
| 量产验证期短 | ||
| 功能安全待确认 | ||
| ISP未突出 | ||
| 仅限自用 | ||
| 微架构细节未公开 |
3.7 与四款竞品的差异化总览
| 算力绝对值 | ||||
| 有效算力 | ~3倍优势 | ~2.5-3倍优势 | ||
| 架构创新性 | 颠覆性 | 代际领先 | ||
| 学术认可 | ISCA 2026独家 | |||
| 内存带宽 | 劣势 | |||
| 制程 | 5nm | 5nm | 5nm | |
| 量产验证 | 劣势 | 显著劣势 | 劣势 |
? 马赫100在峰值算力和架构创新性上全面领先;但在量产验证、功能安全、ISP、生态开放方面,神玑和图灵因更早起步具备明显优势。
第四章 五款芯片横向对比与架构定位
4.1 核心规格总表
| 马赫100(理想) | 英伟达Thor-U | 地平线征程6P | 神玑NX9031(蔚来) | 图灵(小鹏) | |
|---|---|---|---|---|---|
| 厂商 | |||||
| 架构类型 | 动态数据流 | GPGPU(Blackwell) | BPU纳什(超异构) | 异构众核+NPU | 异构DSA+双NPU |
| 制程 | 5nm | 5nm | 7nm | ||
| 单芯片算力 | 1280 TOPS | 700 TOPS | 560 TOPS | ≈1016 TOPS | ~700-750 TOPS |
| CPU | 32核 | 40核 | |||
| 内存带宽 | 273 GB/s | 205 GB/s | 546 GB/s | 273 GB/s | |
| 内存容量 | 64GB | ||||
| 计算效率 | 82% | ||||
| 晶体管 | 370亿 | >500亿 | |||
| ISP | 6.5GPixel/s | 24路+双ISP+LOFIC | |||
| 功能安全 | ASIL-D | ASIL-B/D | ASIL-D+热备 | ASIL-D+冗余 | |
| 量产时间 | 2026年 | 2025年5月 | 2025年9月 | 2025年4月 | 2025年Q2 |
| 首发车型 | 蔚来ET9 | 小鹏P7+ / G7 | |||
| 对外出售 |
征程6P的560 TOPS为1/2稀疏性下的有效算力;神玑未直接公布TOPS,按"4颗Orin-X"推算≈1016 TOPS;图灵官方表述"一颗顶三颗Orin-X"。
4.2 可承载最大模型量对比
| 马赫100 | ~10-17B | ~32B | 存储容量约束 |
| Thor-U | ~3.4B | 内存墙带宽约束 | |
| 征程6P | ~2.6B | 内存墙带宽约束 | |
| 神玑NX9031 | ~6.8B | 内存墙带宽约束 | |
| 图灵 | ~3.4B | ~32B | 实时=带宽约束 / 本地=空间约束 |
马赫100的三层约束模型(不适用TPOT公式)
马赫100数据流架构消除了"每Token重读全部权重"的行为,其参数量约束为三层递进:
| ① 片上存储 | 28M-56M参数 | |
| ② 流式调度 | ~10-17B参数 | |
| ③ 存储天花板 | ~32B FP16 / 64B INT8 |
⚠️ 以上估算基于数据流架构通用原理推算,非官方数据。
图灵的"实时"与"本地"之分
实时可推理(<50ms/Token):**~3.4B (FP16)**——受带宽约束 本地可装载(装下即可):**30B+ (INT8)**——受存储空间约束
小鹏"本地运行30B"侧重隐私合规和功能完整性,不等于"实时响应"。实际分层部署:实时路径≤3.4B、准实时7-13B、非实时30B。
? 本质差异:
冯·诺依曼阵营:瓶颈 = "多快能读完权重"(带宽速度约束) 马赫100:瓶颈 = "装得下装不下"(存储容量约束) 存储容量瓶颈比内存墙带宽瓶颈更容易通过工程手段扩展(增加内存容量 vs 提升带宽——前者成本更低)
4.3 架构类型深度对比:五种计算范式
各架构的设计哲学与核心权衡:
| Thor-U | 征程6P | 马赫100 | 神玑NX9031 | 图灵 | |
|---|---|---|---|---|---|
| 设计哲学 | |||||
| 核心优势 | 消除内存墙 | 带宽最高(546GB/s) | |||
| 主要妥协 | |||||
| 定位特色 |
各架构瞄准的核心瓶颈与突破方式:
| Thor-U | |||
| 征程6P | |||
| 马赫100 | 冯·诺依曼内存墙 | 抛弃冯·诺依曼,纯数据驱动 | |
| 神玑NX9031 | 546GB/s工程极限 | ||
| 图灵 | DSA剪裁+双NPU |
4.4 架构定位图谱
3×3定位矩阵
| 高创新(颠覆式) | ?马赫100 | ?神玑NX9031 |
| 中创新(深度优化) | ?征程6P | |
| 低创新(通用架构) | ?Thor-U |
战略象限解读:
| 颠覆者 | |||
| 工程王者 | |||
| 定制专家 | |||
| 场景专家 | |||
| 通用霸主 |
核心洞察:
马赫100颠覆式创新但生态从零;Thor-U成熟通用但效率折损 中国车企偏好高创新——理想/蔚来/小鹏均选择自研架构,体现技术自主权诉求 英伟达凭借CUDA生态护城河,Thor-U虽创新度低仍是最广泛的安全选择
第五章 各芯片架构技术细节与运行流程对比
5.1 各芯片技术细节
5.1.1 英伟达Thor-U:Blackwell架构降维应用
| Blackwell | ||
| Arm Neoverse V3AE | ||
| 1040亿 | ||
| 舱驾融合 | ||
5.1.2 地平线征程6P:第三代BPU纳什架构
| BPU®纳什 | |
| 370亿 | |
| 560 TOPS | |
| 205 GB/s | |
| ~15 TOPS/W |
BPU纳什核心技术特色:
设计理念:**"算法定义硬件、硬件反哺算法"**——为冯·诺依曼做极致的专用化定制,而非推翻它。
5.1.3 蔚来神玑NX9031:异构众核+最高带宽
| 5nm 车规级 | |
| >500亿 | |
| 32核 | |
| LPDDR5x @ 8533 Mbps → 546 GB/s | |
| 自研HDR,6.5G Pixel/s,<5ms延迟 | |
| ASIL-D + 双芯片毫秒级热备 | |
| >15万颗 | |
秦力洪五大硬核标准(2026.5.16):①高内存带宽 ②真实算力 ③ISP图像处理 ④高效协同 ⑤稳定量产。同时指出行业存在"算力注水3-6倍"乱象。
设计哲学:不在架构上革命,而是在每一项传统指标上推向工程极限。
5.1.4 小鹏图灵:DSA定制化多端通用芯片
| ~5年 | |
| 2025年Q2 | |
| 百亿级别 | |
| 定位 | 全球首颗多端通用AI芯片 |
| 已与大众达成合作 |
核心规格:
| 7nm | |
| 异构DSA + 40核 + 双NPU | |
| ~700-750 TOPS | |
| 2200 TOPS | |
| 4.2 TOPS/mm² | |
| 64GB LPDDR5X / 273 GB/s | |
| 双独立ISP + LOFIC + 24路摄像头 | |
| ASIL-D + 双核冗余安全岛 | |
多车型部署策略:
5.1.5 马赫100:动态数据流架构(已知信息边界)
⚠️ 截至2026-05-18,马赫100完整技术白皮书及ISCA 2026论文全文尚未公开。
| 无传统控制单元 | |
| 完全可编程 | |
尚未公开:详细微架构(PE阵列/互联拓扑)、功耗TDP、IP核来源、编译器/软件栈细节——预计需等ISCA 2026论文全文公开。
5.2 五种架构的端到端运行流程对比
冯·诺依曼(Thor-U):指令驱动四步循环
数据输入 → 【循环N层:① Fetch取指令 → ② 全局内存加载 ← ⏱内存瓶颈 → ③ Execute计算 → ④ 写回内存 ← ⏱再次瓶颈】→ 推理 → 指令 → 执行本质:每层计算产生2次额外访存,60-70%时间花在数据搬运。
BPU纳什(征程6P):专用硬件流水线
数据输入 → DTE预处理 → 【Patch管理器(-65%数据) → QKV加速器(注意力×4) → 稀疏张量引擎(ResNet→35%) → 三级存储(-66%片外访问) → Mesh+GRA调度】→ 推理 → 执行本质:**"减少搬运次数"而非"消灭搬运需求"**——冯·诺依曼基础上做极致专用化。
动态数据流(马赫100):到达即触发、流过即计算
数据流入 → 【PE间自然流动:① 数据到PE → 自动触发(无Fetch)→ ② PE计算结果 → 直传下游PE(不经全局内存)→ ③ 多层数据同时推进(流水线并行)→ ④ 结果自然流出】→ VLA推理 → 执行本质:数据和计算在一起——到了哪里就算哪里,算完交给下一个。零搬运概念。
异构众核(神玑NX9031):超高带宽驱动多Cluster调度
HDR ISP(6.5GPixel/s,<5ms) → 【32核CPU动态分发 → 各Cluster NPU并行推理(546GB/s高速供数)→ 跨Cluster结果融合 → ASIL-D热备保障】→ 推理 → 执行本质:**"用工程极限对抗物理瓶颈"**——不改变架构范式,将每项指标推向极致。
DSA定制(图灵):模型驱动双NPU流水线
24路摄像头 → 双ISP(LOFIC) → 【双NPU并行(感知/规划分工)→ DSA剪裁执行 → 30B本地推理(64GB支撑)→ 安全岛监测】→ 推理 → 执行本质:**"为特定模型剪裁掉一切多余部分"**——所有晶体管服务于自研大模型。
五种架构流程差异总表
| 数据搬运 | 反复搬运 | 546GB/s | |||
| 驱动方式 | 指令驱动 | 专用硬件驱动 | 数据驱动 | 任务调度驱动 | 模型驱动 |
| 效率天花板 | 30-50% | 82% | |||
| 安全机制 | ASIL-D+热备 | ASIL-D+冗余岛 |
第六章 L3/L4级别对模型参数量的需求研判
6.1 三大模型路线的技术定义
| 端到端 (E2E) | |||
| VLA | |||
| 世界模型 (WA) |
演进关系(逐层递进,非替代):
E2E(看见→反应)→ VLA(看见→理解→反应)→ WA(看见→想象→推演→选择最优反应)6.2 代表模型参数量全景
端到端(E2E)模型
| UniAD | 125M | ||
| DriveGPT-Large | 94M | ||
| DriveGPT-Massive | 1.4B | ||
| Tesla FSD V12 | ~0.3-0.5B | ||
| Tesla FSD V14 | ~3-5B | ||
| Alpamayo 1.5 | 10B |
? DriveGPT Scaling Law(ICML 2025):规划任务26M-94M为最佳性价比;全栈E2E需更大容量。
VLA模型
| DriveVLM | 9.7B | ||
| EMMA | 7B-20B | ||
| MindVLA | 7B-13B | ||
| 小鹏云端基座 | 72B |
? VLA车端实际部署普遍采用7B±4B;云端大模型作用是训练教师,蒸馏压缩后上车。
世界模型(WA)
| GAIA-1 | ≈9.4B | 唯一精确公开参数量的世界模型 | |
| DriveDreamer | 1B-3B | ||
| 基础世界模型 | ~1B |
6.3 L3 / L4 参数量需求研判
L3 级别(有条件自动驾驶)
| E2E | 0.5B – 3B | ||
| VLA | 3B – 13B | ||
| WA | 1B – 10B |
? L3研判结论:主流共识 1B – 7B;推荐配置 3B–7B;英伟达Alpamayo以10B作L4推理模型,10B是L3+/L4-安全阈值。
L4 级别(高度自动驾驶)
| E2E | 3B – 20B | |
| VLA | 10B – 72B | |
| WA | 10B – 100B+ |
? L4研判结论:主流共识 10B – 72B;保守估计 ~10B混合栈;激进估计 30B–72B原生;世界模型≥30B大概率非纯车端部署。
3×3参数量汇总矩阵
| L2+(当前量产) | L3(有条件) | L4(高度) | |
|---|---|---|---|
| E2E | 0.1–0.5B | 0.5–3B | 3–20B |
| VLA | 2–7B | 3–13B | 10–72B |
| WA | 1–5B | 3–10B |
6.4 参数量 ↔ 硬件需求的映射关系
冯·诺依曼架构阵营(Thor-U / 征程6P / 图灵)
| ~3.7ms | ~1.8ms | |||
| ~51ms | ~26ms | |||
| ~73ms | ~37ms | |||
| ~95ms | ~48ms | |||
| ~220ms | ~110ms | |||
| ~513ms | ~257ms |
? 冯·诺依曼小结:273 GB/s下L3可行,L4面临内存墙瓶颈。
数据流架构阵营(马赫100)——不适用TPOT公式
| ✅✅✅ 完全在片上 | |||
| ✅✅ 流式调度优势区 | |||
| ✅ 可行 | |||
| ⚠️ 存储容量约束 | |||
| ❌ 超出物理存储上限 |
6.5 权威观点与行业共识
头部车企/机构公开表态:
| 何小鹏(小鹏) | |
| 李想(理想) | |
| 黄仁勋(英伟达) | |
| 马斯克(特斯拉) |
学术界Scaling Law见解:
| DriveGPT (ICML 2025) | |
| GAIA-1 (Wayve, 2023) | |
| VLA4AD Survey (ICCVW 2025) | 瓶颈不在参数量而在可靠性和实时性 |
行业分析师共识:
L3窗口:2025-2026年规模化落地,1B-7B模型是主力 L4窗口:2027-2030年量产,10B-70B配合新一代芯片(1000TOPS+)成标配 参数不是唯一瓶颈:训练数据质量、功能安全认证、实时推理优化同等重要 混合架构是必然选择:纯E2E/VLA需与传统算法组成双栈冗余架构
第七章 静态数据流 vs 动态数据流深度对比
背景:2025年12月,英伟达以200亿美元收购Groq公司,其核心资产是LPU(Language Processing Unit)——采用静态数据流驱动的AI推理芯片,实测LLM推理速度达500+ token/s。
7.1 两种数据流的核心概念
静态数据流(Groq LPU):编译时规划一切
原理:编译器在编译时静态规划所有数据流路径,硬件在运行时严格按预规划执行。
| 灵活性极差 | |
最适合:云端LLM API服务、金融风控推理、工业质检固定流水线——**"计算图已知且固定"的场景**。
动态数据流(马赫100):运行时数据驱动一切
原理:数据到达计算单元时自动触发计算,根据数据依赖关系运行时动态调度,无需编译器预规划完整数据流。
| 灵活性极高 | |
| 天然适配复杂VLA大模型 | 生态从零开始 |
最适合:车载端到端智驾、机器人实时规划、边缘AI网关——**"输入不确定+需运行时自适应"的场景**。
7.2 Groq LPU技术细节
TSP(Tensor Streaming Processor)核心设计
设计哲学:用编译器的复杂度换取硬件的简单性
| 无 | ||
| 220MB统一SRAM | ||
| 编译器静态调度 |
静态数据流实现机制:
流机制:从内存读取向量时分配0-31的流ID,生产者-消费者模式 周期精确调度:144个独立指令队列,每条指令延迟编译时即知 多TSP同步(HAC协议):TSP间交换Hardware Alignment Counter→计算链路延迟→建立父子同步→扩展至最多5跳网络
7.3 马赫100动态数据流技术细节
动态数据流的四大机制:
数据依赖触发:数据到达→自动计算→无Fetch步骤 PE间直接传递:前层结果直传下层→不经全局内存→消除内存墙 运行时动态调度:硬件自动识别依赖→就绪即触发→支持动态分支 Transformer原生支持:Multi-Head Attention在PE阵列间流水线执行→无需频繁搬入搬出
7.4 十一维度核心差异对比
| Groq | ||||
| 马赫100 | ||||
| 马赫100 | ||||
| Groq | ||||
| Groq | ||||
| 马赫100 | ||||
| 马赫100 | ||||
| 马赫100 | ||||
| 应用场景 | 云端确定性推理 | 端侧动态智能 | 分场景各有优势 |
7.5 六大典型应用场景的适配边界
| 云端LLM API | 静态 | ||||
| 车载端到端智驾 | 动态 | ||||
| 金融实时推理 | 静态 | ||||
| 具身智能/机器人 | 动态 | ||||
| 工业视觉检测 | 静态 | ||||
| 边缘AI网关 | 动态 |
? 本质规律:静态胜出域 = "计算图已知且固定";动态胜出域 = "输入/决策路径不确定"。这不是技术优劣,而是问题结构匹配与否。
7.6 车载智驾场景为何偏向动态数据流
核心结论:车载智驾的动态决策需求使动态数据流(马赫100)比静态数据流(Groq LPU)更适合车载场景。
7.7 英伟达收购Groq的战略意图
| 技术储备 | |
| 应对马赫100 | |
| 云端推理市场 | |
| 人才收购 |
对马赫100的影响:短期无直接影响(车载场景Groq不完全适用);长期英伟达可能在下一代Thor中融合静态数据流思想。
7.8 本章小结
静态数据流(Groq LPU) 动态数据流(马赫100) "编译时规划一切" "运行时数据驱动一切" ✅ 确定性极致 ✅ 灵活性极致 ✅ 无运行时开销 ✅ 适应复杂动态场景 ❌ 灵活性极差,不适用训练 ❌ 运行时调度,生态从零 → 适合:云端LLM推理 → 适合:车载智驾/机器人 → 英伟达200亿美元收购Groq → 理想自研马赫100(颠覆式创新)核心趋势:未来可能出现混合架构——静态数据流处理固定子图(如CNN骨干),动态数据流处理动态决策部分(如VLA推理)。
第八章 结论与研究判断
8.1 核心发现(五款芯片全景视角)
1. 五款芯片代表五种不同技术哲学,不存在绝对最优解:
| 马赫100 | ||
| Thor-U | ||
| 征程6P | ||
| 神玑NX9031 | ||
| 图灵 |
2. "算力数字"可比性极差。 仅Thor-U/征程6P公布了标准化TOPS;蔚来刻意不公布;秦力洪直言行业存在"3-6倍注水"。跨厂商直接对比TOPS意义有限。
3. 内存带宽正在成为比峰值算力更关键的指标。 神玑以546GB/s领先全行业,马赫100数据流架构本质上也是通过消除数据搬运来绕过带宽瓶颈。这印证了Wulf & McKee 1995年预言在AI大模型时代的彻底应验。
4. 车企自研芯片已进入规模化阶段。 神玑>15万颗、图灵8+车型、马赫100首发L9——2025-2026年是车载AI芯片格局的分水岭之年。
5. 最大共同不确定性:除Thor-U外,其余四款的算力利用率声明均缺乏独立第三方benchmark验证。
8.2 对马赫100的综合判断
| 技术创新性 | ||
| 有效算力领先幅度 | ||
| 解决的真实痛点 | ||
| 量产成熟度 | ||
| 生态完善度 | ||
| 功能安全性 | ||
| 商业化潜力 |
8.3 对行业的启示
架构范式的拐点已至:冯·诺依曼架构在AI大模型时代的效率天花板已清晰可见(30-50%利用率),数据流架构为代表的非冯·诺依曼范式正从学术走向产业 "有效算力"取代"峰值算力"成为新竞争焦点:越来越关注"实际能用多少算力",而非"纸面标多少TOPS" 自研芯片不再是选择题,而是必答题:三家新势力均已完成自研芯片上车,技术自主权已成为核心竞争力的一部分 L3/L4对模型参数量的需求(7B-72B)已超出大多数现有冯·诺依曼架构芯片的实时推理能力——为新型架构(数据流/超高带宽/DSA)创造了明确的市场窗口
8.4 下一步研究方向
[ ] 待ISCA 2026会议(2026年中下旬)论文公开后,补充马赫100详细微架构信息 [ ] 追踪TechInsights等第三方机构对马赫100/神玑/图灵的物理拆解报告 [ ] 收集首批用户(L9 Livis/ET9/P7+车主)的实际智驾体验反馈 [ ] 关注各车企财报中芯片研发费用的资本化/费用化处理 [ ] 追踪神玑技术公司对零跑/吉利等外部客户的拓展进展 [ ] 关注大众汽车集成图灵芯片的时间表和实际表现
参考资料来源
| M100 ISCA 2026论文 | 一手来源 | |
| Wulf & McKee (1995) | ||
| Mind the Memory Gap (2025) | ||
| DriveGPT(ICML 2025) | ||
| UniAD(CVPR 2023 Best) | ||
| EMMA Waymo(TMLR 2025) | ||
| VLA4AD Survey(ICCVW 2025) |


