Etched.ai 深度研究报告:Transformer 专用架构与 AI 芯片的新范式_展会资讯_资讯

Etched.ai 深度研究报告:Transformer 专用架构与 AI 芯片的新范式

执行摘要
在生成式人工智能（Generative AI）重塑全球计算基础设施的浪潮中，半导体行业正处于一个关键的转折点。尽管 Nvidia（英伟达）凭借其通用图形处理器（GPGPU）建立了近乎垄断的市场地位，但一种新的架构哲学正在崛起：即专为 Transformer 架构设计的专用集成电路（ASIC）。处于这一变革前沿的是 Etched.ai（简称 Etched），这家总部位于加利福尼亚州库比蒂诺（Cupertino）的初创公司，截至 2026 年 1 月，其估值已迅速攀升至约 50 亿美元。
Etched 的核心战略建立在一个高风险但极具颠覆性的论点之上：Transformer 架构——作为 DeepSeek，GPT，Gemini 等大模型的底层逻辑——不仅仅是一种暂时的算法趋势，而是人工智能领域的长期标准。通过将 Transformer 算法直接“蚀刻”（Etch）到硅片中，Etched 声称其旗舰产品 Sohu 芯片能够实现比通用 GPU 高出数个数量级的能效与吞吐量。具体而言，Sohu 芯片承诺在运行 Llama 70B 模型时，每秒处理超过 50 万个 token，这一吞吐量约为 Nvidia H100 的 20 倍，并且显著快于 Nvidia 下一代 Blackwell B200 架构。
本报告将对 Etched.ai 进行详尽的审查，深入分析其技术架构、软件生态系统（特别是 SGLang 的集成）、融资历程（包括 2026 年 1 月的 5 亿美元 B 轮融资）、团队背景以及与行业巨头和 Groq、Cerebras 等新兴对手的竞争态势。同时，本报告也将探讨将数十亿美元押注于单一算法架构所面临的潜在技术过时风险与供应链挑战。
1. 绪论：硅基计算的范式转移与 Transformer 的统治
1.1 摩尔定律的放缓与通用计算的瓶颈
在过去的半个世纪里，摩尔定律一直是半导体行业进步的基石。然而，随着晶体管缩放接近物理极限，通过单纯缩小制程节点来获得性能倍增的时代已接近尾声。与此同时，人工智能模型的规模却在以指数级速度增长，OpenAI 的 GPT 系列和 Meta 的 Llama 系列模型的参数量已突破万亿级别。这种硬件进步放缓与软件需求激增之间的剪刀差，暴露了通用硬件（General-Purpose Hardware）的内在低效性。
通用 GPU（GPGPU）本质上是计算领域的“瑞士军刀”。为了保持对图形渲染（光线追踪、光栅化）、科学计算（FP64 精度）以及各种非 Transformer 神经网络（如 CNN、LSTM）的兼容性，GPU 必须保留大量的控制逻辑、缓存层级和多余的算力单元。Etched 的创始人指出，在运行大型语言模型（LLM）推理任务时，Nvidia H100 GPU 的晶体管利用率仅为 3.3% 左右，绝大部分硅片面积处于闲置或低效状态。
1.2 专用化（Specialization）的必然性
Etched 的成立基于对计算历史的深刻洞察：当某类工作负载变得足够庞大且稳定时，硬件必然会走向专用化。正如比特币挖矿从 CPU 演变为 GPU，最终定型于 ASIC（专用集成电路）一样，Etched 认为 AI 推理市场已经成熟，足以支撑专用的 Transformer ASIC。根据市场预测，到 2026 年，推理工作负载将占全球 AI 计算需求的 80%，这意味着数千亿美元的资本支出将用于运行模型，而非仅仅训练模型。
在此背景下，Etched 提出了“Sohu”芯片的概念：这是一款剥离了所有与 Transformer 无关组件的 ASIC，旨在通过极致的架构精简，换取极致的吞吐量和能效。这不仅仅是硬件的优化，更是对 AI 发展方向的一次豪赌——赌 Transformer 架构将成为未来十年 AI 的“终结者”。
2. 企业概况与发展历程
2.1 创始团队与“泰尔奖学金”背景
Etched 成立于 2022 年，由 Gavin Uberti（CEO）、Chris Zhu（CTO）和 Robert Wachen（COO）三位哈佛大学辍学生联合创立。这三位创始人的背景具有典型的硅谷传奇色彩：他们是首批集体获得“泰尔奖学金”（Thiel Fellowship）的团队之一。彼得·泰尔（Peter Thiel）设立该奖学金旨在鼓励有才华的年轻人跳过大学教育直接创业，这也为后来泰尔在 Etched 的多轮融资中持续注资埋下了伏笔。
Gavin Uberti：在创立 Etched 之前，Uberti 曾在 OctoML 和 Xnor.ai 工作，专注于编译器优化和微型机器学习（TinyML）。他的技术背景使他能够从软硬件协同设计（Co-design）的角度审视 AI 芯片的效率问题。
Chris Zhu：作为首席技术官，Zhu 拥有哈佛大学数学与计算机科学背景，曾在 Amazon 和 AvantStay 实习。他的专长在于理论计算机科学和组合数学，这对于理解 Transformer 复杂的注意力机制（Attention Mechanism）至关重要。
Robert Wachen：担任首席运营官，负责供应链管理和公司运营。在半导体行业，尤其是作为一个无晶圆厂（Fabless）设计公司，处理与台积电（TSMC）等代工厂的关系是生存的关键。
2.2 人才战略：硅谷极客与行业老兵的融合
意识到仅凭年轻的创始团队无法驾驭复杂的芯片流片与制造流程，Etched 采取了激进的人才引进策略。公司吸纳了大量来自 Cypress Semiconductor、Broadcom（博通）、Nvidia 和 Google DeepMind 的资深工程师。
Mark Ross (CTO)：Etched 聘请了 Mark Ross 担任首席技术官，他曾是 Cypress Semiconductor 的高管，拥有数十年的芯片设计经验。这种“老少配”的组合旨在将创始人的激进架构构想与行业老兵的工程落地能力相结合，降低流片失败的风险。
Brian Loiler (VP Platform & System Engineering)：曾在 Nvidia 工作超过 20 年，参与了 HGX 和 DGX 系统的开发。他的加入确保了 Sohu 芯片能够无缝集成到现有的数据中心基础设施中。
2.3 核心使命：超智能硬件（Superintelligence Hardware）
Etched 的使命宣言不仅限于降低成本，更在于“构建超智能硬件”。公司管理层认为，通用人工智能（AGI）的实现受制于当前推理成本的高昂。如果不能将推理成本降低一个数量级，诸如实时视频生成、长链思维推理（Chain-of-Thought Reasoning）等高级 AI 应用将永远无法在大规模商业场景中落地。因此，Etched 将自己定义为 AI 基础设施层的变革者，旨在通过硬件创新解锁软件的潜能。
3. 技术架构深度解析：Sohu 芯片
Sohu 芯片是 Etched 价值主张的物理载体。它不是 GPU，不是 CPU，而是一款并在硅片层面固化了 Transformer 逻辑的 ASIC。
3.1 架构哲学：作为“牛排刀”的 ASIC
Robert Wachen 曾用一个生动的比喻来描述 Sohu 与 GPU 的区别：“通用芯片就像瑞士军刀，它什么都能做，但由于需要兼顾所有功能，它在任何单一任务上都无法做到世界级。而 Sohu 就像一把牛排刀——我们只做一件事，但我们把这件事做得比谁都好。”
Sohu 的架构设计遵循了 Rich Sutton 提出的“苦涩的教训”（The Bitter Lesson）：即长期来看，利用计算规模的通用方法（如 Transformer）总会胜过利用人类领域知识的复杂方法。Etched 对此进行了硬件层面的逆向应用——既然软件已经收敛于 Transformer，硬件就应该放弃通用性，全力支持这一胜出的架构。
3.2 制造工艺与物理规格
制程节点：Sohu 芯片采用 TSMC（台积电）4nm 工艺制造。这是目前高性能计算领域的顶级工艺节点，与 Nvidia 的 Hopper（H100）和 Blackwell（B200）系列处于同一代际。这意味着 Etched 的性能优势并非来自更先进的制程，而是完全源于架构效率。
光罩尺寸（Reticle Size）：从公开的芯片渲染图和分析来看，Sohu 的芯片尺寸似乎接近光罩极限（Reticle Limit），这是一种单芯片能够制造的最大物理尺寸。相比之下，Nvidia 的 B200 采用了基于 Chiplet（芯粒）的设计，将两个光罩极限的芯片封装在一起。
3.3 内存子系统：HBM3E 的战略选择
大语言模型推理通常被认为是“内存带宽受限”（Memory Bandwidth Bound）的。为了解决这一问题，Etched 在内存配置上极其激进。
内存容量与类型：Sohu 芯片配备了 144GB HBM3E（高带宽内存）。
对比分析：这一配置高于标准版 Nvidia H100（80GB HBM3），与 H200（141GB HBM3E）持平，但低于 B200（192GB）。
技术含义：144GB 的大容量内存允许单颗 Sohu 芯片承载更大的模型权重或更大的 KV Cache（键值缓存）。在推理过程中，更大的 KV Cache 意味着可以支持更长的上下文窗口（Context Window）或更大的并发批处理大小（Batch Size）。虽然 critics 指出推理受限于带宽，但 Etched 声称通过特殊的批处理策略，Sohu 可以将工作负载转化为计算受限（Compute Bound），从而充分利用其庞大的算力。
3.4 性能基准与“50万 Token”的震撼
Etched 发布的性能声明在业界引起了巨大震动。
吞吐量：Etched 宣称，一台配备 8 颗 Sohu 芯片的服务器在运行 Llama-3 70B 模型时，能够实现每秒 500,000 个 token 的生成速度。
对比 Nvidia：作为对比，一台 8 卡 H100 服务器的吞吐量约为 23,000 token/秒，而 Nvidia 下一代 B200 服务器约为 45,000 token/秒。这意味着 Sohu 的性能是 H100 的 20 倍以上，是 B200 的 10 倍以上。
批处理能力：Sohu 能够在极大批处理大小（Batch Size > 1000）下运行而不发生性能衰减。相比之下，GPU 在批处理大小超过一定阈值（如 64 或 128）后，由于片上缓存和调度开销，性能提升会由于延迟增加而变得不切实际。Sohu 的架构消除了这些调度瓶颈，使其极其适合服务于类似 ChatGPT 这样拥有海量并发请求的云端服务。
3.5 功耗与能效争议
关于 Sohu 功耗的报道存在一定混淆。部分媒体报道称其功耗“仅为 10 瓦”。
技术辟谣与澄清：从物理学角度看，一颗配备 144GB HBM3E 内存的高性能逻辑芯片，其总板卡功耗（TBP）绝无可能仅为 10W。HBM 内存本身的物理接口和数据传输就会消耗数十瓦甚至上百瓦的电力。
合理解读：这里的“10W”极有可能是指每单位算力或每生成特定数量 Token 的能耗分摊，或者是芯片在某种特定待机或极低负载状态下的核心逻辑功耗。更准确的说法应参考其“10 倍能效提升”的声明——即在同等功耗预算下（例如标准服务器的 700W-1000W），Sohu 提供的算力是 GPU 的 10 倍，从而将每 Token 能耗（Joules per Token）降低了一个数量级。这种能效比的飞跃对于受限于电力供应的数据中心来说，比单纯的峰值性能更具吸引力。
4. 软件生态系统：SGLang 与无 CUDA 策略
在 AI 芯片领域，软件通常被视为比硬件更宽的护城河。Nvidia 的 CUDA 生态系统是任何挑战者必须面对的高墙。Etched 采取了一种独特的“绕过”策略。
4.1 放弃通用编译器，拥抱内核级优化
Etched 并不试图构建一个像 CUDA 那样通用的编程语言和编译器。因为 Sohu 只运行 Transformer，Etched 的软件团队只需要为 Transformer 的有限算子（如矩阵乘法、Softmax、LayerNorm、Attention）编写极致优化的底层内核（Kernels）。
开发者体验：对于上层开发者（使用 PyTorch 或 JAX），Sohu 的存在是透明的。Etched 提供了与主流框架的后端集成，使得开发者无需修改模型代码即可调用 Sohu 加速。
4.2 SGLang 的战略集成
Etched 深度绑定了 SGLang（Structured Generation Language），这是一个新兴的高性能大模型推理框架。
SGLang 的核心优势：该框架引入了 RadixAttention 技术，能够高效地复用 KV Cache，显著加速前缀共享的请求（例如多轮对话或具有相同系统提示词的任务）。它还支持连续批处理（Continuous Batching）和推测解码（Speculative Decoding）。
Etched 的贡献：Etched 是 SGLang 社区的活跃贡献者。通过优化 SGLang 后端以适配 Sohu 硬件，Etched 确保了其芯片在出厂时就能通过标准的开源接口提供顶级性能。SGLang 已经被 xAI、Nvidia 和多家云服务商采用，这使得 Etched 能够搭乘开源社区的快车，迅速融入主流推理堆栈。
多模态与未来支持：SGLang 还支持多模态模型（如 LLaVA），这意味着 Sohu 理论上也可以高效运行基于 Transformer 的视觉-语言模型，尽管其核心设计是针对文本 Transformer。
4.3 软件栈的局限性
这种软件策略的副作用是灵活性极低。如果用户需要运行非 Transformer 模型（例如基于 CNN 的老旧推荐系统，或基于扩散模型的非 Transformer 部分），Sohu 将无法执行。这意味着 Sohu 只能作为数据中心的“协处理器”或专用节点存在，而无法完全取代承担通用任务的 GPU。
5. 供应链与制造：台积电产能之战
作为一家无晶圆厂（Fabless）设计公司，Etched 的命运掌握在代工厂手中。
5.1 台积电 4nm 与 CoWoS 封装
Sohu 依赖于台积电的 4nm 工艺和 CoWoS（Chip-on-Wafer-on-Substrate）先进封装技术来集成 HBM3E 内存。
产能瓶颈：2024 年至 2026 年间，CoWoS 产能一直是全球 AI 芯片供应的最短板。Nvidia、AMD 和 Broadcom 锁定了大部分产能。
资金的作用：Etched 在 2026 年 1 月完成的 5 亿美元 B 轮融资，其主要用途之一很可能就是向台积电支付预付款，以确保产能分配。在半导体行业，产能往往流向预付款最多和订单量最大的客户。
HBM 供应：HBM3E 是目前市场上最紧缺的存储器组件，主要由 SK Hynix、Samsung 和 Micron 供应。Etched 需要与这些存储巨头建立稳固的供货协议，以保证 144GB/颗的惊人配置能够落地。
6. 市场动态与竞争格局
到 2026 年，AI 芯片市场已演变为“一超多强”的格局。Etched 必须在 Nvidia 的阴影下，与 Groq、Cerebras 等其他挑战者争夺市场份额。
6.1 对抗 Nvidia（英伟达）
Nvidia 是绝对的霸主，拥有 H100/H200 和 B200 等全能型产品。
Etched 的非对称战争：Etched 无法在通用性上击败 Nvidia，但在成本和特定任务的吞吐量上拥有巨大优势。Etched 的策略是说服那些在此刻每年花费数十亿美元进行推理的巨头（如 Microsoft, OpenAI, Meta），将推理工作负载从昂贵的 H100 迁移到更便宜、更快的 Sohu 上。
Nvidia 的反击：Nvidia 通过推行 GB200 NVL72 等机架级解决方案，通过 NVLink 互联提升整体系统性能，试图用系统级优势抵消单芯片的劣势。
6.2 对抗 Groq（LPU）
Groq 是另一家备受瞩目的推理芯片公司，主打超低延迟。
架构对比：Groq 采用 SRAM（静态随机存取存储器）作为片上内存，这使得其速度极快，但容量极小（单芯片仅约 230MB）。要运行 Llama 70B，Groq 需要数百块芯片互联。
Etched 的优势：密度与成本。Etched 单芯片 144GB 的配置意味着单卡或 8 卡服务器即可运行大模型，而 Groq 需要数个机架。对于看重总拥有成本（TCO）的数据中心，Etched 的方案在物理空间和电力密度上更具优势。
6.3 对抗 Cerebras（晶圆级芯片）
Cerebras 制造晶圆大小的芯片（WSE-3），专注于训练和超大模型推理。
对比：Cerebras 的方案需要特殊的数据中心改造（供电和冷却），且单价极高。Etched 采用标准的服务器外形尺寸（Form Factor），可以像乐高积木一样直接插入现有的服务器机架中，部署难度显著降低。
表 1：Etched Sohu 与主要竞品的关键指标对比
特性
Nvidia H100 (8卡)
Nvidia B200 (Blackwell)
Etched Sohu (8卡)
Groq LPU
架构类型
通用 GPU (GPGPU)
通用 GPU (GPGPU)
Transformer 专用 ASIC
确定性 LPU
内存技术
HBM3
HBM3E
HBM3E
SRAM
单芯片内存
80 GB
192 GB
144 GB
~230 MB
Llama-70B 吞吐量
~2.3 万 tokens/秒
~4.5 万 tokens/秒
>50 万 tokens/秒
(需集群实现)
主要优势
生态通用，可训练
性能均衡，生态强
极致吞吐，低 TCO
极致低延迟
主要劣势
昂贵，能效低
功耗高，供应紧缺
仅限 Transformer
密度低，需大规模集群
数据来源：公开资料整理
7. 融资与资本分析：50 亿美元估值背后的逻辑
Etched 的融资历程反映了资本市场对“Nvidia 替代者”的极度渴望。
7.1 融资时间线
种子轮（2023 年 3 月）：融资 540 万美元，估值 3400 万美元。由天使投资人支持。
A 轮（2024 年 6 月）：融资 1.2 亿美元。由 Primary Venture Partners 和 Positive Sum Ventures 领投。此轮融资是 Etched 从 PPT 走向流片的关键。
B 轮（2026 年 1 月）：融资约 5 亿美元，估值飙升至 50 亿美元。本轮由 Stripes 领投，Peter Thiel（彼得·泰尔）、Positive Sum 和 Ribbit Capital 跟投。
7.2 投资人分析与资金用途
彼得·泰尔（Peter Thiel）的角色：作为 PayPal 和 Palantir 的联合创始人，Thiel 以逆向投资著称。他在 B 轮的重注信号明显——他相信 AI 硬件市场将发生类似于“通用计算向专用计算”的范式转移，且看好 Etched 能够挑战 Nvidia 的霸权。
资金用途：5 亿美元的巨额资金主要用于两个方面：一是支付台积电昂贵的流片费用和预定 4nm/CoWoS 产能；二是扩大工程团队，完成芯片的量产验证和软件栈的完善。
8. 风险因素：在单一架构上押注 50 亿美元
尽管前景广阔，Etched 面临着典型的“二元风险”（Binary Risk）。
8.1 架构过时风险（The Architecture Risk）
Etched 的全部身家都押注在 Transformer 架构上。如果 AI 社区转向非 Transformer 架构（如 Mamba、RWKV 或尚未发明的架构），Sohu 芯片将瞬间沦为电子垃圾。
缓解因素：目前的趋势显示，即便是最新的“推理模型”（Reasoning Models，如 OpenAI o1），其核心仍然是 Transformer。Transformer 的生态惯性巨大，短期内被完全取代的可能性较低。
8.2 软件与采用惯性
数据中心客户极其保守。即便 Sohu 便宜且快，但如果软件迁移存在 1% 的摩擦，或者芯片在长期运行中出现稳定性问题，客户都会犹豫。Nvidia 的 CUDA 提供了极致的稳定性与兼容性，这是 ASIC 难以比拟的。
8.3 竞争对手的反应
Nvidia 拥有深厚的资源。如果 ASIC 威胁真的变大，Nvidia 完全有能力推出自己的推理专用卡，或者通过降价来挤压 Etched 的生存空间。此外，云厂商自研芯片（如 Google TPU v6, AWS Trainium 2）也是强有力的竞争对手。
9. 结论与未来展望
Etched.ai 代表了 AI 硬件发展的一个极端方向：通过牺牲通用性来换取极致的效率。在 AI 模型训练成本高昂、推理需求爆发的 2026 年，这种策略具有极高的经济合理性。
随着 2026 年 1 月 B 轮融资的完成，Etched 已经拥有了进入战场的弹药。接下来的 12 到 24 个月将是决定生死的关键期：Sohu 能否如期量产？标称的“50 万 token/秒”能否在真实业务场景中复现？SGLang 生态能否足够健壮以支撑大规模部署？
如果赌赢了，Etched 将成为 AI 时代的“Intel”，为全球的 AI 代理（Agents）提供算力心脏；如果赌输了，它将成为半导体历史上又一个因为押错技术路线而陨落的流星。但无论结果如何，Etched 的出现都标志着 AI 芯片行业已经进入了一个新的阶段——从通用的暴力计算，转向精细化的专用计算。

特性	Nvidia H100 (8卡)	Nvidia B200 (Blackwell)	Etched Sohu (8卡)	Groq LPU
架构类型	通用 GPU (GPGPU)	通用 GPU (GPGPU)	Transformer 专用 ASIC	确定性 LPU
内存技术	HBM3	HBM3E	HBM3E	SRAM
单芯片内存	80 GB	192 GB	144 GB	~230 MB
Llama-70B 吞吐量	~2.3 万 tokens/秒	~4.5 万 tokens/秒	>50 万 tokens/秒	(需集群实现)
主要优势	生态通用，可训练	性能均衡，生态强	极致吞吐，低 TCO	极致低延迟
主要劣势	昂贵，能效低	功耗高，供应紧缺	仅限 Transformer	密度低，需大规模集群