AI时代PU全家桶盘点：从经典三巨头到LPU、SPU的存算新革命

来源：看点时报 2026-04-09 17:29:02

在数字时代的算力版图中，“PU”家族始终是核心支柱——从驱动电脑运行的CPU，到支撑AI训练的GPU，再到专攻智能计算的NPU，每一款产品的迭代都贴合着时代的需求。随着生成式AI、端侧AI的爆发式增长，算力需求从“通用适配”走向“场景专用”，英伟达在GTC 2026大会推出的LPU，以及江波龙在CFMS 2026发布的SPU，成为AI时代下“PU”家族的全新成员。它们并非凭空出现，而是经典PU技术演进的必然结果，更是适配新场景、解决新痛点的关键突破。今天，我们就全面盘点PU家族的前世今生，解锁AI时代的算力新密码。

一、经典PU三巨头：奠定算力基础，见证时代变迁

PU，本质是“Processing Unit(处理单元)”的缩写，不同前缀代表着不同的定位与使命。CPU、GPU、NPU作为“老牌核心”，各自走过了数十年的迭代之路，从单一功能走向协同作战，构成了现代计算的核心骨架。

CPU：通用算力的“老大哥”，数字世界的基石

作为PU家族的“开山鼻祖”，CPU(Central Processing Unit，中央处理器)的诞生标志着通用计算时代的开启。1971年，英特尔推出全球第一款商用微处理器4004，这款仅包含2300个晶体管的芯片，首次实现了“计算、控制、存储”的集成，正式奠定了CPU的核心地位，也拉开了个人计算机时代的序幕。

早期的CPU定位是“全能选手”，采用复杂指令集(CISC)或精简指令集(RISC)架构，核心数量少但单核能力极强，负责统筹电脑的所有核心任务——从操作系统运行、程序调度，到简单的计算、数据处理，几乎所有指令都需要经过CPU的处理。在AI尚未兴起的时代，CPU是绝对的“算力核心”，无论是个人电脑、服务器，还是早期的工业设备，都离不开它的支撑。

随着技术迭代，CPU从单核发展到多核，晶体管数量从数千个突破到数十亿个，运算速度也实现了指数级提升。但它的“全能”也带来了局限：面对AI时代大规模并行计算、海量数据处理的需求，CPU的架构设计使其难以兼顾“高效”与“专用”，逐渐从“唯一核心”转变为“统筹调度中心”，与其他专用PU协同工作。

GPU：从图形渲染到AI算力核心，实现跨界逆袭

GPU(Graphics Processing Unit，图形处理器)的诞生，最初是为了解决一个特定痛点——图形渲染。1999年，英伟达发布GeForce 256，首次提出“GPU”概念，这款芯片专为3D图形加速设计，通过大规模并行计算核心，快速处理图形数据，让电脑能够流畅运行3D游戏、视频剪辑等图形密集型任务。

早期的GPU与CPU分工明确：CPU负责统筹调度，GPU负责图形渲染，两者各司其职，互不干涉。直到2006年，英伟达推出CUDA并行计算架构，彻底改变了GPU的命运——它打破了GPU“只能做图形处理”的局限，让GPU能够支持通用并行计算，尤其是擅长处理AI训练中大量的矩阵运算、数据拟合等任务。

随着AI技术的崛起，GPU迎来了“跨界逆袭”。从特斯拉、Fermi、Kepler等早期架构，到Volta、Hopper、Blackwell等突破性架构，英伟达持续推动GPU从“图形加速专用硬件”向“通用并行计算引擎”转型，逐步成为AI训练的核心算力支撑。如今，无论是ChatGPT等大模型的训练，还是自动驾驶的视觉处理、科学计算，GPU都扮演着不可或缺的角色，成为AI时代的“算力基石”。但GPU也存在明显短板：在AI推理，尤其是低延迟交互场景中，其“吞吐量优先”的设计导致响应延迟较高，难以适配智能体等实时交互需求。

NPU：AI专用算力的“后起之秀”，聚焦高效推理

随着AI从“云端训练”走向“端侧部署”，对算力的“高效性”“低功耗”提出了更高要求，NPU(Neural Processing Unit，神经网络处理单元)应运而生。值得注意的是，NPU与谷歌推出的TPU并非等同概念——2016年谷歌发布的第一代TPU(Tensor Processing Unit)，是面向数据中心的专用AI芯片，聚焦云端大规模AI计算;而NPU更多指代端侧或嵌入式场景的AI加速单元，二者应用边界明确。不过，TPU作为早期专用AI芯片的代表性产品，其脉动阵列架构(专为神经网络核心任务优化，能效比显著高于CPU和GPU)，为后续包括NPU在内的各类AI专用加速芯片，提供了重要的技术参考。

与CPU的“全能”、GPU的“并行通用”不同，NPU的核心定位是“AI专用”——它摒弃了通用计算的冗余设计，专门针对神经网络的运算逻辑进行优化，能够以更低的功耗、更高的效率处理AI推理任务。此后，华为推出昇腾系列、寒武纪推出思元系列，各类NPU产品相继落地，广泛应用于手机、安防摄像头、自动驾驶控制器等端侧设备，成为端侧AI普及的核心驱动力。

NPU的出现，填补了“通用算力”与“AI专用算力”之间的空白，形成了“CPU统筹、GPU训练、NPU推理”的协同格局。但随着生成式AI、多模态AI的发展，无论是云端推理的低延迟需求，还是端侧存储与计算的协同需求，都需要更具针对性的专用PU，LPU与SPU正是在这样的背景下应运而生。

二、AI时代新成员：LPU与SPU，解锁存算新场景

2026年3月，全球科技圈迎来两场重磅发布会：美国时间3月16日，英伟达在GTC 2026大会上推出Groq 3 LPU;3月27日，江波龙在深圳CFMS闪存峰会上发布SPU。这两款全新PU产品，分别聚焦AI推理与端侧AI存储处理，精准切入AI时代的核心痛点，成为PU家族的“新势力”，也标志着算力与存力竞争进入“场景专用”的新阶段。

英伟达LPU：聚焦低延迟推理，破解AI交互痛点

LPU(Language Processing Unit，语言处理单元)的诞生，核心是解决AI推理阶段的“延迟难题”。随着智能体AI的兴起，大模型推理的核心需求从“高吞吐量”转向“低延迟、高交互”——传统GPU遵循“吞吐量优先”的设计，在处理单用户小批量、串行生成任务时，需要频繁从外部HBM内存搬运数据，导致延迟过高，出现“逐字蹦出”的卡顿感，而这一延迟的90%以上都发生在解码阶段。

为破解这一痛点，英伟达以约200亿美元收购Groq核心技术及团队，并在GTC 2026大会上，正式推出集成于Vera Rubin全栈AI计算平台的Groq 3 LPU，构建起“CPU+GPU+LPU”的全栈协同体系。这款LPU专为极致低延迟推理设计，采用“大规模片上SRAM+TSP确定性架构”的核心设计，从根本上重构了处理器架构：内置500MB片上SRAM，可提供高达150TB/s的片上带宽，相当于将数据“贴着”算力存放，彻底消除了数据搬运的延迟;TSP(张量流处理器)确定性架构则去除了复杂的控制逻辑，实现纳秒级可预测延迟，能效比相比传统GPU提升可达10倍。

在应用场景上，Groq 3 LPU与Rubin GPU协同工作，重点适配智能体、实时对话、多模态交互等低延迟需求，同时英伟达同步推出Groq 3 LPX推理加速器机架，单机架集成256颗LPU，合计提供128GB片上SRAM与640TB/s机架级带宽，进一步实现推理环节的高吞吐与低延迟。此外，这款LPU还将深度融合到英伟达2028年商用的Feynman架构中，该架构采用台积电1.6nm A16制程，集成光通信技术，将进一步降低数据中心能耗，推动AI推理规模化盈利。

从本质上看，LPU并非对GPU的替代，而是补充——GPU负责大模型训练和高吞吐量推理，LPU负责低延迟推理，两者协同，完美覆盖AI从训练到推理的全场景需求，标志着AI推理进入“延迟优先”的新时代。

江波龙SPU：存内计算革新，适配端侧AI存储需求

如果说LPU聚焦云端AI推理，那么江波龙推出的SPU(Storage Processing Unit，存储处理单元)，则精准切入了端侧AI的“存储+计算”协同痛点。随着端侧AI应用的爆发，市场面临两大核心难题：一是端侧设备DRAM高成本问题突出;二是大模型参数膨胀导致的I/O延迟，影响端侧AI的交互体验，而传统存储模组仅能实现“存储”功能，无法兼顾计算与调度需求。

2026年3月27日，江波龙在CFMS|MemoryS 2026闪存峰会上，正式发布SPU，同时推出iSA(存储智能体)，构建“芯片硬件+智能调度”的软硬件协同技术体系，标志着江波龙从常规标准化存储，正式向端侧AI存储定制化解决方案转型。这款SPU基于5nm先进制程打造，核心定位是“端侧AI存储处理专用单元”，兼具高存力、低功耗的优势，单盘最大容量达128TB，远超主流cSSD的8TB，可高效替代HDD，平衡存储容量与成本。

SPU的核心突破的是“存内计算”——内置存内无损压缩技术(平均压缩比2:1)与HLC(高级缓存)自研技术，其中HLC技术可通过架构创新，在减少近40% DRAM需求的同时，不降低终端体验，直指端侧AI设备DRAM供需失衡的痛点;搭配iSA存储智能体(SPU的“大脑”)，通过专家卸载、KV Cache智能管理与预取算法，可有效解决MoE大模型参数膨胀导致的I/O延迟问题。

为进一步释放SPU的技术价值，江波龙与AMD展开深度协同，围绕锐龙AI Max+ 395处理器搭载的智能体主机开展联合调优工作，成功实现397B超大模型的本地部署。在256K超长上下文(122B)的应用场景中，双方通过技术协同将DRAM占用量降低近40%，为超大模型本地化的高效落地与规模化推广，提供了极具创新性的实践路径。

PU家族的进化逻辑：从通用到专用，从协同到场景

从CPU的“全能通用”，到GPU的“并行通用”，再到NPU、LPU、SPU的“场景专用”，PU家族的进化，本质上是“算力需求”与“技术创新”相互驱动的结果。回顾整个进化历程，我们能清晰看到三个核心趋势：

第一，从“单一核心”到“协同作战”。早期的计算场景中，CPU是唯一的算力核心;随着场景复杂化，GPU、NPU相继出现，形成“CPU统筹、GPU训练、NPU推理”的协同格局;而LPU与SPU的加入，进一步完善了协同体系，形成“云端(CPU+GPU+LPU)+端侧(NPU+SPU)”的全场景算力布局，不同PU各司其职、优势互补。

第二，从“通用适配”到“场景专用”。算力需求的升级，推动PU从“一刀切”的通用设计，走向“精准匹配”的专用设计——CPU适配所有通用计算场景，GPU适配图形渲染与AI训练，NPU适配端侧AI推理，LPU适配云端低延迟推理，SPU适配端侧AI存储处理，每一款产品都针对特定场景的痛点进行优化，实现“极致效率”。

第三，从“算力为王”到“存算并重”。早期PU的迭代核心是“提升运算速度”，而AI时代的PU，更注重“能效比”与“用户体验”——LPU追求低延迟、高能效，解决AI交互卡顿问题;SPU追求低功耗、高存力，解决端侧设备算力与存储的协同难题，这也成为未来PU技术迭代的核心方向。

AI时代，PU家族开启全新征程

CPU、GPU、NPU的迭代，见证了数字时代从“通用计算”到“AI计算”的转型;而LPU与SPU的横空出世，则标志着AI算力进入“场景深耕”的新阶段。英伟达的LPU，破解了云端AI推理的延迟痛点，为智能体、实时交互等场景提供了核心支撑;江波龙的SPU，实现了端侧AI存储与计算的协同革新，推动端侧AI的普及落地。

未来，随着AI技术的持续渗透，PU家族或许还将迎来更多新成员，迭代出更具针对性的专用产品——或许会有聚焦具身智能的专用PU，或许会有适配更高性能计算的新型PU，但无论如何，“场景适配”“协同高效”“能效优先”都将是核心趋势。

从1971年CPU诞生，到如今LPU、SPU亮相，PU家族的每一步进化，都在推动数字世界的变革。在AI时代的进程中，这些“核心”将继续发挥关键作用，支撑起更多创新应用，解锁数字世界的全新可能。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com