在数字时代的算力版图中,“PU”家族始终是核心支柱——从驱动电脑运行的CPU,到支撑AI训练的GPU,再到专攻智能计算的NPU,每一款产品的迭代都贴合着时代的需求。随着生成式AI、端侧AI的爆发式增长,算力需求从“通用适配”走向“场景专用”,英伟达在GTC 2026大会推出的LPU,以及江波龙在CFMS 2026发布的SPU,成为AI时代下“PU”家族的全新成员。它们并非凭空出现,而是经典PU技术演进的必然结果,更是适配新场景、解决新痛点的关键突破。今天,我们就全面盘点PU家族的前世今生,解锁AI时代的算力新密码。

一、经典PU三巨头:奠定算力基础,见证时代变迁
PU,本质是“Processing Unit(处理单元)”的缩写,不同前缀代表着不同的定位与使命。CPU、GPU、NPU作为“老牌核心”,各自走过了数十年的迭代之路,从单一功能走向协同作战,构成了现代计算的核心骨架。
CPU:通用算力的“老大哥”,数字世界的基石
作为PU家族的“开山鼻祖”,CPU(Central Processing Unit,中央处理器)的诞生标志着通用计算时代的开启。1971年,英特尔推出全球第一款商用微处理器4004,这款仅包含2300个晶体管的芯片,首次实现了“计算、控制、存储”的集成,正式奠定了CPU的核心地位,也拉开了个人计算机时代的序幕。
早期的CPU定位是“全能选手”,采用复杂指令集(CISC)或精简指令集(RISC)架构,核心数量少但单核能力极强,负责统筹电脑的所有核心任务——从操作系统运行、程序调度,到简单的计算、数据处理,几乎所有指令都需要经过CPU的处理。在AI尚未兴起的时代,CPU是绝对的“算力核心”,无论是个人电脑、服务器,还是早期的工业设备,都离不开它的支撑。
随着技术迭代,CPU从单核发展到多核,晶体管数量从数千个突破到数十亿个,运算速度也实现了指数级提升。但它的“全能”也带来了局限:面对AI时代大规模并行计算、海量数据处理的需求,CPU的架构设计使其难以兼顾“高效”与“专用”,逐渐从“唯一核心”转变为“统筹调度中心”,与其他专用PU协同工作。
GPU:从图形渲染到AI算力核心,实现跨界逆袭
GPU(Graphics Processing Unit,图形处理器)的诞生,最初是为了解决一个特定痛点——图形渲染。1999年,英伟达发布GeForce 256,首次提出“GPU”概念,这款芯片专为3D图形加速设计,通过大规模并行计算核心,快速处理图形数据,让电脑能够流畅运行3D游戏、视频剪辑等图形密集型任务。
早期的GPU与CPU分工明确:CPU负责统筹调度,GPU负责图形渲染,两者各司其职,互不干涉。直到2006年,英伟达推出CUDA并行计算架构,彻底改变了GPU的命运——它打破了GPU“只能做图形处理”的局限,让GPU能够支持通用并行计算,尤其是擅长处理AI训练中大量的矩阵运算、数据拟合等任务。
随着AI技术的崛起,GPU迎来了“跨界逆袭”。从特斯拉、Fermi、Kepler等早期架构,到Volta、Hopper、Blackwell等突破性架构,英伟达持续推动GPU从“图形加速专用硬件”向“通用并行计算引擎”转型,逐步成为AI训练的核心算力支撑。如今,无论是ChatGPT等大模型的训练,还是自动驾驶的视觉处理、科学计算,GPU都扮演着不可或缺的角色,成为AI时代的“算力基石”。但GPU也存在明显短板:在AI推理,尤其是低延迟交互场景中,其“吞吐量优先”的设计导致响应延迟较高,难以适配智能体等实时交互需求。
NPU:AI专用算力的“后起之秀”,聚焦高效推理
随着AI从“云端训练”走向“端侧部署”,对算力的“高效性”“低功耗”提出了更高要求,NPU(Neural Processing Unit,神经网络处理单元)应运而生。值得注意的是,NPU与谷歌推出的TPU并非等同概念——2016年谷歌发布的第一代TPU(Tensor Processing Unit),是面向数据中心的专用AI芯片,聚焦云端大规模AI计算;而NPU更多指代端侧或嵌入式场景的AI加速单元,二者应用边界明确。不过,TPU作为早期专用AI芯片的代表性产品,其脉动阵列架构(专为神经网络核心任务优化,能效比显著高于CPU和GPU),为后续包括NPU在内的各类AI专用加速芯片,提供了重要的技术参考。
与CPU的“全能”、GPU的“并行通用”不同,NPU的核心定位是“AI专用”——它摒弃了通用计算的冗余设计,专门针对神经网络的运算逻辑进行优化,能够以更低的功耗、更高的效率处理AI推理任务。此后,华为推出昇腾系列、寒武纪推出思元系列,各类NPU产品相继落地,广泛应用于手机、安防摄像头、自动驾驶控制器等端侧设备,成为端侧AI普及的核心驱动力。
NPU的出现,填补了“通用算力”与“AI专用算力”之间的空白,形成了“CPU统筹、GPU训练、NPU推理”的协同格局。但随着生成式AI、多模态AI的发展,无论是云端推理的低延迟需求,还是端侧存储与计算的协同需求,都需要更具针对性的专用PU,LPU与SPU正是在这样的背景下应运而生。
二、AI时代新成员:LPU与SPU,解锁存算新场景
2026年3月,全球科技圈迎来两场重磅发布会:美国时间3月16日,英伟达在GTC 2026大会上推出Groq 3 LPU;3月27日,江波龙在深圳CFMS闪存峰会上发布SPU。这两款全新PU产品,分别聚焦AI推理与端侧AI存储处理,精准切入AI时代的核心痛点,成为PU家族的“新势力”,也标志着算力与存力竞争进入“场景专用”的新阶段。
英伟达LPU:聚焦低延迟推理,破解AI交互痛点
LPU(Language Processing Unit,语言处理单元)的诞生,核心是解决AI推理阶段的“延迟难题”。随着智能体AI的兴起,大模型推理的核心需求从“高吞吐量”转向“低延迟、高交互”——传统GPU遵循“吞吐量优先”的设计,在处理单用户小批量、串行生成任务时,需要频繁从外部HBM内存搬运数据,导致延迟过高,出现“逐字蹦出”的卡顿感,而这一延迟的90%以上都发生在解码阶段。
为破解这一痛点,英伟达以约200亿美元收购Groq核心技术及团队,并在GTC 2026大会上,正式推出集成于Vera Rubin全栈AI计算平台的Groq 3 LPU,构建起“CPU+GPU+LPU”的全栈协同体系。这款LPU专为极致低延迟推理设计,采用“大规模片上SRAM+TSP确定性架构”的核心设计,从根本上重构了处理器架构:内置500MB片上SRAM,可提供高达150TB/s的片上带宽,相当于将数据“贴着”算力存放,彻底消除了数据搬运的延迟;TSP(张量流处理器)确定性架构则去除了复杂的控制逻辑,实现纳秒级可预测延迟,能效比相比传统GPU提升可达10倍。
在应用场景上,Groq 3 LPU与Rubin GPU协同工作,重点适配智能体、实时对话、多模态交互等低延迟需求,同时英伟达同步推出Groq 3 LPX推理加速器机架,单机架集成256颗LPU,合计提供128GB片上SRAM与640TB/s机架级带宽,进一步实现推理环节的高吞吐与低延迟。此外,这款LPU还将深度融合到英伟达2028年商用的Feynman架构中,该架构采用台积电1.6nm A16制程,集成光通信技术,将进一步降低数据中心能耗,推动AI推理规模化盈利。

从本质上看,LPU并非对GPU的替代,而是补充——GPU负责大模型训练和高吞吐量推理,LPU负责低延迟推理,两者协同,完美覆盖AI从训练到推理的全场景需求,标志着AI推理进入“延迟优先”的新时代。
江波龙SPU:存内计算革新,适配端侧AI存储需求
如果说LPU聚焦云端AI推理,那么江波龙推出的SPU(Storage Processing Unit,存储处理单元),则精准切入了端侧AI的“存储+计算”协同痛点。随着端侧AI应用的爆发,市场面临两大核心难题:一是端侧设备DRAM高成本问题突出;二是大模型参数膨胀导致的I/O延迟,影响端侧AI的交互体验,而传统存储模组仅能实现“存储”功能,无法兼顾计算与调度需求。
2026年3月27日,江波龙在CFMS|MemoryS 2026闪存峰会上,正式发布SPU,同时推出iSA(存储智能体),构建“芯片硬件+智能调度”的软硬件协同技术体系,标志着江波龙从常规标准化存储,正式向端侧AI存储定制化解决方案转型。这款SPU基于5nm先进制程打造,核心定位是“端侧AI存储处理专用单元”,兼具高存力、低功耗的优势,单盘最大容量达128TB,远超主流cSSD的8TB,可高效替代HDD,平衡存储容量与成本。

SPU的核心突破的是“存内计算”——内置存内无损压缩技术(平均压缩比2:1)与HLC(高级缓存)自研技术,其中HLC技术可通过架构创新,在减少近40% DRAM需求的同时,不降低终端体验,直指端侧AI设备DRAM供需失衡的痛点;搭配iSA存储智能体(SPU的“大脑”),通过专家卸载、KV Cache智能管理与预取算法,可有效解决MoE大模型参数膨胀导致的I/O延迟问题。
为进一步释放SPU的技术价值,江波龙与AMD展开深度协同,围绕锐龙AI Max+ 395处理器搭载的智能体主机开展联合调优工作,成功实现397B超大模型的本地部署。在256K超长上下文(122B)的应用场景中,双方通过技术协同将DRAM占用量降低近40%,为超大模型本地化的高效落地与规模化推广,提供了极具创新性的实践路径。
PU家族的进化逻辑:从通用到专用,从协同到场景
从CPU的“全能通用”,到GPU的“并行通用”,再到NPU、LPU、SPU的“场景专用”,PU家族的进化,本质上是“算力需求”与“技术创新”相互驱动的结果。回顾整个进化历程,我们能清晰看到三个核心趋势:
第一,从“单一核心”到“协同作战”。早期的计算场景中,CPU是唯一的算力核心;随着场景复杂化,GPU、NPU相继出现,形成“CPU统筹、GPU训练、NPU推理”的协同格局;而LPU与SPU的加入,进一步完善了协同体系,形成“云端(CPU+GPU+LPU)+端侧(NPU+SPU)”的全场景算力布局,不同PU各司其职、优势互补。
第二,从“通用适配”到“场景专用”。算力需求的升级,推动PU从“一刀切”的通用设计,走向“精准匹配”的专用设计——CPU适配所有通用计算场景,GPU适配图形渲染与AI训练,NPU适配端侧AI推理,LPU适配云端低延迟推理,SPU适配端侧AI存储处理,每一款产品都针对特定场景的痛点进行优化,实现“极致效率”。
第三,从“算力为王”到“存算并重”。早期PU的迭代核心是“提升运算速度”,而AI时代的PU,更注重“能效比”与“用户体验”——LPU追求低延迟、高能效,解决AI交互卡顿问题;SPU追求低功耗、高存力,解决端侧设备算力与存储的协同难题,这也成为未来PU技术迭代的核心方向。
AI时代,PU家族开启全新征程
CPU、GPU、NPU的迭代,见证了数字时代从“通用计算”到“AI计算”的转型;而LPU与SPU的横空出世,则标志着AI算力进入“场景深耕”的新阶段。英伟达的LPU,破解了云端AI推理的延迟痛点,为智能体、实时交互等场景提供了核心支撑;江波龙的SPU,实现了端侧AI存储与计算的协同革新,推动端侧AI的普及落地。
未来,随着AI技术的持续渗透,PU家族或许还将迎来更多新成员,迭代出更具针对性的专用产品——或许会有聚焦具身智能的专用PU,或许会有适配更高性能计算的新型PU,但无论如何,“场景适配”“协同高效”“能效优先”都将是核心趋势。
从1971年CPU诞生,到如今LPU、SPU亮相,PU家族的每一步进化,都在推动数字世界的变革。在AI时代的进程中,这些“核心”将继续发挥关键作用,支撑起更多创新应用,解锁数字世界的全新可能。
