深度学习算法的突破是新一轮 AI 产业腾飞的开端,但在应用落地过程中,深度学习算法的进展极大依赖算力增长。“研究三年算法不如用 10 倍 GPU”,这样的算力焦虑正成为业界的普遍困扰。
那么,在面对计算机视觉(CV)、自然语言处理(NLP)、跨媒体分析与推理、自主无人系统等场景时,我们该如何匹配综合效用最大化的算力?在哪些情况下优先选择 NVIDIA A100?为此,青云科技(qingcloud.com,股票代码:688316)推出AI初创加速计划,在提供4折优惠的同时,也帮助用户对认识 AI 算力,建立起一个直观的理解,并提供一个易用、可参考的 GPU 选型框架。
初识 AI 算力:GPU 还是面向未来的主流技术路线吗?Ampere 架构属实站在大气层?
GPU 作为加速器,是实现深度学习算法的通用算力,和针对细分场景定制优化的 FPGA、ASIC 芯片一道,都是传统“冯·诺依曼”架构的延伸。
GPU 相较 CPU 拥有更多的 ALU,使用 SIMD 并行处理密集型数据。这样的架构最初被用于图像数据处理,随后被发现其具有离散化和分布式特征,可用矩阵运算替代布尔运算,十分适合处理深度学习所需要的非线性离散数据,尤其在进行深度学习算法训练时非常高效。
紧追 GPU 步伐的是半定制化 FPGA,以及专用定制化 ASIC 芯片。FPGA 是在 PAL、GAL、CPLD 等可编程器件的基础上进一步发展的产物,本质上通过硬件的配置实现软件算法,因此适用于以硬件流水线方式处理一条数据,在能耗、性能方面具有明显优势,但实现复杂算法的开发成本较高。
ASIC 是 AI 算力走向进一步专用、定制化的产物,定制开发使得 ASIC 具有功耗低、可靠性高、性能高、体积小等特点,也相应的伴随不可编程、可扩展性差等不足。我们所熟知的 VPU、TPU 都属于 ASIC 芯片。VPU 专为图像和视觉处理而定制。Google 专为 TensorFlow 开发的 TPU 运行整体神经网络模型,减少与 CPU 交互,能在不同场景权衡系统、功耗、性能等问题时,体现出足够的灵活性。
GPU、FPGA、ASIC 三类算力依旧是延续传统计算架构、优化硬件计算能力一种体现,差别在于 FPGA 和 ASIC 更面向细分场景、更定制化——新的芯片厂商往往选择专注细分领域寻求后发先至的可能。而“GPU+CPU”的异构算力将伴随 AI 的普及走向通用,仍是未来主流发展方向。
提升算力的另一个思路,即对底层计算架构进行革新,采用类脑神经结构来提升计算能力,以 IBM TrueNorth 芯片为代表。
这种模仿生物神经网络的计算架构被统称为类脑芯片,用“神经元+突触”的方式替代传统“冯·诺依曼”架构体系,除异步、并行计算能力外,还将同时具备自主感知、识别和学习能力。
这种超越深度学习算法、希望在芯片结构和器件层面改变设计的做法将开发出新的类脑计算机体系结构。IBM TrueNorth 芯片、Intel Loihi 芯片、高通 Zeroth“认知计算平台”都是类脑芯片的典型代表。即使技术尚不成熟,但在愈发逼近摩尔定律极限的今天,类脑芯片的发展将是计算机体系结构革命的机遇。
NVIDIA 作为公认定义了 GPU 的企业,从其 GPU 架构的演进来看,GPU 算力分化为计算和图形两条路线,最新的 Ampere 架构正是计算路线巅峰之作。
NVIDIA 现有 GPU 产品路线可分为计算和图形两个方向。从历史来看,NVIDIA 一度自称“视觉计算企业”,自 G80 GPU 开始,以及后续的 Fermi、Kepler、Maxwell 架构 GPU 产品最初都服务于视觉处理,并牢牢占据游戏市场。
自 2012 年,有人尝试采用 GPU 来构建和加速深度神经网络,Kepler、Maxwell、Pascal 架构 GPU 都被越来越广泛应用在 AI 领域。
伴随 AI、云计算的高速发展,Volta 成为第一个专门面向计算方向的 GPU 架构,首次使用张量核心(Tensor Cores),相较上一代 Pascal 架构在深度学习场景快 5 倍以上。从此 GPU 算力正式分化为计算和图形两条路线。此后推出的 Turing 架构则更侧重图形处理,广为人知的是该架构带来了全新的 RTX 系列品牌,并衍生出很多消费级 GPU 图形卡。
最新的 Ampere 架构正是 GPU 在计算方向的大幅加强,技术突破包括了 7nm 工艺、第三代张量核心(Tensor Cores)、多实例 GPU(MIG)、第三代 NVIDIA NVLink 互联技术、细粒度结构稀疏性等,这些新技术带来的新特性组合,使得 Ampere 架构 A100 GPU 在计算方向化身多面手,统一了大数据分析、科学计算、深度学习训练和推理等主流计算场景。
特别是 A100 GPU 支持弹性构建多功能和高吞吐量的数据中心,显著降低了数据中心成本,使 A100 GPU 成为云上算力的高性价比选择。
GPU 多维度选型指南:如何评估 NVIDIA A100 GPU ?
综合来看,选购 GPU 需要结合业务需求综合评估张量核心数、内存大小、内存带宽和浮点计算能力。
张量核心数是影响 GPU 性能的关键因素之一,但并不是一贯的第一优先级。例如对比矩阵乘法、卷积运算两类张量计算,卷积运算受计算速度影响更大,因此更多的张量核心数可以显著提升 FLOPs。
而对于矩阵乘法来说,将数据复制到显存比计算数据更耗费资源。因此,特别是对于 LSTM 等处理大量小型矩阵乘法的循环神经网络,GPU 内存带宽比张量核心数更加重要。
哪些场景需要重点考虑内存大小呢?在深度学习领域,经过预训练的模型一般都对内存大小有着较高要求。
在一些涉及大量图像的领域,如医学成像、计算机视觉模型、GIS 地理信息等,也需要优先考虑内存大小,GIS 可能还会涉及双精度浮点计算能力要求。此外,在一些如 Kaggle 竞赛、短期实验场景,以及面临激烈竞争的初创企业,选择大内存往往能带来独特的优势。
评估浮点计算能力主要区分科学计算和深度学习。一般而言,深度学习使用 FP32 或 FP16 即可,而科学计算、HPC 普遍需要 FP64 计算能力,如果精度不够,计算结果的偏差可能会带来严重的问题。
另外,如果需要 GPU 集群训练大规模神经网络,数据中心的网络基础设施将变得十分重要,高度优化的系统、资源伸缩性、平衡各因素的灵活性等都成为需要评估的要素。
综合 GPU 场景要求和综合成本来看,上述选型角度能帮你避免 GPU 某一方面性能成为瓶颈,而如果你的 GPU 使用时间小于两年,那么云上的 GPU 将是首选。
特别是在 A100 GPU 有效降低了数据中心综合成本,最新的张量核、大内存和大带宽、以及全方位精度的加速,统一了深度学习推理训练、科学计算、大数据分析场景,云上的 A100 GPU 就成为避免性能瓶颈的通用高性价比选项。
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com