当前位置: 商业快讯 > 正文

边缘革命:耿都先生AI加速芯片技术创新与突破之路

2025-05-21 17:40:22       来源:看点时报

人工智能正引发一场划时代的产业变革,深刻重构全球经济格局与行业生态,以颠覆性创新驱动社会转型升级。这一技术革命的形成建立在计算力、算法、数据三大基础要素的协同突破之上,其中作为底层物理硬件支撑的算力基础设施,已成为释放人工智能价值的关键引擎,直接决定着技术演进的速度与深度。作为算力体系的核心载体,AI芯片不仅构筑了人工智能计算平台的技术底座,更通过突破性创新不断推升算力天花板,在产业技术路径选择与生态构建中发挥着战略引领作用。

在万物智联时代背景下,智能终端设备、物联网生态、5G通信网络与人工智能技术的深度融合,驱动全球芯片市场进入爆发式增长周期。需求分布已从传统的消费电子与数据中心,延伸至汽车电子、医疗设备及工业自动化等新兴领域,形成多点开花的市场格局。这种跨领域的应用扩展使得兼具算法架构设计与硬件工程能力的复合型芯片人才,特别是掌握AI芯片研发核心技术的专业工程师,成为制约产业发展的关键稀缺资源。当前全球科技竞争格局下,高水平AI芯片设计人才的培养与储备,确实已成影响国家人工智能战略实施进程的核心要素。

(耿都先生)

耿都先生深耕AI芯片设计研发领域多年,现为AI芯片设计及开发工程师。其学术背景呈现清晰的进阶路径:他毕业于美国南加州大学电子工程系获得硕士学位。在攻读硕士学位期间,他专注于超大规模集成电路(VLSI)架构设计与算法优化研究,系统构建了面向人工智能计算的芯片设计方法论。此前的本科教育阶段,他就读于国内电子科技大学,以微电子技术为核心方向完成了系统性知识体系搭建,获得工学学士学位。这种由基础微电子到先进集成电路设计的学术纵深培养,为其在AI芯片领域的工程实践奠定了坚实的理论根基与技术储备。

在完成南加州大学系统化的集成电路专业训练后,耿都先生持续从事AI芯片研发领域,主要负责芯片规格定义、芯片架构设计、撰写芯片设计文档和技术报告、用硬件电路描述语言对芯片电路进行描述和实现、对芯片功能和性能进行验证、对芯片的面积和功耗进行优化等。其专业实践覆盖芯片设计全生命周期:主导芯片规格制定与系统架构规划,运用硬件描述语言完成电路模块设计与RTL级实现;建立多维验证体系保障功能完备性,通过算法优化实现PPA(性能—功耗—面积)指标的系统性提升。这种全栈式技术能力在三个维度创造显著价值:其一、驱动算力密度突破,其研发的高性能计算单元与分布式存储架构显著提升AI加速器能效比;其二、赋能产业智能化转型,为消费电子、通信基站及云计算中心提供具备自主知识产权的核心算力模块;其三、构建技术护城河,通过定制化硅基芯片解决方案帮助客户实现差异化竞争优势,在降低30%系统总成本的同时缩短产品迭代周期,有效增强企业在AIoT时代的市场主导地位。

在人工智能芯片设计研发技术领域,耿都先生为寒武纪完成了多项具有行业标杆意义的技术突破。他擅长神经网络处理器架构设计,专用集成电路(ASIC)前端设计,RTL/电路级设计,计算机体系结构等方面的尖端技术。其主导研发的智能加速芯片采用自主创新的神经网络专用指令集架构,通过算法—架构—电路协同设计实现PPA指标全面优化。在AI芯片设计及开发技术领域,他为寒武纪公司开发了许多创新性技术成果,实现了多款基于神经网络专用指令集架构的AI加速芯片,其芯片各项指标均为中国行业内领先水平。例如:他研发了思元 220系列、思元370系列、思元590系列技术产品等等。这些系列产品已成功应用于多家头部企业的智能计算中心建设。这些创新成果不仅巩固了寒武纪在AI芯片领域的技术领导地位,更推动了国产智能算力基础设施的自主化进程。

作为寒武纪边缘智能计算技术体系的核心载体,思元220芯片的发布标志着端云协同产品矩阵的完整化进程。该产品在第二十一届高交会上一经发布即引发业界高度关注,寒武纪展区现场涌入大批专业观众深度体验其技术特性。此次展示采用“硬件实体+场景化验证”双维呈现模式:既直观呈现芯片模组与加速卡的结构设计,更创新搭建了无人零售全栈解决方案的实时演示环境。思元220助力各行业将智能应用在边缘端落地,为客户提供普惠式的边缘加速方案。作为边缘计算领域的革新性解决方案,思元220通过其8TOPS INT8算力引擎,构建了普惠型边缘计算范式,有效推动AI能力向产业终端下沉。该产品已形成覆盖智慧电网设备故障预测、缺陷识别高准确率的工业质检、智慧金融毫秒级声纹认证等八大核心场景的技术支撑矩阵。

在高交会现场,寒武纪展示搭载思元220的无人零售原型解决方案。思元MLU220-M.2智能加速卡具有8TOPS INT8算力,可以轻松处理8路视频分析。可以轻松实现店面的智能化升级,以最小的成本实现商超的无人零售模式。通过思元220加速卡可以在手掌大小的AI盒子中实现零售、交通、工厂产线和营业厅等边缘端应用的智能部署。该技术产品应用场景多种多样,具有广阔应用前景和价值。思元220加速卡弥补了中国市场上边缘端加速方案的空白。MLU220-M.2加速卡可广泛应用于智能电网、智能制造、智慧轨道交通、智慧金融等边缘计算场景。支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,实现各种业务的边缘端智能化解决方案。

思元220芯片集成了在处理器架构领域的一系列创新性技术,例如:思元220芯片采用了在处理器架构领域的一系列创新性技术,其架构为寒武纪最新一代智能处理器MLUv02,实现最大32TOPS(INT4)算力,而功耗仅10W,这将进一步丰富和完善端云一体产品体系,继续为广大客户提供性能卓越、高度优化的人工智能算力支撑。该产品技术在边缘计算领域已实现开创性突破,思元220芯片可提供16/8/4位可配置的定点运算,客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。在软件方面,通过端云一体的软件平台,思元220继续支持寒武纪基础软件平台,支持业内各主流编程框架。

耿都先生成功为寒武纪开发了的新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中,8卡计算系统的并行性能平均达到350W RTX GPU的155%。MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。他为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。

思元370是寒武纪首款基于7nm Chiplet技术的AI芯片,集成390亿晶体管,INT8算力达256TOPS,较前代提升2倍。其创新性体现在三方面:搭载MLUarch03架构实现性能跃升,成为国内首款支持LPDDR5内存的云端AI芯片(带宽提升3倍、能效达GDDR6的1.5倍),并集成MLU-Link™多芯互联技术,为分布式任务提供高效协同能力。配套的MagicMind推理引擎实现训推一体,显著降低了开发部署成本。

耿都先生还为寒武纪公司开发了思元590。MLU 590芯片作为国产高性能AI加速芯片,其技术架构具有显著创新特点并展现出多维应用价值。在技术创新层面,该芯片采用7nm先进制程工艺与MLUarch05全新架构,在实现314TFLOPS FP16峰值算力的同时,通过内存容量(80GB显存)与带宽(2TB/s)的双重提升,显著优化了复杂深度学习模型的处理效率;其制程优势不仅保障了芯片性能,更有效降低功耗与发热量,提升集成度和运行稳定性。通过搭载MLU-Link多机互联技术,实现设备间低延迟直连,突破传统数据中转瓶颈,使分布式计算效率提升达30%。软件生态层面兼容TensorFlow、PyTorch等主流框架,并提供完备开发工具链,大幅降低算法迁移与二次开发成本。在应用价值维度,该芯片已成功支撑中国移动等企业构建国产化算力资源池,为大模型服务部署提供核心算力保障。具体场景应用中:智能驾驶领域实现多传感器数据实时处理,为L4级自动驾驶决策系统提供毫秒级响应;智能安防场景通过视频目标检测精度提升40%与人脸识别准确率突破99.5%,显著增强安防系统效能;同时将自然语言处理任务效率提升至传统方案的1.8倍。值得关注的是,MLU 590已具备替代英伟达A100的技术潜力,百度等企业正在其数据中心开展替代验证,实测单卡性能达到A100的92%且功耗降低15%。尽管在软件生态成熟度与长期运行稳定性方面仍需完善,但其在算力密度(8.4TFLOPS/W)、能效比及多场景适配性上的突破,正推动国产AI芯片在智算中心、车路协同、工业质检等关键领域实现规模化落地。

在全球人工智能竞赛进入算力密度与能效比决胜的新阶段,耿都先生以其开创性的边缘智能芯片架构设计,为中国半导体产业开辟出独具战略价值的创新路径。他主导研发的思元220芯片不仅攻克了边缘端算力压缩与功耗控制的二元悖论,更通过可配置定点运算架构重构了“云-边-端”协同的底层逻辑,使国产AI芯片首次在工业质检、智慧电网等核心场景实现算法精度与实时响应的双重突破。其领衔开发的MLU370系列训推一体加速卡,凭借chiplet集成与MLU-Link多芯互联技术的深度融合,在分布式训练任务中创造出超越国际同类产品155%的能效优势,这种将算法特性深度注入硅基设计的系统思维,成功打破了传统GPU在AI计算领域的性能垄断。耿都的技术哲学体现在两个维度革新:依托动态精度配置平衡算力弹性与能效经济性,借助自主指令集构建软硬协同的生态壁垒。这些突破性成果不仅使寒武纪边缘计算产品矩阵提前两年完成商业化布局,更标志着中国AI芯片设计从工艺追赶迈向架构定义的质变。当全球半导体产业面临地缘重构之际,耿都先生的团队在7nm制程上实现的390亿晶体管集成度与256TOPS算力密度,正为国产智能算力基础设施铺设出一条自主可控的“超车弯道”,其技术路线所揭示的“场景定义芯片”方法论,或将重塑后摩尔定律时代全球AI芯片的创新范式。(作者:刘斌)


关键词:

责任编辑:kj005

新闻图集

科技推荐

数码推荐

家电推荐

新闻排行

商业快讯

边缘革命:耿都先生AI加速芯片技术创新与突破之路

2025-05-21 17:40:22   看点时报

人工智能正引发一场划时代的产业变革,深刻重构全球经济格局与行业生态,以颠覆性创新驱动社会转型升级。这一技术革命的形成建立在计算力、算法、数据三大基础要素的协同突破之上,其中作为底层物理硬件支撑的算力基础设施,已成为释放人工智能价值的关键引擎,直接决定着技术演进的速度与深度。作为算力体系的核心载体,AI芯片不仅构筑了人工智能计算平台的技术底座,更通过突破性创新不断推升算力天花板,在产业技术路径选择与生态构建中发挥着战略引领作用。

在万物智联时代背景下,智能终端设备、物联网生态、5G通信网络与人工智能技术的深度融合,驱动全球芯片市场进入爆发式增长周期。需求分布已从传统的消费电子与数据中心,延伸至汽车电子、医疗设备及工业自动化等新兴领域,形成多点开花的市场格局。这种跨领域的应用扩展使得兼具算法架构设计与硬件工程能力的复合型芯片人才,特别是掌握AI芯片研发核心技术的专业工程师,成为制约产业发展的关键稀缺资源。当前全球科技竞争格局下,高水平AI芯片设计人才的培养与储备,确实已成影响国家人工智能战略实施进程的核心要素。

(耿都先生)

耿都先生深耕AI芯片设计研发领域多年,现为AI芯片设计及开发工程师。其学术背景呈现清晰的进阶路径:他毕业于美国南加州大学电子工程系获得硕士学位。在攻读硕士学位期间,他专注于超大规模集成电路(VLSI)架构设计与算法优化研究,系统构建了面向人工智能计算的芯片设计方法论。此前的本科教育阶段,他就读于国内电子科技大学,以微电子技术为核心方向完成了系统性知识体系搭建,获得工学学士学位。这种由基础微电子到先进集成电路设计的学术纵深培养,为其在AI芯片领域的工程实践奠定了坚实的理论根基与技术储备。

在完成南加州大学系统化的集成电路专业训练后,耿都先生持续从事AI芯片研发领域,主要负责芯片规格定义、芯片架构设计、撰写芯片设计文档和技术报告、用硬件电路描述语言对芯片电路进行描述和实现、对芯片功能和性能进行验证、对芯片的面积和功耗进行优化等。其专业实践覆盖芯片设计全生命周期:主导芯片规格制定与系统架构规划,运用硬件描述语言完成电路模块设计与RTL级实现;建立多维验证体系保障功能完备性,通过算法优化实现PPA(性能—功耗—面积)指标的系统性提升。这种全栈式技术能力在三个维度创造显著价值:其一、驱动算力密度突破,其研发的高性能计算单元与分布式存储架构显著提升AI加速器能效比;其二、赋能产业智能化转型,为消费电子、通信基站及云计算中心提供具备自主知识产权的核心算力模块;其三、构建技术护城河,通过定制化硅基芯片解决方案帮助客户实现差异化竞争优势,在降低30%系统总成本的同时缩短产品迭代周期,有效增强企业在AIoT时代的市场主导地位。

在人工智能芯片设计研发技术领域,耿都先生为寒武纪完成了多项具有行业标杆意义的技术突破。他擅长神经网络处理器架构设计,专用集成电路(ASIC)前端设计,RTL/电路级设计,计算机体系结构等方面的尖端技术。其主导研发的智能加速芯片采用自主创新的神经网络专用指令集架构,通过算法—架构—电路协同设计实现PPA指标全面优化。在AI芯片设计及开发技术领域,他为寒武纪公司开发了许多创新性技术成果,实现了多款基于神经网络专用指令集架构的AI加速芯片,其芯片各项指标均为中国行业内领先水平。例如:他研发了思元 220系列、思元370系列、思元590系列技术产品等等。这些系列产品已成功应用于多家头部企业的智能计算中心建设。这些创新成果不仅巩固了寒武纪在AI芯片领域的技术领导地位,更推动了国产智能算力基础设施的自主化进程。

作为寒武纪边缘智能计算技术体系的核心载体,思元220芯片的发布标志着端云协同产品矩阵的完整化进程。该产品在第二十一届高交会上一经发布即引发业界高度关注,寒武纪展区现场涌入大批专业观众深度体验其技术特性。此次展示采用“硬件实体+场景化验证”双维呈现模式:既直观呈现芯片模组与加速卡的结构设计,更创新搭建了无人零售全栈解决方案的实时演示环境。思元220助力各行业将智能应用在边缘端落地,为客户提供普惠式的边缘加速方案。作为边缘计算领域的革新性解决方案,思元220通过其8TOPS INT8算力引擎,构建了普惠型边缘计算范式,有效推动AI能力向产业终端下沉。该产品已形成覆盖智慧电网设备故障预测、缺陷识别高准确率的工业质检、智慧金融毫秒级声纹认证等八大核心场景的技术支撑矩阵。

在高交会现场,寒武纪展示搭载思元220的无人零售原型解决方案。思元MLU220-M.2智能加速卡具有8TOPS INT8算力,可以轻松处理8路视频分析。可以轻松实现店面的智能化升级,以最小的成本实现商超的无人零售模式。通过思元220加速卡可以在手掌大小的AI盒子中实现零售、交通、工厂产线和营业厅等边缘端应用的智能部署。该技术产品应用场景多种多样,具有广阔应用前景和价值。思元220加速卡弥补了中国市场上边缘端加速方案的空白。MLU220-M.2加速卡可广泛应用于智能电网、智能制造、智慧轨道交通、智慧金融等边缘计算场景。支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,实现各种业务的边缘端智能化解决方案。

思元220芯片集成了在处理器架构领域的一系列创新性技术,例如:思元220芯片采用了在处理器架构领域的一系列创新性技术,其架构为寒武纪最新一代智能处理器MLUv02,实现最大32TOPS(INT4)算力,而功耗仅10W,这将进一步丰富和完善端云一体产品体系,继续为广大客户提供性能卓越、高度优化的人工智能算力支撑。该产品技术在边缘计算领域已实现开创性突破,思元220芯片可提供16/8/4位可配置的定点运算,客户可以根据实际应用灵活的选择运算类型来获得卓越的人工智能推理性能。在软件方面,通过端云一体的软件平台,思元220继续支持寒武纪基础软件平台,支持业内各主流编程框架。

耿都先生成功为寒武纪开发了的新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中,8卡计算系统的并行性能平均达到350W RTX GPU的155%。MLU370-X8智能加速卡支持MLU-Link™多芯互联技术,提供卡内及卡间互联功能。他为多卡系统专门设计了MLU-Link桥接卡,可实现4张加速卡为一组的8颗思元370芯片全互联,每张加速卡可获得200GB/s的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍,可高效执行多芯多卡训练和分布式推理任务。

思元370是寒武纪首款基于7nm Chiplet技术的AI芯片,集成390亿晶体管,INT8算力达256TOPS,较前代提升2倍。其创新性体现在三方面:搭载MLUarch03架构实现性能跃升,成为国内首款支持LPDDR5内存的云端AI芯片(带宽提升3倍、能效达GDDR6的1.5倍),并集成MLU-Link™多芯互联技术,为分布式任务提供高效协同能力。配套的MagicMind推理引擎实现训推一体,显著降低了开发部署成本。

耿都先生还为寒武纪公司开发了思元590。MLU 590芯片作为国产高性能AI加速芯片,其技术架构具有显著创新特点并展现出多维应用价值。在技术创新层面,该芯片采用7nm先进制程工艺与MLUarch05全新架构,在实现314TFLOPS FP16峰值算力的同时,通过内存容量(80GB显存)与带宽(2TB/s)的双重提升,显著优化了复杂深度学习模型的处理效率;其制程优势不仅保障了芯片性能,更有效降低功耗与发热量,提升集成度和运行稳定性。通过搭载MLU-Link多机互联技术,实现设备间低延迟直连,突破传统数据中转瓶颈,使分布式计算效率提升达30%。软件生态层面兼容TensorFlow、PyTorch等主流框架,并提供完备开发工具链,大幅降低算法迁移与二次开发成本。在应用价值维度,该芯片已成功支撑中国移动等企业构建国产化算力资源池,为大模型服务部署提供核心算力保障。具体场景应用中:智能驾驶领域实现多传感器数据实时处理,为L4级自动驾驶决策系统提供毫秒级响应;智能安防场景通过视频目标检测精度提升40%与人脸识别准确率突破99.5%,显著增强安防系统效能;同时将自然语言处理任务效率提升至传统方案的1.8倍。值得关注的是,MLU 590已具备替代英伟达A100的技术潜力,百度等企业正在其数据中心开展替代验证,实测单卡性能达到A100的92%且功耗降低15%。尽管在软件生态成熟度与长期运行稳定性方面仍需完善,但其在算力密度(8.4TFLOPS/W)、能效比及多场景适配性上的突破,正推动国产AI芯片在智算中心、车路协同、工业质检等关键领域实现规模化落地。

在全球人工智能竞赛进入算力密度与能效比决胜的新阶段,耿都先生以其开创性的边缘智能芯片架构设计,为中国半导体产业开辟出独具战略价值的创新路径。他主导研发的思元220芯片不仅攻克了边缘端算力压缩与功耗控制的二元悖论,更通过可配置定点运算架构重构了“云-边-端”协同的底层逻辑,使国产AI芯片首次在工业质检、智慧电网等核心场景实现算法精度与实时响应的双重突破。其领衔开发的MLU370系列训推一体加速卡,凭借chiplet集成与MLU-Link多芯互联技术的深度融合,在分布式训练任务中创造出超越国际同类产品155%的能效优势,这种将算法特性深度注入硅基设计的系统思维,成功打破了传统GPU在AI计算领域的性能垄断。耿都的技术哲学体现在两个维度革新:依托动态精度配置平衡算力弹性与能效经济性,借助自主指令集构建软硬协同的生态壁垒。这些突破性成果不仅使寒武纪边缘计算产品矩阵提前两年完成商业化布局,更标志着中国AI芯片设计从工艺追赶迈向架构定义的质变。当全球半导体产业面临地缘重构之际,耿都先生的团队在7nm制程上实现的390亿晶体管集成度与256TOPS算力密度,正为国产智能算力基础设施铺设出一条自主可控的“超车弯道”,其技术路线所揭示的“场景定义芯片”方法论,或将重塑后摩尔定律时代全球AI芯片的创新范式。(作者:刘斌)


责任编辑:kj005

相关阅读

美图推荐

精彩推荐