当前位置: 商业快讯 > 正文

趋动科技徐景松: 基础软件助力中国芯片突围

2022-12-28 15:30:28       来源:财讯界

12月16日,戈壁创投2022年投资峰会在线上举办,戈壁创投邀请LP及被投企业主理人等共同参会,一起分享收获、共探趋势、见证未来。2022年,国际环境复杂严峻、资本市场波动剧烈,叠加疫情带来的冲击,股权投资正面临前所未有的考验。在“危”与“机”纵横交错的环境中,戈壁创投持续保持自己有条不紊的投资节奏,努力寻找那些能够破局新生的伟大企业。

趋动科技副总裁徐景松以《基础软件助力中国芯片突围》为题做了汇报演讲。他表示:AI产业迅猛发展的背后是算力的不断发展。当前AI行业发展走到了大规模商用的阶段,找到一种降低整个AI行业算力成本的方法,对于行业的发展意义重大,趋动科技所提供的算力池化技术,将成为高效利用算力资源、降低算力成本的独特方案。

以下内容为徐景松演讲实录,由戈壁创投精编整理,有删减:

今天我代表趋动科技来分享《基础软件助力中国芯片突围》这个主题。

首先来看AI产业发展的大环境。过去几年,AI产业发展势头迅猛,背后离不开算力的强力支撑。全球AI算力需求的增长速度是非常快的,已经超过了摩尔定律。根据公开数据,全球AI算力需求从2012年到今天已经增长了远远超过30万倍。正是因为有着特别强大的AI算力,很多以前做的不够好的AI工作,今天可以做得更好,比如语音文本的识别准确率会更高。

国内AI算力用户的三大痛点

今天的 AI 算力主要提供者已经不是传统意义上的CPU,以GPU为代表的新一代AI加速芯片已经成为AI算力的主要提供者。现在企业级的GPU在AI领域的能可以达到CPU的100- 1000倍;同时企业级的GPU的成本相对于CPU来讲也是非常高的,企业级的CPU成本通常在千美元这个数量级,企业级的GPU能够达到万美元。根据AWS的统计报告,它的用户的GPU利用率实际上只有10%-30%。国内很多企业的GPU利用率基本上也是在这个区间。

利用率低带来的一个问题是浪费非常严重。

此外,美国政府在今年8月底时发布了一个出口禁令,要求英伟达停止在中国销售A100和高于A100能的芯片。而英伟达公司是GPU的主流供应商,在全球的AI算力市场有高达90%以上的份额。我们可以从中解读出一个信息:算力,已经不完全是一个技术问题,它将成为影响整个AI行业发展的关键因素。

基于当前国内算力市场英伟达持续领先的供应格局,国内AI用户在算力的使用过程中,有三个痛点。

在存量市场中,英伟达GPU芯片的利用率很低,导致算力成本升高,影响了全行业的发展。目前国内AI行业的发展已经走到了大规模商用的阶段, AI的应用已经非常多,也相对成熟,算力成本就成为制约行业发展的一个重要因素。所以找到一种降低整个AI行业算力成本的方法,对于行业的发展意义重大。

在未来的增量市场中,受美国管制的影响,如果继续采用英伟达、AMD等企业的芯片,算力芯片的进口将存在巨大的不确定

在未来的增量市场中,国产芯片还处在起步阶段,商业化的程度还不高,软件生态还在奋起直追。而英伟达的先发效应和巨大的市场份额,成为国产芯片发展的一个巨大壁垒,既是技术壁垒,也是生态壁垒。

这些都是急需要解决的具体问题。

软件定义,助力算力突围

那么怎么样去找一种应对的方法,通过硬核科技来突围呢?从趋动科技的角度,我们是从台软件的层面来打破壁垒的。

我们参考电网的概念,目标是建一个大的算力网络,或者叫算力池子,管理并且连接全球的算力。

现在客户解决对算力的需求通常是两种方法,一种是自己购买和建设算力台,即自建,实现私有化的部署,算力的资产是客户自己所有。行业头部的互联网公司、自动驾驶公司、运营商,金融、证券、保险这样的金融机构,高校等等都是采用这种方式。

第二类客户自己没有算力硬件,如果自建算力,会有很大的成本压力和运维压力,另外还要考虑建设周期,所以主要采用“租借”算力的方式。对于这类客户,我们已经发布了全球首个算力池化云台,叫趋动云,在趋动云上面,国内国外的芯片都有,可以通过软件定义的方式来为客户提供超低成本、高价比的算力。

为什么GPU的利用率这么低、浪费严重?简单讲,是因为大部分客户对于GPU的使用和管理颗粒度太粗,过于粗放。

我们通过类比来解释一下这个问题。现在把能强大的 GPU 芯片比喻成大巴车,把不同的AI应用比喻成一个旅行团,把算力的使用方式比喻成运力的调度。

通常旅行团是有不同人数的,而大巴车可能有一个非常固定的规格,比如说50座的大巴车。今天最简单的算力使用方式,我们叫做使用大巴车的方式,就是不管来多大的旅游团(AI应用),我就派一辆大巴车(GPU芯片),那么肯定会浪费很多座位(算力),因为这种管理和使用方式下,一辆大巴车是一个最小的调度单元。当然,有时候会需要几辆大巴车共同来运送,自然就会造成大量的算力资源的浪费。

要解决这个问题,提高资源的利用率有很多方式。

其中一是通过硬件的方式来解决。硬件的调整可以在一定程度上缓解资源的浪费,但没办法从根本上解决这个问题。打个比方,在车队里除了大巴车,还可以再买一些中巴车、七座车等等,它们相当于能低一些的GPU。这样可以通过不同类型车辆的组合减少座位浪费,但没办法从根本上解决这个问题——你不可能有无穷多种规格的车辆,正好每次都满足旅行团人数的需要;而且车一旦买回来,座位数就固定了,没办法动态地去进行调节。所以通过硬件的方式解决算力资源的浪费,效果是有限的。

如果想真正提高算力利用的效率,还是要通过软件的方式来解决——通过软件定义的方法,弹的提供算力。基于软件定义方法,就是把使用算力的调度单元从车辆级别变成座位级别,也就是之前都是用整卡来解决算力的需求,现在变成了虚拟卡。

比方我们有10个50座的大巴车一共加起来500个座位。通过软件定义的方式,就可以把这500个座位放在一起,变成一个有500个座位的座位池子,那么不管来了多大的旅行团,都可以从座位池子里面去组装一辆刚好满足需求的虚拟汽车。这样在使用过程中,所有资源都是可以伸缩调整的,不会造成任何浪费。

所以软件定义是所有硬件成熟之后的必然趋势,包括数据中心的存储网络,现在也都是通过软件定义的方法来实现。而且在资源池里,我们还可以去配置不同品牌的车型(GPU),来实现对计算的需求。

打造国产算力生态,提供高价比算力

趋动科技做的事情就是通过创新的下一代软件定义算力技术,来帮助客户高效利用算力资源。

我们把算力的使用和提供进行了分离,加入了一层算力池化层,相当于引入了一个中介,按照应用的需求来分配算力,最大化的使用芯片的计算能力,这种方式还能够实现远程的分离部署,比如“东数西算”。这可以给客户带来一些具体的好处,尤其是在降本增效、提升管理水和节能减排等方面。所以我们的软件在市场上也得到了大量国内头部企业的关注和采用。

整体来说,趋动科技现在均每年可以将AI资源利用率提高4倍,将算法工程师的人效提高50%,让客户的总体运营成本下降55%,并减少75%的用电量,可以说是以软件的形式,实现了硬件的功能。

从2019年成立以来,趋动科技一直在发展产品,从管理全球算力到连接全球算力。

我们之前谈到企业获取AI算力有两种方式,一种是自建,一种是租用。

自建初次的采购成本比较高,后续的管理成本和对企业自身的技术要求也非常高。受算力需求潮汐效应的影响,资源的利用率和弹伸缩的能力都是非常低的。第二种就是租借算力,中小企业通常会选择这种方式,他们没有算力的所有权。这种方式的初次的采购成本相对比较低,也比较灵活。但是在后期的使用过程中,算力的单价相对比较高,同样的问题也是资源利用率比较低,长期成本也很高。

综合来看,利用率低、成本高是这两种算力获取方式面临的共同问题。所以今年我们发布了一款产品叫趋动云,利用我们在算力池化和开发训练台领域的积累,面向企业、科研和个人的AI开发者,构建了开发和训练的服务。相比当前市场上已经有的GPU算力服务,我们主要的优势有两点,一个是低成本,一个是使用特别便捷。

首先是低成本,趋动云采用的是我们自己的算力池化软件,成本优势非常明显,同时采用按需付费,对用户来说相对成本能够下降80%;另外使用非常便捷,我们为用户提供了很多开发和训练的GUI界面,而且支持常见的开发工具。另外为用户提供了很多代码、数据集和项目管理的功能,让团队的协作开发更加高效。同时我们也构建了全球开发者的分享社区,为大家提供丰富的算法资源、高质量的数据集,还有一些验证过的预训练模型,这样能够帮助开发者快速复制、最佳实践。趋动云是真正做到了软件定义算力方式的一个独家的AI算力池化云。

将来我们会把国产芯片和国外芯片进行混部,跟国产的芯片一起,帮助用户用好芯片,提供高价比的算力。

目前,围绕AI算力,我们已经初步建成了包括国产芯片、国产服务器厂商、国产的云厂商和应用厂商的生态。主流的国内厂商都已经在我们的生态合作伙伴的列表里。

三方面助力中国芯片突围

回到我们今天讨论的主题,基础软件助力中国芯片的突围。趋动科技在以下三个方面能够帮到用户、帮到国产芯片。

一是现在已经有一些客户在用国产芯片,包括政府的数据中心、金融机构等等,趋动科技可以帮助他们来提高现有的算力使用效率,降低成本;

第二是通过我们的算力池化技术来做到数据中心里面国产芯片和国外芯片的混部,帮助用户更方便地使用国产芯片。我们打造了异构的资源池,把国内的芯片和国外的芯片统一纳管起来,帮助国内的芯片进入客户的数据中心。

第三是我们通过自己的技术,在自己的算力云台上,也会有很多的机会去使用国产芯片,加速国产芯片的市场化进程。对于客户来讲,他并不需要知道后台用的是国产芯片还是国外的芯片,只需关注他的任务和应用层面。

行业迎来系统机遇

美国的限制政策出台后,英伟达本身和客户在芯片采购方面都在进行一些调整。但对于国内客户来说,短时间内存量市场还会延续,大规模采用国内芯片还需要一些时间。另外,很多客户也开始考虑采用我们的软件,因为我们的软件有聚合的功能,可以把一些能不是那么高的算力聚合在一起,所以现在行业里很多人来跟我们探讨算力网络的构建。

对我们来说,比较明显的感受是整个市场在加速。一方面是客户在寻找替代方案,另一方面是客户本身的AI应用研发也在加速。两年前,AI应用主要还是在互联网行业,能够占到一半左右,从去年开始,特别是今年,很多传统行业,像运营商、金融、石油石化、电力等等对AI应用的布局也都开始了。整个行业有点像当初互联网行业的发展趋势,大家都在往AI加速转型,而且都要做一个算力中心。

例如政府在国内做西数东算,已经部署了很多算力中心;大企业内部也在做算力中心,在降本增效、碳排放等多重压力下,也看到了算力使用效率的巨大提升空间。而我们的软件一方面是帮助客户降本增效,另一方面是帮助客户以现有的硬件规模来支持更大的算力需求。

可以说,大环境给我们带来了非常大的系统的机遇,产业在脱虚入实,客户结构也发生了变化。我们今年看到了一个特别大的势头,就是整个市场对 AI 算力的需求是非常大的。

从我们的角度来看,国内芯片的大规模应用正在加速。从技术上来说,国内一些企业的技术已经不差了,现在短板主要在生态建设上面,需要支持和适配更多的应用。一旦生态建设加速,未来国产芯片的机会还是非常多的。

关键词:

责任编辑:kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com
商业快讯

趋动科技徐景松: 基础软件助力中国芯片突围

2022-12-28 15:30:28   财讯界

12月16日,戈壁创投2022年投资峰会在线上举办,戈壁创投邀请LP及被投企业主理人等共同参会,一起分享收获、共探趋势、见证未来。2022年,国际环境复杂严峻、资本市场波动剧烈,叠加疫情带来的冲击,股权投资正面临前所未有的考验。在“危”与“机”纵横交错的环境中,戈壁创投持续保持自己有条不紊的投资节奏,努力寻找那些能够破局新生的伟大企业。

趋动科技副总裁徐景松以《基础软件助力中国芯片突围》为题做了汇报演讲。他表示:AI产业迅猛发展的背后是算力的不断发展。当前AI行业发展走到了大规模商用的阶段,找到一种降低整个AI行业算力成本的方法,对于行业的发展意义重大,趋动科技所提供的算力池化技术,将成为高效利用算力资源、降低算力成本的独特方案。

以下内容为徐景松演讲实录,由戈壁创投精编整理,有删减:

今天我代表趋动科技来分享《基础软件助力中国芯片突围》这个主题。

首先来看AI产业发展的大环境。过去几年,AI产业发展势头迅猛,背后离不开算力的强力支撑。全球AI算力需求的增长速度是非常快的,已经超过了摩尔定律。根据公开数据,全球AI算力需求从2012年到今天已经增长了远远超过30万倍。正是因为有着特别强大的AI算力,很多以前做的不够好的AI工作,今天可以做得更好,比如语音文本的识别准确率会更高。

国内AI算力用户的三大痛点

今天的 AI 算力主要提供者已经不是传统意义上的CPU,以GPU为代表的新一代AI加速芯片已经成为AI算力的主要提供者。现在企业级的GPU在AI领域的能可以达到CPU的100- 1000倍;同时企业级的GPU的成本相对于CPU来讲也是非常高的,企业级的CPU成本通常在千美元这个数量级,企业级的GPU能够达到万美元。根据AWS的统计报告,它的用户的GPU利用率实际上只有10%-30%。国内很多企业的GPU利用率基本上也是在这个区间。

利用率低带来的一个问题是浪费非常严重。

此外,美国政府在今年8月底时发布了一个出口禁令,要求英伟达停止在中国销售A100和高于A100能的芯片。而英伟达公司是GPU的主流供应商,在全球的AI算力市场有高达90%以上的份额。我们可以从中解读出一个信息:算力,已经不完全是一个技术问题,它将成为影响整个AI行业发展的关键因素。

基于当前国内算力市场英伟达持续领先的供应格局,国内AI用户在算力的使用过程中,有三个痛点。

在存量市场中,英伟达GPU芯片的利用率很低,导致算力成本升高,影响了全行业的发展。目前国内AI行业的发展已经走到了大规模商用的阶段, AI的应用已经非常多,也相对成熟,算力成本就成为制约行业发展的一个重要因素。所以找到一种降低整个AI行业算力成本的方法,对于行业的发展意义重大。

在未来的增量市场中,受美国管制的影响,如果继续采用英伟达、AMD等企业的芯片,算力芯片的进口将存在巨大的不确定

在未来的增量市场中,国产芯片还处在起步阶段,商业化的程度还不高,软件生态还在奋起直追。而英伟达的先发效应和巨大的市场份额,成为国产芯片发展的一个巨大壁垒,既是技术壁垒,也是生态壁垒。

这些都是急需要解决的具体问题。

软件定义,助力算力突围

那么怎么样去找一种应对的方法,通过硬核科技来突围呢?从趋动科技的角度,我们是从台软件的层面来打破壁垒的。

我们参考电网的概念,目标是建一个大的算力网络,或者叫算力池子,管理并且连接全球的算力。

现在客户解决对算力的需求通常是两种方法,一种是自己购买和建设算力台,即自建,实现私有化的部署,算力的资产是客户自己所有。行业头部的互联网公司、自动驾驶公司、运营商,金融、证券、保险这样的金融机构,高校等等都是采用这种方式。

第二类客户自己没有算力硬件,如果自建算力,会有很大的成本压力和运维压力,另外还要考虑建设周期,所以主要采用“租借”算力的方式。对于这类客户,我们已经发布了全球首个算力池化云台,叫趋动云,在趋动云上面,国内国外的芯片都有,可以通过软件定义的方式来为客户提供超低成本、高价比的算力。

为什么GPU的利用率这么低、浪费严重?简单讲,是因为大部分客户对于GPU的使用和管理颗粒度太粗,过于粗放。

我们通过类比来解释一下这个问题。现在把能强大的 GPU 芯片比喻成大巴车,把不同的AI应用比喻成一个旅行团,把算力的使用方式比喻成运力的调度。

通常旅行团是有不同人数的,而大巴车可能有一个非常固定的规格,比如说50座的大巴车。今天最简单的算力使用方式,我们叫做使用大巴车的方式,就是不管来多大的旅游团(AI应用),我就派一辆大巴车(GPU芯片),那么肯定会浪费很多座位(算力),因为这种管理和使用方式下,一辆大巴车是一个最小的调度单元。当然,有时候会需要几辆大巴车共同来运送,自然就会造成大量的算力资源的浪费。

要解决这个问题,提高资源的利用率有很多方式。

其中一是通过硬件的方式来解决。硬件的调整可以在一定程度上缓解资源的浪费,但没办法从根本上解决这个问题。打个比方,在车队里除了大巴车,还可以再买一些中巴车、七座车等等,它们相当于能低一些的GPU。这样可以通过不同类型车辆的组合减少座位浪费,但没办法从根本上解决这个问题——你不可能有无穷多种规格的车辆,正好每次都满足旅行团人数的需要;而且车一旦买回来,座位数就固定了,没办法动态地去进行调节。所以通过硬件的方式解决算力资源的浪费,效果是有限的。

如果想真正提高算力利用的效率,还是要通过软件的方式来解决——通过软件定义的方法,弹的提供算力。基于软件定义方法,就是把使用算力的调度单元从车辆级别变成座位级别,也就是之前都是用整卡来解决算力的需求,现在变成了虚拟卡。

比方我们有10个50座的大巴车一共加起来500个座位。通过软件定义的方式,就可以把这500个座位放在一起,变成一个有500个座位的座位池子,那么不管来了多大的旅行团,都可以从座位池子里面去组装一辆刚好满足需求的虚拟汽车。这样在使用过程中,所有资源都是可以伸缩调整的,不会造成任何浪费。

所以软件定义是所有硬件成熟之后的必然趋势,包括数据中心的存储网络,现在也都是通过软件定义的方法来实现。而且在资源池里,我们还可以去配置不同品牌的车型(GPU),来实现对计算的需求。

打造国产算力生态,提供高价比算力

趋动科技做的事情就是通过创新的下一代软件定义算力技术,来帮助客户高效利用算力资源。

我们把算力的使用和提供进行了分离,加入了一层算力池化层,相当于引入了一个中介,按照应用的需求来分配算力,最大化的使用芯片的计算能力,这种方式还能够实现远程的分离部署,比如“东数西算”。这可以给客户带来一些具体的好处,尤其是在降本增效、提升管理水和节能减排等方面。所以我们的软件在市场上也得到了大量国内头部企业的关注和采用。

整体来说,趋动科技现在均每年可以将AI资源利用率提高4倍,将算法工程师的人效提高50%,让客户的总体运营成本下降55%,并减少75%的用电量,可以说是以软件的形式,实现了硬件的功能。

从2019年成立以来,趋动科技一直在发展产品,从管理全球算力到连接全球算力。

我们之前谈到企业获取AI算力有两种方式,一种是自建,一种是租用。

自建初次的采购成本比较高,后续的管理成本和对企业自身的技术要求也非常高。受算力需求潮汐效应的影响,资源的利用率和弹伸缩的能力都是非常低的。第二种就是租借算力,中小企业通常会选择这种方式,他们没有算力的所有权。这种方式的初次的采购成本相对比较低,也比较灵活。但是在后期的使用过程中,算力的单价相对比较高,同样的问题也是资源利用率比较低,长期成本也很高。

综合来看,利用率低、成本高是这两种算力获取方式面临的共同问题。所以今年我们发布了一款产品叫趋动云,利用我们在算力池化和开发训练台领域的积累,面向企业、科研和个人的AI开发者,构建了开发和训练的服务。相比当前市场上已经有的GPU算力服务,我们主要的优势有两点,一个是低成本,一个是使用特别便捷。

首先是低成本,趋动云采用的是我们自己的算力池化软件,成本优势非常明显,同时采用按需付费,对用户来说相对成本能够下降80%;另外使用非常便捷,我们为用户提供了很多开发和训练的GUI界面,而且支持常见的开发工具。另外为用户提供了很多代码、数据集和项目管理的功能,让团队的协作开发更加高效。同时我们也构建了全球开发者的分享社区,为大家提供丰富的算法资源、高质量的数据集,还有一些验证过的预训练模型,这样能够帮助开发者快速复制、最佳实践。趋动云是真正做到了软件定义算力方式的一个独家的AI算力池化云。

将来我们会把国产芯片和国外芯片进行混部,跟国产的芯片一起,帮助用户用好芯片,提供高价比的算力。

目前,围绕AI算力,我们已经初步建成了包括国产芯片、国产服务器厂商、国产的云厂商和应用厂商的生态。主流的国内厂商都已经在我们的生态合作伙伴的列表里。

三方面助力中国芯片突围

回到我们今天讨论的主题,基础软件助力中国芯片的突围。趋动科技在以下三个方面能够帮到用户、帮到国产芯片。

一是现在已经有一些客户在用国产芯片,包括政府的数据中心、金融机构等等,趋动科技可以帮助他们来提高现有的算力使用效率,降低成本;

第二是通过我们的算力池化技术来做到数据中心里面国产芯片和国外芯片的混部,帮助用户更方便地使用国产芯片。我们打造了异构的资源池,把国内的芯片和国外的芯片统一纳管起来,帮助国内的芯片进入客户的数据中心。

第三是我们通过自己的技术,在自己的算力云台上,也会有很多的机会去使用国产芯片,加速国产芯片的市场化进程。对于客户来讲,他并不需要知道后台用的是国产芯片还是国外的芯片,只需关注他的任务和应用层面。

行业迎来系统机遇

美国的限制政策出台后,英伟达本身和客户在芯片采购方面都在进行一些调整。但对于国内客户来说,短时间内存量市场还会延续,大规模采用国内芯片还需要一些时间。另外,很多客户也开始考虑采用我们的软件,因为我们的软件有聚合的功能,可以把一些能不是那么高的算力聚合在一起,所以现在行业里很多人来跟我们探讨算力网络的构建。

对我们来说,比较明显的感受是整个市场在加速。一方面是客户在寻找替代方案,另一方面是客户本身的AI应用研发也在加速。两年前,AI应用主要还是在互联网行业,能够占到一半左右,从去年开始,特别是今年,很多传统行业,像运营商、金融、石油石化、电力等等对AI应用的布局也都开始了。整个行业有点像当初互联网行业的发展趋势,大家都在往AI加速转型,而且都要做一个算力中心。

例如政府在国内做西数东算,已经部署了很多算力中心;大企业内部也在做算力中心,在降本增效、碳排放等多重压力下,也看到了算力使用效率的巨大提升空间。而我们的软件一方面是帮助客户降本增效,另一方面是帮助客户以现有的硬件规模来支持更大的算力需求。

可以说,大环境给我们带来了非常大的系统的机遇,产业在脱虚入实,客户结构也发生了变化。我们今年看到了一个特别大的势头,就是整个市场对 AI 算力的需求是非常大的。

从我们的角度来看,国内芯片的大规模应用正在加速。从技术上来说,国内一些企业的技术已经不差了,现在短板主要在生态建设上面,需要支持和适配更多的应用。一旦生态建设加速,未来国产芯片的机会还是非常多的。

责任编辑:kj005

相关阅读

美图推荐

金融科技下,金融企业如何保障信息安全
主播雨化田们再接新活,这次让网友们下载的是交管12123APP
深圳看到科技发布Kandao Meeting S 180°超广角智能视频会议机
QQ音乐做了“一件有意义的小事”,让这些孩子听见“听不见”的音乐

精彩推荐