近日,由中国通信企业协会主办的2024中国信息通信业发展高层论坛在北京召开。本届大会围绕“创新数据新要素 发展新质生产力”进行交流研讨、实践分享。
当前,人工智能已经成为数字经济发展的新引擎。全面提升智能算力供给水平,将有效推动人工智能应用商业落地。天翼云科技有限公司行业解决方案总监祁超在会上发表《云智一体 国云助力数字经济高质量发展》演讲,阐述了天翼云秉持国云使命,积极布局智算产业,以丰富的智算资源、强大的智算服务能力和开放的模型应用生态,赋能数字经济发展的创新举措及实践成就。
祁超表示,天翼云自建了丰富、多元化的智能算力资源。围绕AI产业集聚区,天翼云规划建设北京、上海、广东、浙江、安徽人工智能公共算力中心;建设内蒙、贵州、宁夏智算中心,提供绿色算力;先后建成上海、北京万卡池,这也是全国最早建成并真正投产运行的两个国产化、全液冷、单集群万卡公共智算中心。此外,天翼云通用算力实现层次化布局,一城一池覆盖超280个城市,边缘节点超1000个。
天翼云作为国家云已经越过了智能云发展的拐点。面向人工智能时代,天翼云积极构建领先的智算云能力体系,打造“息壤”一体化智算平台,突破了多项算力互联调度关键技术,拥有强大的算网调度能力、高效的异构计算能力、一站式的训推服务能力,并积累了丰富的落地应用案例。
强大的算网调度能力 高效调度实现供需匹配
“息壤”突破了多项关键技术,可实现跨域跨服务商异构算力一体化供给。通过算力插件和算力网关,实现了算力的统一、高效和云化接入;通过算数协同和多级算力互联调度,实现了算数网的一体化调度,数随算走,算随数动,调度区域更广,算力更泛在;借助大模型认知能力和业务调度,实现算力选择和应用部署简单化,故障自动恢复与负载均衡,使算力简便易用。
基于上述技术突破,“息壤”可赋能三大应用场景:一是天翼云自营的公共算力服务,目前已接入多家算力生态合作伙伴,满足公有云客户的多元算力需求;二是行业算力互联网,如国资央企智算云管理调度平台,接入多家央企算力,提升算力利用率;三是城市算力互联网,通过整合区域内多方算力,实现算力一网化、统筹一体化、调度一站式。
高效的异构计算能力 为大模型提供高性能计算平台
依托“息壤”高效的异构计算能力,可破解大模型训练推理过程中面临的大算力、高性能、高稳定等诸多挑战。通过并行文件存储、低延时超大规模RDMA网络等措施,有效提升综合算效,满足大算力需求;通过AI框架升级、存储加速,实现checkpoint文件快速保存、加载,将国产算力的综合算效提升到了行业可比水平,满足高性能算力需求;通过多项指标的监控分析,实现故障训前发现,有效控制大模型训练中断恢复时长,实现训练任务长期稳定、高可用运行。基于国产万卡智算集群和自研智算平台,天翼云已具备支撑万亿参数基础大模型训练的能力。
一站式的训推服务能力 降低大模型应用创新开发门槛
面向行业大模型训推场景,“息壤”一站式训推服务能力可有效解决训练部署工程复杂、训推效率低、训练中断频繁等问题,降低大模型应用创新开发门槛。具体而言,“息壤”将大模型精调场景简化操作至选数据、选硬件和选模型三个步骤,显著提升部署效率;通过自研AI框架、3D并行加速、自研训练加速库、容器调度优化等核心技术,大幅提升训练效率;通过模型量化压缩、自研推理加速算子库、自研AI推理加速框架等核心技术,提高推理效率;通过全链路故障检测、定位、告警,全链路日志监控与可视化、断点续训快速恢复等核心技术,实现训推过程全链路监控。当前,“息壤”已在多地智算中心、人工智能实验室等项目中应用实践。
共建开放模型应用生态 共筑AI产业繁荣
构建开放的产业生态,是加快推动人工智能和实体经济深度融合的重要路径。面对中文AI资源治理匮乏、技术门槛制约AI+应用落地等核心挑战,天翼云魔乐(Modelers)开发者社区,聚合中文优质AI资源,孵化国产原生模型,加速伙伴商业闭环,促进AI使能千行百业。魔乐(Modelers)开发者社区集成了模型库、数据集和体验空间等核心组件,覆盖自然语言处理、视觉、音频等领域,提供原生模型、易用开发工具、丰富的生态资源,助力开发者高效进行AI应用创新,促进国产AI生态繁荣,打造国际AI创新高地。天翼云还开放AI云电脑平台,打造AI应用中心,提供AI助手、AI空间、AI客服、AI低代码等AI创新应用,使AI应用能够更广泛地接入和使用,全力构建开放的模型、数据、应用生态。
国云筑基,智算引擎。未来,天翼云将继续肩负国云使命,坚持核心技术自主研发,不断提升智算服务能力,全面赋能新质生产力发展,携手行业合作伙伴,共同开创数字经济高质量发展的新未来。