科技
业界 互联网 行业 通信 科学 创业

首批“北京市人工智能大模型高质量数据集”发布,海天瑞声高质量训练数据入选

来源:今报在线 2023-07-04 16:22:58
A+ A-

由北京市人民政府联合工业和信息化部、国家网信办、商务部、中国科协共同主办的2023全球数字经济大会,已进入开幕倒计时。7月2日,作为大会同期举办的六大高峰论坛之一,人工智能高峰论坛率先亮相。此次人工智能高峰论坛作为“2023全球数字经济大会”同期举办的六大高峰论坛之一,超高的热度吸引了近千名观众现场参与,也得到了政府及行业相关部门的高度重视。

此次论坛以“智能涌现,重塑未来”为主题,10余位人工智能领域顶级专家学者和企业、机构代表围绕当下最具热度的大模型发展话题分享了深刻洞见和思考。全国首个政务服务需求应用场景、北京市首批人工智能大模型高质量数据集、近百个场景案例发布,十个合作项目集中签约,展现出在推动通用人工智能产业发展和大模型创新应用成果方面的“北京力量”。

1688458259988935.jpg

第一批“北京市人工智能大模型高质量数据集”

海天瑞声大模型多语种语音数据集、大模型中文千万轮对话数据集入选

人工智能大模型的突破源于高质量数据不断发展,提升高质量数据要素供给能力是推动通用人工智能大模型领域创新的关键。但目前,针对大模型训练的高质量中文语料占比较少,不利于中文语境表达及产业应用。

能够提供可开放用于大模型训练及调优的高质量数据资源也是针对“北京市通用人工智能产业创新伙伴计划”数据伙伴重要的评估要素。

在本次论坛上,发布了首批“北京市人工智能大模型高质量数据集”,共有10家单位的18个高质量训练数据集入选,包括海天瑞声大模型多语种语音数据集、大模型中文千万轮对话数据集,以及人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过500T,将为通用大模型和行业大模型训练提供有力保障。

1688458105364298.jpg

智能涌现,重塑未来。面对通用人工智能发展的历史性机遇,海天瑞声将持续探索创新,聚焦AI数据领域以高质量数据推动大模型应用加速赋能千行百业。

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐