业界互联网行业通信科学创业

全球首个图文音三模态预训练模型成功构建

来源：中新网 2021-07-09 09:46:36

记者8日从中国科学院自动化研究所(中科院自动化所)获悉，该所科研团队成功构建全球首个图文音(视觉-文本-语音)三模态预训练模型，将解锁更多智能之美，让人工智能(AI)更接近人类想象力。

目前，已有的多模态预训练模型通常仅考虑“图像和文本”或者“视频和文本”两个模态，忽视了周围环境中普遍存在的语音信息，并且模型极少兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。

针对这些问题，中科院自动化所科研团研究队提出图文音三模态预训练模型，将文本、语音、图像、视频等多模态内容联合起来进行学习。该模型由单模态编码器、跨模态编码器和跨模态解码器构成，采用分别基于词条级别、模态级别以及样本级别的多层次、多任务三级预训练自监督学习方式，更关注图文音三模态数据之间的关联特性以及跨模态转换问题，对更广泛、更多样的下游任务提供模型基础支撑。

科研团队指出，图文音三模态预训练模型不仅可实现图像识别、语音识别等跨模态理解任务，也能完成从文本生成图像、从图像生成文本、语音生成图像等跨模态生成任务。同时，引入语音模态后的多模态预训练模型，可突破性直接实现三模态的统一表示，特别是首次实现“以图生音”和“以音生图”。

此外，该模型灵活的自监督学习框架可同时支持三种或任两种模态弱关联数据进行预训练，能有效降低多模态数据收集与清洗成本，从而取得预训练模型突破性进展。

中科院自动化所表示，图文音三模态预训练模型的提出和构建，将改变当前单一模型对应单一任务的人工智研发范式，大幅提升文本、语音、图像和视频等领域的基础任务性能，并在多模态内容的理解、搜索、推荐和问答;语音识别和合成;人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。

未来，“大数据+大模型+多模态”的多任务统一学习，将引领人工智能技术发展的潮流。(记者孙自法)

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

相关新闻

全球首个图文音三模态预训练模型成功构建

2021-07-09 09:46:36

“国产人工听觉脑干植入系统”完成成果转化签约

2021-07-09 09:40:35

微型U型结构电磁铁亮相半导体厚金属技术实现突破

2021-07-09 09:33:54

“拉索”新发现挑战理论极限为超高能伽马光源测定新标准

2021-07-09 09:10:56

新凝胶可减少土地用水避免土壤污染

2021-07-08 09:44:56

404 Not Found

404 Not Found

nginx

精彩推荐

奥利给！外星人让你能量值up

2021-07-09 09:37:37

中国DR行业目前各厂家实力如何【真实数据】

2021-07-09 09:36:27

长颈鹿美语颁奖典礼，Uniquely me，生来闪耀

2021-07-09 09:36:14

全国排名14！瀚蓝再次上榜“中国环境企业50强”

2021-07-09 09:36:04

区块链应用充电桩益链科技助其乘风破浪

2021-07-09 09:35:53