面对新一轮大模型引领的人工智能变革,加快推进大模型赋能数智化应用健康发展具有重要意义。如何把大模型技术应用到数据开发、治理与分析全流程,提供高效产品与服务,让AI和数据持续释放价值,成为包括中科歌闻在内的众多人工智能企业的探索和实践方向。
6月22日,华为开发者大会2024(HDC 2024)在广东东莞松山湖召开,中科闻歌技术副总经理盘浩军先生受邀出席大会,并在DataArts全新升级专题论坛上围绕《基于Data4AI为模型训练打造高质量数据平台底座》作主题分享,深入交流基于数据集的大模型构建实践,探索新的创新方向和可能。
作为一家中科院自动化所孵化的人工智能公司,中科闻歌聚焦复杂数据解析和 AI 辅助决策。三年来,中科闻歌与华为云携手共进。通过华为云IaaS、PaaS以及昇腾云等云服务的支撑,中科闻歌在云上打造了认知与决策智能基础平台DIOS和雅意大模型,引领人工智能技术实现跨越,全面赋能各行业数字化、智能化的转型升级。
盘浩军先生表示,作为训练大模型的基石,数据集的质量直接影响到模型的表现,当前国内高质量数据集面临中文、小语种高质量数据缺乏,意识形态安全性不可控,行业专业知识、著作等高质量精确数据缺少以及数据质量参差不齐等问题。针对行业痛点,中科闻歌基于数据集的大模型构建,提出了“数据工程、模型工程、领域工程”领域AI落地三步曲。
数据工程:高质量领域数据治理
大模型的预训练到推理应用需要高质量的数据。来自开源和企业内部的原始数据,要经过高质量数据清理工具的处理,才能成为高质量数据。中科歌闻多语言语料库经过文档数据去重、标准化、启发式清理、段落及句子去重 、“毒性”过滤5大工序层层加工,确保预训练数据安全可控。
丰富的数据集提升模型对各种数据格式、各个场景任务的响应能力,多语言语料库增强了模型多语言场景的理解和分析能力,中科闻歌参与国家级AI高质量数据集平台的数据积累已达240TB,为雅意大模型开发提供了坚实的数据基础。
模型工程:继续预训练、多模型适配
在模型工程上,盘浩军先生表示可以采取“1+N+MoE”的策略,暨“打造一个基座模型确保自主可控,多种领域模型博采众长,形成多专家模型”。中科闻歌的雅意大模型作为国产安全可靠的原生大模型代表,具备国产自主可控、十余年数据集积累、生态开源开放,垂直领域知识增强等特点,可提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。
雅意大模型2.0从数据、算法、模型到应用拥有全自主知识产权 ,可面向行业应用场景自主训练和微调,支持多款国产算力硬件兼容,为政府、企业打造安全可靠的专属AI模型能力。盘浩军先生透露,进一步升级的雅意大模型3.0即将在2024年7月推出。
领域工程:以AI为中心的领域应用
会上,盘浩军还分享了某银行财报问答、航天信息财税大模型、深圳市龙华政务问答GPT、中医科学院国医金匮智能问诊等雅意大模型在金融、媒体、安全领域的应用案例。
对于中科闻歌来说,未来大模型的发展方向要瞄准通用人工智能前沿技术,从理解语义到理解世界,从感知智能向认知和决策智能跨越,不唯参数规模,做“小”做“精”做“深”大模型,打造更高效、更经济的轻量化行业专用模型
随着AI应用场景不断丰富,大模型加速更迭,算力需求也迎来持续扩张,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。未来,中科闻歌将继续携手华为云及相关合作伙伴,基于国产算力突破训练国产模型,高质量打造数据平台底座,共同构建大模型行业生态集群,加速行业大模型落地应用。