8月12日,全国首个公开发布的中医GPT—“聪宝素问”,在第九届中国中医药信息大会上正式上线2.0版本。
“聪宝素问2.0”由聪宝科技创始人顾高生发布,中国中医药信息学会会长、国家中医药管理局原副局长吴刚,中国中医药信息学会副会长兼执行秘书长朱佳卿,华润数科华润云事业部行业生态部专家邓通参与发布仪式。
“聪宝素问”应用效果如何?
首个中医GPT“聪宝素问”于6月25日上线1.0版本,1个月以来,累计注册用户量过万人,对话互动突破10万+。用户们在使用过程中立足实际需求,提出了大量建议,帮助“素问GPT”开拓了更多的应用场景。
基于用户们的需求和建议,“素问GPT”经过五次重要升级和不计其数的优化,最终进化为2.0版本。
为什么叫“聪宝素问”?
与其他对话系统传统搜索引擎不同的是,GPT不需要预先指定任何话题,而是通过自然语言处理技术来理解用户输入,然后基于该输入生成相关的响应。
而中医奠基之作《黄帝内经》的成书体裁,与GPT有着惊人的相似之处:整本书是以问题为牵引,通过黄帝和岐伯的对话来解析中医。黄帝就是“提示词工程师”,用与岐伯“连续对话”,产生“生成式内容”。
《黄帝内经》由《素问》《灵枢》两卷组成,起名为“聪宝素问”,印证了这段跨越千年的机缘。
“素问GPT”2.0有何亮点?
“聪宝素问”升级为2.0版本,最核心的升级内容在于实现了多轮连续对话功能,解决了单轮对话的“前言不搭后语”“答非所问”“程式化问答”“无法存留记忆”等问题,让素问GPT真正具备与人交流的基本能力。
多轮对话从技术逻辑来看,以ChatGPT为代表的大模型应用在自然语言处理技术领域有两个重要的突破点:
一是面向开放域的多轮对话。在很长一段时间里,自然语言对话任务的处理技术无法突破单轮对话瓶颈,针对提问的回答通过检索来匹配,只能实现僵硬的一问一答式对话。但基于大模型应用的GPT支持开放域的多轮对话,即一方面支持同一模型下的多类型、多领域对话,另一方面支持追问式的多轮对话。通过引入“上下文学习”(In-Context Learning)的模型训练机制,GPT等应用能不断回溯上下文内容,学习并整合用户多轮对话信息,逐轮聚焦、精准理解用户需求,以提供更准确地响应。
二是生成式文本。GPT沿用的生成式技术以“字词接龙”形式实现文本生成。通过引入自回归机制,GPT能将每一轮历史对话的信息和当前用户追问的信息同时纳入模型,自动生成新的预测序列,并进一步结合已习得的海量数据、具体对话语境,逐步预测回复文本的各个字词,并生成新的回复文本。这项技术突破机器写作的模板化模式,将文本预测的基本单元由句段精细到字词层级,继而生成更多样、灵活、自然的文本内容。
此外,2.0版还实现了提升算力、扩容数据库、开放新功能、启动新场景等升级优化。
“素问GPT”的这些功能是如何实现的?
“聪宝素问”作为一款基于中医大数据训练大模型矩阵,定位于中医药垂直领域应用场景的中医GPT,通过中医AI大数据搭建生成式对话大模型。
在训练阶段.“素问GPT”使用了大规模的数据集,例如Wikipedia等,对模型进行了深度学习。具体来说,“素问 GPT”使用了变压器神经网络模型,该模型能够完成对话生成、文章自动摘要等任务。“素问 GPT”使用了多头自注意力机制,通过大规模数据集的预测训练,从而提高模型的总体效果。
在回答阶段.当用户输入问题后,“素问GPT”通过NLP技术将问题转化为向量形式,并把向量喂给模型。模型根据输入的向量,结合前面所学习的知识库,使用大规模数据集的语料学习到了针对这个问题的概率分布。并且通过该概率分布计算出不同的响应值,模型将根据概率大小为输入生成最优响应。
“素问GPT”是基于先进的自然语言处理技术,将大量数据集进行训练,同时无需预先定义特定话题、语言表达或信息分类等,能够更好地理解、回答用户输入的问题。
为什么聪宝科技能率先研发出中医GPT?
聪宝科技作为华润生命科学集团参股企业、中医Al行业领头羊,专注于运用AI、大数据等先进技术,整合传统中医药资源,聚焦中医大脑研发、智能中医药推广运营和中医药数字化产业发展,为医疗机构提供“中医+人工智能”产品和服务,产品得到国家中医药管理部门的认可。
聪宝科技积累了近十年的中医药数据积累和应用模型研发经验,突破了中医GPT研发过程中的技术关和数据关;而中医与人工智能跨界融合的研发团队,一方面通过持续优化算法和安全机制,形成可控的生成式大模型,另一方面帮助大语言模型更好地理解中医理论知识,面对中医类问题时能够有效推理。
目前,“素问 GPT”已正式进入临床应用阶段,可广泛应用于康养机构、药店诊所、文旅养生,药膳餐饮等众多领域,形成对应的服务解决方案。未来,“素问GPT”还将开放更多应用场景,并提供新场景的订制服务。