科技
业界 互联网 行业 通信 科学 创业

OCR+NLP双轮驱动 汉王科技助力中国档案数字化进程

来源:壹点网 2023-01-20 12:57:25
A+ A-

日,在主题为“追光数字文明 码动程序世界”的“2022中国程序员节”成果发布阶段,中国软件行业协会发布了两个团体标准《单套制管理模式下电子档案运行体系指南》(T/SIA 033-2022)、《电子文件/档案管理师能力评估指南》(T/SIA 034-2022)。其中《单套制管理模式下电子档案运行体系指南》(T/SIA 033-2022)由在档案数字化领域有着专业技术优势的汉王科技作为主要编制单位参与制定。

《单套制管理模式下电子档案运行体系指南》是单套制管理模式下电子档案运行体系建立、实施和改进的基本指南,提供了电子档案运行体系可行审核评估的重要指标。适用于档案行政主管部门对机构在单套制管理模式下建设的电子档案运行体系进行考核评估和监督检查;适用于社会第三方测评评估认定机构对电子档案单套制管理水和保障水进行符合评估认定;也适用于机构加强单套制管理模式下电子档案运行体系的自身建设和优化发展。

当前,档案管理工作正在经历从‘数字化’到‘数据化’和‘知识化’的转变,这既是对纸质档案数字化工作的推进,也是对档案利用的深层次开发,更是推动档案服务升级的新契机。而汉王科技也正是利用人工智能技术中的OCR识别、NLP等技术对国家各级档案馆现有档案管理和利用方式进行优化升级,对存量档案进行数据化和知识化处理,活化档案内容,一方面便于深度利用,另一方面,预示着档案建设新时代的到来。

“档案管理的数字化转型不仅是是数据资料管理方面的创新,也是对档案数据资料有效运用的创新,将数字化作为档案管理的载体,对庞大繁杂且易损的档案资料进行收集、审核、存储、查阅、调取,充分发挥档案管理的作用,是顺应社会发展需求的重要一环。”汉王科技旗下汉王数字副经理李云鹏说道。

作为业界最早致力于OCR(光学字符识别)识别技术研发和应用的企业之一,汉王科技的优势应用技术就是文档电子化。早在2013年,汉王科技便将文档电子化的触角延伸至图书馆、档案馆,银行、医院、法院等多个领域。

但在这些具体项目的实施中,汉王科技也逐渐意识到:文档数字化的“江山”虽已打下,但这只是完成了信息应用的基础工作,形成的电子文本是非结构化数据。这样的电子文档没有文本挖掘,无法进行数据深度利用。因此,要将文档的非结构化数据进行结构化处理,转化为技术术语,即真正地为静态的文字“赋予活力”,就必然要用到NLP(自然语言处理)技术。

李云鹏表示,NLP正在成为信息时代最重要的技术之一,同时它也是人工智能的关键部分;而OCR与NLP技术的融合,便能够通过机器识别与理解技术,来实现对档案数据的深度利用。

汉王科技方面表示,早在2016年,汉王科技重金引入国内高水的自然语言处理团队进行文档大数据化研发工作,力图突破NLP技术,建立起自己的文档大数据库体系,开发各种新的应用,主要包括文本分类、聚类、结构化数据抽取、知识抽取、知识图谱、机器阅读等在内的众多关键技术。

如今,汉王已经形成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好联动效应。

在传统OCR技术中图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。其中影响识别准确率的技术瓶颈便是文字检测和文本识别,而这两部分也是OCR技术的重中之重。

对此,汉王科技基于海量的标注数据训练深度学模型,对文字的识别能力已经达到应用场景落地的需要。目前,文字识别模型对印刷体的识别准确率可以达到99%以上,对手写体的识别准确率也可以达到90%以上。此外,汉王科技还将OCR识别能力扩展至“复杂表格识别”和“文字块聚合”两个方面。

在图像中自动识别表格,本质上是计算机视觉中的“目标检测”技术。汉王科技将表格整体及单元格作为需要检测的目标,通过大量标注相关数据训练深度学模型,能够较为准确地输出各个单元格的位置和大小,再经过后处理,将各单元格合并为表格。

同时,汉王科技基于先进的神经网络架构,如Faster R-CNN、SSD、YOLO等,加上该公司自行标注的数据进行训练和学,得到表格识别模型。该模型识别出表格及各单元格的位置与大小后,结合OCR文字识别所得到的文字位置,可以计算出各个单元格所含具体文字。除此之外,文字块的聚合本质上是一个分类模型,将多行文字的语义以及它们的版面信息特征化后得到一个向量,然后训练神经网络模型对这个向量进行分类,目标类别为两类:聚合或不聚合。借此,汉王科技将定义文字块聚合的标准输出数据结构,输出数据包括且不限于文字块的位置、宽、高、相邻文字块ID等。

目前,汉王OCR不仅实现了对有线表格的识别处理,还突破了无线表格的识别难题。“汉王科技的OCR技术在档案行业处于较明显的领先地位,这是因为我们拥有扎实的底层技术和多年的积累,同时对档案有着深刻的理解,这一点是在行业内是独一无二的。”李云鹏说道。

随着汉王科技与国内各级档案馆的合作不断深入,OCR+NLP在档案数据结构化中的应用方法已经实现对公文、医学证明、工业档案等多个类型的关键数据的抽取,且能将抽取的数据保存到结构化数据库中,档案管理及用户查询检索更加便捷。

基于汉王科技在OCR以及NLP技术占据领先地位,该公司在未来还将拥有广阔的发展空间。尤其在医疗领域,据估算,以电子病历为核心的智慧医疗场景将会带来150亿元的增量空间。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐