吾道科技王俊专访:挖掘数据价值是金融科技的核心命题

来源:财讯网 2022-08-25 12:30:05
A+ A-

2022年全国知识图谱与语义计算大会(以下简称“2022CCKS”)开幕在即,历时7年,大会已经成为国内知识图谱、语义技术、链接数据等领域的核心学术会议。今年大会将于8月24日至27日在秦皇岛举办,主题为“知识图谱赋能数字经济”,旨在探讨数字产业化与产业数字化过程中的语言理解、知识获取、知识融合、知识推理等方面的关键技术,以知识驱动创新应用,加快数字社会建设步伐。

 

中国计算机学会(CCF)信息系统专委会执行委员,多年从事AI领域研究的王俊博士将借此机会回归国内视野,介绍其金融领域人工智能应用的最新研究成果——从多模态富格式金融公告中抽取结构化数据,自动构建金融知识图谱。我们有幸在大会开始前采访到王俊,了解到这位人工智能专家近期的研究经历。

 

谈到最新的论文,“目前的金融公告存在海量信息,绝大部分还没有被利用起来,其中专门对金融公告文档中各类插图进行分析理解的研究更少”,王俊通过Zoom分享道:“我们跟华中科技大学合作,提出了一种新的框图识别方法,专门应用于股权结构图识别和解析。同时,我们还研发了一个训练数据的自动生成工具,可以高效产生覆盖各种风格和场景的股权结构图及对应标注数据,极大地缓解了人工标注成本高和训练数据不足的问题。”

代表富士通参加展会.jpg

此前,针对金融领域文档的特性,王俊团队开发了业界领先的OCR系统、版面分析系统以及表格识别系统,大大提高了文档预处理和分析的质量;同时还结合文本内容和表格内容的多模态信息,开发了各类金融事件抽取工具,构建事件为中心的金融知识图谱。 另外,文档智能及图表分析也是他近期在金融数字化研究领域取得的重大进展。

 

谈及为何要将研究目光锁定金融行业时,他回想起2016年在国内和一位投行朋友交流,对方不经意地戏称自己为“金融民工”,连续熬夜只为准备项目资料。进一步调研后,他发现很多金融机构员工不乏国内外顶级名校毕业生,但入行的前几年需要从事重复性强但技术含量相对较低的资料检索工作。如果完全靠人工来检索浩如烟海的文档和网络信息,费时费力,还很难保证数据的完整性和正确性。这让他敏锐地意识到,各类金融数据存在严重的信息孤岛问题,缺乏互联互通,缺乏结构化数据,由此导致的信息不对称将增加投行及各类投资机构的业务风险。倘若能从海量金融文档中抽取结构化数据,自动构建专业知识图谱,可以极大提高金融分析和决策的效率。

 

“解决信息孤岛问题是我一开始从事计算机领域的梦想。” 早在华中科技大学求学期间王俊第一次参与的研究项目就是武汉邮科院的计算机集成制造系统(Computer-Integrated Manufacturing System)。尽管当时武汉邮科院拥有国内领先的PCB自动组装生产线,但各个环节的先进设备之间依然需要靠人工输入制造工艺数据。因此,他着手研究了PCB自动组装生产线的数据自动集成系统,目的就是消除设备信息孤岛。后续,他发表了个人第一篇学术论文,参与的项目也促进学校获得了1999年国际制造工程师协会所颁布的“大学领先奖”。

王俊与其博士导师.jpg

2000年前后,在大批外企纷纷在中国建立研发机构的浪潮下,王俊加入了当时日本最大的IT解决方案提供商富士通在北京设立的研究机构,主要从事互联网文本检索和数据挖掘等研发工作。后来进入富士通硅谷研究所工作,继续研究社交媒体和各类在线文档结构化数据抽取工作,期间申请了三十多项发明专利,比如:开发了智能社交媒体信息流聚合系统,能够自动从社交媒体上发现有价值的领域专家,并且自动筛选出专业信息,大大缓解庞杂的信息过载问题。

 

多年来,他积极参与国内外多所优秀大学的合作研究项目。在国内,他与复旦大学吴立德和黄萱菁教授合作多个自然语言处理研究课题,与南京大学武港山教授合作网页信息抽取项目,与清华大学陈群秀教授合作舆情监测课题,与北京大学俞士汶教授合作建设国内当时最大的中文词性标注语料库。同时在国外,他与麻省理工大学合作研究个性化的学习路径定制及推荐,与加州大学伯克利分校合作研究公众意见收集、交互及可视化分析,并深度参与MIT Industrial Liaison Program、Stanford mediaX 等产学研合作项目。

 

多年之后回头再看,他觉得这一路很多事都是相通的,或许也可以说是“命中注定”。当年做计算机集成制造系统(CIMS)是为了让信息和数据能在各个制造环节之间自动流动和集成,消除信息孤岛,实现效率更高的智能制造系统。决定进入金融科技领域之后,王俊在南京和杭州成立了吾道科技(iWudao),主要从事资本市场数据服务,核心目标就是消除金融领域的各个孤岛,将埋藏在不同来源的数据进行集成实现互联互通,以建立更加智能的分析和决策系统。目前,该企业已经在几个细分金融领域建立起标杆性的数据解决方案。

(本文专访记者:石若萧)


 

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐