在数字化时代,数据对经济生活的影响日益深刻。2022年末,以ChatGPT为代表的大数据人工智能模型层出不穷、良莠不齐,其优劣高度依赖于输入数据的质量,这就对数据质量提出了更高的要求。但在对数据本质的认识上,人们仍然处于一个相对初级的阶段,导致现有的数据处理技术主要存在三个问题:一是忽略了数据本身存在不确定性,二是缺少对预测未来有效的数据处理方法,三是忽视了人与数据关系导致的偏差。针对上述问题,2023年10月9日,蒙格斯智库正式向全球推出TDRU(Tools of Data Reconstruction on Uncertainty)—一个基于不确定性原理,通过数据重构解决上述问题的工具。
TDRU理论来源
长期以来,蒙格斯智库一直在研究不确定性的相关问题,在数据科学领域中,蒙格斯智库学术委员会主席朱小黄先生在《中国银行业》杂志2023年第2期上发表的《不确定性与数据重构》一文深刻讨论了数据中存在的不确定性问题。他认为,世界的本质是不确定性,因此人类社会和行为都带有偶然性,数据作为反应客观世界和人类行为的载体,也存在不确定性。
为什么说世界的本质是不确定的?因为不确定性可以被理解为时间轴上我们永远无法知晓的未来,即四维空间。对于判断过往,传统的数据分析方法已经足够,但对于预测未来而言,未来是不确定性的四维空间,只有在三维和四维空间中具有逻辑关联的数据,才能够对未来行为产生实质性影响。相反,偶然性数据由于缺乏这种逻辑关联,对未来预测是无效的。在构建预测未来模型时,应排除这类偶然性数据。而在可重复数据的分类中(自然数据、历史数据、边际数据等),每一类数据都可以发挥一定程度的影响,因此要在预测未来的模型计算中赋予上述数据不同的权重,来表达这些数据对未来人的行为影响的不同和差异。
以人为中心的数据观。而在数据的产生过程中,胡本立先生在《以人为中心的数据观》中认为所有的数据都是人类对客观世界的主观反映,人与数据是一个不断循环的关系:人在产生大量数据的同时实际上也在被数据所影响,因此数据会带有一定的偏差,这是数据需要治理的基础性原因。
针对上述问题,依据不确定性数据重构原理和人与数据关系的观念,蒙格斯提出并设计了一套数据重构方法:将数据按不同维度分为历史数据和边际数据、自然数据和行为数据,以及必然性数据和偶然性数据,在剔除偶然性数据的基础上,对不同的数据设置调整参数并赋予不同的权重。而后在数个实际场景中,蒙格斯实践并完善了上述方法,最终研发出了TDRU1.0版。
TDRU简介与应用场景
TDRU主要功能包括智能分类、偏差调整、历史加权、漂移分箱、变量重构、数据补充、异常检测、客群分拆、择优抽样九大模块,通过六大核心流程、两套参数和七个工具协同工作,既可以解决由不确定性带来的两类问题,也可以对人与数据之间的偏差进行调整。TDRU不仅是一套方法论,也具备工具的实用性。其独特之处在于,TDRU是专门针对数据不确定性问题设计的工具,是现有数据处理方法上的明显进步。
此外,TDRU还独创了两套参数,纠偏参数和权重参数,进一步解决不确定的问题以及减轻数据产生过程中出现的偏差。作为不确定性数据工具,TDRU突破了传统观念,强调边际数据的价值,颠覆了对历史数据“越多越好”的传统看法,进一步强调了需剔除历史数据中不可重复的部分,专注于历史数据的质量处理。
TDRU以一套严密的流程设计逐步引领数据从混沌走向清晰。第一步是基础的数据准备;第二步根据数据特点进行精细分类;第三步是采取适宜的处理方法,处理不可重复数据;第四步是根据数据的抽象度等情况进行参数设定;第五步是对数据进行建模分析,并根据不同应用场景选择模型;最后通过动态调整不断优化重构过程。六大步骤逐步推进,形成完整的数据处理链条。
TDRU是基于不确定性的底层数据工具,主要作用于数据分析的前期,即数据清洗阶段。由于底层工具的属性,使其应用场景非常广泛,包括经济、金融、能源等等众多需要使用大量数据进行建模分析预测未来的领域,因而其服务对象也非常广泛,涵盖全球范围内各种需要运用数据做预测的企业、金融机构与国际组织。此外,由于不确定性与风险管理的高度相关性,TDRU在风险管理方面也有它独到的价值。总的来说,TDRU不仅是一个国际上可以广泛使用的多功能、多领域方法,更是一把锐利的工具,可以解决各种数据质量问题,提升预测未来的准确性。同时,蒙格斯正在开发TDRU与大语言模型结合的一款数据重构智能助理软件。
TDRU应用案例
目前TDRU已在两个关键场景中获得有效验证,并将持续在更多场景中应用和验证:
(一)金融风控场景
蒙格斯将TDRU应用于某上市银行的个人信用评分卡上。从模型评估参数角度来看,使用TDRU前,模型AUC约为0.84、KS约为0.57[注释:AUC(Area Under Curve),为ROC曲线下与坐标轴围成的面积,AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值;KS(Kolmogorov-Smirnov):用于评估模型风险区分能力,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强],使用TDRU后,AUC提升至0.88、KS提升至0.59,值得说明的是,这一效果在其多个产品线上都得到了印证。
(二)宏观经济预测的场景
蒙格斯团队运用TDRU对我国GDP做了行业层面的预测,结果显示:在11个行业大类的预测中平均拟合度超过了92%,而二季度GDP预测中,运用TDRU所达到的预测结果与实际季度GDP(6.3%)的差距不足0.2%,在众多市面上的预测机构中脱颖而出,详情如下图所示。这一结果印证了TDRU对数据质量的提升以及与之而来的模型结果的改善。
未来展望
目前,TDRU1.0版已经在宏观经济预测、风险刻画等方面具备了成熟的应用价值,并已取得了软件著作专利,同时已经提交发明专利申请。蒙格斯已拟定将与KPMG、数交数据经纪、亚联咨询、希研工科等企业展开合作,进一步提升和验证TDRU在其他领域的使用价值。
今天,蒙格斯正式地向社会各界展示并推出这一实用工具,期望能够跟各方合作,一同拓展TDRU的边界和可能性,为提升数据质量、提高各场景预测效果贡献出一份力量。目前蒙格斯可以提供TDRU相应的咨询、培训、数据处理等相关服务,欢迎各数据企业、金融机构、咨询公司或任何有兴趣的机构垂询,并请大家期待未来TDRU智能助理的诞生。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com