科技
业界 互联网 行业 通信 科学 创业

和鲸ModelWhale:数据科学场景下如何实现跨学科领域的交叉研究

来源:财讯网 2022-06-01 20:09:57
A+ A-

信息技术的发展推动传统学科交叉融合,各个学科领域的研究者开展多主体、多视角的学术合作已经成为了当代科学探索的一种新范式。

在数据驱动的研究中,一方面,数据作为学科间同质化的基础和媒介将弱化学科边界;另一方面,随着科研方法从传统的假说驱动型向探索型转变,开展跨学科领域的交叉研究将有利于对获得的海量数据进行更全面的关联性分析,形成学科间优势互补,解决更多复杂的科研问题。

1.jpg

云计算时代的数据科学协同工具

数据驱动的催化作用

“跨学科”一词最早出现在 20 世纪 20 年代,指超越单一学科边界进行的涉及两个以上学科的知识创造和传播活动。自这一概念被提出后,科学家们发现跨学科的研究成果普遍存在着多样性,能够解决更多科学研究的复杂问题,甚至几乎可以说,现实中的一切重大课题,如寻找传染病的病源、人类基因组测序、航天探索、灾难救治研究等,都是需要通过跨学科合作的形式才能完成的。

随着过去十年数据的持续爆炸,数据驱动的研究方法更是成为了推动科研人员跨学科交叉研究的催化剂。数据本身具有“非学科性”的特点,可使各领域的界限变得模糊,让不同学科之间的研究对象有了同质性的基础,打破了过往学科差异下“各自为政”的状态。社会科学界的研究者可以联手数据科学界的专家,甚至自然科学界的学者,共同采用量化分析的方法开启规模更大、参与更广的合作研究。当多领域的科研人员聚集在一起,采用共同的框架和新的科学语言时,既能加速科学创新,也能赋予研究者更多发展空间。然而,研究方法与合作模式的改变还是会给科研人员在研究过程中造成一定障碍。

其一是学科专业知识与数据分析能力存在协作隔阂。

当开展基于多学科数据驱动的交叉融合研究时,数据分析手段应当与学科的实际问题紧密相连,二者形成双向驱动。一方面,学科知识可以指导数据工作,给数据分析提供更多理论支持;另一方面,数据不仅可以用来检验理论,也可以为理论建构提供新的启发,拓展理论建构的新方向。

然而,部分领域的科研人员本身数据分析能力较弱,在实际合作开展研究时难以参与至数据阶段的工作,常用的分析工具上手门槛又较高,需要耗费很多时间精力再学习;相对的,数据研究者虽然分析能力强,却又不一定了解各个学科的研究范式和专业,研究思路在传递的过程中很容易产生信息流失或理解偏差,对数据分析建模的准确性造成影响。

其二是客观因素导致的研究团队项目管理与资源同步效率低。

由于开展跨学科研究的科研团队成员通常各居于不同的地方,若缺乏频繁的信息同步,则成员彼此间很有可能对他人的任务情况和研究进度不了解,这将导致一些重复工作或者某些任务无人认领的情况;另外,文献材料、数据、代码等生产要素和分析结果只能通过通讯软件采用文件传输的形式共享,一旦任何成员进行了修改,则需要再次同步,这将在不同设备中形成多个文件版本,难以管理。

数据科学场景下,如何充分释放各领域研究者的优势和特长,实现理论与技术的相互渗透与融合,是保证跨学科领域的交叉研究顺利推进亟待解决的问题。

解决方案

ModelWhale 以丰富的基础设施建设使科研人员在研究中参与及合作形式更加多样化。

为用户打通了底层架构,零基础的科研人员无需任何软件安装及环境部署,随时随地登录账号即可开始科研分析。针对“学科 x 计算机”或数据驱动的“学科 x 学科”的融合研究,ModelWhale 同时提供 了 Notebook 交互式编程、 Canvas 拖拽式编程和 CloudIDE 三种开发模式,契合不同工程能力研究者的分析工作需求。

首先,各学科领域的科研人员在即开即用的云端环境下可快速参与至数据工作中,Canvas 画布式的界面采用低代码的编程方式,研究者只需通过简单的图形连接并设置好参数,即可搭建起最底层的科研思路,相较于传统口述式的信息传达,更为直观高效。

分析流程搭建完成后数据工作者即可将 Canvas 的模型组件无缝转化为 Notebook 代码,开展后续的精细化分析建模工作。对于比较标准化的数据分析流程,数据人员也可将常用的代码制作成代码片段并分享给团队内部其他成员,方便快速调用。

此外,基于 Canvas 与 Notebook 间互补转换的敏捷开发模式,兼备数据能力和领域知识的高级工程人员可以先用 Notebook 构建一些细分方向的标准化研究流程,而后将其封装为 Canvas Flow 研究模板,则此模板既包含了研究方法本身的传递,也可以直接给到其他研究者进行使用。

上海交通大学临床研究中心在与某些顶尖的三甲医院,如上海第六人民医院、上海儿童医学中心的医生开展临床研究合作时,研究中心的生物统计师即会搭建多个可复用的低代码临床研究分析模板,给到医院不同科室的相关医生使用,方便其直接通过分析模板快速开展课题研究。在此过程中,双方也可以直接在上针对研究过程中的重点难点问题进行讨论与协作。

3.jpg

ModelWhale 三种开发模式界面展示

另外,跨学科研究的数据量一般比较大,模型相对复杂,当计算资源或工具跟不上的时候,研究者很难自行管理偏工程的基础设施。以遥感中心为例,机构有着非常丰富的遥感数据,除了提供给内部的研究人员做数据探索分析外,也同时与十余家企事业单位在相关领域开展了遥感数据应用的研究工作。然而,遥感数据分析需要使用大量算力,但由于硬件资源有限,机构需要特地设置专人来负责机器的运维和算力的管理协调工作。

ModelWhale 除了提供从数据到代码版本管理的协作机制外,同时解决了机构与众多合作者开展研究时的算力调度问题。管理者可为组织轻松接入各类算力,并根据需求将算力拆分或组合,进行更为精细化的分发、调配和管理,保证科研人员可根据计算需要弹性调用各类 CPU/GPU 云资源、进行离线运行,从容应对不同复杂度算力需求。

最后,针对研究过程中团队内部的项目管理与资源同步问题,ModelWhale 支持团队将研究课题拆解成多个阶段任务进行宏观管控。研究者可以在各个细分任务中实时查看进展情况,并明确每个人的职责分工。任务完成后,任务结果可以以项目、数据集、文件等多种形式提交,则其他成员即可在线查看或 Fork 项目,并就结果发表意见或进行讨论,不受时间和地域的限制。这有利于科研团队把控整体研究节奏,完善信息同步流,提高研究课题交付的效率。

随着新一轮科技革命和产业变革加速演进,新的学科分支和新增长点不断涌现,学科深度交叉融合势不可挡。除了对科研过程的支持外,ModelWhale 还提供了教学评一体的课程模块,可以帮助高校和科研机构培养更多高层次的创新型、复合型人才,为跨学科领域的交叉研究注入新鲜的源动力。

结束语

随着大规模科学数据的增长,数据驱动的科研协作将成为未来科学发展的必要条件。数字化给每个行业都带来了很大的变化,但科学领域是一定存在其独特性的,在面向未来的科研精神和科研意义之下,数字技术应当为科研工作者的探索持续赋能。

作为数据科学协同,ModelWhale 希望能给每一位从事数据驱动的创新研究的开拓者提供支持。ModelWhale 提供了即开即用的云端分析环境,将科研数据管理、建模分析、模型服务、任务及权限管理等功能深度整合,可以使数据驱动的研究更加便捷高效。

过去5年来,清华大学、南开大学、华东师范大学等高等学府,国家气象信息中心、国家人口健康科学数据中心、紫金山实验室等先进科研组织都与 ModelWhale 进行深入合作。未来,ModelWhale 希望与更多高校和机构联手,活用双方所积累的海量数据资源,一同开拓新的研究与应用。ModelWhale 将持续升级产品功能,完善全方位服务体系,欢迎更多组织共同交流沟通。

关注ModelWhale 官方信公众号、视频号,了解更多数据驱动的协同研究解决方案。

ModelWhale 同时支持 SaaS 云端使用及本地私有化部署,可满足不同组织需求,欢迎进入ModelWhale.com免费试用。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐