引入机器学习算法助力寻找快速射电暴候选体

来源：科技日报 2021-09-07 08:20:23

在天文领域，近些年最引人关注的发现之一，是一种瞬时亮度超过太阳上亿倍的未知天体。这类天体在射电频段上的超常暴发，被称为快速射电暴。它们暴发时间短、能量高，常用的筛选方法无法甄别全部的快速射电暴疑似信号，只能进一步缩小疑似信号的数目，再在较少的样本中通过人工挑选可信的信号，过程费时且费力。

如何高效而精准地捕捉这些神秘信号?中国科学院紫金山天文台与中国科学技术大学、上海交通大学、贵州师范学院，以及澳大利亚联邦科学与工业研究组织、西悉尼大学、西澳大学等机构的学者，引入机器学习算法，从5亿个疑似信号中找到81个快速射电暴候选体。该成果近日发表于《英国皇家天文学会月刊》。

单人50年才能甄别完5.6亿个疑似信号

快速射电暴能在你眨眼瞬间的百分之一，甚至更短时间内，完成一次极高的能量释放。这种前所未有的暴发，究竟是在怎样极端的环境下产生的，成为近年来天文学领域的研究热点。

研究快速射电暴的手段有很多。2007年，美国西弗吉尼亚大学的研究人员利用澳大利亚的帕克斯射电望远镜，发现了第一个快速射电暴。

但仅有观测还不够。“快速射电暴距离遥远，它们传播到地球上的能量，比蓝牙耳机的信号都要弱很多。要想从仪器的背景噪声和人类制造的电磁干扰中把它们找出来，非常困难。这也是为什么射电天文观测了那么多年，但直到2007年才首次发现它。”上述论文的通讯作者、中澳天文联合研究中心ACAMAR博士后张松波说，他还在读博期间，就决心对帕克斯望远镜观测的历史数据进行一遍“查户口”式的搜寻，看看里面是否还有新的快速射电暴。

中国科学院紫金山天文台高能时域天文研究团组最近几年开展快速射电暴研究，已经利用帕克斯望远镜的观测数据构建了一个完整的单脉冲数据库。该数据库内包含了快速射电暴标准搜寻方法所寻找出的5.6亿个信噪比大于7的单脉冲疑似信号。

张松波说，传统的搜寻程序，无法准确区分噪声信号、人造信号和快速射电暴信号。所以这5亿多个结果，只能被称为疑似信号。假设一个工作人员每天能看3万张信号图，那么这5.6亿个疑似信号需要其不眠不休地看50年才能看完。

找出81个新的快速射电暴候选体

机器学习中的残差神经网络是人工神经网络的一个变种，它模拟最基本的生物神经元，将接收到的信号进行分析，并判别信号的种类，从识别准确度到识别速度都有很大的提升。

虽然这是一个很成熟的机器学习算法，但快速射电暴不管从形态上，还是训练样本的收集上都很困难。

“这相当于训练机器从5亿只狗里，把几只猫挑出来。”论文的第一作者、中国科学院紫金山天文台高能时域天文团组博士生杨轩说。

研究团队运用训练好的机器模型，最终从数据库里找出了81个新的快速射电暴候选体。

其中一个证据来自这些候选体的色散量。“我们从外太空收集的色散量越大，说明天体距离我们越远。这些候选体的色散量已经超出了银河系色散量贡献的估计值，证明它们很可能来自银河系外。”张松波说。

另一个佐证来自候选体所在的波束。张松波介绍，在帕克斯望远镜的多波束观测中，快速射电暴的候选体只被其中一个波束探测到，说明信号的来源指向性非常明确，而来自地面的射电信号则不可能只出现在如此小的区域内。这表明它们来自地面射电干扰的可能性很小。

科研团队进一步研究分析，将这81个候选体和当前已发表的快速射电暴样本的辐射能量、脉冲宽度的累积分布进行对比，结果发现二者在统计行为上是一致的。杨轩介绍，这说明两者对应的信号，其物理起源和辐射机制很可能是相似的，进一步验证了这81个候选体是快速射电暴的可能性。

在张波松看来，此次研究也对从观测角度严格判定射电信号是否为快速射电暴提出了挑战。“研究中的辐射能量分布表明，新候选体在低能端的事件数目高于已知快速射电暴，这说明以往的搜寻方法还存在不足，可能有非常多信号稍弱的快速射电暴被遗漏。”他表示，这些新发现的候选体也将为搜索更大样本的重复暴提供了比较有价值的预选目标。

天文学正在迎来大数据时代，射电观测采集的数据量日益庞大，中国500米口径球面射电望远镜(FAST)等望远镜都正在或即将展现更高的灵敏度，同时也将带来更为惊人的数据量，这也对信号的筛选方法提出更高的要求。

“目前，我们正在用FAST收集的数据来训练AI算法，希望能训练出适用性更广的AI模型。同时，也正在尝试在现有模型中增加更新的机器学习方法，如深度卷积生成对抗网络、显著图等，来提高现有模型的准确性，降低误报率。”张松波说。(记者金凤)

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com