复旦大学林伟教授:新型因果网络辨识算法可以用于疫情防控

2020-07-02 21:22:21 中国经营网 

本报记者 陈溢波 吴可仲 北京报道

近日,复旦大学数学科学学院、类脑智能科学与技术研究院的林伟教授团队,与中国科学院、苏州大学、日本东京大学等团队合作,提出了数据驱动的因果网络辨识的新型算法。该方法可以用于大规模复杂动力系统内蕴因果网络的复现,有助于解析实际系统演化的本质机制和规律。该研究成果不久前以《偏交叉映射排除间接因果影响》为题在线发表于综合类学术期刊《自然-通讯》(Nature Communications)。

数据驱动的因果网络辨识的新型算法应该怎么理解?近日,林伟在接受《中国经营报(博客,微博)》记者专访时举了一个例子,“天亮鸡叫”是众所周知的常识,也就是说,在这样一个简单的生活现象中,是“天亮”这个原因导致了“鸡叫”这样一个结果。林伟解释说,以这个简单的两两之间的因果关系为例,在做系统变量之间因果关系和因果网络的辨识性研究时,如果依照传统的基于统计学和信息论的因果分析方法(如格兰杰因果关系、传递熵等方法),就有可能会出现“鸡叫”是原因、“天亮”才是结果的情形。

这就要求研究者去发掘一种新型的辨识因果关系网络的算法。在现实世界中,由于只有两两之间的直接因果关系才能反映现象之间本质的内在机制,所以在多变量存在的情形下就需要辨识并排除掉间接或虚假的因果关系。

就是在这种背景下,林伟及其团队成员冷思阳、马欢飞,以及中科院上海生命科学研究院陈洛南研究员,东京大学教授原一幸(Kazuyuki Aihara)、德国洪堡大学教授Jürgen Kurths、美籍物理学家来颖诚(Ying-cheng Lai)等近期在顶级科学杂志《自然》的子刊《自然通信》上提出了一种新型的构建辨识因果网络的算法。(论文标题:Partial cross mapping eliminates indirect causal influences《偏交叉映射排除间接因果影响》)

在此次专访中,林伟向记者通俗地讲述了这种算法本身要解决的问题、“新”在何处,以及现实应用价值等。同时,林伟还向记者提及了同样基于数据方面的研究方法,进行疫情有效防控的可行策略。

《中国经营报》:你的团队构建了辨识因果网络的新型算法,能否通俗讲下这个算法的运行机制?或者说这是一种什么样的算法?要解决哪些问题?新在哪里?

林伟:从数学,特别是应用数学的研究角度来说的话,至少目前可以分成两方面,一方面是聚焦于数据挖掘,也就是从数据中寻找规律,另一方面是基于数据挖掘、做数据驱动方面的研究,也就是在找到很多规律之后,根据这些规律搭建相应的数学模型,然后基于模型,做数学化的分析和计算,进行现实模拟和预测。

目前,无论是应用数学还是人工智能领域,实际上都聚焦于这些方面的研究。它们不可割裂、相辅相成。我们也是基于数据来做因果关系的探索。这既涉及到数据驱动方面,同时也基于数学建模的模型驱动方面的研究。

因果关系是人们了解世界运行基本规律的最基本的关系样态。之前,传统的探索因果关系的方法,都是统计学家基于特定的模型假设提出来的。但在现实世界中,很多因果关系背后的模型实际上是不清楚的,在没有模型假设的时候,又该怎样去做一些基于数据的、同时利用相关理论进行相应因果关系的挖掘?这就是我们现在提出的这个新型体系,我们把这个体系叫作基于动力学理论的新体系。

在这个体系中,对因果关系的挖掘,主要是试图用新型的算法,来探索两两之间的因果关系。

又由于不符合真实系统、计算压力大,所以当一个体系中存在多个变量,可能出现传递性的间接或者虚假的因果关系时,就要基于真实的因果网络排除掉那些间接的因果关系。在这个过程中,就需要有不一样的区别于传统的一些算法,这其中就用到了一些基本的动力学理论和一些统计学的方法。

《中国经营报》:我们了解到这项新研究已经在生态系统、环境与疾病互作系统以及基因调控网络等方面得到了应用。如果以这次疫情下的AI应用为例,这种新型算法是否也能有实际的应用价值?

林伟:美国的情况为例,根据其每个州每天播报的新冠肺炎感染数据,可以看看州和州之间有没有相应的因果关系的网络(要注意,在不同的阶段,比如采取控制和不采取控制的时候,这样的一些数据模型实际上是不一样的)。因果关系的产生,是因为有人员的流动,这就牵涉到客流情况,因此这时候可以看它的航空客流,它们之间也有一个州与州之间的关系,甚至城市和城市之间交互的人流的网络,就可以去反映这两张网络之间的关系。

当有了这么多时序数据的时候,就可以依据这些时序数据,一方面去搭建州与州之间的对应的因果关系网络,另一方面也同时搭建出客流之间的因果关系网络,然后去比较这样的两张网络之间有没有一些对应的关系。

在应用层面,就能知道可以通过执行怎样的一些航空或交通的策略,来实现疫情的有效防控。

另外,如果不仅仅有感染人数,而且有治愈的人数等数据信息之后,可以基于这些不同人群之间的因果关系,建立相应的数学模型。这个数学模型就可以和传统的传染病数据模型去做比对。如果原来传统的传染病数据模型没有考虑到的,而新的模型考虑到了,那就需要去做进一步的补充和完善;如果传统模型考虑的变量太多,而新的模型在这样一个新冠病毒肺炎的特点中只有几个变量起作用的话,那么就可以去简化原来的传染病模型。

这两个模型之间如果有相互作用,就可以去做进一步的计算,用各种各样的算法,找寻相应的规律,依据这样一种规律去构建合适的可仿真、可计算的数学模型,之后基于这样的数据模型来进行预测,出台各种防控策略,以及进行基于模型的评估,有一套比较合理的定量化的评估手段以后,再用它来指导具体的防控工作或对防控工作进行阶段性的修正。

(编辑:李正豪 校对:颜京宁)

(责任编辑:王治强 HF013)
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读

        和讯热销金融证券产品

        【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。