一个在多层网上的传播模型

一个在多层网络上的传播模型

1.背景

考虑一个科学家的合作或交流网络,我们通常都是用引文网络来研究科学家之间的交流关系的。一般的做法是基于两个科学家合作过的论文数量的统计来确定二者的合作强度。而在实际科学家的交流合作包括对知识的探索与分享是基于引文网络的,我们大多是通过一篇文章来索引它的参考文献,进而去认识到另外一个作者的工作或与这篇文献相关的工作。

2.模型

我在这里提出了一种很直观的科研工作者的合作或者交流模型,如下图

$A_i$,表示作者,$P_i$表示文章,那么由绿色的链接以及文章构成的是一个引文网络,作者A1发布了文章P1,P2,P4,P5,作者A2发布了文章P3,P5,P6,其中P5是二人合作发表的。同时,引文网络中,由细到略粗的方向表示知识传播的方向,也即P1被P5引用了,其他同理。

对于一个学者S,S并不知道A1与A2是认识的,那么他从A1出发,看看A1发了哪些文章,我们先暂时假设他看A1的每一篇文章是等可能的,比如,他看到了P5,这时他去追踪P5的参考文献P6(简单一点,我们最初可以假设这里也是等可能的选择),S发现P6是A2写的,那么他就完成了从A1到A2的跳跃,他就可以按照这样的方式去看看A2的工作,直到找到下一个作者……

从本质上来说,这就是一个随机游走,只不过,是借助引文层来完成作者间的随机游走,我认为,这种意义上的随机游走比直接简单的先算作者之间的合作强度然后在由此构成的合作网上进行随机游走来算pagerank值亦或是embeding要有意思的多。

这种方法,也可以倒过来,来看计算文章层面,比如S想找一篇不错的文章,假设他搜到了P1,他既可以去通过引文网看看P1的邻居,也可以看看P1的作者A1发的哪些文章,比如P5,但是,在实际科研中,一个职业学者的研究大多会在自己的文章中引用自己的过往文章,所以文中提到的方法在这里貌似与其他方法差别不是很大。

更多的问题

  • 如果我们还考虑随机游走中在各个边上的流量累计,比如作者与文章的连边,则又可以用来去解决代表作问题。
  • 按照这个思路,我们其实可以把单属性边的单层网扩展成为双层网络,由此来更好研究单层网络结点的关系和传播动力学