一个带label网络的embedding问题

https://hashc.github.io/2017/02/13/%E4%B8%80%E4%B8%AA%E5%9C%A8%E5%A4%9A%E5%B1%82%E7%BD%91%E4%B8%8A%E7%9A%84%E4%BC%A0%E6%92%AD%E6%A8%A1%E5%9E%8B/

之前一篇提到多一个多层网络的传播模型,和Fung讨论一下,我们俩发现,对于上一篇提到的作者-引文网络,我们尝试通过不同的方法来对这个网络embedding

  1. lightRNN

    lightRNN(https://arxiv.org/abs/1610.09893)是MSRA 16年解决词向量嵌入的工作,用2-component想法,把词放入一张二维表中,那么每一个维度的值也就是表征它在对应component空间中的位置。好了,那直接利用这种想法,将二层网摊平来做不就好了?

  2. MD-RNN,是用来处理多维时间序列的,标准RNN的每一层隐层不仅接受当前位置的输入,也接受上一个位置的隐层输出作为输入;在标准的RNN中,由于只有一个维度,因此只接受该维度上的上一个位置的隐层输出,而MDRNN的思想是接受每个维度上的上一个位置的隐层输出作为输入;比如对于2D-RNN,也就是图像,每个位置的隐层不仅接受横向维度的上一个位置的隐层输出,也接受纵向维度的上一个位置的隐层输出。那么,我们可以把多层网络上的node表征为一个张量,然后在网络上随机行走,由此来产生一个张量时间序列,用MD-RNN的想法来做对应的embedding吗?

  3. 最后,我们发现,我们所考虑的网络实际上是带作者标签的引文网络。那么,借鉴LightRNN的想法,我们可以把一篇文章分解成为两部分(a,b)a是用来表征作者的,b是用来表征主题或者其他,我们每次都加上约束,同一作者的文章对应的a是不变的,最后,出来的embedding向量,左边的部分a,(注意,这里a也可以是一个向量),同作者的不变,这样我们可以把这一部分单独拿出来,直接看作者的分布,完成对作者的embedding了

    当然,由于网络是现成的,我们可以跳过随机游走,直接考虑最优化问题

3.5日更新

  1. Huang 的方法,利用引文网络与作者-文章二分网络的矩阵来直接做降维。另外,可以利用引文网络做embedding后得到paper的向量,直接用author-paper矩阵左乘得到author的向量

  2. 我的方法,利用引文网络与作者-文章二分网络做随机游走,然后得到仅有author的序列,基于此可以做embedding,然后可以做作者的聚类

一个补充:
是否可以用引文网络的连接矩阵做文章间的相似性矩阵,把这个当成共现矩阵,然后就可以跳过随机游走了
如何去比较?
在某一个网络上用随机游走得到时间序列,统计得到共现矩阵M;用word2vec得到node的向量,Node向量的距离矩阵M_wvs;邻接矩阵M_nb生成的距离矩阵M_nbs;比较三者之间的差异,如果M_nbs 与M_wvs的差异很小,实际上是在验证word2vec是one-hot的降维。如果,M与M_wvs差异很小,那么说明,如果,M_nbs与M的差异很小,那么就可以直接用邻接矩阵的相似性矩阵M_nbs来生成M.
PS:这里的距离矩阵,可以用余弦距离(1),也可以直接用欧式距离(2)。实际上,我是想弄清是否,我们可以直接通过邻接矩阵得到共现矩阵,由此直接embedding。而有理由相信共现矩阵,实质上是在描述任意两个node(词)的距离或者某种程度的相似性。