Graph Transformer Network论文分享
本文核心在于基于已有的网络结构去学习生成元路径来获取节点高阶邻居,然后用图卷积在新生成的网络结构上进行聚合信息来学习表示
Abstract
本文针对现有GNN作用于fixed且homogenoeous网络中的问题,提出了一个Graph Transformer Network(GTNs)能够生成新的网络结构(异质图),同时基于端到端的方式在新学到的图中学习节点表示。GTN中的核心Graph Transformer layer可以从多种边类型中学习一种soft-selection,并将这些边的关系进行组合生成类似meta-path的高阶关系。不需要领域信息的前提下仅利用数据和任务学习到的网络结构,结合图卷积模块生成有效的节点表示,在节点分类任务上取得了SOTA的效果
Introduction
传统异质图通过利用预先定义的元路径将其转化为同质图,然后利用同质图下的图神经网络在新生成的同质图下进行聚合信息,这种两阶段的模式依赖于所定义的元路径的合理性。
本文针对这个问题提出了一个Graph Transformer Network(GTN)来通过端到端的方式根据输入的异质图学习适应于数据和任务的元路径,并基于该元路径生成新的网络结构,后续对所生成图结构通过图卷积模块聚合学习其节点表示。
Contributions
- 提出了一个全新的GTN框架,能够在原有图的基础上学习有用的元路径和多跳连接,从而学习到可靠的节点表示
- 图生成的过程具有一定的解释性(还行),并且模型可以生成一些可靠的元路径(作为一个参考)
- 对比其他依赖于预定于元路径的模型,取得了SOTA效果
Method
Preliminaries
异质图可以被表示为邻接矩阵的集合$ { A_{k} }^{K}_{k=1} $,其中$K$表示边类型的数目,所以对于每一种$A_k$都可以看做看做仅含有某种边类型的邻居矩阵。
元路径:定义就忽略了,简单来说可以理解为预定义好的反映节点与节点之间的高阶关系
这里要指出对于元路径,可以由多种边类型的邻接矩阵相乘获得,如$A\rightarrow P \rightarrow C$可以由$A_{AP}$*$A_{PC}$
图卷积:略
元路径生成
本文所提出的GTN通过给定的数据和任务来学习到相应的元路径,通过这样的方式可以学习到更多有用的元路径
首先先从邻接矩阵集合$\mathbb{A}$中通过soft-selection选出相应的candidate $\mathcal{Q}_1, \mathcal{Q}_2$,然后可以通过对这两种关系的组合生成新的网络结构
$\mathcal{Q}$可以看做是也有边关系的凸组合:
其中$\phi$为卷积层,$W_\phi \in \mathbf{R}^{1\times 1 \times K}$为卷积层$\phi$的参数(有点类似于channel-attention pooling)
为了保证计算的稳定性,对所获得的新的网络结构进行行归一化度数$A^{(l)} = D^{-1} Q_1 Q_2$
每一层GT都可以学习到一个新的图结构,通过叠加$l$层我们可以学习到任意长度为$l$的元路径下的图结构,如果$\alpha$不是one-hot向量时,$A_P$可以被看做所有长度为$l$的元路径的带权组合,通过引入单位矩阵$I$,使$A_0=I$可以避免只能学到与GT层数相同的元路径。
Graph Transformer Networks
相当于生成多种图结构,然后通过图卷积将几个图结构聚合好的信息进行拼接。
Experiments
主要针对三个问题:
- Are the new graph structures generated by GTN effective for learning node representation
- Can GTN adaptively produce a variable length of meta-paths depending on datasets
- How can we interpret the importance of each meta-path from the adjacency matrix generated by GTNs
Datasets:
其中DBLP数据集使用的边类型为$(PA, AP, PC, CP)$, ACM数据集使用边类型为$(PA, AP, PS, SP)$
Implementation Details:
- embedding dimension: 64
- optimizer: Adam
- walk length(for random walk based model): 100 per node
- window size(for random walk based model): 5 with 7 negative samples
- $1 /times 1$ convolution layers initialial value: constant
Baselines
Conventional Network Embedding methods
- DeepWalk
- metapath2vec
GNN-based methods
- GCN
- GAT
- HAN (pre-defined meta-paths)
Results on Node Classification
Interpretation of Graph Tranformer Networks
Relation to Simplifying Graph Convolution Networks
Simplifying Graph Convolution Networks Intro
Heterogeneous Version of SGC?
通过考虑不同边关系的权重,在原邻接矩阵的基础上对不同关系下的矩阵进行带权线性累加,通过叠加多层,在找到不同长度(种类)元路径邻居(对应着SGC的高阶邻居)后,在进行聚合信息。