如何预先训练GNN以达到更好的迁移效果?北邮等人提出自我监控预训策略
机器的核心报告
作者:小舟、陈萍
预训和微调的区别可以缓解吗?北京邮电大学、腾讯、新加坡管理大学和鹏程实验室的研究人员对此进行了分析和研究,并提出了针对GNN的自我监控预培训策略。
图神经网络(GNN)已经成为图表示学习的实际标准,它可以通过递归收集图的邻域信息来获得有效的节点表示。尽管GNN可以从零开始训练,但最近的一些研究表明,预先训练GNN学习可转移知识用于下游任务可以提高SOTA的表现。
然而,传统的GNN预训练方法遵循以下两个步骤:
1)对大量未标记数据进行预训练;
2)在下游注释数据上微调模型。
因为这两个步骤的优化目标不同,所以差距很大。
最近,来自北京邮电大学和腾讯等机构的研究者进行了分析研究以显示预训练和微调之间的差异.为了缓解这种差异,研究人员提出了L2PGNN,这是一种针对GNN的自我监控预训练策略。
论文链接:https://yuanfulu.github.io/publication/AAAI-L2PGNN.pdf
这种方法的关键点在于,L2P-GNN试图在预训练期间以可转移的先验知识的形式学习微调。为了将局部信息和全局信息都编码为先验信息,研究者进一步为L2P-GNN设计了节点和图两级的双重适应机制。最后,研究者利用开放的蛋白质图谱集和新编制的书目图谱进行预训练,并对各种GNN模型的预训练进行了系统的实证研究。实验结果表明,L2P-GNN能够学习有效且可转移的先验知识,从而为下游任务提供了有力的表征。
总体而言,本文的贡献如下:
首次探索学习GNN预训,缓解了预训与微调目标的差异,为GNN预训提供了新的视角。
针对节点和图的层次表示,本研究提出了一种完全自我监控的GNN预训练策略。
本研究针对GNN的预训练,建立了一种新型的大规模书目地图数据,并在两个不同的数据集上进行了大量的实验。实验表明,该方法明显优于SOTA方法。
L2P-GNN 方法
本研究首先提出了一种自监督GNN模型,该模型在模型独立元素学习(MAML)的设置下学习图的结构,然后在预训练过程中采用节点和图的层次来模拟微调。
自监督模型
L2P-GNN的核心是学习GNN的预训练,以缓解预训练和微调过程之间的差距。具体来说,该方法可以用MAML的形式表示。因此,本研究将任务定义为从局部和全局的角度捕捉图形的结构和属性。然后,元学习apriori可以适应新的任务或图形。
任务结构:使用一组图作为预训练数据,任务涉及的图由支持集和查询集组成。我们学习先验知识,通过梯度下降(与支持集上的损失相关)更新后,可以优化查询集上的性能,从而模拟微调步骤中的训练和测试。
图1: L2P-GNN图。
基本GNN模型:对于给定的父任务和子任务,
该研究设计了一个具有节点级聚合和图级池化的自监督 GNN 模型,旨在将节点级和图级的无标签图数据的内在结构作为自监督信号。双重适应
为了缩小预训练和微调过程之间的差距,在预训练过程中优化模型快速适应新任务的能力是至关重要的。为此,该研究提出学习基础 GNN 模型的预训练,旨在学习可迁移的先验知识,提供可适应的初始化,以便快速针对具有新图数据的新型下游任务进行微调。具体而言,学习到的初始化不仅对节点对之间的局部连通性进行编码和调整,还能够泛化到图的不同子结构。相应地,该研究设计了节点和图级双重适应,如图 1(c) 所示。
实验
性能比较
表 2 对比了 L2P-GNN 和 SOTA 预训练基线(4 种不同的 GNN 架构)的性能,得到了以下发现:
1. 总体而言,在跨架构的所有方法中,L2P-GNN 实现了 SOTA 性能。与每种架构的最佳基线相比,L2P-GNN 在两个数据集上分别实现了高达 6.27% 和 3.52% 的提升。研究者认为这么大的性能提升归功于预训练过程中的微调模拟,缩小了预训练和微调目标之间的差距。
2. 此外,使用大量未标注数据对 GNN 进行预训练显然对下游任务有所帮助。因为相比于在两个数据集上未经过预训练的模型,L2P-GNN 分别带来了 8.19% 和 7.88% 的增益。
3. 研究者还注意到,一些基线(即使用 EdgePred 和 AttrMasking 策略的 GAT 模型)在下游任务中的性能提升极为有限,并在下游任务上产生了负迁移。原因可能是这些策略学习的信息与下游任务无关,因而不利于预训练 GNN 的泛化。这一发现证实了先前的观察结果,即负迁移会限制预训练模型的使用性和可靠性。
表 2:在不同 GNN 架构下,不同预训练策略的实验结果。这些性能提升是相对于未经预训练的 GNN 而言的。
模型分析
如图 2 所示,微调前后 L2P-GNN 参数的 CKA 相似性通常小于基线,这表明 L2P-GNN 经历了更大的变化,从而更加适应下游任务。
图 2:GIN 层 CKA 相似性和在两个数据集上的损失及性能变化。
此外,由于节点、图级双重适应在 L2P-GNN 中非常重要,该研究比较了两种变体:L2P-GNN-Node(只有节点级适应)和 L2P-GNN-Graph(只有图级适应)。如图 3(a) 所示,在两个数据集上的结果表明 L2P-GNN 优于这两个变体。这说明,局部节点级结构和全局图级信息都是有用的,有利于进行联合建模。
图 3:模型分析
该论文研究了节点、图级适应步幅数 (s, t) 和节点表示维度的影响。图 3(b) 绘制了 L2P-GNN 在 0 ≤ s ≤ 3 和 0 ≤ t ≤ 3 下的性能。
最后,该研究总结了维度的影响如图 3(c) 所示。当维度在 300 维时,L2P-GNN 性能达到最优,并且在最优设置附近基本稳定,这说明 L2P-GNN 在维度表示方面具有鲁棒性。
THE END
转载请联系本公众号获得授权
