GNN的基础、前沿和应用- 汇维网

近年来，图神经网络（GNN）取得了快速、令人难以置信的进展。图神经网络又称为图深度学习、图表征学习（图表示学习）或几何深度学习，是机器学习特别是深度学习领域增长最快的研究课题。本次分享的题目为《GNN的基础、前沿和应用》，主要介绍由吴凌飞、崔鹏、裴健、赵亮几位学者牵头编撰的综合性书籍《图神经网络基础、前沿与应用》中的大致内容。

一、图神经网络的介绍

1、为什么要研究图？

图是一种描述和建模复杂系统的通用语言。图本身并不复杂，它主要由边和结点构成。我们可以用结点表示任何我们想要建模的物体，可以用边表示两个结点之间的关系或者相似度。我们常说的图神经网络或者图机器学习，通常是将图的结构以及边和结点的信息作为算法的输入，输出想要的结果。比如在搜索引擎中，当我们输入一个 query 时，引擎会根据 query 的信息、用户的信息以及一些上下文信息返回个性化的搜索结果，这些信息可以天然地以图的方式进行组织。

2、图结构数据无处不在

图结构数据到处可见，比如 Internet、社交网络等。除此之外，在如今非常火的蛋白质发现领域，人们会用图来描述和建模已有的蛋白质并生成新的图，从而帮助人们去发现新的药物。我们也可以用图去做一些复杂的程序分析，还可以在计算机视觉中去做一些 high-level 的推理。

3、图机器学习的近期趋势

图机器学习并不是一个非常新的话题，近 20 年来一直都有这个研究方向，以前一直比较小众。2016 年开始，随着现代图神经网络相关论文的出现，图机器学习成为了一个热门的研究方向。人们发现这种新一代的图机器学习方式可以更好地学习数据本身和数据之间的信息，从而能够更好地得到数据表征，最终能够更好地完成更重要的任务。

4、图神经网络的简单历史

最早的图神经网络相关论文出现在 2009 年，在深度学习流行之前。现代图神经网络相关论文出现在 2016 年，是对早期的图神经网络的改进。之后，GCN 的出现推动了图神经网络的快速发展，2017 年至今，有大量新的算法涌现出来。随着图神经网络的算法越来越成熟，2019 年至今，工业界尝试用这些算法解决一些实际问题，同时也有很多开源的工具被开发出来去提升解决问题的效率。2021 年至今，很多图神经网络相关的书籍被撰写出来，当然也包括这本《图神经网络基础、前沿与应用》。

《图神经网络基础、前沿与应用》一书系统地介绍了图神经网络领域中最核心的概念和技术，以及前沿的研究和开发，并介绍了在不同领域的应用。无论是学术界还是工业界的读者，都能够从中受益。

二、图神经网络的基础

1、机器学习的生命周期

上图体现了机器学习的生命周期，其中特征学习是非常重要的环节，它的主要任务是将原始数据转化为结构化的数据。在深度学习出现之前，大家主要是通过特征工程来完成这个任务。深度学习出现以后，这种端到端的机器学习方式开始成为主流。

2、图中的特征学习

Feature Learning in Graphs 和深度学习的做法非常类似，目标是设计有效的和任务相关或者和任务无关的特征学习方法将原始图中的结点映射到高维空间中，从而得到结点的 embedding 表示，进而完成下游任务。

3、图神经网络的基础

图神经网络中有两类需要学习的表征：

图结点的表征

需要一个 filter operation，将图的矩阵和结点的向量表示作为输入，不断学习，更新结点的向量表示。目前比较普遍的 filter operation 有 Spectral-based、Spatial-based、Attention-based、Recurrent-based。

图的表征

需要一个 pool operation，将图的矩阵和结点的向量表示作为输入，不断学习，得到包含更少的结点的图的矩阵及其结点的向量表示，最终得到 graph-level 的向量表示来表征整张图。目前比较常见的 pool operation 有 Flat Graph Pooling（比如 Max、Ave、Min），Hierarchical Graph Pooling（比如 Diffpool）。