DyHGCN:一种学习用户动态偏好的动态异构图卷积网络，用于信息扩散预测-摩杜云开发者社区

DyHGCN: A Dynamic Heterogeneous Graph Convolutional Network to Learn Users’ Dynamic Preferences for Information Diffusion Prediction

ECML-PKDD 2020 欧洲机器学习与数据挖掘顶级会议

Abstract

信息扩散预测是了解信息传播过程的一项基本任务。它在错误信息传播预测和恶意账户检测等方面有广泛的应用。以前的工作要么集中在利用单个扩散序列的上下文，要么利用用户之间的社交网络进行信息扩散预测。然而，不同信息的扩散路径自然构成了一个动态扩散图。一方面，以前的研究不能同时利用社交网络和扩散图进行预测，这不足以对扩散过程的复杂性进行建模，导致预测效果不理想。另一方面，他们不能学习用户的动态偏好。直观地说，用户的偏好是随着时间的推移而变化的，用户的个人偏好决定了用户是否会转发信息。因此，在信息扩散预测中考虑用户的动态偏好是有益的。

在本文中，我们提出了一个新颖的动态异质图卷积网络（DyHGCN），以共同学习社会图和动态扩散图的结构特征。然后，我们将时间信息编码到异质图中，以学习用户的动态偏好。最后，我们应用多头关注来捕捉当前扩散路径的上下文依赖性，以促进信息扩散预测任务。实验结果表明，DyHGCN在三个公共数据集上的表现明显优于最先进的模型，这表明了所提模型的有效性。

1 Introduction

网络社交媒体已经成为我们日常生活中不可缺少的一部分，人们可以在上面轻松地传递或转发有趣的新闻。信息扩散预测任务旨在研究信息如何在用户之间传播，并预测未来被感染的用户。信息扩散过程的建模和预测在许多现实世界的应用中发挥着重要作用，如预测社会影响力[17]，分析错误信息如何传播[20,30]和检测恶意账户[14,31]。

以前的研究要么集中在利用扩散序列[2,22,23,26,28]，要么利用用户间的社会网络进行扩散预测[6,25,27]。一些研究[8,22,23,26]提出了基于扩散路径的模型，从过去的扩散记录中学习用户代表。例如，TopoLSTM[22]扩展了标准LSTM模型来学习信息扩散序列的链式结构。CYAN-RNN[23]将扩散路径建模为树状结构和基于注意力的RNN来捕捉基于观察序列的交叉依赖。扩散路径可以反映信息趋势，所以这些模型可以在制定观察到的序列方面取得成功。

除了利用扩散路径之外，一些研究还应用了用户之间的社会网络来促进信息扩散预测。它背后的一个直觉是，人们与他们的朋友有一些共同的兴趣[29]。如果他们的朋友转发了信息，他们就有更大的概率转发。基于这个假设，最近的许多研究[1,24,27,29]利用社会网络的结构来学习用户之间的社会影响，以提高预测性能。

然而，现有的方法包括最先进的模型[25,27]没有考虑两个重要方面。其一，它们不能同时利用社会网络和扩散图进行预测，这不足以对扩散过程的复杂性进行建模，导致预测效果不理想。另一方面，他们不能学习用户的动态偏好。直观地说，用户的偏好是随着时间的推移而变化的，用户的个人偏好影响着信息的扩散。因此，考虑用户的动态偏好是有益的，它可以通过扩散时间的不同点的动态扩散结构来反映。

为了利用这些方面的优势，我们提出了一个新颖的动态异质图卷积网络（DyHGCN）来利用社会网络和动态扩散图进行预测。首先，我们设计了一个异质图算法来学习社会网络和扩散关系的表示。然后，我们将时间信息编码到异质图中，以学习用户的动态偏好。最后，我们抓住当前扩散路径的上下文依赖性来解决信息扩散预测问题。

本文的主要贡献可以总结如下:

我们设计了一个动态异质图卷积网络（DyHGCN）来联合模拟用户的社会图和扩散图，以学习复杂的扩散过程。

我们将时间信息编码到异质表示中，以学习用户的动态偏好。据我们所知，这是第一个利用用户的动态偏好进行信息扩散预测的工作。

实验结果表明，DyHGCN在三个公共数据集上的表现优于最先进的模型，这表明DyHGCN的有效性和效率。

2 Related Work

目前的信息扩散预测方法可以分为两类：基于扩散路径的方法和基于社会网络的方法。

2.1基于扩散路径的方法

基于扩散路径的方法根据给定的观察到的扩散序列推断出人际影响。早期的工作假设在信息扩散过程中存在一个先验的扩散模型，如独立级联模型[9]或线性阈值模型[5]。尽管这些模型[9,18]在制定用户之间的隐性影响关系方面取得了成功，但这些方法的有效性依赖于先验信息扩散模型的假设，而这种假设在实践中是很难明确或验证的[23]。

随着神经网络模型的发展，如循环神经网络（RNN）和卷积神经网络（CNN），一些研究[4,19,26]应用深度学习，从过去的扩散序列中自动学习底层路径的表示，用于扩散预测，而不需要明确的底层扩散模型。例如，TopoLSTM[22]扩展了标准的LSTM模型来学习信息扩散路径，以产生一个拓扑感知的节点嵌入。DeepDiffuse[8]采用嵌入技术和注意力模型来利用感染时间戳信息。该模型可以根据之前观察到的级联序列预测社交媒体中何时和谁会被感染。NDM[26]建立了一个基于自我注意和卷积神经网络的显微镜级联模型，以缓解长期依赖性问题。

大多数基于扩散路径的方法将问题视为一个序列预测任务，其目的是按顺序预测扩散用户，探讨历史扩散序列如何影响未来的扩散趋势。然而，用户之间的社会关系是信息扩散的关键渠道之一，在这些方法中没有应用。因此，如果不考虑社会网络的结构，就很难准确识别和预测信息流的方向。

2.2基于社交图的方法

除了利用扩散路径外，一些研究还利用社会网络的结构进行扩散预测。这背后的一个直觉是，人们与他们的朋友有一些共同的兴趣[29]。如果他们的朋友转发了新闻或微博，他们也有更高的概率转发它。基于这个假设，以前的许多研究[1,13,24,27,29,32]都在探索从社会关系的角度来提高预测性能。例如，[29]研究了用户的社会角色和他们对信息扩散的影响之间的相互作用。他们提出了一个角色意识的信息扩散模型，将社会角色识别和扩散建模整合到一个统一的框架中。[25]探讨了信息扩散过程的顺序性和用户连接图的结构特征，并采用基于RNN的框架对历史上的顺序性扩散进行建模。 [27]提出了一个基于强化学习的多尺度扩散预测模型。该模型将宏观扩散规模信息纳入基于RNN的微观扩散模型中

**然而，这些基于图的方法主要关注的是当前的扩散序列，而忽略了在此期间其他信息的扩散路径，无法捕捉到全局的转贴关系。**因此，它不足以对扩散过程的复杂性进行建模。与基于社会图的模型不同，我们共同学习社会图和动态扩散图的全局结构。此外，我们的模型考虑了基于这个异质图的动态个人偏好。

3 Problem Formulation

假设一组信息$D$将在一组用户$U$中传播。在本文中，我们把一条信息看作是一个文件。描述一个信息扩散过程的明确方式可以被看作是当人们分享或转发一个文件时，表明节点的连续激活。大多数情况下，真实的级联被记录为单链结构序列。

文档$d_m$的扩散过程被记录为一连串的转贴行为$S^m = {s^m_1, s^m_2, .... , s^m_{N_c}}$，其中$N_c$是消息$d_m$的级联数量。$N_c$是扩散序列的最大长度。转贴行为$s^m_k = {(u^m_k , t^m_k )|u^m_k∈U, t^m_k∈ [0, +∞)}$是一个元组，指用户$u^m_k$在某个时间戳$t^m_k$转贴了消息$d_m$。如图1(a)所示，对于文档d1记录为${(u_1, t_1^1), (u_2, t^1_2), (u_3, t^1_3), . .}$按时间戳排序。

鉴于观察到的扩散痕迹，信息扩散预测任务的目标是预测未来时间戳$t^\prime$的扩散行为。如图1(b)所示，我们已经知道用户$u_5$发布了一条信息$d_?$，我们应该预测哪些用户会对其感兴趣并在未来的时间戳$t^\prime$转发。扩散概率可以表述为$P (s^m_{t^\prime} |S_t)$，其中$t^\prime > t$.

图1. (a) 文件$d_1$, $d_2$, $d_3$（标记为黄色方块）的扩散过程的例子。边缘表示用户（标记为红色圆圈）在某个时间戳转发了一个文件。(b) 信息扩散预测任务的说明。红色的虚线表示可能的转贴行为和潜在的激活用户。(在线彩色图)

**在本文中，我们对用户的社会图和扩散图进行联合编码，以解决扩散预测问题。其动机是这两种图为扩散预测提供了不同的有用信息，将它们结合起来会使预测更加准确。**如图1(b)所示，$u_2$和$u_6$都比$u_3$有更高的概率转发$u_5$的信息，因为我们可以观察到$u_2$和$u_6$从社交图谱中关注$u_5$，而$u_3$没有直接关注$u_5$。然而，信息很可能被$u_2$或$u_6$传播给$u_3$，因为$u_3$关注$u_6$，而且$u_3$有两次从$u_2$转贴的记录。从这个例子中，我们可以看出，对于扩散预测问题，将两个图结合起来是有好处的。

4 Framework

在本节中，我们将介绍DyHGCN，这是一个基于深度学习的模型，有三个阶段，以详细学习个人动态偏好和邻居的影响。图2显示了该模型的总体架构。首先，我们构建一个异质的社会和扩散图。然后，我们设计动态异质图，学习图中带有用户动态偏好的节点表示。最后，我们结合这些表征来预测未来的受感染用户。

图2. 动态异构图卷积网络的结构。

4.1异构图的构建

直观地说，当人们对该信息或微博感兴趣时，就会转发该信息或微博。如果用户喜欢某个人的微博，他们通常会关注他或她。因此，社会图谱中的社会关系将有助于预测用户是否会转发该信息。此外，我们可以分析不同传播期的转贴行为的历史。通过这种方式，我们可以捕捉到用户偏好的动态变化。基于这些动机，我们建议对社会关系和动态转贴关系进行联合建模，以学习更好的用户表征，用于信息扩散的预测。

在本文中，我们利用用户之间的社会关系来构建一个用户社会图$G^f$，它是一个有向无权图。然后，我们把历史上的扩散时间线分成$n$个时间间隔。在每个时间间隔$t_i$，我们利用用户之间的转帖关系来构建一个扩散图$G^r_{t_i}$，这是一个有向加权图。

4.2异构图卷积网络(HGCN)

如图2左边部分所示，异质图有一种类型的节点（用户节点）和两种类型的关系：跟随关系和转帖关系。在时间间隔$t_i，i∈[1，n]$，我们使用这两种关系来构建邻接矩阵$A={A^F , A^R_{t_i}}$。$A^F∈R^{|U|×|U|}$是从社交关系中提取的邻接矩阵，$A_{t_i}^R∈R^{|U|×|U|}$是从回贴关系中提取的。$|U|$表示用户的数量。

对于每一种关系，我们应用多层图卷积网络（GCN）[11]来学习图中的节点表示。层间传播规则可以定义如下。

其中$X^{(0)}∈R^{|U|×d}$是由正态分布[3]随机初始化的用户嵌入，$W^{(l)}_F, W{(l)}_R∈R^{d×d}$是可学习参数。$t_i∈R^d$是由随机分布初始化的嵌入时间区间。$D$是用户嵌入的维度。$σ(·)=ReLU(x) = max(0, x)$是激活函数。$l$为GCN的层数。

我们可以从跟随关系中获得用户表征$X^{(l+1)}_F∈R^{|U|×d}$，从回贴关系中获得$X^{(l+1)}_R∈R^{|U|×d}$。为了融合这两种关系以产生更好的用户表征，我们采用启发式策略[15]，使$X^{(l+1)}_F$和$X^{(l+1)}_R$相互影响。

其中$\odot$表示元素的乘积，$W_1∈R^{4d×d}$是一个可学习的参数。$X^{(l+1)}_{t_i}$是$t_i$时刻学习到的用户表示。

4.3动态图编码

如上所述，用户的动态偏好对扩散预测很重要。在本节中，我们将描述如何从不同时间间隔的动态图中学习用户表征。

动态图编码算法的整体过程如算法1所示。首先，我们将历史扩散时间线分割为$n$个区间，构建$n$个动态异质图。然后，我们应用异质图卷积网络来学习每个时间间隔的用户嵌入。最后，我们收集所有的用户表征并将其发送到下一阶段。

4.4 时间意识注意力

经过上述程序，我们从不同时间间隔的不同异质图快照中获得用户表示。然后，我们可以通过融合这些不同时间间隔的用户表征来生成最终的用户表征。在本小节中，我们设计了两种策略来产生最终的用户表征。

硬选择策略

对于扩散追踪中的每一个用户，他们都有一个转贴期间的时间戳。我们可以直接确定一个给定的时间戳属于哪个时间区间。然后我们使用该时间区间的用户嵌入作为最终的用户嵌入。例如，给定用户id$u$，我们从所有的用户表示$[X^{(L)}{t_1} ,X^{(L)}{t_2} , ... , X^{(L)}{t_n} ]$中查找用户表示。我们将得到$n$个用户表征$[u{t_1},u_{t_2}, ... , u_{t_n}]$。假设用户$u$在时间戳$t^\prime$ 和$t^\prime ∈ [t_3, t_4)$时重新发布了信息，那么我们使用$u_{t_3}$作为用户$u$的最终表征。

软选择策略

硬选择策略只使用属于重发时间区间的用户表征，这不能完全利用历史信息产生的用户表征。因此，我们设计了一个时间感知的注意力模块，将历史用户表征融合为最终的用户表征。

具体来说，给定用户id $u$，我们从所有用户表征$[X^{(L)}{t_1} ,X^{(L)}{t_2} , ... , X^{(L)}{t_n} ]$中查找用户表征，得到用户表征$U_t =[u{t_1},u_{t_2}, ... , u_{t_n}] ∈R^{n×d}$。假设用户$u$在时间戳$t^\prime$ ，$t^\prime ∈ [t_3, t_4)$时重新发布信息，那么我们定义时间意识的注意力如下。

其中$ m_j=\left{ \begin{aligned} 0~~~~~~~~~t^\prime \geq t_j \ -∞~otherwise \end{aligned} \right.$，否则为$-∞$。是一个掩码矩阵，$m∈R^n$。当$m_j=-∞$时，softmax函数的结果是注意力权重为零，可以在$t^\prime < t_j$时关闭注意力，避免未来时间戳的标签泄露。$Lookup(-)$函数被用来将时间间隔id转化为时间嵌入。时间嵌入是由正态分布[3]初始化的。$\widetilde{u}$是用户$u$的最终代表。

4.5 信息扩散预测

为了捕捉上下文依赖信息，我们可以应用学习到的用户表征来构建当前的扩散序列$\widetilde{U}=[\widetilde{u}_A,\widetilde{u}_B,\widetilde{u}_C, ...]$，用于未来扩散预测。我们没有使用递归神经网络（RNN）来模拟当前的扩散序列，而是应用掩蔽的多头自我注意模块[21]来并行地注意彼此的语境编码。与RNN相比，多头注意力模块更快、更容易学习上下文信息。值得注意的是，我们还像以前一样应用了屏蔽矩阵来屏蔽未来的信息，以避免标签的泄露。这个过程可以表述为：。

其中$W^Q_i, W^K_i, W^V_i∈R^{d×d_k}, W^O∈R^{Hd_k×d_Q};d_k = d / H$;$H$是注意模块的头部数。掩码矩阵$M$，定义为:

$ M_ij=\left{ \begin{aligned} 0~~~~~~~i \leq j \ -∞~otherwise \end{aligned} \right.~~~(5)$

用于关闭未来时间步长的注意权重。

我们在$L$个扩散时间步骤上获得用户表征$Z∈R^{L×d}$。然后，我们使用两层全连接的神经网络来计算扩散概率:

其中，$\hat{y}∈R^{L×|U|}$，$W_2∈R^{d×d}$, $W_3∈R^{|U|×d}$, $b_1, b_2$是可学习的参数。

最后，我们将交叉熵损失作为目标函数，其表达式为:

其中$y_{ij} = 1$表示扩散行为发生，否则$y_{ij} = 0$ 。 $θ$表示模型中需要学习的所有参数。这些参数由Adam优化器以小批量的方式更新。

5 Experiments

5.1 Datasets

按照以前的研究[25,27]，我们在三个公共数据集上进行实验，对所提出的模型进行定量评估。详细的统计数据见表1。#Links表示社交网络中用户的关注关系的数量。#Cascades表示数据集中扩散序列的数量。Avg. Length表示信息扩散序列的平均长度。

表1.Twitter、豆瓣和Memetracker数据集的统计数据。

Twitter dataset[7]记录了2010年10月期间包含url的推文。每个URL都被解释为在用户之间传播的信息项。

用户的社会关系是Twitter上的关注关系。

豆瓣数据集[33]是从一个社交网站上收集的，在这个网站上，用户可以更新他们的图书阅读状态并关注其他用户的状态。每本书或电影都被认为是一个信息项，如果一个用户阅读或观看了该书或电影，就会被感染。用户的社会关系是共同发生的关系。如果两个用户参加同一个讨论超过20次，他们就被认为是朋友。

Memetracker 数据集[12]收集了在线网站的数百万个新闻故事和博客帖子，并跟踪最频繁的引语和短语，即备忘录，以分析备忘录在人们之间的迁移。每个备忘录被视为一个信息项目，而网站的每个URL被视为一个用户。请注意，这个数据集没有底层社会图。

5.2 对比模型

**比较基线可以分为基于扩散路径的模型和基于社会网络的模型。**为了评估DyHGCN的有效性，我们使用五个非常新的模型作为基线进行全面的比较。这些模型显示如下。

基于扩散路径的方法

TopoLSTM[22]：将信息扩散路径建模为动态有向无环图，并扩展了标准LSTM模型，以学习拓扑感知的用户嵌入，用于扩散预测。

DeepDiffuse[8]：采用了嵌入技术和注意力模型来利用感染时间戳信息。该模型可以根据之前观察到的级联序列，预测社交网络中何时以及谁

会被感染。

NDM[26]：在自我注意机制和卷积神经网络的基础上建立一个微观级联模型，以缓解长期依赖性问题。

基于社交网络

SNIDSA[25]：是一个具有结构关注的顺序神经网络，用于模拟信息扩散。递归神经网络框架被用来对顺序信息进行建模。注意机制被纳入以捕捉用户之间的结构依赖性。开发了一个门控机制来整合顺序信息和结构信息。

FOREST[27]：是一个基于强化学习的多尺度扩散预测模型。该模型将宏观扩散规模信息纳入基于RNN的微观扩散模型。它是最新的序贯模型，并取得了最先进的性能。

Our methods(DyHGCN-H，DyHGCN-S)：DyHGCN-H是具有硬选择策略的模型，DyHGCN-S是具有软选择策略的模型（时间意识的关注）。

5.3评价指标和参数设置

按照以前的研究[23,25,27]的设置，我们将下一个感染用户的预测视为一项检索任务，通过对未感染用户的感染概率进行排序。我们从平均精度（MAP）和HITS分数（Hits@k）两个方面评估了DyHGCN与最先进的基线的性能。

Hits@k：分母为所有的测试集合，分子表示每个用户top-k推荐列表中属于测试集合的个数的总和。

MAP： https://blog.csdn.net/qq_33532713/article/details/86505510?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-86505510-blog-116144456.pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-86505510-blog-116144456.pc_relevant_recovery_v2&utm_relevant_index=5

我们的模型是由PyTorch[16]实现的。参数由Adam算法[10]更新，Adam的参数，$β_1$和$β_2$分别为0.9和0.999。学习率被初始化为1e-3。训练集的批量大小被设定为16。用户嵌入和时间间隔嵌入的维度被设定为$d = 64$。我们使用两层的GCN来学习图结构。核大小被设置为128。多头关注$H$的头数从{2，4，6，8，10，12，14，16，18，20}中选择，最后设置为14。我们把动态扩散图分成$n$个时间区间，其中$n={1，2，4，6，8，10，12，14，16，18，20}$。最后，我们在实验中使用$n=8$。我们根据验证集上的表现选择最佳参数配置，并在测试集上评估该配置。

5.4 Experimental Results

我们在三个公共数据集上评估了DyHGCN对信息扩散预测任务的有效性。表2、3和4显示了所有方法的性能。

表2. Twitter数据集的实验结果（%）。所有基线的实验结果都引自论文[27]。FOREST[27]是本次提交之前的最先进的模型。DyHGCN的改进在统计学上是显著的，$P<0.01$的配对t检验。

表3. 豆瓣数据集的实验结果（%）。所有基线的实验结果都引自论文[27]。FOREST[27]是本次提交之前的最先进的模型。DyHGCN的改进在统计学上是显著的，$P<0.01$的配对t检验。

表4. Memetracker数据集的实验结果（%）。由于没有底层社会图，我们排除了Memetracker的TopoLSTM和SNIDSA。 DyHGCN的改进在统计学上是显著的，$P<0.01$的配对t检验。

从表中我们可以看出，DyHGCN（DyHGCN-H和DyHGCN-S）在hits@100和map@100得分方面一直优于最先进的方法，其绝对改善幅度超过5%。具体来说，我们有以下的观察。

(1)与TopoLSTM、DeepDiffuse和NDM相比，DyHGCN-S在hits10方面取得了约5%的绝对改善，在hits@100方面取得了超过10%的改善。此外，预测精度也实现了约2%的绝对改善。这些基线模型主要将扩散路径建模为一个序列或图形结构，忽略了社会网络信息。然而，社交网络可以反映用户的偏好。实验结果表明，考虑用户社交网络对信息扩散预测非常重要。

(2)与SNIDSA和FOREST相比，DyHGCN-S在Twitter和豆瓣数据集上的hits@10取得了超过2%的绝对改善，在hits@100取得了超过5%的改善。SNIDSA和FOREST都利用了用户的社会关系来促进扩散预测。然而，在预测扩散路径时，它们只将历史扩散路径建模为一个连续的模式，这不足以对复杂的扩散行为和用户的动态偏好建模。DyHGCN的改进表明，有必要将扩散路径建模为一个图，而不是序列或树状结构。

(3)与DyHGCN-H相比，DyHGCN-S在三个数据集上也显示出更好的性能。DyHGCN-H只使用扩散图的当前状态来学习用户嵌入，这不能很好地捕捉用户的动态偏好。DyHGCN-S利用时间感知的注意力模块来融合历史和当前的扩散图，为扩散预测产生更好的用户表示。

6 Further Study

6.1 消融实验

为了弄清DyHGCN中每个模块的相对重要性，我们对模型的不同部分进行了一系列的消融研究。实验结果列于表5。消融研究是按以下顺序进行的。

**w/o time-aware attention:**用硬选择策略取代时间感知的注意模块。

**w/o social graph:**去除社交图卷积网络。

**w/o diffusion graph:**移除扩散图卷积网络。

w/o heterogeneous graph: 去除异构图形编码模块，随机初始化用户表示。

表5显示了DyHGCN的几种变体方法的总体性能。参照表中的实验结果，我们可以观察到。

表5. 对Twitter和豆瓣数据集的消融研究（%）

(1)当用硬选择策略取代时间意识注意时，与DyHGCN-S相比，性能下降了一点。实验结果表明，时间意识注意力可以有效地融合由历史信息产生的用户表征，从而产生更好的用户表征。

(2)当我们去掉社会图的编码模块时，与DyHGCN相比，性能下降了很多。在去除扩散图时也可以看到类似的现象。结果表明，DyHGCN中的社会关系和转帖关系编码模块对信息扩散预测都是必不可少的。

(3)当去除异质图时，与去除社会图或扩散图相比，性能进一步下降了很多。这一现象表明，两种关系都包含互补的信息，将它们结合起来确实有助于提高性能。

6.2 参数分析

在本节中，我们对Twitter数据集的超参数进行了一些敏感性分析实验。我们分析了超参数的不同选择会如何影响性能。

时间间隔的数量$n$。4.2，我们根据扩散时间线将扩散图分成$n$个快照。$n$的大小可能影响性能。当$n$较大时，扩散图被分割成很多块，模型可以在动态图中学习到更细微的变化。参照图3（a），我们可以观察到。(1)学习扩散图的动态特征对信息扩散预测有帮助，因为在$n=8$之前，当$n$增加时，性能在增加。 (2)当$n$过大时，性能的进一步提高非常有限。

头数$H$。从图3(b)中，我们可以看到，随着多头注意力的头数增加，性能会有一些改善。随着头数的增加，该模型可以捕获更多的信息。然而，当使用太多的头时，由于过拟合，性能会明显下降。我们可以看到，$H=14$是最合适的注意头数。

图3。Twitter数据集的参数分析。

7 结论和未来工作

在本文中，我们研究了信息扩散预测问题。为了学习用户对预测的动态偏好，我们提出了一个新的动态异质图网络，以编码社会和动态扩散图结构。我们在三个真实世界的数据集上进行了实验。实验结果表明，我们的模型比最先进的模型取得了明显的改进，这表明该模型在现实世界应用中的有效性和可行性。

对于未来的工作，我们将研究扩散信息的文本内容，这一点在本工作中没有应用。如果用户对某些特定的话题或内容表现出偏好，那么用户就有可能转贴它们。所以用户是否会转贴信息也是由内容决定的。因此，这值得进一步研究，以帮助提高扩散预测的性能。