摩杜云开发者社区-摩杜云

图数据挖掘：小世界网络模型和分散式搜索

1六度分隔理论先来看两个有趣的例子。我们建立一个好莱坞演员的网络，如果两个演员在电影中合作或就将他们链接起来。我们定义一个演员的贝肯数（baconnumber）是他们与演员凯文·贝肯有多少步的距离，贝肯数越高，演员离凯文·贝肯越远。研究发现，直到2007年12月，最高（有限）的贝肯数仅为\(8\)，且大约只有12%的演员没有路径链接到凯文·贝肯。此外，在学术合作中，埃尔德什数(Erdősnumber)被用来描述数学论文中一个作者与PualErdős的“合作距离”(PualErdős就是我们在博客《图数据挖掘：Erdos-Renyi随机图的生成方式及其特性》中提到的那位巨佬)。菲尔茨奖获得者...

t19citr9Kz3z 2023年11月01日 32 0 0 AI综合

图数据挖掘：网络中的级联行为

1网络中的传播 1.1一些传播的例子我们现在来研究网络中的传播。事实上，在网络中存在许多从节点到节点级联的行为，就像传染病一样。这在不同领域中都有所体现，比如：生物学传染性疾病信息技术级联故障，信息的传播社会学谣言、新闻、新技术的传播，虚拟市场下图就展示了一个信息经由媒体扩散（diffusion）的过程： 1.2基于网络构建传播模型接下来我们看如何基于网络构建传播模型。以传染病为例，传染病会沿着网络的边进行传播。这种传播形成了一个传播树，也即级联，如下图所示：我们定义一些术语：将其中传播的对象为contagion；被传染这一事件称为adoption、infection或a...

t19citr9Kz3z 2023年11月01日 27 0 0 AI综合

图数据挖掘：基于概率的流行病模型

1导引在上一篇博客《图数据挖掘：网络中的级联行为》中介绍了用基于决策的模型来对级联行为进行建模，该模型是基于效用(Utility)的且是是确定性的，主要关注于单个节点如何根据其邻居的情况来做决策，需要大量和数据相关的先验信息。这篇博客就让我们来介绍基于概率的传播模型，这种模型基于对数据的观测来构建，不过不能对因果性进行建模。 2基于随机树的流行病模型接下来我们介绍一种基于随机树的传染病模型，它是分支过程（branchingprocesses）的一种变种。在这种模型中，一个病人可能接触\(d\)个其他人，对他们中的每一个都有概率\(q>0\)将其传染，如下图所示：接下来我们来看当\...

t19citr9Kz3z 2023年11月01日 40 0 0 AI综合

图数据挖掘：幂律分布和无标度网络

1幂律分布和指数分布我们在博客中《图数据挖掘（二）：网络的常见度量属性》提到，节点度分布\(p(k)\)为关于\(k\)的函数，表示网络中度为\(k\)的节点占多大比例。我们发现，现实世界许多网络的节点度分布与幂函数乘正比： \[p(k)\proptok^{-\alpha}\] 比如下图就是对Flick社交网络中\(p(k)\)的概率分布图像的可视化：由于对\(y=x^{-\alpha}\)两边取对数可以得到\(\log(y)=-\alpha\log(x)\)，因此我们使用原数据在log-log尺度上绘制图像得到：可以看到此时幂律分布像一条斜率为\(-\alpha\)的直线。...

t19citr9Kz3z 2023年11月01日 36 0 0 AI综合

Pytorch：使用Tensorboard记录训练状态

我们知道TensorBoard是Tensorflow中的一个强大的可视化工具，它可以让我们非常方便地记录训练loss波动情况。如果我们是其它深度学习框架用户（如Pytorch），而想使用TensorBoard工具，可以安装TensorBoard的封装版本TensorBoardX： pipinstalltensorboardx 具体使用方法如下： fromtensorboardXimportSummaryWriter writer=SummaryWriter('tensorboard/') x=range(100) foriinx: writer.add_scalar('y=2x',i2,i...

t19citr9Kz3z 2023年11月01日 42 0 0 AI综合

数值计算：前向和反向自动微分（Python实现）

1自动微分我们在《数值分析》课程中已经学过许多经典的数值微分方法。许多经典的数值微分算法非常快，因为它们只需要计算差商。然而，他们的主要缺点在于他们是数值的，这意味着有限的算术精度和不精确的函数求值，而这些都从根本上限制了求解结果的质量。因此。充满噪声的、复杂多变的函数很难得到精准的数值微分。自动微分技术（称为“automaticdifferentiation,autodiff”）是介于符号微分和数值微分的一种技术，它是在计算效率和计算精度之间的一种折衷。自动微分不受任何离散化算法误差的约束，它充分利用了微分的链式法则和其他关于导数的性质来准确地计算它们。 2前向自动微分我们先来计算简单...

t19citr9Kz3z 2023年11月01日 79 0 0 AI综合

Pytorch：单卡多进程并行训练

算法的完整实现代码我已经上传到了GitHub仓库：Distributed-ML-PySpark（包括其它分布式机器学习算法），感兴趣的童鞋可以前往查看。 1导引我们在博客《Python：多进程并行编程与进程池》中介绍了如何使用Python的multiprocessing模块进行并行编程。不过在深度学习的项目中，我们进行单机多进程编程时一般不直接使用multiprocessing模块，而是使用其替代品torch.multiprocessing模块。它支持完全相同的操作，但对其进行了扩展。 Python的multiprocessing模块可使用fork、spawn、forkserver三种方法来...

t19citr9Kz3z 2023年11月01日 92 0 0 AI综合

分布式机器学习：异步SGD和Hogwild!算法（Pytorch）

算法的完整实现代码我已经上传到了GitHub仓库：Distributed-ML-PySpark（包括其它分布式机器学习算法），感兴趣的童鞋可以前往查看。 1导引我们在博客《分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）》和博客《分布式机器学习：模型平均MA与弹性平均EASGD（PySpark）》中介绍的都是同步算法。同步算法的共性是所有的节点会以一定的频率进行全局同步。然而，当工作节点的计算性能存在差异，或者某些工作节点无法正常工作（比如死机）的时候，分布式系统的整体运行效率不好，甚至无法完成训练任务。为了解决此问题，人们提出了异步的并行算法。在异步的通信模式下，各个...

t19citr9Kz3z 2023年11月01日 83 0 0 AI综合

跨域推荐：嵌入映射、联合训练和解耦表征

Theartofbeingwiseistheartofknowingwhattooverlook.智慧的艺术是知道该忽视什么。 ——威廉·詹姆斯（WilliamJames） 1导引 1.1跨域推荐简介推荐系统中常常面临用户冷启动问题[1]，也即新注册的用户没有足够的交互记录，导致推荐模型不能学习到有效的表征。为了解决用户冷启动问题，近年来跨域推荐（CDR）得到了许多关注[2]。一般来讲，跨域推荐旨在利用从其它相关源域收集的用户-物品交互信息以提升目标域的推荐质量。许多跨域推荐的工作会假设大量的用户在两个域都出现过（即重叠用户,overlappingusers）以搭建起源域和目标域之间的...

t19citr9Kz3z 2023年11月01日 39 0 0 AI综合

联邦学习：联邦场景下的域泛化

1导引 1.1域泛化域泛化（domaingeneralization,DG）[1][2]旨在从多个源域中学习一个能够泛化到未知目标域的模型。形式化地说，给定\(K\)个训练的源域数据集\(\mathcal{S}=\left\{\mathcal{S}^k\midk=1,\cdots,K\right\}\)，其中第\(k\)个域的数据被表示为\(\mathcal{S}^k=\left\{\left(x_i^k,y_i^k\right)\right\}_{i=1}^{n^k}\)。这些源域的数据分布各不相同：\(P_{XY}^k\neqP_{XY}^l,1\leqk\neql\leqK\)。域泛化...

t19citr9Kz3z 2023年11月01日 85 0 0 AI综合