概率图模型基础-摩杜云开发者社区

1. 概念

概率：概率模型关心的是一个多维的概率分布

图：即图论的图，起的作用为一个工具，直观表达概率之间的联系，将概率嵌入图中，使得模型更加直观，可以将概率模型的特征明显表示出来。

对于多维随机变量\(p(x_1, \dots, x_p)\), 常用计算为求边缘概率与条件概率，即有如下运算

Sum Rule

\[p(x_1) = \int_{x_2} \dots \int_{x_p} p(x_1, \dots, x_p) dx_2 \dots dx_p \]
Product Rule

\[p(x_1|x_2) = \frac{p(x_1, x_2)}{p(x_2)} \]
Chain Rule

\[p(x_1, \dots, x_p) = p(x_1) p(x_2|x_1) \dots p(x_p|x_1, \dots, x_{p-1}) \]
Bayes' Rule

\[p(x_1|x_2) = \frac{p(x_2|x_1)p(x_1)}{p(x_2)} = \frac{p(x_2|x_1)p(x_1)}{\int p(x_2|x_1)p(x_1)dx_1} \]

困境：对于多维随机变量，计算\(p(x_1, \dots, x_p)\)计算量太大，要简化计算

简化 1：每个随机变量之间相互独立，即有\(p(x_1, \dots, x_p) = \prod_{i=1}^{p} p(x_i)\)

Naive Bayes 假设所有特征之间条件独立，即有\(p(x_1, \dots, x_p|y) = \prod_{i=1}^{p} p(x_i|y)\)

简化 2（Markov Property）：给定当前状态，未来状态与过去状态无关，即有\(p(x_k | x_1, \dots x_{k-1},x_{k+1},\dots, x_{p}) = p(x_k | x_{k-1})\)

HMM 隐马尔科夫模型，使用齐次马尔可夫假设

简化 3（条件独立性假设）：给定隐变量，观测变量之间相互独立，即有\(p(x_1, \dots, x_p|z) = \prod_{i=1}^{p} p(x_i|z)\)，是马尔可夫性质的推广

Representation
- 有向图 Bayesian Network
- 无向图 Markov Network
- 高斯图 Gaussian Network(BN MN)
Inference(给定已知数据，求另外的概率分布)
- Exact Inference
- Approximate Inference
  - 确定性近似（变分推断）
  - 随机近似 MCMC
Learning
- Parameter Learning
  - 完备数据
  - 隐变量
- Structure Learning

2. Bayesian Network（有向图模型）

使用条件独立性，将联合概率分解为多个条件概率的乘积，即有

\[p(x_1, \dots, x_p) = p(x_1)\prod_{i=2}^{p} p(x_i | x_{i-1}) \]

构建图，使用Topological Order，若有\(X \rightarrow Y\)，则有\(p(Y|X)\)，那么从图上即可以得到联合概率分布。

Local Structure

注意，接下来的情况是规律，是从图与概率的关系得出的。

tail to tail
若有三个随机变量\(A, B, C\)满足 chain rule，即\(p(A,B.C) = p(A) p(B|A) p(C|A,B)\)，同时有如下图

graph TD A --> B A --> C

根据图写出关系，有\(p(A,B,C) = p(A) p(B|A) p(C|A)\)
则有\(p(C|A,B) = p(C|A)\)，其中\(p(C|A,B) = \frac{p(B,C|A)}{P(B|A)}\)
表明\(C\)与\(B\)条件独立。

head to tail

graph LR A --> B B --> C

\(A\) 与 \(C\) 在 \(B\) 条件下独立，即\(p(C|A,B) = p(C|B)\)

head to head

graph TD A --> C B --> C

默认情况下，\(A\) 独立于 \(B\)
若\(C\)被观测，\(A\) 与 \(B\) 有关系。

\[p(A,B,C) = p(A) p(B) p(C|A,B) = p(A) p(B|A) p(C|A,B) \]

可得默认情况下，\(A\) 与 \(B\) 独立。

Representation: D - Separation

在图中判断节点集合的条件独立性，使用 D-separation 规则。

graph TD A B C

D-separation 有两个规则

若有节点\(x_b\)作为跨点连接\(A\)与\(C\)，并形成 head to tail 或者 tail to tail 结构，那么\(x_b\) 一定在\(B\)集合中
若有节点\(x_b\)作为跨点连接\(A\)与\(C\)，并形成 head to head 结构，那么\(x_b\) 一定不在\(B\)集合中

依次检测所有跨点，若都满足，那么\(A\) 与 \(C\) 条件独立。

这种判断规则也叫全局马尔可夫性。

Representation: Sample

graph LR id1(Bayesian Network) --> id2(单一:NaiveBayes) id1 --> id3(混合:GMM) id1 --> id4(时间) id4 --> id5(Markov Chain) id4 --> id6(Gaussion Process 无限维高斯分布) id1 --> id7(连续: Gaussian Network)

graph LR id3(混合+时间) id3 --> id8(动态模型) id8 --> id9(HMM:离散) id8 --> id10(Linear Dynamic System：连续、线性) id8 --> id11(Particle Filter: 非高斯、非线性)

从单一到混合、从有限到无限

Naive Bayes
贝叶斯网络最简单的模型

graph TD y --> x1 y --> x2 y --> x3
GMM

graph LR z --> x
其中 \(z\) 是离散的，\(x|z \to \mathcal{N}\)