概率图模型基础
  YS70eVTgu2rK 12天前 26 0

1. 概念

概率:概率模型关心的是一个多维的概率分布

:即图论的图,起的作用为一个工具,直观表达概率之间的联系,将概率嵌入图中,使得模型更加直观,可以将概率模型的特征明显表示出来。

对于多维随机变量\(p(x_1, \dots, x_p)\), 常用计算为求边缘概率与条件概率,即有如下运算

  1. Sum Rule

    \[p(x_1) = \int_{x_2} \dots \int_{x_p} p(x_1, \dots, x_p) dx_2 \dots dx_p \]

  2. Product Rule

    \[p(x_1|x_2) = \frac{p(x_1, x_2)}{p(x_2)} \]

  3. Chain Rule

    \[p(x_1, \dots, x_p) = p(x_1) p(x_2|x_1) \dots p(x_p|x_1, \dots, x_{p-1}) \]

  4. Bayes' Rule

    \[p(x_1|x_2) = \frac{p(x_2|x_1)p(x_1)}{p(x_2)} = \frac{p(x_2|x_1)p(x_1)}{\int p(x_2|x_1)p(x_1)dx_1} \]

困境:对于多维随机变量,计算\(p(x_1, \dots, x_p)\)计算量太大,要简化计算

简化 1:每个随机变量之间相互独立,即有\(p(x_1, \dots, x_p) = \prod_{i=1}^{p} p(x_i)\)

  • Naive Bayes 假设所有特征之间条件独立,即有\(p(x_1, \dots, x_p|y) = \prod_{i=1}^{p} p(x_i|y)\)

简化 2(Markov Property):给定当前状态,未来状态与过去状态无关,即有\(p(x_k | x_1, \dots x_{k-1},x_{k+1},\dots, x_{p}) = p(x_k | x_{k-1})\)

  • HMM 隐马尔科夫模型,使用齐次马尔可夫假设

简化 3(条件独立性假设):给定隐变量,观测变量之间相互独立,即有\(p(x_1, \dots, x_p|z) = \prod_{i=1}^{p} p(x_i|z)\),是马尔可夫性质的推广

  • Representation
    • 有向图 Bayesian Network
    • 无向图 Markov Network
    • 高斯图 Gaussian Network(BN MN)
  • Inference(给定已知数据,求另外的概率分布)
    • Exact Inference
    • Approximate Inference
      • 确定性近似(变分推断)
      • 随机近似 MCMC
  • Learning
    • Parameter Learning
      • 完备数据
      • 隐变量
    • Structure Learning

2. Bayesian Network(有向图模型)

使用条件独立性,将联合概率分解为多个条件概率的乘积,即有

\[p(x_1, \dots, x_p) = p(x_1)\prod_{i=2}^{p} p(x_i | x_{i-1}) \]

构建图,使用Topological Order,若有\(X \rightarrow Y\),则有\(p(Y|X)\),那么从图上即可以得到联合概率分布。

Local Structure

注意,接下来的情况是规律,是从图与概率的关系得出的。

  1. tail to tail
    若有三个随机变量\(A, B, C\)满足 chain rule,即\(p(A,B.C) = p(A) p(B|A) p(C|A,B)\),同时有如下图
graph TD A --> B A --> C

根据图写出关系,有\(p(A,B,C) = p(A) p(B|A) p(C|A)\)
则有\(p(C|A,B) = p(C|A)\),其中\(p(C|A,B) = \frac{p(B,C|A)}{P(B|A)}\)
表明\(C\)\(B\)条件独立。

  1. head to tail
graph LR A --> B B --> C

\(A\)\(C\)\(B\) 条件下独立,即\(p(C|A,B) = p(C|B)\)

  1. head to head
graph TD A --> C B --> C

默认情况下,\(A\) 独立于 \(B\)
\(C\)被观测,\(A\)\(B\) 有关系。

\[p(A,B,C) = p(A) p(B) p(C|A,B) = p(A) p(B|A) p(C|A,B) \]

可得默认情况下,\(A\)\(B\) 独立。

Representation: D - Separation

在图中判断节点集合的条件独立性,使用 D-separation 规则。

graph TD A B C

D-separation 有两个规则

  1. 若有节点\(x_b\)作为跨点连接\(A\)\(C\),并形成 head to tail 或者 tail to tail 结构,那么\(x_b\) 一定在\(B\)集合中
  2. 若有节点\(x_b\)作为跨点连接\(A\)\(C\),并形成 head to head 结构,那么\(x_b\) 一定不在\(B\)集合中

依次检测所有跨点,若都满足,那么\(A\)\(C\) 条件独立。

这种判断规则也叫全局马尔可夫性

Representation: Sample

graph LR id1(Bayesian Network) --> id2(单一:NaiveBayes) id1 --> id3(混合:GMM) id1 --> id4(时间) id4 --> id5(Markov Chain) id4 --> id6(Gaussion Process 无限维高斯分布) id1 --> id7(连续: Gaussian Network)
graph LR id3(混合+时间) id3 --> id8(动态模型) id8 --> id9(HMM:离散) id8 --> id10(Linear Dynamic System:连续、线性) id8 --> id11(Particle Filter: 非高斯、非线性)

从单一到混合、从有限到无限

  • Naive Bayes
    贝叶斯网络最简单的模型

    graph TD y --> x1 y --> x2 y --> x3
  • GMM

    graph LR z --> x

    其中 \(z\) 是离散的,\(x|z \to \mathcal{N}\)

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 12天前 0

暂无评论

推荐阅读
EM
  YS70eVTgu2rK   12天前   20   0   0 机器学习
HMM
  YS70eVTgu2rK   12天前   19   0   0 机器学习
YS70eVTgu2rK
作者其他文章 更多
EM

2024-05-08

HMM

2024-05-08

最新推荐 更多