机器学习常用概率分布速查

本文收录了一些机器学习中常用的概率分布。其中的大部分摘自《Machine Learning a probalistic perspective》。这篇文章是一篇参考性质的文章,仅罗列结论而不会关心它的来源。本文将会在学习过程中随时更新。

点击本页右下角的图标可以开启目录。


离散分布

二项分布与伯努利分布

二项分布是\(n\)次独立的是非实验成功的个数\(k\)服从的分布。记为\(k \sim \text{Bin}(n,\theta)\)。其中\(\theta\)是单次实验成功的概率。

概率质量函数(pmf):
$$
Bin(k|n,\theta)=\left(\begin{array}{c}n\\k\end{array}\right)\theta^k(1-\theta)^{n-k}
$$
均值:$\text{mean}=\theta$
方差:$\text{var}=n\theta(1-\theta)$

$n=1$时的二项分布称为伯努利分布,设随机变量$X$服从伯努利分布,记为$X \sim \text{Ber}(\theta)$。

概率质量函数:
$$
\text{Ber}(x|\theta)=\theta^{\mathbb{I}(x=1)}(1-\theta)^{\mathbb{I}(x=0)}
$$
其中:
$$
\mathbb{I}(x=n) = \left\{
\begin{eqnarray*}
&&1 \quad x=n \\
&&0 \quad \text{otherwise}
\end{eqnarray*}
\right.
$$

均值:$\text{mean}=\theta$
方差:$\text{var}=\theta(1-\theta)$

引入$\mathbb{I}$是为了简化公式的表示。比如这里伯努利函数的pmf可以表示为:
$$
\text{Ber}(k|\theta) = \left\{
\begin{eqnarray*}
&&\theta \quad &x=1 \\
&&1-\theta \quad &x=0
\end{eqnarray*}
\right.
$$
在公式较为复杂的时候,我们会采用更为简单的方式表示。

多项分布与类别分布

多项分布是二项分布在多个可能结果的实验上的推广。

概率质量函数:
$$
\text{Mu}(\pmb{x}|n,\theta)=\left(
\begin{array}
{c}n \\
x_1,\dots, x_K
\end{array}\right)\prod_{j=1}^K\theta^x_j
$$

其中:
$$
\left(\begin{array}{c}n\\x_1,\dots, x_K\end{array}\right) \triangleq \frac{n!}{x_1!x_2!\dots x_K!}
$$

当$n=1$时,多项分布称为类别分布

概率质量函数:
$$
\text{Cat}(x|\theta) = \prod_{j=1}^K\theta^{\mathbb{I}(x_j=1)}
$$


连续分布

Beta分布

Beta分布是一个在区间$[0,1]$上的一个分布。

概率密度函数:
$$
\text{Beta}(x|a,b)=\frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}
$$
其中$B(a,b) \triangleq \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$

均值:$\text{mean}=\frac{a}{a+b}$
众数:$\text{mode}=\frac{a-1}{a+b-2}$
方差:$\text{var}=\frac{ab}{(a+b)^2(a+b+1)}$


多维联合分布

多维正态分布

多维正态分布(Multivariate Gaussian, or Multivariate normal, MVN)是正态分布在多维的推广。

假设$\pmb{x} \in \mathbb{R}^D$,则概率密度函数为:

$$
\mathcal{N}(\pmb{x}|\pmb{\mu},\pmb{\Sigma}) \triangleq \frac{1}{(2\pi)^{D/2}|\pmb{\Sigma}|^{1/2}}\exp{\left[-\frac{1}{2}(\pmb{x}-\pmb{\mu})^T\pmb{\Sigma}^{-1}(\pmb{x}-\pmb{\mu})\right]}
$$

其中,$\pmb{\mu}=\mathbb{E}[\pmb{x}]\in\mathbb{R}^D$, $\pmb{\Sigma} =\text{cov}[{\pmb{x}}] \in \mathbb{R}^{D \times D}$为协方差矩阵。

Dirchlet分布

Dirchlet分布是Beta分布在多维情况下的一个推广。由于Direchlet分布仅在概率单纯形的面上有分布,所以被认为是分布的分布。

定义概率单纯形$S_k=\{x:0 \le x_k\le 1, \sum_{x=1}^K x_k=1\}$。

概率密度函数:
$$
\text{Dir}(x|\pmb{\alpha}) \triangleq \frac{1}{B(\pmb{a})} \prod_{k=1}^K x_k^{\alpha_k-1} \mathbb{I}(\pmb{x} \in S_k)
$$

其中
$$
B(\pmb{a}) \triangleq \frac{\prod_{k=1}^K \Gamma(\alpha_k)}{\Gamma(\alpha_0)}
$$

上述概率密度函数也可以写成
$$
\text{Dir}(x|\pmb{\alpha}) \triangleq
\left\{
\begin{eqnarray*}
&&\frac{1}{B(\pmb{a})} \prod_{k=1}^K x_k^{\alpha_k-1} \quad & \text{if}\sum_{x=1}^K x_k=1 \\
&&0 \quad & \text{otherwise}
\end{eqnarray*}
\right.
$$

均值:$\mathbb{E}[x_k]=\frac{\alpha_k}{\alpha_0}$
众数:$\text{mode}[x_k]=\frac{\alpha_k-1}{\alpha_0-K}$
方差:$\text{var}[x_k]=\frac{\alpha_k(\alpha_0-\alpha_k)}{\alpha_0^2(\alpha_0+1)}$