Skip to content

Latest commit

 

History

History
160 lines (123 loc) · 6.62 KB

conditional_gaussian_distributions.md

File metadata and controls

160 lines (123 loc) · 6.62 KB

多元高斯分布的一个重要的性质是:如果两个变量集合是联合高斯分布,以其中一个集合为条件的分布也是高斯分布。同样的,任何一个变量的边缘分布也是高斯分布。

首先,考虑条件概率的情形。假设$$ x $$是服从高斯分布$$ \mathcal{N}(x|\mu, \Sigma) $$的$$ D $$维向量,把$$ x $$划分为两个不相交的子集$$ x_a, x_b $$。不失一般性的,令$$ x_a $$为$$ x $$的前$$ M $$个分量,令$$ x_b $$为剩余的$$ D − M $$个分量,得到:

$$ x = \left( \begin{array}{c} x_a \\ x_b \end{array} \right) \tag{2.65} $$

对应的均值向量$$ \mu $$的划分:

$$ \mu = \left( \begin{array}{c} \mu_a \\ \mu_b \end{array} \right) \tag{2.66} $$

协方差矩阵为:

$$ \Sigma = \left( \begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \\ \end{array} \right) \tag{2.67} $$

注意,协方差矩阵是对称的即$$ \Sigma^T = \Sigma $$,可得$$ \Sigma_{aa},\Sigma_{bb} $$也是对称的,且$$ \Sigma_{ba} = \Sigma_{ab}^T $$。

在很多情况下,使用协方差的逆矩阵会比较方便,记:

$$ \Lambda \equiv \Sigma^{-1} \tag{2.68} $$

这被称为精度矩阵(precision matrix)。事实上,高斯分布的一些形式使用协方差来表达会比较方便,而另外的一些使用精度矩阵会比较方便。以式(2.65)划分$$ x $$的同样的方法划分精度矩阵:

$$ \Lambda = \left( \begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \\ \Lambda_{ba} & \Lambda_{bb} \\ \end{array} \right) \tag{2.69} $$

因为对称矩阵的逆同样是对称的,所以$$ \Lambda_{aa},\Lambda_{bb} $$也是对称的,且$$ \Lambda_{ab}^T = \Lambda_{ba} $$。需要强调的一点是:事实上,$$ \Lambda_{aa} $$不单单是对$$ \Sigma_{aa} $$求逆这么简单。稍后,就会讨论逆矩阵的划分和划分的逆矩阵间的关系。

首先,找到条件分布$$ p(x_a|x_b) $$的条件分布。根据概率的乘法规则,由联合分布 $$ p(x) = p(x_a, x_b) $$通过固定$$ x_b $$为观测到的值,然后标准化所得到的表达式就可以得到$$ x_a $$上的有效概率。考虑公式(2.44)给出的高斯分布的指数上的二项式,在计算的最后阶段再来考虑标准化系数,这样比显示地进行标准化更有效。使用公式(2.65),(2.66)和(2.69)的划分就能得到:

$$ \begin{eqnarray} &-\frac{1}{2}&(x-\mu)^T\Sigma^{-1}(x-\mu) = \\ &-\frac{1}{2}&(x_a - \mu_a)^T\Lambda_{aa}(x_a - \mu_a) -\frac{1}{2}(x_a - \mu_a)^T\Lambda_{ab}(x_b - \mu_b) \\ &-\frac{1}{2}&(x_b - \mu_b)^T\Lambda_{ba}(x_a - \mu_a) -\frac{1}{2}(x_b - \mu_b)^T\Lambda_{bb}(x_b - \mu_b) \tag{2.70} \end{eqnarray} $$

把它看成$$ x_a $$的函数,这又是一个二次型,可以推出对应的条件分布$$ p(x_a|x_b) $$是高斯分布。由于,这个分布完全是由均值和方差定义的,我们的目标是通过式(2.70)来确定$$ p(x_a|x_b) $$的均值和方差的表达式。

给出一个定义高斯分布的指数项的二次型,然后确定对应的均值和方差的方法被称为“配平方”,这是一种与高斯分布相关的常见的操作。一个通用的的高斯分布$$ \mathcal{N}(x|\mu, \Sigma) $$的指数项可以写成:

$$ -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) = -\frac{1}{2}x^T\Sigma^{-1}x + x^T\Sigma^{-1}\mu + const \tag{2.71} $$

其中const为与$$ x $$无关的项,且用到的$$ \Sigma $$的对称性。因此,如果我们把通用的二次型表示成公式(2.71)右侧的形式,那么我们可以立即令$$ x $$中的二阶项的系数矩阵等于协方差矩阵的逆$$ \Sigma^{−1} $$,令$$ x $$中的线性项的系数等于$$ \Sigma^{-1}\mu $$,这样就得到了$$ \mu $$。

现在让我们把这个方法应用到条件高斯分布$$ p(x_a|x_b) $$中。其中条件高斯分布的指数项的二次型由公式(2.70)给出。把这个分布的均值和协方差分别记作$$ \mu_{a|b}, \Sigma_{a|b} $$。考虑公式(2.70)对$$ x_a $$的函数依赖关系,其中$$ x_b $$被当成常数。如果我们选出所有$$ x_a $$的二阶项,就有:

$$ -\frac{1}{2}x_a^T\Lambda_{aa}x_a \tag{2.72} $$

从这个公式中可以得到,$$ p(x_a|x_b) $$的协方差(精度矩阵的逆):

$$ \Sigma_{a|b} = \Lambda_{aa}^{-1} \tag{2.73} $$

现在,考虑式(2.70)中$$ x_a $$的所有线性项:

$$ x_a^T\left{ \Lambda_{aa}\mu_a - \Lambda_{ab}(x_b - \mu_b)\right} \tag{2.74} $$

其中我们使用了$$ \Lambda_{ba}^T = \Lambda_{ab} $$。根据通用公式(2.71)这个表达始中$$ x_a $$的系数必须等于$$ \Sigma_{a|b}^{-1}\mu_{a|b} $$,推出:

$$ \begin{eqnarray} \mu_{a|b} &=& \Sigma_{a|b}\left{\Lambda_{aa}\mu_a - \Lambda_{ab}(x_b - \mu_b)\right} \\ &=& \mu_a - \Lambda_{aa}^{-1}\Lambda_{ab}(x_b - \mu_b) \tag{2.75} \end{eqnarray} $$

过程中我们使用了式(2.73)

式(2.73),(2.75)的结果是由原始的联合分布$$ p(x_a, x_b) $$的分区精度矩阵来表示的。也可以用对应的分区协方差矩阵来表达这些结果。为了完成这一点,使用下面的关于分区矩阵的逆的等式:

$$ \left( \begin{array}{cc}
A & B \ C & D \end{array} \right)^{-1}

\left( \begin{array}{cc}
M & -MBD^{-1} \ -D^{-1}CM & D^{-1} + D^{-1}CMBD^{-1} \end{array} \right) \tag{2.76} $$

其中$$ M = (A - BD^{-1}C)^{-1} \tag{2.77} $$。

$$ M^{-1} $$是式(2.76)左手边矩阵关于矩阵$$ D $$的舒尔补(Schur complement)。使用定义

$$ \left( \begin{array}{cc}
\Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb} \ \end{array} \right)^{-1}

\left( \begin{array}{cc}
\Lambda_{aa} & \Lambda_{ab} \ \Lambda_{ba} & \Lambda_{bb} \ \end{array} \right) \tag{2.78} $$

使用公式(2.76)可得:

$$ \begin{eqnarray} \Lambda_{aa} &=& (\Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} )^{-1} \tag{2.79} \\ \Lambda_{ab} &=& -(\Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} )^{-1}\Sigma_{ab}\Sigma_{bb}^{-1} \tag{2.80} \end{eqnarray} $$

从这些公式中,得到条件概率$$ p(x_a|x_b) $$的均值和方差的表达式为: $$ \begin{eqnarray} \mu_{a|b} &=& \mu_a + \Sigma_{ab}\Sigma_{bb}^{-1}(x_b - \mu_b) \tag{2.81} \ \Sigma_{a|b} &=& \Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} \tag{2.82} \end{eqnarray} $$

对比式(2.73)和(2.82),得到条件概率分布$$ p(x_a|x_b) $$如果使用分区精度矩阵而不是分区协方差矩阵表示,那么它的形式会更简单。注意,条件概率分布$$ p(x_a|x_b) $$的由式(2.81)给出的均值是$$ x_b $$的线性函数,由公式(2.82)给出的协方差与$$ x_a $$无关。这是线性高斯(linear-Gaussian)模型的一个例子。