Skip to content

Latest commit

 

History

History
74 lines (48 loc) · 6.23 KB

noninformative_priors.md

File metadata and controls

74 lines (48 loc) · 6.23 KB

在一些概率推断应用中,我们可能会有能用先验分布方便的表达出来的先验知识。例如,如果先验令变量的一些值的概率为0,那么不论后续观测到什么数据,后验分布都会令这些值的概率为0。但是,在许多情形下,我们几乎不知道分布应该具有的形式。这时,我们可能需找一种被称为无信息先验(noninformative prior)的先验分布。这种先验分布的目的是尽可能的后验分布产生小的影响(Jeffries, 1946; Box and Tao, 1973; Bernardo and Smith, 1994)。这有时也被称为“让数据自己说话”。

如果一个有参数$$ \lambda $$控制的分布$$ p(x|\lambda) $$。我们可能忍不住提出$$ p(\lambda) = const $$是合适的先验。如果$$ \lambda $$是有$$ K $$个状态的离散变量,这相当于简单的设置每个状态的概率为$$ 1 / K $$。然而,在连续参数的情况下,这种方法有两个潜在的困难。第一个是:如果$$ \lambda $$的域是无界的,这时关于$$ \lambda $$的积分是发散的,所以先验分布不能被正确的标准化。这样的先验被称作非正常的(improper)。实际应用中,如果对应的后验分布是正常的(proper),即它可以正确地标准化,那么可以使用这个非正常的先验。例如,如果假设高斯分布的均值的先验为均匀分布,一旦我们观测到至少一个数据点,均值的后验就会是正常的。

第二个困难来自于变量的非线性改变下的概率密度变换行为,由式(1.27)给出。如果函数$$ h(\lambda) $$是常数,且进行变量替换$$ \lambda = \eta^2 $$,那么$$ \hat{h}(\eta) = h(\eta^2) $$也会常数。但是,如果选择密度$$ p_\lambda(\lambda) $$等于常数,那么根据式(1.27),$$ \eta $$的概率密度为:

$$ p_\eta(\eta) = p_\lambda(\lambda)\Bigg\vert\frac{d\lambda}{d\eta}\Bigg\vert = p_\lambda(\eta^2)2\eta \propto \eta \tag{2.231} $$

这时$$ \eta $$的概率密度就不再是常数了。由于似然函数$$ p(x|\lambda) $$是关于$$ \lambda $$的简单函数,所以这个问题不会出现在最大似然中,所以可以自由的使用任意方便的参数化方法。如果选择了常数作为先验分布,那么必须注意对参数要使用一个合适的表达法。

这里考虑两个无信息先验的简单例子(Berger, 1985)。首先,概率密度形式为:

$$ p(x|\mu) = f(x-\mu) \tag{2.232} $$

其中$$ \mu $$被称为位置参数(location parameter)。因为如果我们把$$ x $$平移一个常数,得到$$ \hat{x} = x + c $$,那么

$$ p(\hat{x}|\hat{\mu}) = f(\hat{x} - \hat{\mu}) \tag{2.233} $$

其中$$ \hat{\mu} = \mu + c $$,所以这类密度具有平移不变性。所以新变量的概率密度的形式与原变量相同,因此密度与原点的选择无关。我们想要选择一个反映这个平移不变性的先验分布,所以我们选择一个赋予区间$$ A \leq \mu \leq B $$与区间$$ A - c \leq \mu \leq B - c $$相同的概率质量的先验。这隐含:

$$ \int_A^Bp(\mu)d\mu = \int_{A-c}^{B-c}p(\mu)d\mu = \int_A^Bp(\mu-c)d\mu \tag{2.234} $$

而且这对于任意的$$ A,B $$选择都成立,所以得到:

$$ p(\mu - c) = p(\mu) \tag{2.235} $$

这隐含了$$ p(\mu) $$是一个常数。位置参数的一个例子是高斯分布的均值$$ \mu $$。正如我们已经看到的,这种情况下的$$ \mu $$的共轭先验分布是一个高斯$$ p(\mu|\mu_0,\delta_0^2) = \mathcal{N}(\mu|\mu_0,\delta_0^2) $$,然后取极限$$ \delta_0^2 \to \infty $$得到一个无信息先验。事实上,从式(2.141)和(2.142)可以知道,在这种极限情况下,得到的$$ \mu $$的后验分布中,先验的贡献消失了。

第二个例子,考虑密度形式:

$$ p(x|\delta) = \frac{1}{\delta}f\left(\frac{x}{\delta}\right) \tag{2.236} $$

其中$$ \delta > 0 $$。注意,如果$$ f(x) $$被正确的标准化,那么这是一个标准化的密度。参数$$ \delta $$是伸缩参数(scale parameter)。如果我们把$$ x $$缩放一个常数即$$ \hat{x} = cx $$,有

$$ p(\hat{x}|\hat{\delta}) = \frac{1}{\hat{\delta}}f\left(\frac{\hat{x}}{\hat{\delta}}\right) \tag{2.237} $$

其中$$ \hat{\delta} = c\delta $$,这就是概率密度的伸缩不变性(scale invariance)。这个变换对应单位的变化,例如,长度$$ x $$的单位从米变成了千米,我们想要选择一个反映这个伸缩不变性的先验分布。如果我们考虑区间$$ A \leq \delta \leq B $$和伸缩伸缩区间$$ A/c \leq \delta \leq B/c $$,对两个区间赋予相同的概率质量。得到:

$$ \int_A^Bp(\delta)d\delta = \int_{A/c}^{B/c}p(\delta)d\delta = \int_A^Bp\left(\frac{1}{c}\delta\right)\frac{1}{c}d\delta \tag{2.238} $$

因为这对于任意的$$ A,B $$选择都成立,所以得到:

$$ p(\delta) = p\left(\frac{1}{c}\delta\right)\frac{1}{c} \tag{2.239} $$

得到$$ p(\delta) \propto 1/\delta $$。由于分布在$$ 0 \leq \delta \leq \infty $$的积分是发散的,所以这是一个非正常先验。有时把缩放参数的先验分布用参数的对数的概率密度表达更方便。使用公式(1.27)的概率密度变换规则,我们看到$$ p(\ln\delta) = const $$。因此,对于这个先验分布,在区间$$ 1 \leq \delta \leq 10 $$和区$$ 10 \leq \delta \leq 100 $$和以及区$$ 100 \leq \delta \leq 1000 $$和上具有相同的概率质量。

缩放参数的一个例子是高斯分布的标准差$$ \delta $$,在我们确定了位置参数$$ \mu $$之后。由于

$$ \mathcal{N}(x|\mu,\delta^2) \propto \delta^{-1} exp{-(\tilde{x}/\delta)^2} \tag{2.240} $$

其中$$ \tilde{x} = x - \mu $$。就如之前讨论的,使用精度$$ \lambda = 1/\delta^2 $$会比$$ \delta $$方便的多。使用密度的变换规则,得到分布$$ p(\delta) \propto 1/\delta $$对应$$ \lambda $$上的分布形式$$ p(\lambda) \propto 1/\lambda $$。我们已经知道$$ \lambda $$的共轭先验是式(2.146)给出的gamma分布$$ Gam(\lambda|a_0,b_0) $$。无信息先验在$$ a_0 = b_0 = 0 $$的特殊情况下得到。同样的,如果检查式(2.150)和式(2.151)给出的$$ \lambda $$的后验分布的结果,得到对于$$ a_0 = b_0 = 0 $$,后验分布只与数据相关,而与先验分布无关。