妙啊。
统计学基本框架
在统计学中,总体(population)指的是概率空间 $(\Omega,\mathcal{F},P)$,通常简记为 $P$. 样本(sample)是总体上的随机向量 $X=(X_1,\cdots,X_n)$. $n$ 称为样本容量(sample size)。通常,我们知道但不完全知道总体的分布 $P$. 统计模型(statistical model)便是 $P$ 的所有可能集合,即 $$ P\in\mathcal{P}={Q:Q\text{满足某些条件}}. $$ 最常见的统计模型是参数模型(parametric model): $$ \mathcal{P}={P_\theta:\theta\in\Theta}. $$ 其中 $\Theta\in\mathbb{R}^d$ 称为参数空间(parameter space),$\mathcal{P}$ 称为 参数族(parametric family)。
通常,我们希望概率密度函数一致存在,也就是存在一个 $\sigma$-有限的测度 $\nu$,使得 $\forall P\in\mathcal{P},P\ll\nu$. 此时我们称 $\mathcal{P}$ 被 $\nu$ 控制(dominated)。
**估计量(estimator)**是 $X$ 的函数,通过观测值 $X$ 来估计参数 $\theta$. 我们通常记作 $$ \hat\theta=w(X_1,\cdots,X_n). $$ 统计学中关注的问题主要是:
- 如何得到 $\hat\theta$(即 $w(X_1,\cdots,X_n)$)
- 如何对得到的估计量进行评价
为此,我们先介绍统计量和分布族。
统计量
**统计量(statistic)**定义为样本 $X$ 的可测函数 $T(X)$。
众所周知,随机变量包含的信息可以用 $\sigma(X)$ 描述。容易证明,$\sigma(T\circ X)\subset\sigma(X)$,所以统计量简化了原来的随机变量所包含的信息。
充分统计量
定义 统计量 $T(X)$ 是关于 $\mathcal{P}$ 的充分统计量(sufficient statistics),如果给定 $T(X)$ 的值时,$X$ 的条件分布确定(与 $P\in\mathcal{P}$ 无关,或者说与 $\theta$ 无关)。
充分统计量包含了原统计量关于参数的全部信息,而充分统计量作为统计量又缩减了信息,所以充分统计量是缩减了无用信息,只保留有用信息,这好极了。
我们有一个很方便的定理,帮助我们寻找充分统计量:
定理(Factorization theorem) 设 $\mathcal{P}$ 是 $(\mathbb{R}^n,\mathcal{B}^n)$ 上的分布族,且被 $\nu$ 控制。$T(X)$ 是关于 $\mathcal{P}$ 的充分统计量,当且仅当密度函数可写成 $$ \frac{dP}{d\nu}(x)=g_P(T(x))h(x), $$ 其中 $h(x)$ 与 $P$ 无关,$h$ 和 $g_P$ 都是 Borel 函数。
直观理解:$g_P$ 体现了原统计量中和 $P$ 有关的部分,它仅是 $T(x)$ 的函数。
结论 次序统计量是充分统计量。
证明留做习题。这说明获取样本的先后顺序通常不会对统计学问题造成影响。
极小充分统计量
我们知道,如果 $T(X)=\psi(S(X))$ 且 $T$ 是充分统计量,则 $S$ 也是充分统计量(自行证明)。这允许我们提出“极小”的概念:
定义 设 $T$ 是充分统计量。如果对任意的充分统计量 $S$ 都有可测函数 $\psi$ 使 $T=\psi(S)$,则 $T$ 是极小充分统计量(minimal sufficient statistics)。
这个定义等价于 $S(x)=S(y)\Rightarrow T(x)=T(y)$.
我们有许多定理可以方便地判定极小充分统计量,这里介绍三个:
定理 设 $\mathcal{P}_0\subset\mathcal{P}$ 且 $\mathcal{P}_0$-a.s. $\Rightarrow \mathcal{P}$-a.s.,若 $T$ 关于 $\mathcal{P}$ 是充分统计量,且关于 $\mathcal{P}_0$ 是极小充分统计量,则 $T$ 关于 $\mathcal{P}$ 是极小充分统计量。
$\mathcal{P}$-a.s. 指的是对 $\mathcal{P}$ 中的所有东西都是 a.s..
定理 设 $\mathcal{P}$ 可列,其 p.d.f. 为 $f_0,f_1,\cdots$,则
- 令 $c_i>0,\sum_{i=0}^\infty c_i=1$,且 $f_\infty(x)=\sum_{i=0}^\infty c_if_i(x)$. 可知 $f_\infty(x)\ne 0$, a.e.. 令 $T_i(x)=\dfrac{f_i(x)}{f_\infty (x)}$,则 $T(X)=(T_0(x),T_1(x),\cdots)$ 是 $\mathcal{P}$ 的极小充分统计量。
- 若 $\forall i,{x:f_i(x)>0}\subset{x:f_0(x)>0}$,则 $T(X)=(\dfrac{f_1(X)}{f_0(X)},\dfrac{f_2(X)}{f_0(X)},\cdots)$ 是 $\mathcal{P}$ 的极小充分统计量。
定理 设 $\mathcal{P}$ 都存在 p.d.f. $f_P$,$T(X)$ 是充分统计量,若对任意的 $x,y$, $$ \frac{f_P(x)}{f_P(y)}\text{与}P\text{无关}\Rightarrow T(x)=T(y), $$ 则 $T(X)$ 是极小充分统计量。
完备统计量
极小充分统计量仍然有冗余信息。例如 $T$ 是极小充分统计量,则 $(T,e^T)$ 也他娘的是极小充分统计量,你说这上哪说理去?所以我们还得接着干。
定义 统计量 $T(X)$ 是完备的(complete),当且仅当对任意 Borel 函数 $f$,$\forall P\in\mathcal{P},E_P(f(T))=0\Rightarrow f(T)=0$. 如果把 $f$ 限定为有界函数,则称为有界完备(boundedly complete)。
这意味着没有任何 non-trivial 的函数能对 $T$ 的信息进一步压缩了。
定理 一个统计量是有界完备且充分的,则它是极小充分统计量。
辅助统计量
定义 统计量 $V(X)$ 是辅助统计量(ancillary statistics),如果它的分布与 $P$ 无关。
和充分统计量恰恰相反,辅助统计量就像是某些领导讲话,听君一席话如听一席话,实际上没有任何信息量。
对于完备统计量 $T$,如果能够造出辅助统计量 $V=f(T)$ 且 $f$ 不是常数,则 $g(T)=f(T)-\mathrm E(f(T))$ 就与定义矛盾了。所以完备意味着无法从中构造出辅助统计量。
如下定理进一步解释了完备统计量和辅助统计量“势不两立”的关系:
定理(Basu) $V$ 是辅助统计量,$T$ 有界完备且充分,则 $V$ 和 $T$ 独立。
指数族
标准型
指数族是非常重要的一类参数族,许多我们耳熟能详的分布都是指数族,我们即将看到,指数族有许多优良的数学性质。
定义 设参数族 $\mathcal{P}={P_\theta}$ 被 $\sigma$-有限的测度 $\nu$ 控制,对应的概率密度函数 $f_\theta=\dfrac{d P_\theta}{d\nu}$. 称 $\mathcal{P}$ 是**指数族(exponential family)**当且仅当能写成如下形式: $$ f_\theta(\omega)=\exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right)h(\omega),\ \omega\in\Omega, $$ 其中 $T:\Omega\to\mathbb{R}^p$, $\eta:\Theta\to\mathbb{R}^p$, $h$ 是 $\Omega$ 上的非负 Borel 函数。$\xi(\theta)$ 是归一化用的,选取它的值使得 $f_\theta$ 的积分是 1 就好啦。
教材和 PPT 都略过了 well-defined 的证明,我们进行了补充,见附录。
由于各种变化因素,指数族的表达式五花八门。我们需要规定标准型。令 $\eta=\eta(\theta)$,我们得到 $$ f_\eta(\omega)=\exp\left(\eta^TT(\omega)-\zeta(\eta)\right)h(\omega). $$ 这叫做指数族的标准型(canonical form),用标准型表示的指数族称为自然指数族(natural exponential family, NEF)。新的参数空间变为 $\Xi={\eta(\theta):\theta\in\Theta}\subset \mathbb{R}^p$. 如果 $\Xi$ 包含开集,则称指数族满秩(full rank)。
满秩的条件可以防止 $T$ 线性相关,使得其具有更好的性质。
指数族的判定
性质 设 $P_\theta$ 是指数族,则存在非零测度 $\lambda$ 使得 $\dfrac{dP_\theta}{d\lambda}>0,\ \lambda$-a.e..
事实上,只要取 $\lambda(A)=\int_A hd\nu$ 即可把 $h$ 消掉,于是性质得证。这给我们提供了一个很好的判定依据:如果 $\dfrac{dP_\theta}{d\lambda}=0\Rightarrow\lambda\equiv0$,那他就不是指数族。
性质 指数族的 $f_\theta$ 有相同的支撑集 $\text{supp}(f_\theta)={x:h(x)>0}$.
这可以用来判定,如果支撑集不同,则不是指数族。
统计量 $T$
可以证明,对满秩的自然指数族,$T$ 是一个完备极小充分统计量。
定理 设 $\mathcal{P}$ 是自然指数族,$f_\eta(\omega)=\exp\left(\eta^TT(\omega)-\zeta(\eta)\right)h(\omega)$. 如令 $T=(Y,U),\ \eta=(\vartheta,\varphi)$,其中 $Y$ 和 $\vartheta$ 维度相同(特别地,可以令 $Y=T$,就没有 $U$ 了)。则存在和 $\varphi$ 有关的测度,使得 $Y$ 在其上有 p.d.f. $$ f_Y(y)=\exp\left(\vartheta^Ty-\zeta(\eta)\right). $$ 此外,给定 $U=u$,存在和 $u$ 有关的测度,使得 $Y$ 在其上有条件分布 $$ f_{Y|U=u}(y)=\exp\left(\vartheta^Ty-\zeta_u(\vartheta)\right). $$
定理 若 $\eta_0$ 是参数空间的内点(interior point),则 $T$ 的 MGF 在 $t=0$ 的邻域存在有限,具体地, $$ \mathrm E(e^{tT})=\psi_{\eta_0}(t)=\exp\left(\zeta(\eta_0+t)-\zeta(\eta_0)\right). $$
这节就结束了……内容有点少,但是下一节点估计的内容巨多,如果这里不分节的话可能要炸……
附录
指数族定义的证明
定义 设参数族 $\mathcal{P}={P_\theta}$ 被 $\sigma$-有限的测度 $\nu$ 控制,对应的概率密度函数 $f_\theta=\dfrac{d P_\theta}{d\nu}$. 称 $\mathcal{P}$ 是**指数族(exponential family)**当且仅当能写成如下形式: $$ f_\theta(\omega)=\exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right)h(\omega),\ \omega\in\Omega, $$ 其中 $T$ 是 $p$ 维随机向量,$\eta:\Theta\to\mathbb{R}^p$, $h$ 是 $\Omega$ 上的非负 Borel 函数。$\xi(\theta)$ 是归一化用的,选取它的值使得 $f_\theta$ 的积分是 1 就好啦。
如果选取不同的 $\nu$, $f_\theta$ 的表达形式会改变。我们需要证明 well-defined:如果存在 $\nu$ 使得 $\dfrac{dP_\theta}{d\nu}$ 可写成上述形式,则对另一控制 $\mathcal{P}$ 的测度 $\nu’$,$\dfrac{dP_\theta}{d\nu’}$ 仍能写成上述形式。
证明:设 $\dfrac{dP_\theta}{d\nu}=\exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right)h(\omega)$, 定义测度 $\lambda(A)=\int_A hd\nu$. 对可测集 $A$,若 $\lambda(A)=0$,则有 $$ \lambda(A)=\int_{A\cap {\omega:h(\omega)=0}} h(\omega)d\nu+ \int_{A\cap {\omega:h(\omega)>0}} h(\omega)d\nu=0. $$ 上式两项都是 0,而第二项的被积函数严格大于 0,于是有 $$ \nu\left({A\cap {\omega:h(\omega)>0}}\right)=0. $$ 因此 $$ P_\theta(A)=\left(\int_{A\cap {\omega:h(\omega)=0}} + \int_{A\cap {\omega:h(\omega)>0}}\right) \exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right)h(\omega) d\nu=0. $$ 这是因为第一个积分的被积函数是 0,而第二个积分的集合是零测集. 至此我们得到 $\lambda\gg P_\theta$. 注意到 $\dfrac{d\lambda}{d\nu}\ne 0,\ \lambda$-a.e.,于是 $$ \frac{dP_\theta}{d\lambda}=\frac{dP_\theta}{d\nu}\left(\frac{d\lambda}{d\nu}\right)^{-1}=\exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right). $$ 由于 $\dfrac{dP_\theta}{d\lambda}>0$,故 $\lambda\ll P_\theta$.
设 $\sigma$-有限的测度 $\nu’$ 满足 $\nu’\gg P_\theta$,我们有 $\nu’\gg \lambda$,于是 $$ \frac{dP_\theta}{d\nu’}=\frac{dP_\theta}{d\lambda}\frac{d\lambda}{d\nu’}=\exp\left(\eta(\theta)^T T(\omega)-\xi(\theta) \right)\frac{d\lambda}{d\nu’}. $$ 注意到 $\dfrac{d\lambda}{d\nu’}$ 只是 $\omega$ 的函数,因此我们得到了指数族的表达式。∎