妙啊。
点估计
设 $X_1,\cdots,X_n\sim P_\theta\in\mathcal{P}$,其中 $\theta=(\theta_1,\cdots,\theta_k)\in\Theta$. 这是经典的参数模型。如前所述,**估计量(estimator)**是统计量 $\hat\theta=w(X_1,\cdots,X_n)$. 我们下面来介绍得到 $\hat\theta$ 的方法。
矩估计
通常来说 $j$ 阶矩都和参数有关,即 $E_\theta X_1^j=h_j(\theta)$. 假设 $\theta$ 是 $k$ 维的,令 $h(\theta)=(h_1(\theta),\cdots,h_k(\theta))$. 若该存在的都存在,就可以淦了: $$ \hat\theta_j=h_j^{-1}\left(\frac{1}{n}\sum_{i=1}^nX_i^j\right). $$
极大似然估计
似然函数定义为 $$ l(\theta;X)=f_\theta(X). $$ 就是密度函数,不过变量变成了 $\theta$。极大似然估计为 $$ \hat\theta=\mathop{\arg\max}_{\theta\in\Theta}\ l(\theta;X). $$ 对于指数族 $$ l(\eta;x)=\exp\left(\eta^T(\theta)T(x)-\xi(\theta)\right)h(x), $$ 如果各种反函数存在,可以证明 MLE 是 $$ \hat\theta=\eta^{-1}\left(\mu^{-1}(T(x))\right). $$
M-估计
是 MLE 的推广,似然函数被换成一般函数 $s_\theta:\mathcal{X}\to\bar{\mathbb{R}}$,估计值是使得 $S_n(\theta)=\dfrac{1}{n}\sum_{i=1}^n s_\theta(X_i)$ 最大的 $\theta$.
估计的评价
一般理论
**决策规则(decision rule)**是将观察结果转换为适当动作的函数。对于一般的统计问题,我们首先获取样本 $X$,记 allowable actions(不知道咋翻译最恰当)为集合 $\mathbb{A}$. 一个决策规则 $T$ 便是把 $X$ 映射为 $\mathbb{A}$ 中 $T(X)$ 的过程。
损失函数(loss function) $L(P,T(x))$ 表示当真实分布为 $P$ 时,观察到 $X=x$ 时执行决策 $T(X)$ 的损失。
**风险(risk)**表示平均损失,即 $$ R_T(P)=\mathrm E_P\left(L(P,T(X))\right)=\int L(P,T(X))dP. $$ 我们自然希望风险越小越好。对于两个决策规则 $T_1,T_2$,我们称:
- $T_1$ as good as $T_2$,如果 $R_{T_1}(P)\le R_{T_2}(P),\forall P\in\mathcal{P}$,
- $T_1$ better than $T_2$,如果 $T_1$ as good as $T_2$ 且对某个 $P$,$R_{T_1}(P)<R_{T_2}(P)$,
- $T_1$ 和 $T_2$ equivalent,如果 $R_{T_1}(P)=R_{T_2}(P),\forall P\in\mathcal{P}$.
这个 as good as 应该理解为“不差于”。
接下来我们有两个问题:
- 如何确定风险函数 $R$
- 确定了 $R$ 之后,如何根据 $R$ 来选择最优的决策
几种“最优”
假设我们有一堆可选的决策规则,记作集合 $\mathfrak{J}$. 给定 $R$ 之后,如何选择“最优”呢?
Optimal:如果 $T_$ as good as $\mathfrak{J}$ 中其他规则,则称它 $\mathfrak{J}$-optimal. 在“所有可能的决策规则”可以构成集合时,若 $T_$ as good as 所有可能的决策规则,则称为 optimal。
Optimal 就是所谓的“完爆”。
显然,optimal 不一定存在,我们需要新的定义。
“炉石传说没有完爆!”——银背族长
Admissible:如果不存在比 $T_*$ better 的规则,则称它 $\mathfrak{J}$-admissible(或 admissible)。
Minimax:$\sup_P R_{T_}(P)\le\sup_P{R_{T}}(P)$,则 $T_$ 是 minimax。
Bayes-rule:考虑 Bayes risk $$ r_T(\Pi)=\int_\mathcal{P}R_T(P)d\Pi(P). $$ 给定 $\Pi$,如果 $T_$ 满足 $r_{T_}\le r_T$,就叫 Bayes rule w.r.t. $\Pi$。要寻找 Bayes rule 下的最优决策,可以考虑 $\mathrm E\left(\mathrm E\left(L(\theta,T(X))|X\right)\right)$.
点估计的评价(点估计的风险函数)
MSE
我们把上面的理论套用起来。我们用 $\hat\theta$ 表示估计量,也就是上面的 $T(X)$. 常用的风险函数为均方误差(mean squared error, MSE)。MSE 对应的损失函数为 $L(P_\theta,\hat\theta)=(\theta-\hat\theta)^2$,对应的风险函数为 $$ MSE=\mathrm E_\theta\left((\theta-\hat\theta)^2\right). $$ 我们定义偏差(bias): $$ b_T(\theta)=\mathrm E_\theta(\hat\theta)-\theta, $$ 则有 $ \mathrm E_\theta\left((\theta-\hat\theta)^2\right)=\mathrm E_\theta\left((\theta-\mathrm E\hat\theta)^2\right)+\left(\mathrm E\hat\theta-\theta\right)^2$,即 $$ MSE(\theta)=b^2(\theta)+\mathrm{Var}(\theta). $$
Rao-Blackwall 定理
如下定理表明,我们可以考虑充分统计量的条件期望来构造更好的估计。
定理(Rao-Blackwall) 设 $T$ 是充分统计量。若参数空间 $\Theta$ 是凸集,$S_0(X)$ 满足 $\mathrm E_P|S_0|<\infty,\forall P\in\mathcal{P}$. 令 $S_1=\mathrm E(S_0(X)|T)$,则
- 若损失函数 $L(P,a)$ 关于 $a$ 是凸函数,则 $R_{S_1}(P)\le R_{S_0}(P)$;
- 若 $L(P,a)$ 严格凸,且 $S_0$ 不是 $T$ 的函数,则 $S_1$ better than $S_0$.
读者自证不难。(为什么要求 $T$ 是充分统计量?)
UMVUE
uniformly minimum variance unbiased estimator. 即对所有 $P$ (一致),$\mathrm{Var}(T_*(X))\le\mathrm{Var}(T(X))$(最小),且无偏(相当于规定 $\mathfrak{J}$ 是无偏估计,然后寻找 MSE 下的最优估计)。我们下面介绍几种寻找 UMVUE 的方法。
方法一:定理(Lehmann-Scheffe) 设 $T(X)$ 充分且完备,若 $\theta$ 的无偏估计存在,则存在唯一的形如 $h(T)$ 的无偏估计,且 $h(T)$ 是唯一的 UMVUE。
这个定理告诉我们,想获得 UMVUE,可以先找充分且完备的统计量 $T(X)$,然后尝试 $h(T)$,使得 $\mathrm Eh(T)=\theta$. 那如果找不到呢?可以用下面的定理。
方法二:定理 设 $\mathcal{U}={T(X):\mathrm E(T)=0 \text{ and }\mathrm{Var}(T)<\infty}$,设 $T$ 是参数的无偏估计且 $\mathrm E(T^2)<\infty$. 令内积为 $\langle X,Y\rangle=\mathrm E(XY)$. 则:
- $T$ 是 UMVUE 的充要条件是 $T\perp \mathcal{U}$(对任意 $P$).
- 设 $S$ 是充分统计量,且 $T=h(S)$. 令 $\mathcal{U}_S={U\in\mathcal{U}:U=\varphi(S)}$. $T$ 是 UMVUE 的充要条件是 $T\perp \mathcal{U}_S$ (对任意 $P$).
推论
- (线性)设 $T_j$ 是 $\eta_j$ 的 UMVUE,方差有限,则 $T=\sum_{j=1}^k c_jT_j$ 是 $\eta=\sum_{j=1}^k c_j\eta_j$ 的 UMVUE.
- (唯一性)设 $T_1,T_2$ 是 $\eta$ 的 UMVUE,方差有限,则 $T_1=T_2$ a.s..
方法三:C-R 下界。寻找 UMVUE 的另一种思路是,找到方差的下界。这样只要我们得到一个无偏估计,其方差等于下界,就一定是 UMVUE 了。为此,我们需要一坨子新东西。
定义(Fisher information) 有一分布族 $\mathcal{P}={f_\theta}$. $X$ 是服从 $f_\theta$ 的样本。如果该存在的都存在,则定义 Fisher information $$ I(\theta)=\mathrm E\left(\frac{\partial}{\partial\theta}\log f_\theta (X)\right)^2. $$ 性质1 (自行证明)若 $\dfrac{\partial^2}{\partial\theta^2}f_\theta$ 存在,且满足光滑性条件: $$ \begin{gather} \frac{\partial}{\partial\theta}\int f_\theta(x)dx=\int \frac{\partial f_\theta(x)}{\partial\theta}dx, \ \frac{\partial}{\partial\theta}\int \frac{\partial f_\theta (x)}{\partial\theta}dx=\int \frac{\partial^2 f_\theta (x)}{\partial\theta^2}dx,\
\end{gather} $$ 则有 $$ I(\theta)=-\mathrm E\left(\dfrac{\partial^2}{\partial\theta^2}\log f_\theta(X)\right). $$ 性质2 若 $X,Y$ 独立,则 $I_{X+Y}=I_X+I_Y$.
定理(Cramer-Rao 下界) 满足上述光滑性条件时,若 $T(X)$ 是 $g(\theta)$ 的无偏估计,且满足 $$ g’(\theta)=\frac{\partial}{\partial\theta}\int T(x)f_\theta(x)dx=\int T(x)\frac{\partial}{\partial\theta}f_\theta(x)dx, $$ 则 $\mathrm{Var}(T(X))\ge\dfrac{g’(\theta)^2}{I(\theta)}$.
我们可以将其推广到参数为多元的情况。若 $\theta$ 是向量,记 $\dfrac{\partial}{\partial\theta}$ 为梯度(列向量)。则信息矩阵 $$ I(\theta)=\mathrm E\left{\frac{\partial\log f_\theta(x)}{\partial\theta}\left[\frac{\partial\log f_\theta(x)}{\partial\theta}\right]^T\right}. $$ 相应的,光滑性条件也是矩阵(或向量)的每个位置都满足。此时 Cramer-Rao 下界为 $$ \mathrm{Var}(T(X))\ge\left(\frac{\partial g(\theta)}{\partial\theta}\right)^TI^{-1}(\theta)\frac{\partial g(\theta)}{\partial\theta}. $$ 指数族 对于指数族,我们又有福利了。若 $$ f_\theta(x)=\exp\left[\eta^T(\theta)T(x)-\xi(\theta)\right]h(x), $$ 则:
- 对满足 $E|S(X)|<\infty$ 的 $S$,上面乱七八糟的光滑性条件都成立,即
- $ \frac{\partial}{\partial\theta}\int S(x)f_\theta(x)dx=\int S(x)\frac{\partial}{\partial\theta}f_\theta(x)dx $,
- $I(\theta)=-\mathrm E\left(\dfrac{\partial^2}{\partial\theta^2}\log f_\theta(X)\right)$.
- 此外还有 $ \mathrm{Var}(T)=I(\eta)$,
- 令 $\psi=\mathrm E(T(X))$,则 $\mathrm{Var}(T)=I^{-1}(\psi)$.
假设检验
设 $\mathcal{P}$ 是分布族,$\mathcal{P}_0\in\mathcal{P},\mathcal{P}_1=\mathcal{P}\setminus\mathcal{P}_0$. 一般的假设检验问题需要决定以下两个假设哪个是对的: $$ H_0:P\in\mathcal{P}_0,\ H_1:P\in\mathcal{P}_1. $$ 动作空间 $\mathbb{A}={0,1}$. 此时的决策规则 $T=I_C(X)$,即 $X\in C$ 时选择 $H_1$,否则选择 $H_0$. $C$ 被称为拒绝域(rejection region)(因为拒绝了 $H_0$)。
两类错误
**第一类错误(type I error)**指 $H_0$ 成立,但拒绝了 $H_0$.
**第二类错误(type II error)**指 $H_0$ 不成立,但接受了 $H_0$.
我们定义**功效函数(power function)**为第一类错误的概率,即 $$ \alpha_T(P)=P(X\in C). $$ 假设检验的 size 定义为功效的上确界,即 $$ \alpha’=\sup_{P\in\mathcal{P}_0} P(X\in C). $$
渐近分析(slides 19)
许多时候我们无法得到 $T_n$ 的确切分布,这时候考虑 $T_n$ 的极限性质会大有帮助。
一致性
定义
- $T_n(X)$ 是 $\theta$ 的一致估计(consistent),当且仅当 $T_n(X)\overset{p}\to\theta$.
- $T_n(X)$ 是 $\theta$ 的强一致估计(strongly consistent),当且仅当 $T_n(X)\overset{a.s.}\to\theta$.
- ${a_n}$ 是一个正数列,$a_n\to\infty$,称 $T_n(X)$ $a_n$-consistent,当且仅当 $a_n[T_n(X)-\theta]=O_P(1)$.
- $T_n(X)$ 称为 $L_r$-consistent,当且仅当 $T_n(X)\overset{L^r}\to\theta$.
显然其他几种一致性都能推出第一种 trivial consistent.
渐近偏差与渐近方差
渐近无偏:$b_n\to 0$.
渐近期望:数列 $a_n\to\infty$ 或 $a_n\to a>0$,若 $a_n\xi_n\overset{d}\to \xi$ 且 $\mathrm E|\xi|<\infty$,则 $\mathrm E\xi/a_n$ 称为渐近期望。
渐近偏差:$T_n-\theta$ 的渐近期望。
渐近MSE:$a_n(T_n-\theta)\overset{d}\to Y$,则 $\text{amse}=\mathrm E Y^2/a_n^2$.
渐近方差:$a_n(T_n-\theta)\overset{d}\to Y$,则渐近方差为 $\mathrm{Var}Y/a_n^2$.
高维的情况:设 $\hat\theta_n$ 是一列估计($k$ 维向量),若存在正定矩阵 $V_n(\theta)$ 使得 $$ [V_n(\theta)]^{-1/2}(\hat\theta_n-\theta)\overset{d}\to N_k(0,I_k), $$ 其中 $I_k$ 是单位矩阵,则称 $V_n(\theta)$ 是渐近协方差矩阵。
若 Fisher 信息矩阵正定,且渐近方差满足 $V_n(\theta)=I_n(\theta)^{-1}$ (“CRLB”),则称之为 asymptotially efficient 或 aymptotically optimal.
两组估计,渐近协方差分别为 $V_{1n}(\theta)$ 和 $V_{2n}(\theta)$,若对足够大的 $n$,有 $\forall \theta\in\Theta,\quad V_{2n}(\theta)-V_{1n}(\theta)$ 半正定;且存在某个 $\theta$ 使其正定,则称 $\hat\theta_{1n}$ asymptotically more efficient than $\hat\theta_{2n}$.
注意:对于渐近无偏的估计,CRLB 不一定对渐近方差成立,例:Hodges’ estimator, Lec23 p13.
Asymptotic relative efficiency: $T’n$ 相对于 $T_n$ 的渐近效率为 $$ e{T’n,T_n}(P)=\frac{\text{amse}{T_n}(P)}{\text{amse}_{T’n}(P)}. $$ 如果 $\limsup_n e{T’_n,T_n}(P)\le 1$,且存在 $P$ 使 $<$ 成立,则称 $T_n$ asympotically more efficient.
定理($\delta$-method) 设 $U_n$ 满足 $a_n(U_n-\theta)\overset{d}\to Y$ 且 $EY^2<\infty$,$a_n>0$,$a_n\to\infty$. 设 $g$ 在 $\theta$ 处可微,$T_n=g(U_n)$ 是$\vartheta=g(\theta)$ 的估计量,则 $\text{amse}_{T_n}=E{[g’(\theta)Y]^2}/a_n^2$, $T_n$ 的渐近方差为 $[g’(\theta)^2\mathrm{Var}Y]/a_n^2$.
点估计的渐近性质
矩估计
对于矩估计,若 $h^{-1}$ 存在,由大数定律知它是 strongly consistent.
若还有 $h^{-1}$ 可微且 $E|X_1|^{2k}<\infty$ ($k$ 为参数个数),由 CLT 知矩估计 $\sqrt{n}$-consistent.
若 $k=1$,则 $\text{amse}_{\hat\theta_n}(\theta)=g’(\mu_1)^2\sigma^2/n$.
UMVUE
UMVUE 都是一致无偏的。
样本分位数
我们经常用样本分位数做估计量,因此有必要研究它。对 $\gamma\in(0,1)$,第 $\lfloor \gamma n\rfloor$ 个次序统计量被称为 $\gamma$-sample quantile. 有如下结论:
定理 设 $X_i$ i.i.d.,cdf 为 $F$,若 $F(\theta)=\gamma$,$F’(\theta)$ 存在且不为 0,则第 $\lfloor \gamma n\rfloor$ 个次序统计量 $\tilde{\theta}_n$ 满足 $$ \sqrt{n}\left(\tilde{\theta}_n-\theta\right)\overset{d}\to N\left(0,\frac{\gamma(1-\gamma)}{F’(\theta)^2}\right). $$
证明用到 Berry–Esseen Theorem,略
MLE
定理 设 $\theta_0$ 为实际参数,并满足以下条件:
$\Theta$ 是紧集,
对任意 $x$,$f(x|\theta)$ 关于 $\theta$ 连续,
存在控制函数 $M(x)$ 使得 $E_{\theta_0}|M(X)|<\infty$ 且 $$ \left|\log f(x|\theta)-\log f(x|\theta_0)\right|\le M(x),\quad\forall x,\theta, $$
(一致性)$f(x|\theta)=f(x|\theta_0)$ 则 $\theta=\theta_0$.
此时,MLE $\hat\theta_n\overset{a.s.}\to\theta_0$.
注:
- 连续性可以替换成上半连续,即对任意 $x$,有
$$ \lim_{\rho\to 0}\sup_{|\theta’-\theta|<\rho }f(x|\theta’) =f(x|\theta). $$
- 可以推广到任意度量空间,只需把 $|\theta-\theta_0|$ 换成度量 $d(\theta,\theta_0)$.
- 控制函数 $M(x)$ 的存在性是关键。
M-估计
类似于 MLE,有如下结论:
定理 有 $S_n,S$ 满足
- $ \sup_{\theta\in\Theta}|S_n(\theta)-S(\theta)|\overset{p}\to 0$,(一致收敛)
- $\sup_{\theta:d(\theta,\theta_0)\ge\rho}S(\theta)<S(\theta_0)$,(well-separation)
若估计量 $\hat\theta_n$ 满足 $S_n(\hat\theta_n)\ge S_n(\theta_0)-o_P(1)$,则 $d(\hat\theta_n,\theta_0)\overset{p}\to 0$.
RLE
RLE 指的是 roots of likelihood equation,使得 $\dfrac{\partial}{\partial\theta}\log L_n(\theta)=0$ 的点。它和 MLE 有着千丝万缕的联系。事实上,在一定的正则性条件下,它收敛到真实参数,这使得 RLE 具有一致性。
正则性条件(basic regularity conditions) 设 $\theta_*$ 是真实值,则
$\Theta$ 是 $\mathbb{R}^k$ 中的开集,
$f(x|\theta)$ 二阶连续可微,且一二阶导数均可和积分交换,
(控制函数)设 $\Psi(x,\theta)=\dfrac{\partial^2}{\partial\theta\partial\theta^T}\log f(x|\theta)$(是矩阵),则存在常数 $c$ 和非负函数 $H$ 使得 $EH(X)<\infty$ 且 $$ \sup_{|\theta-\theta_*|<c}|\Psi(x,\theta)|\le H(x). $$
(identifiability)$f(x|\theta)=f(x|\theta_)$ 则 $\theta=\theta_$.
定理(RLE的一致性) 在上述正则性条件下,存在一列 $\hat\theta_n$ 使得 $\dfrac{\partial}{\partial\theta}\log L_n(\hat\theta_n)=0$ 且 $\hat\theta_n\overset{a.s.}\to\theta_*$.
此外,我们可以讨论 RLE 的渐近正态性。
定理 设正则性条件成立,且 Fisher 信息矩阵在 $\theta_$ 处正定,则对任意的一致 RLE 序列 $\tilde{\theta}n$(比如上一个定理中收敛的 RLE 序列),有 $$ \sqrt{n}(\tilde\theta_n-\theta)\overset{d}\to N(0,I(\theta_*)^{-1}). $$
如果 MLE 是一致的,且 MLE 就是 RLE,则它可以用来说明 MLE 的渐近正态性。