接着上一篇。
条件分布
条件期望
书上的定义有些晦涩,这里我们直接用 R-N 导数作为条件期望的定义,然后把书上的定义当作性质。
定义 设 $X$ 是 $(\Omega,\mathcal{F},P)$ 上的非负随机变量且期望存在,$\mathcal{A}\subset\mathcal{F}$ 是一个 $\sigma$-代数。定义 $\mathcal{A}$ 上的测度 $\lambda(C)=\int_C XdP$,显然 $\lambda\ll P|\mathcal{A}$. 称随机变量 $\dfrac{d\lambda}{dP|\mathcal{A}}$ 为 $X$ 对 $\mathcal{A}$ 的条件期望,记作 $\mathrm E(X|\mathcal{A})$. 对一般的随机变量 $X$,$\mathrm E(X|\mathcal{A})$ 定义为 $\mathrm E(X_+|\mathcal{A})-\mathrm E(X_-|\mathcal{A})$.
条件期望虽然记号和名字都是“期望”,但它是个随机变量。这是个很直观的定义:对 $\mathcal{A}$ 中的任意集合 $A$,$\mathrm E(X|\mathcal{A})$ 在 $A$ 上的取值就是 $X$ 在 $A$ 上进行平均,也就是忽略 $A$ 内部的差异,只考虑 $\mathcal{A}$ 中的集合之间的差异。这在数学上有“商”的感觉,正好符合 $X|\mathcal{A}$ 这种“商”的记号。
性质 $\mathrm E(X|\mathcal{A})$ 是唯一的满足以下条件的随机变量:
- $\mathrm E(X|\mathcal{A})$ 是 $(\Omega,\mathcal{A})$ 上的可测函数,
- $\int_C \mathrm E(X|\mathcal{A})dP=\int_C XdP,\ \forall C\in\mathcal{A}$.
定义 条件概率 $P(B|\mathcal{A})$ 定义为 $E(I_B|\mathcal{A})$.
特别地,若 $Y$ 也是随机变量,可将 $\mathrm E(X|\sigma(Y))$ 简记为 $\mathrm E(X|Y)$. 于是 $P(B|Y)=\mathrm E(I_B|Y)$.
下面我们考虑对 $Y=y$ 这样的事件定义条件概率。首先介绍一个引理,证明留做习题。
引理 设 $Y:(\Omega,\mathcal{F})\to(\Lambda,\mathcal{G})$ 可测,$Z:\Omega\to\mathbb{R}^k$。则 $Z$ 是 $(\Omega,\sigma(Y))$ 上的可测函数,当且仅当存在可测函数 $h:(\Lambda,\mathcal{G})\to \mathbb{R}^k$ 满足 $Z=h\circ Y$.
于是我们有 $\mathrm E(X|Y)=h\circ Y$. 我们称 $h(y)$ 是给定 $Y=y$ 时 $X$ 的条件期望,记作 $\mathrm E(X|Y=y)$.
条件分布
设 $X,Y$ 是随机变量,定义测度 $P_{X|Y}(\cdot|y)$ 满足 $P_{X|Y}(B|y)=P(X\in B|Y=y)$ a.s.. 它是个概率测度,称为条件分布,也记作 $P_{X|Y=y}$.
若联合分布 $f(x,y)$ 存在,定义条件概率密度函数 $$ f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}=\frac{f(x,y)}{\int f(x,y)dx}. $$ 特别地,若 $g(x,y)$ 可测,$\mathrm E|g(X,Y)|<\infty$. 可以证明 $$ \mathrm E\left(g(X,Y)|Y\right)=\frac{\int g(x,Y)f(x,Y)dx}{\int f(x,Y)dx}. $$ 于是得到我们熟悉的形式 $$ \mathrm E(g(X,Y)|Y)=\int g(x,Y)f_{X|Y}(x|Y)dx. $$
独立性
设 $(\Omega,\mathcal{F},P)$ 为概率空间。
定义(事件的独立性) 事件族 $\mathcal{C}\subset\mathcal{F}$ 独立,当且仅当对任意有限个不同的 $A_1,\cdots,A_n\in\mathcal{C}$, $$ P(A_1\cap\cdots\cap A_n)=P(A_1)\cdots P(A_n). $$ 定义(事件族的独立性) 事件族 $\mathcal{C_i}\subset \mathcal{F},i\in\mathcal{I}$ 独立,当且仅当事件 ${A_i\in\mathcal{C_i:}i\in\mathcal{I}}$ 独立。
定义(随机变量的独立性) 随机变量 $X_1,\cdots,X_n$ 独立,当且仅当事件族 $\sigma(X_1),\cdots,\sigma(X_n)$ 独立。
同样,它和小学的定义一样。可以证明以下命题等价:
- 随机变量 $X_1,\cdots,X_n$ 独立。
- $\forall a_i,\ P(X_1\leq a_1,\cdots,X_n\leq a_n)=P(X_1\le a_1)\cdots P(X_n\le a_n)$.
- (若联合分布存在)$f(x_1,\cdots,x_n)=f_1(x_1)\cdots f_n(x_n)$.
独立性可以给出关于条件期望的更好的性质:
- 若 $X,Y$ 独立,$\mathrm E(X|Y)=\mathrm EX$.
- 若 $(X,Y)$ 和 $Z$ 独立,$\mathrm E(X|(Y,Z))=\mathrm E(X|Y)$.
不等式
这几个不等式是测度论中的名场面,我们用它来结束这一部分。我们将介绍测度论的形式,同时给出概率论中常用的形式。以下若无特殊说明,$(\Omega, \mathcal F,\mu)$ 是个测度空间,$f,g$ 是可测函数,$X,Y$ 是随机变量。
下面的期望都可以换成条件期望。
Cauchy 不等式
对内积空间中的向量 $x$ 和 $y$,有 $$ |\langle x,y\rangle|^2\leq \langle x,x\rangle \langle y,y\rangle. $$
等号成立当且仅当 $x=\lambda y$.
积分形式: $$ \left(\int_\Omega fgd\mu\right)^2\leq\int_\Omega fd\mu\int_\Omega gd\mu. $$ 概率论中常用的形式:
- 期望
$$ \mathrm E (XY)^2\leq \mathrm E(X^2)\mathrm E (Y^2). $$
- 协方差
$$ \mathrm{Cov}(X,Y)^2\leq {\mathrm Var}(X){\mathrm Var}(Y). $$
Jensen 不等式
$\varphi$ 是凸函数,即 $\varphi(tx+(1-t)y)\leq t\varphi(x)+(1-t)\varphi(y)$,则 $$ \varphi\left(\int_\Omega gd\mu\right)\leq \int_\Omega \varphi \circ gd\mu. $$ 积分换成期望就变成了概率论中的形式: $$ \varphi(\mathrm E(X))\leq \mathrm E(\varphi(X)). $$
Chebyshev 不等式(Markov 不等式)
设 $(\Omega, \mathcal F,\mu)$ 是测度空间。若 $g$ 是非负非减函数,对任意实数 $t$ 有 $$ g(t)\mu({x:f(x)\ge t})\leq \int_\Omega g\circ fd\mu. $$ 令 $f=|X|$, $g(t)=\begin{cases}t,&t\ge 0\0,&t<0 \end{cases}$,可得 Markov 不等式 $$ P(|X|\ge t)\leq \frac{\mathrm E(|X|)}{t},\ \forall t>0. $$ 令 $f=|X-\mathrm E(X)|$, $g(t)=\begin{cases}t^2,&t\ge 0\0,&t<0 \end{cases}$,可得概率论形式的 Chebyshev 不等式 $$ P(|X-\mathrm E(X)|\ge t)\leq \frac{\mathrm{Var}(X)}{t^2},\ \forall t>0. $$ 若令 $t=k\sigma$,则可以理解为:与均值相差 $k$ 个标准差以上的值,数量不多于 $1/k^2$.
Holder 不等式
设 $1\leq p,q\leq\infty$,并且 $\dfrac{1}{p}+\dfrac{1}{q}=1$,有结论 $|fg|1\leq |f|p |g|q$,写成积分就是 $$ \int\Omega |fg|d\mu\leq \left(\int\Omega |f|^pd\mu\right)^\frac{1}{p}\left(\int\Omega |g|^qd\mu\right)^\frac{1}{q}. $$
注:
- 令 $p=q=2$,立刻可得 Cauchy 不等式。所以它可以看成 Cauchy 不等式的推广。
- 若 $p=\infty$,则 $|f|_\infty=\inf {a:\mu(f(x)>a)=0}$,称为本性上确界。
- 右端若出现 0 乘以 $\infty$,则视作 0.
积分换成期望,有 $$ \mathrm E\left(|XY|\right)\leq \left(E|X|^p\right)^\frac{1}{p}\left(E|Y|^q\right)^\frac{1}{q}. $$
Minkovski 不等式
Minkovski 不等式是 $L^p$ 中的三角不等式。设 $1\leq p\leq\infty$,则 $|f+g|p\leq |f|p+|g|p$. 写成积分: $$ \left(\int\Omega |f+g|^p d\mu\right)^\frac{1}{p}\le \left(\int\Omega |f|^p d\mu\right)^\frac{1}{p}+\left(\int\Omega |g|^p d\mu\right)^\frac{1}{p}. $$ 期望形式: $$ \left(\mathrm E |X+Y|^p\right)^\frac{1}{p}\le \left(\mathrm E |X|^p\right)^\frac{1}{p} + \left(\mathrm E |Y|^p\right)^\frac{1}{p}. $$
Lyapunov 不等式
若 $0<s<t$,则 $$ \left(\mathrm E|X|^s\right)^\frac{1}{s}\le \left(\mathrm E|X|^t\right)^\frac{1}{t}. $$ 证明只要令 $p=t/s,q=p/(p-1)$,然后对 $|X|^s$ 和 $1$ 用 Holder 不等式即可。过程中要用到测度有限,所以对一般的测度空间这个不成立。
随机变量的极限性质
预备知识
集合序列
首先我们定义集合的上下极限。对一列集合 $A_n$,它的上确界为它们的并,下确界为他们的交,即 $$ \sup A_n=\bigcup_{n\ge 1}A_n,\quad\inf A_n=\bigcap_{n\ge 1}A_n. $$ 类似于数列的上下极限,集合序列的上下极限分别是上确界和下确界的极限,即 $$ \begin{gather} \limsup_{n\to\infty} A_n=\bigcap_{n\ge 1}\bigcup_{j\ge n}A_j,\ \liminf_{n\to\infty} A_n=\bigcup_{n\ge 1}\bigcap_{j\ge n}A_j. \end{gather} $$ 上极限中的元素可以理解为“出现在无穷多个集合中”,而下极限中的元素可以理解为“只有有限多个集合里没有它”。
定义 设 $A_n$ 是一列事件,我们称 $\omega$ 是 infinitely often 的,如果 ${\omega\in\Omega:\omega\in A_n \text{对无穷多的}n\text{成立}}$,记作 ${A_n\quad i.o.}$.
容易得知,$\omega$ 是 $A_n$ i.o. 的,等价于 $\omega\in\limsup A_n$.
Borel-Cantelli 引理
我们可以介绍著名的 Borel-Cantelli 引理了。
引理(Borel-Cantelli I) 若 $\sum_{n=1}^\infty P(A_n)<\infty$,则 $P(A_n\quad i.o.)=0$.
引理(Borel-Cantelli II) 对两两独立的事件序列 ${A_n}$,若 $\sum_{n=1}^\infty P(A_n)=\infty$,则 $P(A_n\quad i.o.)=1$.
第二引理如果把“两两独立”改成“独立”则较为简单,读者可自行完成。两两独立的证明可以参考 https://www.ma.imperial.ac.uk/~bin06/Stochastic-Analysis/ma414soln5.pdf
收敛有四种情况
考虑四种收敛:
几乎必然收敛:$P(\lim_n X_n=X)=1$.
依概率收敛:$\forall\varepsilon>0,\lim_n P(|X_n-X|>\varepsilon) =0$.
$L^p$ 收敛(convergence in $L^p$):$\lim_n\mathrm E|X_n-X|^p=0$.
依分布收敛(convergence in distribution, weak convergence):在 $F(x)$ 的连续点上满足 $\lim_n F_n(x)=F(x)$.
他们的关系如下图。
一些性质:
- 若 $X_n\overset{d} \to c$,$c$ 为常数,则 $X_n\overset{p}\to c$.
- 若 $X_n\overset{P}\to X$,则存在子序列 $X_{n_j}\overset{a.s.}\to X$.
- 设 $X_n\overset{d}\to X$,则对任意 $r>0$,以下两条等价:
- $\lim_{n\to\infty} \mathrm E|X_n|^r=\mathrm E|X|^r<\infty$,
- $\lim_{t\to \infty}\sup_n \mathrm E(|X_n|^r I(|X_n|>t))=0$.
a.s. 收敛
对于 a.s. 收敛,我们有等价表述: $$ \lim_n P(\bigcup_{m=n}^\infty{|X_m-X|>\varepsilon})=0, $$ 也即 $$ P(\limsup_{n\to\infty} {|X_n-X|>\varepsilon})=0, $$ 由此可以一眼看出它比依概率收敛强。此外,根据 Borel-Cantelli 引理,若 $\forall\varepsilon>0,\ \sum_{n=1}^\infty P({\omega\in\Omega:|X_n(\omega)-X(\omega)|>\varepsilon})<\infty$,则 $X_n\overset{a.s.}\to X$.
依分布收敛
下面的定理允许我们通过依分布收敛构造出 a.s. 收敛,厉害死了。
定理(Skorohod) 若 $X_n\overset{d}\to X$,则存在同一个概率空间上的随机变量 $Y,Y_1,Y_2,\cdots$,使得 $P_{Y_n}=P_{X_n},P_Y=P_X$(测度相等)且 $Y_n\overset{a.s.}\to Y$.
我们可以通过特征函数或密度函数来判断依分布收敛。
定理(Levy continuity) $X_n\overset{d}\to X$ 当且仅当特征函数逐点收敛,即 $\lim_n \varphi_n(x)=\varphi(x)\ \forall x\in\mathbb{R}$.
定理(Scheffes) 若密度函数存在且密度函数 a.e. 收敛,则 $X_n\overset{d}\to X$.
依分布收敛通常不能加减乘除,但如果有一个收敛到常数就可以:
定理(Slutsky) 设 $X_n\overset{d}\to X,Y_n\overset{d}\to c$,则
- $X_n+Y_n\overset{d}\to X+c$
- $X_nY_n\overset{d}\to cX$
- $X_n/Y_n\overset{d}\to X/c$($c\ne 0$)
我们再来提供一个判定方法。
定理($\delta$-method) 设 $X_1,\cdots,Y$ 是 $k$ 维随机向量,${a_n}$ 是正数列,且 $\lim_n a_n=\infty$. 存在常数 $c\in\mathbb{R}^k$ 使得 $$ a_n(X_n-c)\overset{d}\to Y, $$ 设 $g:\mathbb{R}^k\to\mathbb{R}$。若 $\nabla g(c)$ 存在(列向量),则 $$ a_n\left[g(X_n)-g(c)\right]\overset{d}\to \nabla g(c)^TY. $$ 若 $g$ 在 $c$ 的邻域内 $m$ 阶连续可导,且对所有 $j$ 阶偏导数($1\le j\le m-1$)为 0,而 $m$ 阶偏导数不全为 0,则 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}\sum_{1\le i_1,\cdots,i_m\le k}\frac{\partial^m g(c)}{\partial x_{i_1}\cdots\partial x_{i_m}}Y_{i_1}\cdots Y_{i_m}. $$
注:上述是对所有 $m$ 阶偏导数求和。对一元的情况,就是 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}g^{(m)}(c)Y^m. $$
大家可以自己尝试证明,用 Taylor 展开即可。
定理 以下命题两两等价:
- $X_n\overset{d}\to X$,
- $\mathrm E h(X_n)\to \mathrm E h(X)$,对任意有界连续函数 $h$,
- 对任意闭集 $C\subset \mathbb{R}^k$,$\limsup_n P_{X_n}(C)\le P_X(C)$,
- 对任意开集 $O\subset \mathbb{R}^k$,$\limsup_n P_{X_n}(O)\ge P_X(O)$.
随机变量的渐近性质
类似于数列的 $O$,$o$ 记号,我们有:
$X_n=O_{a.s.}(Y_n)$,当且仅当 $P(|X_n|=O(Y_n))=1$,也即 $|X_n|\le c|Y_n|$ a.s.,
$X_n=o_{a.s.}(Y_n)$,当且仅当 $X_n/Y_n\overset{a.s.}\to 0$,
$X_n=O_P(Y_n)$,当且仅当 $\forall\varepsilon>0,\exists C>0,n_0\in\mathbb{N}$,使得 $$ \sup_{n\ge n_0}P({\omega\in\Omega:|X_n(\omega)|\ge C|Y_n(\omega)|})<\varepsilon. $$
$X_n=o_P(Y_n)$,当且仅当 $X_n/Y_n\overset{P}\to 0$.
特别地,若 $X_n=O_P(1)$,称 $X_n$ 依概率有界。
我们放出一些性质($O$ 是 $O_P$ 或 $O_{a.s.}$):
- 传递性:$X_n=O(Y_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
- $X_n=O(Z_n)\Rightarrow X_nY_n=O(Y_nZ_n)$,
- $X_n=O(Z_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
- 若 $X_n\overset{a.s.}\to X$,则 ${\sup_{n\ge k}|X_n|}_k=O_P(1)$,
- 若 $X_n\overset{d}\to X$,则 $X_n=O_P(1)$,
- 若 $\mathrm E|X_n|=O({\text 或 } o)(a_n)$,则 $X_n=O({\text 或 } o)_P(a_n)$.
上面最后一条可以用 Markov 不等式证明。
大数定律与中心极限定理
这两个东西在概率论中的地位家喻户晓。
大数定律
定理(强大数定律) $X_n$ i.i.d.,若 $\mathrm E|X_1|<\infty$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$ 反之,若 $\mathrm E|X_1|<\infty$ 且 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to c$,则 $c=\mathrm EX_1$.
定理(弱大数定律) $X_n$ i.i.d.,若 $nP(|X_1|>n)\to 0$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i-\mathrm E[X_1 I(|X_1|\le n)]\overset{P}\to 0. $$ 从而 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{P}\to \mathrm EX_1$.
对于不是 i.i.d. 的情况,我们也有大数定律。
定理 设 $X_1,X_2,\cdots$ 独立且期望有限,则
(强大数定律)若存在常数 $p\in[1,2]$ 使得 $\sum_{i=1}^\infty\dfrac{\mathrm E|X_i|^p}{i^p}<\infty$,则
$$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$
(弱大数定律)若存在常数 $p\in[1,2]$ 使得 $\lim_{n\to\infty}\dfrac{1}{n^p}\sum_{i=1}^n\mathrm E|X_i|^p=0$,则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{p}\to \mathrm EX_1. $$
中心极限定理
定理 设 $X_n$ i.i.d. $k$ 维,且 $\Sigma=\mathrm{Var}X_1$ 有限,则 $$ \frac{\sum_{i=1}^n(X_i-\mathrm EX_i)}{\sqrt{n}}\overset{d}\to N(0,\Sigma). $$