公理化概率论（下）

接着上一篇。

条件分布

条件期望

书上的定义有些晦涩，这里我们直接用 R-N 导数作为条件期望的定义，然后把书上的定义当作性质。

定义设 $X$ 是 $(\Omega,\mathcal{F},P)$ 上的非负随机变量且期望存在，$\mathcal{A}\subset\mathcal{F}$ 是一个 $\sigma$-代数。定义 $\mathcal{A}$ 上的测度 $\lambda(C)=\int_C XdP$，显然 $\lambda\ll P|\mathcal{A}$. 称随机变量 $\dfrac{d\lambda}{dP|\mathcal{A}}$ 为 $X$ 对 $\mathcal{A}$ 的条件期望，记作 $\mathrm E(X|\mathcal{A})$. 对一般的随机变量 $X$，$\mathrm E(X|\mathcal{A})$ 定义为 $\mathrm E(X_+|\mathcal{A})-\mathrm E(X_-|\mathcal{A})$.

条件期望虽然记号和名字都是“期望”，但它是个随机变量。这是个很直观的定义：对 $\mathcal{A}$ 中的任意集合 $A$，$\mathrm E(X|\mathcal{A})$ 在 $A$ 上的取值就是 $X$ 在 $A$ 上进行平均，也就是忽略 $A$ 内部的差异，只考虑 $\mathcal{A}$ 中的集合之间的差异。这在数学上有“商”的感觉，正好符合 $X|\mathcal{A}$ 这种“商”的记号。

性质 $\mathrm E(X|\mathcal{A})$ 是唯一的满足以下条件的随机变量：

$\mathrm E(X|\mathcal{A})$ 是 $(\Omega,\mathcal{A})$ 上的可测函数，
$\int_C \mathrm E(X|\mathcal{A})dP=\int_C XdP,\ \forall C\in\mathcal{A}$.

定义 条件概率 $P(B|\mathcal{A})$ 定义为 $E(I_B|\mathcal{A})$.

特别地，若 $Y$ 也是随机变量，可将 $\mathrm E(X|\sigma(Y))$ 简记为 $\mathrm E(X|Y)$. 于是 $P(B|Y)=\mathrm E(I_B|Y)$.

下面我们考虑对 $Y=y$ 这样的事件定义条件概率。首先介绍一个引理，证明留做习题。

引理设 $Y:(\Omega,\mathcal{F})\to(\Lambda,\mathcal{G})$ 可测，$Z:\Omega\to\mathbb{R}^k$。则 $Z$ 是 $(\Omega,\sigma(Y))$ 上的可测函数，当且仅当存在可测函数 $h:(\Lambda,\mathcal{G})\to \mathbb{R}^k$ 满足 $Z=h\circ Y$.

于是我们有 $\mathrm E(X|Y)=h\circ Y$. 我们称 $h(y)$ 是给定 $Y=y$ 时 $X$ 的条件期望，记作 $\mathrm E(X|Y=y)$.

条件分布

设 $X,Y$ 是随机变量，定义测度 $P_{X|Y}(\cdot|y)$ 满足 $P_{X|Y}(B|y)=P(X\in B|Y=y)$ a.s.. 它是个概率测度，称为条件分布，也记作 $P_{X|Y=y}$.

若联合分布 $f(x,y)$ 存在，定义条件概率密度函数 $$ f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}=\frac{f(x,y)}{\int f(x,y)dx}. $$ 特别地，若 $g(x,y)$ 可测，$\mathrm E|g(X,Y)|<\infty$. 可以证明 $$ \mathrm E\left(g(X,Y)|Y\right)=\frac{\int g(x,Y)f(x,Y)dx}{\int f(x,Y)dx}. $$ 于是得到我们熟悉的形式 $$ \mathrm E(g(X,Y)|Y)=\int g(x,Y)f_{X|Y}(x|Y)dx. $$

独立性

设 $(\Omega,\mathcal{F},P)$ 为概率空间。

定义（事件的独立性） 事件族 $\mathcal{C}\subset\mathcal{F}$ 独立，当且仅当对任意有限个不同的 $A_1,\cdots,A_n\in\mathcal{C}$, $$ P(A_1\cap\cdots\cap A_n)=P(A_1)\cdots P(A_n). $$ 定义（事件族的独立性） 事件族 $\mathcal{C_i}\subset \mathcal{F},i\in\mathcal{I}$ 独立，当且仅当事件 ${A_i\in\mathcal{C_i:}i\in\mathcal{I}}$ 独立。

定义（随机变量的独立性） 随机变量 $X_1,\cdots,X_n$ 独立，当且仅当事件族 $\sigma(X_1),\cdots,\sigma(X_n)$ 独立。

同样，它和小学的定义一样。可以证明以下命题等价：

随机变量 $X_1,\cdots,X_n$ 独立。
$\forall a_i,\ P(X_1\leq a_1,\cdots,X_n\leq a_n)=P(X_1\le a_1)\cdots P(X_n\le a_n)$.
（若联合分布存在）$f(x_1,\cdots,x_n)=f_1(x_1)\cdots f_n(x_n)$.

独立性可以给出关于条件期望的更好的性质：

若 $X,Y$ 独立，$\mathrm E(X|Y)=\mathrm EX$.
若 $(X,Y)$ 和 $Z$ 独立，$\mathrm E(X|(Y,Z))=\mathrm E(X|Y)$.

不等式

这几个不等式是测度论中的名场面，我们用它来结束这一部分。我们将介绍测度论的形式，同时给出概率论中常用的形式。以下若无特殊说明，$(\Omega, \mathcal F,\mu)$ 是个测度空间，$f,g$ 是可测函数，$X,Y$ 是随机变量。

下面的期望都可以换成条件期望。

Cauchy 不等式

对内积空间中的向量 $x$ 和 $y$，有 $$ |\langle x,y\rangle|^2\leq \langle x,x\rangle \langle y,y\rangle. $$

等号成立当且仅当 $x=\lambda y$.

积分形式： $$ \left(\int_\Omega fgd\mu\right)^2\leq\int_\Omega fd\mu\int_\Omega gd\mu. $$ 概率论中常用的形式：

期望

$$ \mathrm E (XY)^2\leq \mathrm E(X^2)\mathrm E (Y^2). $$

协方差

$$ \mathrm{Cov}(X,Y)^2\leq {\mathrm Var}(X){\mathrm Var}(Y). $$

Jensen 不等式

$\varphi$ 是凸函数，即 $\varphi(tx+(1-t)y)\leq t\varphi(x)+(1-t)\varphi(y)$，则 $$ \varphi\left(\int_\Omega gd\mu\right)\leq \int_\Omega \varphi \circ gd\mu. $$ 积分换成期望就变成了概率论中的形式： $$ \varphi(\mathrm E(X))\leq \mathrm E(\varphi(X)). $$

Chebyshev 不等式（Markov 不等式）

设 $(\Omega, \mathcal F,\mu)$ 是测度空间。若 $g$ 是非负非减函数，对任意实数 $t$ 有 $$ g(t)\mu({x:f(x)\ge t})\leq \int_\Omega g\circ fd\mu. $$ 令 $f=|X|$, $g(t)=\begin{cases}t,&t\ge 0\0,&t<0 \end{cases}$，可得 Markov 不等式 $$ P(|X|\ge t)\leq \frac{\mathrm E(|X|)}{t},\ \forall t>0. $$ 令 $f=|X-\mathrm E(X)|$, $g(t)=\begin{cases}t^2,&t\ge 0\0,&t<0 \end{cases}$，可得概率论形式的 Chebyshev 不等式 $$ P(|X-\mathrm E(X)|\ge t)\leq \frac{\mathrm{Var}(X)}{t^2},\ \forall t>0. $$ 若令 $t=k\sigma$，则可以理解为：与均值相差 $k$ 个标准差以上的值，数量不多于 $1/k^2$.

Holder 不等式

设 $1\leq p,q\leq\infty$，并且 $\dfrac{1}{p}+\dfrac{1}{q}=1$，有结论 $|fg|1\leq |f|p |g|q$，写成积分就是 $$ \int\Omega |fg|d\mu\leq \left(\int\Omega |f|^pd\mu\right)^\frac{1}{p}\left(\int\Omega |g|^qd\mu\right)^\frac{1}{q}. $$

注：
令 $p=q=2$，立刻可得 Cauchy 不等式。所以它可以看成 Cauchy 不等式的推广。
若 $p=\infty$，则 $|f|_\infty=\inf {a:\mu(f(x)>a)=0}$，称为本性上确界。
右端若出现 0 乘以 $\infty$，则视作 0.

积分换成期望，有 $$ \mathrm E\left(|XY|\right)\leq \left(E|X|^p\right)^\frac{1}{p}\left(E|Y|^q\right)^\frac{1}{q}. $$

Minkovski 不等式

Minkovski 不等式是 $L^p$ 中的三角不等式。设 $1\leq p\leq\infty$，则 $|f+g|p\leq |f|p+|g|p$. 写成积分： $$ \left(\int\Omega |f+g|^p d\mu\right)^\frac{1}{p}\le \left(\int\Omega |f|^p d\mu\right)^\frac{1}{p}+\left(\int\Omega |g|^p d\mu\right)^\frac{1}{p}. $$ 期望形式： $$ \left(\mathrm E |X+Y|^p\right)^\frac{1}{p}\le \left(\mathrm E |X|^p\right)^\frac{1}{p} + \left(\mathrm E |Y|^p\right)^\frac{1}{p}. $$

Lyapunov 不等式

若 $0<s<t$，则 $$ \left(\mathrm E|X|^s\right)^\frac{1}{s}\le \left(\mathrm E|X|^t\right)^\frac{1}{t}. $$ 证明只要令 $p=t/s,q=p/(p-1)$，然后对 $|X|^s$ 和 $1$ 用 Holder 不等式即可。过程中要用到测度有限，所以对一般的测度空间这个不成立。

随机变量的极限性质

预备知识

集合序列

首先我们定义集合的上下极限。对一列集合 $A_n$，它的上确界为它们的并，下确界为他们的交，即 $$ \sup A_n=\bigcup_{n\ge 1}A_n,\quad\inf A_n=\bigcap_{n\ge 1}A_n. $$ 类似于数列的上下极限，集合序列的上下极限分别是上确界和下确界的极限，即 $$ \begin{gather} \limsup_{n\to\infty} A_n=\bigcap_{n\ge 1}\bigcup_{j\ge n}A_j,\ \liminf_{n\to\infty} A_n=\bigcup_{n\ge 1}\bigcap_{j\ge n}A_j. \end{gather} $$ 上极限中的元素可以理解为“出现在无穷多个集合中”，而下极限中的元素可以理解为“只有有限多个集合里没有它”。

定义设 $A_n$ 是一列事件，我们称 $\omega$ 是 infinitely often 的，如果 ${\omega\in\Omega:\omega\in A_n \text{对无穷多的}n\text{成立}}$，记作 ${A_n\quad i.o.}$.

容易得知，$\omega$ 是 $A_n$ i.o. 的，等价于 $\omega\in\limsup A_n$.

Borel-Cantelli 引理

我们可以介绍著名的 Borel-Cantelli 引理了。

引理（Borel-Cantelli I） 若 $\sum_{n=1}^\infty P(A_n)<\infty$，则 $P(A_n\quad i.o.)=0$.

引理（Borel-Cantelli II） 对两两独立的事件序列 ${A_n}$，若 $\sum_{n=1}^\infty P(A_n)=\infty$，则 $P(A_n\quad i.o.)=1$.

第二引理如果把“两两独立”改成“独立”则较为简单，读者可自行完成。两两独立的证明可以参考 https://www.ma.imperial.ac.uk/~bin06/Stochastic-Analysis/ma414soln5.pdf

收敛有四种情况

考虑四种收敛：

几乎必然收敛：$P(\lim_n X_n=X)=1$.
依概率收敛：$\forall\varepsilon>0,\lim_n P(|X_n-X|>\varepsilon) =0$.
$L^p$ 收敛（convergence in $L^p$）：$\lim_n\mathrm E|X_n-X|^p=0$.
依分布收敛（convergence in distribution, weak convergence）：在 $F(x)$ 的连续点上满足 $\lim_n F_n(x)=F(x)$.

他们的关系如下图。

一些性质：

若 $X_n\overset{d} \to c$，$c$ 为常数，则 $X_n\overset{p}\to c$.
若 $X_n\overset{P}\to X$，则存在子序列 $X_{n_j}\overset{a.s.}\to X$.
设 $X_n\overset{d}\to X$，则对任意 $r>0$，以下两条等价：
- $\lim_{n\to\infty} \mathrm E|X_n|^r=\mathrm E|X|^r<\infty$，
- $\lim_{t\to \infty}\sup_n \mathrm E(|X_n|^r I(|X_n|>t))=0$.

a.s. 收敛

对于 a.s. 收敛，我们有等价表述： $$ \lim_n P(\bigcup_{m=n}^\infty{|X_m-X|>\varepsilon})=0, $$ 也即 $$ P(\limsup_{n\to\infty} {|X_n-X|>\varepsilon})=0, $$ 由此可以一眼看出它比依概率收敛强。此外，根据 Borel-Cantelli 引理，若 $\forall\varepsilon>0,\ \sum_{n=1}^\infty P({\omega\in\Omega:|X_n(\omega)-X(\omega)|>\varepsilon})<\infty$，则 $X_n\overset{a.s.}\to X$.

依分布收敛

下面的定理允许我们通过依分布收敛构造出 a.s. 收敛，厉害死了。

定理（Skorohod） 若 $X_n\overset{d}\to X$，则存在同一个概率空间上的随机变量 $Y,Y_1,Y_2,\cdots$，使得 $P_{Y_n}=P_{X_n},P_Y=P_X$（测度相等）且 $Y_n\overset{a.s.}\to Y$.

我们可以通过特征函数或密度函数来判断依分布收敛。

定理（Levy continuity） $X_n\overset{d}\to X$ 当且仅当特征函数逐点收敛，即 $\lim_n \varphi_n(x)=\varphi(x)\ \forall x\in\mathbb{R}$.

定理（Scheffes） 若密度函数存在且密度函数 a.e. 收敛，则 $X_n\overset{d}\to X$.

依分布收敛通常不能加减乘除，但如果有一个收敛到常数就可以：

定理（Slutsky） 设 $X_n\overset{d}\to X,Y_n\overset{d}\to c$，则

$X_n+Y_n\overset{d}\to X+c$
$X_nY_n\overset{d}\to cX$
$X_n/Y_n\overset{d}\to X/c$（$c\ne 0$）

我们再来提供一个判定方法。

定理（$\delta$-method） 设 $X_1,\cdots,Y$ 是 $k$ 维随机向量，${a_n}$ 是正数列，且 $\lim_n a_n=\infty$. 存在常数 $c\in\mathbb{R}^k$ 使得 $$ a_n(X_n-c)\overset{d}\to Y, $$ 设 $g:\mathbb{R}^k\to\mathbb{R}$。若 $\nabla g(c)$ 存在（列向量），则 $$ a_n\left[g(X_n)-g(c)\right]\overset{d}\to \nabla g(c)^TY. $$ 若 $g$ 在 $c$ 的邻域内 $m$ 阶连续可导，且对所有 $j$ 阶偏导数（$1\le j\le m-1$）为 0，而 $m$ 阶偏导数不全为 0，则 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}\sum_{1\le i_1,\cdots,i_m\le k}\frac{\partial^m g(c)}{\partial x_{i_1}\cdots\partial x_{i_m}}Y_{i_1}\cdots Y_{i_m}. $$

注：上述是对所有 $m$ 阶偏导数求和。对一元的情况，就是 $$ a_n^m\left[g(X_n)-g(c)\right]\overset{d}\to\frac{1}{m!}g^{(m)}(c)Y^m. $$

大家可以自己尝试证明，用 Taylor 展开即可。

定理以下命题两两等价：

$X_n\overset{d}\to X$,
$\mathrm E h(X_n)\to \mathrm E h(X)$，对任意有界连续函数 $h$，
对任意闭集 $C\subset \mathbb{R}^k$，$\limsup_n P_{X_n}(C)\le P_X(C)$，
对任意开集 $O\subset \mathbb{R}^k$，$\limsup_n P_{X_n}(O)\ge P_X(O)$.

随机变量的渐近性质

类似于数列的 $O$，$o$ 记号，我们有：

$X_n=O_{a.s.}(Y_n)$，当且仅当 $P(|X_n|=O(Y_n))=1$，也即 $|X_n|\le c|Y_n|$ a.s.,
$X_n=o_{a.s.}(Y_n)$，当且仅当 $X_n/Y_n\overset{a.s.}\to 0$,
$X_n=O_P(Y_n)$，当且仅当 $\forall\varepsilon>0,\exists C>0,n_0\in\mathbb{N}$，使得 $$ \sup_{n\ge n_0}P({\omega\in\Omega:|X_n(\omega)|\ge C|Y_n(\omega)|})<\varepsilon. $$
$X_n=o_P(Y_n)$，当且仅当 $X_n/Y_n\overset{P}\to 0$.

特别地，若 $X_n=O_P(1)$，称 $X_n$ 依概率有界。

我们放出一些性质（$O$ 是 $O_P$ 或 $O_{a.s.}$）：

传递性：$X_n=O(Y_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
$X_n=O(Z_n)\Rightarrow X_nY_n=O(Y_nZ_n)$,
$X_n=O(Z_n),Y_n=O(Z_n)\Rightarrow X_n=O(Z_n)$,
若 $X_n\overset{a.s.}\to X$，则 ${\sup_{n\ge k}|X_n|}_k=O_P(1)$,
若 $X_n\overset{d}\to X$，则 $X_n=O_P(1)$,
若 $\mathrm E|X_n|=O({\text 或 } o)(a_n)$，则 $X_n=O({\text 或 } o)_P(a_n)$.

上面最后一条可以用 Markov 不等式证明。

大数定律与中心极限定理

这两个东西在概率论中的地位家喻户晓。

大数定律

定理（强大数定律） $X_n$ i.i.d.，若 $\mathrm E|X_1|<\infty$，则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$ 反之，若 $\mathrm E|X_1|<\infty$ 且 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to c$，则 $c=\mathrm EX_1$.

定理（弱大数定律） $X_n$ i.i.d.，若 $nP(|X_1|>n)\to 0$，则 $$ \frac{1}{n}\sum_{i=1}^nX_i-\mathrm E[X_1 I(|X_1|\le n)]\overset{P}\to 0. $$ 从而 $\dfrac{1}{n}\sum_{i=1}^nX_i\overset{P}\to \mathrm EX_1$.

对于不是 i.i.d. 的情况，我们也有大数定律。

定理设 $X_1,X_2,\cdots$ 独立且期望有限，则

（强大数定律）若存在常数 $p\in[1,2]$ 使得 $\sum_{i=1}^\infty\dfrac{\mathrm E|X_i|^p}{i^p}<\infty$，则
$$ \frac{1}{n}\sum_{i=1}^nX_i\overset{a.s.}\to \mathrm EX_1. $$
（弱大数定律）若存在常数 $p\in[1,2]$ 使得 $\lim_{n\to\infty}\dfrac{1}{n^p}\sum_{i=1}^n\mathrm E|X_i|^p=0$，则 $$ \frac{1}{n}\sum_{i=1}^nX_i\overset{p}\to \mathrm EX_1. $$

中心极限定理

定理设 $X_n$ i.i.d. $k$ 维，且 $\Sigma=\mathrm{Var}X_1$ 有限，则 $$ \frac{\sum_{i=1}^n(X_i-\mathrm EX_i)}{\sqrt{n}}\overset{d}\to N(0,\Sigma). $$