这一部分是本科基础课的内容,以复习为主,只快速回顾一遍要点,不罗嗦。
测度空间
$\sigma$-代数
定义 集合 $\Omega$ 的子集族 $\mathcal{F}$ 称为 $\sigma$-代数,如果
- 空集条件:$\varnothing\in\mathcal{F}$,
- 补集条件:$A\in\mathcal{F}\Rightarrow A^c\in\mathcal{F}$,
- 可列并封闭:若 $A_i\in\mathcal{F},i\in\mathbb{N}$,则 $\bigcup A_i\in\mathcal{F}$.
二元组 $(\Omega,\mathcal{F})$ 称为可测空间。
给定集族 $\mathcal{C}$,定义 $\sigma(\mathcal{C})$ 为所有包含 $\mathcal{C}$ 的 $\sigma$-代数的交。可以证明 $\sigma(\mathcal{C})$ 是包含 $\mathcal{C}$ 的最小 $\sigma$-代数。特别地,若 $\Omega=\mathbb{R}^d$,$\mathcal{O}$ 为所有开集的集合,称 $\sigma(\mathcal{O})$ 为 Borel $\sigma$-代数,记作 $\mathcal{B}^d$。其中的集合称为 Borel 集。
测度
定义 给定 $(\Omega,\mathcal{F})$,函数 $\nu:\mathcal{F}\to\mathbb{R}\cup{+\infty}$ 称为测度,若满足
- 非负:$0\leq\nu(A)\leq\infty,\forall A\in\mathcal{F}$,
- 空集条件:$\nu(\varnothing)=0$,
- 可列可加性:若 $A_i$ 互不相交,则 $\sum_{i=1}^\infty\nu(A_i)=\nu\left(\bigcup_{i=1}^\infty A_i\right)$.
三元组 $(\Omega,\mathcal{F},\nu)$ 称为测度空间。
我们有样本空间 $\Omega$,事件空间 $\mathcal{F}$。在其上的测度 $P$ 如果满足 $P(\Omega)=1$,则 $(\Omega,\mathcal{F},P)$ 称为概率空间,$P$ 称为概率测度。
若存在一列 $A_i$,使得 $\bigcup A_i=\Omega$ 且 $\nu(A_i)<\infty$,则称 $\nu$ 是 $\sigma$-有限的。显然概率测度都是 $\sigma$-有限的。
Lebesgue测度
对区间 $I=(a,b)$,记 $|I|=b-a$. 对任意集合 $A\subset\mathbb{R}$ 定义 Lebesgue 外侧度: $$ m^(A)=\inf\left.\left{\sum_{k=1}^\infty|I_k|\right|A\subset\bigcup I_k\right}. $$ 这样定义的外测度满足次可加性,即 $m^(A\cup B)\leq m^(A)+m^(B)$. 在满足如下 Caratheodory 条件的集合上,外测度可以升级为测度。具体地,令 $$ \mathcal{F}={A\subset\mathbb{R}|\forall T\subset\mathbb{R},m^(T)=m^(T\cap A)+m^*(T\cap A^c)}. $$
可以证明 $\mathcal{F}$ 是 $\sigma$-代数,且 $\mathcal{B}\subsetneqq\mathcal{F}$. 对 $A\in\mathcal{F}$,定义 $$ m(A)=m^*(A). $$ 可以证明 $m$ 是测度,称为 Lebesgue 测度。
$\mathbb{R}^n$ 是类似的。之后提到 $\mathbb{R}^n$,默认的测度空间便是 $(\mathbb{R}^n,\mathcal{B}^n,m)$.
Lebesgue 积分
可测函数
如果可测集的原象是可测集,这个函数就叫可测函数。具体地:设 $(\Omega,\mathcal{F})$ 和 $(\Lambda,\mathcal{G})$ 是两个可测空间,$f:\Omega\to\Lambda$ 可测,如果 $\forall A\in\mathcal{G},f^{-1}(A)\in\mathcal{F}$.
特别地,映射到 $(\mathbb{R}^n,\mathcal{B}^n)$ 的可测函数称为 Borel 函数。概率空间上的 Borel 函数称为随机变量,通常记作 $X,Y,Z,…$.
对可测函数 $f:(\Omega,\mathcal{F})\to(\Lambda,\mathcal{G})$,可以证明 $f^{-1}(\mathcal{G}):={f^{-1}(A)|A\in\mathcal{G}}$ 是 $\mathcal{F}$ 的子集,且是 $\sigma$-代数,记作 $\sigma(f)$.
Lebesgue 积分
设测度空间 $(\Omega,\mathcal{F},\nu)$, 下面我们对所有 Borel 函数 $f$ 定义 Lebesgue 积分(允许值是无穷)。
首先,若 $f(x)=\sum_{i=1}^k c_iI_{A_i}(x)$,其中 $A_i\in\mathcal{F},c_i\ge 0$,则称 $f$ 为非负简单函数。对非负简单函数,定义 $$ \int fd\nu=\sum_{i=1}^k c_i\nu(A_i). $$ 其次,对非负 Borel 函数 $f$,定义 $$ \int fd\nu=\sup\left.\left{\int gd\nu\right|g\text{ 是非负简单函数且 }g\le f\right}. $$ 最后,对 Borel 函数 $f$,将其分为正部和负部。令 $f_+(x)=\max{f(x),0}$, $f_-(x)=-\min{f(x),0}$,有 $f=f_++f_-$. 若 $\int f_+d\nu$ 和 $\int f_-d\nu$ 至少有一个有限,则 $f$ 的积分存在: $$ \int f_{}d\nu=\int f_+d\nu-\int f_-d\nu, $$ 若 $\int f_+d\nu$ 和 $\int f_-d\nu$ 都他娘的无穷大,那积分就不存在了。
思考:Lebesgue 积分的性质优于 Riemann 积分的本质原因是什么?看起来只是把竖着切变成横着切而已。此外,这是否意味着 Riemann 积分可以淘汰了?
参考:https://kexue.fm/archives/4083
积分的极限定理
这是关于交换积分和极限的三大定理,他们之间互相等价。证明见 https://zhuanlan.zhihu.com/p/33566658 .
定理(Levi) 设函数们 $f_n(x)$ 都在 $E$ 上非负可测,且满足其关于 $n$ 单调递增,且 $\lim_{n\to\infty}f_n(x)=f(x)$,则 $$ \lim_{n\to\infty}\int_E f_n(x)dx=\int_E f(x)dx. $$ 定理(Fatou) 设函数们 $f_n(x)$ 都在 $E$ 上非负可测,则 $$ \int_E \liminf_{n\to\infty} f_n(x)dx\le \liminf_{n\to\infty}\int_E f_n(x)dx. $$ 定理(Lebesgue) 设函数们 $f_n(x)$ 都在 $E$ 上可测,且 $\lim_{n\to\infty}f_n(x)=f(x)$,并且存在 $F\in L(E)$,使得 $|f_n(x)|\le F(x)\text{ (a.e.)}$,则 $$ \lim_{n\to\infty}\int_E |f_n(x)-f(x)|dx=0. $$ 此外,还有一个很重要的 Fubini 定理,它允许我们使用累次积分计算重积分,并且可以交换顺序:
定理(Fubini) 若 $f(x,y)$ 可积,则 $$ \int_{A\times B}f(x,y)dxdy=\int_B\left(\int_A f(x,y)dx\right)dy=\int_A\left(\int_B f(x,y)dy\right)dx $$
作为 Lebesgue 控制收敛定理的重要应用,我们来介绍积分号下求导的定理(出自本科讲义):
定理 设 $E\subset\mathbb{R}^d$ 可测,$I$ 是开区间,$f:E\times I\to\mathbb{R}$. 若对每个 $t\in I,\ f(x,t)$ 关于 $x$ 可积,且对每个 $x\in E$, $f(x,t)$ 关于 $t$ 可微,且存在 $0\le G\in L^1(E)$ 使得 $$ \left|\dfrac{\partial f}{\partial t}(x,t)\right|\le G(x), $$ 则 $$ \frac{d}{dt}\int_E f(x,t)dx=\int_E \frac{\partial f}{\partial t}(x,t)dx,\ t\in I. $$
关键就是找一个控制函数 $G(X)$.
记不住也没关系,在学统计的时候,积分和求导总是可交换的。
积分换元
测度空间 $(\Omega,\mathcal{F},\nu)$,可测空间 $(\Lambda,\mathcal{G})$,可测函数 $f:\Omega\to\Lambda$. 则 $f$ 诱导了 $\Lambda$ 上的测度,记作 $\nu\circ f^{-1}$,定义为 $$ \nu\circ f^{-1}(B)=\nu(f^{-1}(B)),\ \ \forall B\in\mathcal{G}. $$ 对于诱导测度,我们有积分换元公式: $$ \int_\Omega g\circ f d\nu=\int_{\Lambda} gd(\nu\circ f^{-1}). $$ 特别地,设 $(\Omega,\mathcal{F},P)$ 为概率空间,$X$ 是随机变量,我们有诱导测度 $P_X=P\circ X^{-1}$,称为 $X$ 的分布(distribution or law)。
随机变量的分布
从现在开始我们将以概率论为主线进行。回忆随机变量指的是概率空间上的 Borel 函数。它定义在概率空间上,值是实数,并且可测。
累积分布函数(CDF)
定义 设 $(\Omega,\mathcal{F},P)$ 为概率空间,$X$ 是随机变量。定义 $X$ 的累积分布函数为 $$ F_X(x)=P(X\le x). $$
概率密度函数(PDF)
我们希望建立起“概率密度函数”这一概念。通常可以理解为 CDF 的导数。
绝对连续(Absolutely continuity)
定义 $\lambda$ 和 $\nu$ 是可测空间上的两个测度,若对任意的可测集 $A$ 都有:$\nu(A)=0\Rightarrow \lambda(A)=0$,则称 $\lambda$ 关于 $\nu$ 绝对连续,记作 $\lambda\ll\nu$.
乍一看和连续没啥关系,但对 $\sigma$-finite 的测度,我们有一个长得像“连续”的推论:
若 $\lambda$ 是有限的,则 $\lambda\ll\nu$ 当且仅当 $\forall\varepsilon>0,\exist\delta>0,s.t\ \forall A,\nu(A)<\delta\Rightarrow \lambda(A)<\varepsilon$.
意思是,当 $\nu$ 给出非常小的测度时,$\lambda$ 也必须小。证明留做习题。也可参见:测度的绝对连续和相互奇异 - 查哥半桶水的文章 - 知乎 Proposition 13.9 。
Radon-Nikodym 导数
我们先来看一个命题,证明留做习题。
$f$ 为非负可测函数,令 $$ \lambda(A):=\int_Af{\mathrm d}v,A\in\mathscr{F}, $$ 则 $\lambda\ll \nu$.
而它的逆命题就是 Radon-Nikodym 定理,但要加上一个 $\nu$ $\sigma$-finite 的条件:
**定理(Radon-Nikodym) **$\lambda,\nu$ 是测度,$\nu$ 是 $\sigma$-finite 的。若 $\lambda\ll\nu$,则存在唯一的非负 Borel 函数 $f$ 使得 $$ \lambda(A)=\int_Af{\mathrm d}v,A\in\mathscr{F}. $$
证明已经超出本课程要求了,可以参见:Radon-Nikodym 定理 (1) - 查哥半桶水的文章 - 知乎 。
我们记上述 $f=\dfrac{\mathrm{d}\lambda}{\mathrm{d}\nu}$,$f$ 称为 $\lambda$ 关于 $\nu$ 的 R-N 导数(或密度)。
概率密度函数
定义 若 $P$ 是概率测度,$\nu$ 是 $\sigma$-finite 的测度,$P\ll\nu$,则 $\dfrac{{\mathrm{d}}P}{\mathrm{d}\nu}$ 称为 $P$ 对 $\nu$ 的概率密度函数(probability density function, PDF)。
通常我们取 Lebesgue 测度 $m$,若 $F$ 可导,记 $f=F’$,有 $\dfrac{dP}{dm}=f$. 这就是我们常用的形式了。
随机变量的数字特征
矩(Moments)
定义 对于 $(\Omega,\mathcal{F},P)$,若如下积分存在,则称之为期望: $$ \mathrm{E}(X)=\int_\Omega X(\omega)dP(\omega)=\int_\mathbb{R}xdF_X(x). $$ 更一般地,设 $n$ 为正整数,若 $\mathrm E(X^n)$ 存在,则称为 $X$ 的 $n$ 阶矩(moment);若 $\mathrm E((X-\mathrm EX)^n)$ 存在,则称为 $X$ 的 $n$ 阶中心矩。二阶中心矩又叫做方差,记作 $\mathrm{Var}(X)$.
对随机向量,定义是类似的,对每个位置分别计算矩即可。
特征函数与矩母函数
定义 有随机变量 $X$。特征函数(characteristic function, ch.f.)$\varphi:\mathbb{R}\to\mathbb{C}$ 定义为 $$ \varphi_X(t)=\mathrm E\left(e^{itX} \right),\ \forall t\in \mathbb{R}. $$ 矩母函数(moment generating function, m.g.f.) $\psi:\mathbb{R}\to\mathbb{R}$ 定义为 $$ \psi_X(t)=\mathrm E\left(e^{tX}\right),\ \forall t\in \mathbb{R}. $$ 几点说明:
- $\left|e^{itX}\right|\leq 1$,因此 $\varphi$ 总是存在且有限。
- $e^{tX}>0$,因此 $\psi$ 也总有定义,但有可能是无穷大。
- 若密度函数 $f$ 存在,则 $\varphi$ 是 $f$ 的 Fourier 变换,$\psi$ 是 $f$ 的 Laplace 变换。
我们介绍几条性质。
性质 若 $\psi_X$ 在一个包含 0 的开区间内有限,则
- $X$ 的任意阶矩存在有限,并且 $E(X^n)=\left.\dfrac{d^n\psi_X(t)}{dt^n}\right|_{t=0}$,
- $\psi_X$ 唯一决定了一个概率分布,
- $\varphi_X(t)=\psi_X(it)$.
性质 $\varphi(x)$ 唯一决定了一个概率分布。
我要另起一篇写了,不然这页就太长了。