概率论与随机过程（二）——随机变量与数学期望

第二章随机变量及其分布

1、Random variables(随机变量)

我们通常对一些试验的结果更感兴趣，而不是试验本身，正如赌徒们更关心游戏的输赢，而不是游戏本身的乐趣。

我们把用实数表示试验结果的过程看成一种函数，其定义域为 $\Omega$ ，值域为 $\mathbb{R}$ .

这样的函数被称为 random variables(随机变量).

Example 1. 投掷一枚均匀的硬币两次，则
$\Omega=\{\mathrm{HH}, \mathrm{HT}, \mathrm{TH}, \mathrm{TT}\}$
对于 $\omega \in \Omega$ ，定义 $X(\omega)$ 表示正面朝上的次数，则
$X(\mathrm{HH})=2, \quad X(\mathrm{HT})=X(\mathrm{TH})=1, \quad X(\mathrm{TT})=0$
现在假设一个赌徒每次试验时押注 $1$ 英镑，当出现一次正面朝上时，赌资翻倍，当出现一次反面朝上时，赌资清零，那么试验结束时的赌资 $W$ 是一个随机变量：
$W(\mathrm{HH})=4, \quad W(\mathrm{HT})=W(\mathrm{TH})=W(\mathrm{TT})=0$

当试验结束时，试验的结果 $\omega \in \Omega$ 是已知的，对应的随机变量

$X:\Omega\rightarrow\mathbb{R}$

也拥有了对应的取值，且取到每一个值的概率通常是不同的，这些概率依赖于我们的概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 以及函数 $X$ 自身。

我们希望能够定量地描述 $X$ 的所有取值的概率分布，显然，函数

$f(x)= \text{Probability that } X \text{ is equal to x}$

能够做到这一点，但是这个函数被证明在通常情况下是不合适的，我们一般使用 distribution function(分布函数)

$F(x)= \text{Probability that } X \text{ does not exceed x}$

更严谨的，定义为

$F(x)=\mathbb{P}(A(x))$

其中 $A(x) \subseteq \Omega$ 且

$A(x)=\{\omega \in \Omega \mid X(\omega) \leq x\}$

但是，我们知道 $\mathbb{P}$ 是定义在事件域 $\mathcal{F}$ 上的函数，所以上面的定义要求 $A(x)\in\mathcal{F}$ ，因此我们引出下面的定义。

Definition 2. 随机变量是一个函数 $X: \Omega \rightarrow \mathbb{R}$ 且对于 $x \in \mathbb{R}$ 满足
$\{\omega \in \Omega\mid X(\omega) \leq x\} \in \mathcal{F}$
我们称这样的函数 $\mathcal{F}$ -measurable( $\mathcal{F}$ 可测).

通常我们用 $X,Y,Z$ 等大写字母表示随机变量， $x,y,z$ 等对应的小写字母表示随机变量的可能取值，不要把这些记号混淆。

Definition 3. 随机变量 $X$ 的分布函数 $F: \mathbb{R} \rightarrow[0,1]$ 定义为
$F(x)=\mathbb{P}(X \leq x)$

这与之前的定义显然是一致的，因为 $\{\omega \in \Omega\mid X(\omega) \leq x\}$ 表示的事件可以写为 $\{X \leq x\}$ .

我们可以把函数符号写为 $F_{X}$ ，用来区分其它的随机变量。

Example 4. 在 Example 1 中，随机变量 $X$ 的分布函数 $F_{X}$ 为
$F_{X}(x)=\left\{\begin{array}{cl} {0} & {,x<0} \\ {\frac{1}{4}} & {,0 \leq x<1} \\ {\frac{3}{4}} & {,1 \leq x<2} \\ {1} & {,x \geq 2} \end{array}\right.$
随机变量 $W$ 的分布函数 $F_{W}$ 为
$F_{W}(x)=\left\{\begin{array}{cl} {0} & {,x<0} \\ {\frac{3}{4}} & {,0 \leq x<4} \\ {1} & {,x \geq 4} \end{array}\right.$
函数图像如下：

Lemma 5. 分布函数 $F$ 有以下性质：
（1）无穷处有界：
$\lim _{x \rightarrow-\infty} F(x)=0, \quad \lim _{x \rightarrow \infty} F(x)=1$
（2）单调不减：
$x<y \Rightarrow F(x)\leq F(y)$
（3）右连续：
$\lim _{h \rightarrow 0^{+}} F(x+h)=F(x)$

证明： $(1)$ 设 $B_{n}=\{X \leq-n\}$ ，那么 $\{B_{n}\}$ 为递减事件序列，根据 Lemma 1.3.7 可知

$\mathbb{P}\left(B_{n}\right) \rightarrow \mathbb{P}(\varnothing)=0$

另一部分的证明也是一样的。

$(2)$ 设 $A(x)=\{X \leq x\}, A(x, y)=\{x<X \leq y\}$ ，则

$A(y)=A(x) \cup A(x, y)$

且 $A(x),A(x,y)$ 不相容，因此

$F(y)=F(x)+\mathbb{P}(x<X \leq y) \geq F(x)$

$(3)$ 设 $B_{n}=\{X\leq x+\frac{1}{n}\}$ ，则 $\{B_{n}\}$ 为递减事件序列，根据 Lemma 1.3.7 可知

$\mathbb{P}(B_{n})\rightarrow \mathbb{P}(X\leq x)=F(x)$

事实上，该引理充分刻画了分布函数，也就是说，满足上面三条性质的函数一定是某随机变量的分布函数。

从现在开始，我们可以省略概率空间的那一套东西，集中精力于随机变量和它们的分布函数。

Example 6. Constant variables(常随机变量). 最简单的随机变量莫过于在整个样本空间 $\Omega$ 上仅取一个固定的值，设 $c\in\mathbb{R}$ 且 $X: \Omega \rightarrow \mathbb{R}$ 定义为
$X(\omega)=c \quad \text { for all } \quad \omega \in \Omega$
其分布函数 $F(x)=\mathbb{P}(X \leq x)$ 是一个 step function(阶跃函数)
$F(x)=\left\{\begin{array}{cl} 0 & {,x<c} \\ 1 & {,x \geq c} \end{array}\right.$
更一般的，若存在 $c \in \mathbb{R}$ 使得 $\mathbb{P}(X=c)=1$ ，我们称 $X$ 为常随机变量。

Example 7. Bernoulli variables(伯努利随机变量). 投掷一枚均匀的硬币，设 $X:\Omega \rightarrow \mathbb{R}$ 定义为
$X(H)=1, \quad X(T)=0$
随机变量 $X$ 有两个取值 $0,1$ ，其分布函数为
$F(x)=\left\{\begin{array}{cl} {0} & {,x<0} \\ {1-p} & {,0 \leq x<1} \\ {1} & {,x \geq 1} \end{array}\right.$
这样定义的 $X$ 是最简单的非平凡随机变量，服从 Bernoulli distribution(伯努利分布)，记作 $\text{Bern}(p)$

Example 8. Indicator functions(指示函数). 一组特定的伯努利随机变量在概率学中有着广泛的应用，设 $I_{A}: \Omega \rightarrow \mathbb{R}$ 为事件 $A$ 的指示函数，即
$I_{A}(\omega)=\left\{\begin{array}{cl} {1} & {\text { if } \omega \in A} \\ {0} & {\text { if } \omega \in A^{\mathrm{c}}} \end{array}\right.$
则 $I_{A}$ 是伯努利随机变量，取值 $0,1$ 对应的概率为 $\mathbb{P}(A),\mathbb{P}\left(A^{c}\right)$ ，设 $\left\{B_{i}\mid i \in I\right\}$ 为不相容事件组且 $A \subseteq \bigcup_{i \in I} B_{i}$ ，则
$I_{A}=\sum_{i} I_{A \cap B_{l}}$

Lemma 9. 设 $F$ 为随机变量 $X$ 的分布函数，则
（1） $\mathbb{P}(X>x)=1-F(x)$
（2） $\mathbb{P}(x<X \leq y)=F(y)-F(x)$
（3） $\mathbb{P}(X=x)=F(x)-\lim_{y \rightarrow x-} F(y)$

证明： $(1)(2)$ 是显然的，直接证明 $(3)$ ，设 $B_{n}=\{x-\frac{1}{n}<X \leq x\}$ ，则 $B_{n}$ 是递减事件序列，因此

$\mathbb{P}(B_{n})\rightarrow \mathbb{P}(X=x)$

故有

$\begin{aligned}\mathbb{P}(X=x)&=\lim_{n\rightarrow\infty}\mathbb{P}(B_{n})\\&=F(x)-\lim_{n\rightarrow\infty}F(x-\frac{1}{n})\\&=F(x)-\lim_{y \rightarrow x-} F(y)\end{aligned}$

最后介绍一个术语，将来用得到，设 $F$ 为随机变量 $X$ 的分布函数，称 $X$ 拥有两个 tail(尾部).

$\begin{aligned}T_{1}(x)&=\mathbb{P}(X>x)=1-F(x)\\T_{2}(x)&=\mathbb{P}(X \leq -x)=F(-x)\end{aligned}$

其中 $x$ 是正的极大量，我们将会看到当 $x\rightarrow \infty$ 时， $T_{i}$ 逼近 $0$ 的速度对于一种被称为 moments(矩) 的分布量的存在有着显著的影响。

Exercise 10. 设 $X$ 为给定概率空间下的随机变量，且 $a\in\mathbb{R}$ ，证明： $aX$ 也是随机变量。

难度：★★★☆☆（点击查看答案）

若 $a>0$ ，对于 $x\in\mathbb{R}$ ，有

$\{\omega\mid a X(\omega) \leq x\}=\{\omega\mid X(\omega) \leq \frac{x}{a}\} \in \mathcal{F}$

若 $a<0$ ，对于 $x\in\mathbb{R}$ ，有

$\begin{aligned}\{\omega\mid a X(\omega) \leq x\} &=\{\omega\mid X(\omega) \geq \frac{x}{a}\}\\ &=\left\{\bigcup_{n \geq 1}\left\{\omega\mid X(\omega) \leq \frac{x}{a}-\frac{1}{n}\right\}\right\}^{\mathrm{c}}\in\mathcal{F}\end{aligned}$

注：这里采用可数个集合的并来逼近 $<$ 是为了得到 $\leq$ 的形式。

若 $a=0$ ，则

$\{\omega\mid a X(\omega) \leq x\}=\left\{\begin{array}{ll} {\varnothing} & {\text { if } x<0} \\ {\Omega} & {\text { if } x \geq 0} \end{array}\right.\in\mathcal{F}$

Exercise 11. 随机变量 $X$ 有分布函数 $F$ ，若 $a,b\in\mathbb{R}$ ，求分布函数
$Y=aX+b$

难度：★★☆☆☆（点击查看答案）

若 $a=0$ ，则 $Y=b$ ，因此

$\mathbb{P}(Y \leq y)=\left\{\begin{array}{ll} {0} & {\text { if } y<b} \\ {1} & {\text { if } y\geq b} \end{array}\right.$

若 $a> 0$ ，我们有

$\mathbb{P}(Y \leq y)=\mathbb{P}(X \leq\frac{y-b}{a})=F(\frac{y-b}{a})$

若 $a< 0$ ，我们有

$\mathbb{P}(Y \leq y)=\mathbb{P}(X \geq\frac{y-b}{a})=1-\lim_{x \rightarrow(\frac{y-b}{a})^{-}} F(x)$

Exercise 12. 设 $F$ 为分布函数，且 $r$ 为正整数，判读下列函数是否为分布函数：
（1） $F(x)^{r}$
（2） $1-\{1-F(x)\}^{r}$
（3） $F(x)+\{1-F(x)\} \log \{1-F(x)\}$
（4） $\{F(x)-1\} e+\exp \{1-F(x)\}$

难度：★★☆☆☆（点击查看答案）

函数 $g(F(x))$ 为分布函数，当且仅当 $g$ 是 $[0,1]$ 上的连续单调不减函数且

$g(0)=0,\quad g(1)=1$

以此检验得 $(1)(2)(4)$ 是分布函数。

2、The law of averages(大数定律)

回想以下 $1.3$ 节的理论，我们重复做 $N$ 次试验，观察事件 $A$ 是否发生，用 $N(A)$ 表示 $A$ 发生的次数。

我们目前建立起的概率体系需要一个哲学基础，那就是当 $n\rightarrow\infty$ 时， $\frac{N(A)}{N}$ 收敛，我们用这个极限值描述 $A$ 的概率。

我们的理论能够满足这个要求吗？

设 $A_{1}, A_{2}, \ldots$ 是一组独立事件且拥有相同的概率 $\mathbb{P}\left(A_{i}\right)=p$ ，其中 $0<p<1$ ，这样的假设要求对应的概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 存在，但是我们在此不做深究。

我们设 $A_{i}$ 表示 $A$ 在第 $i$ 次试验中发生，记

$S_{n}=\sum_{i=1}^{n} I_{A_{i}}$

其中 $I_{A_{i}}$ 表示事件 $A_{i}$ 的指示函数，则 $S_{n}$ 是一个计算事件 $A_{i}$ 发生次数的随机变量。

注： $S_{n}$ 显然是 $\Omega$ 下的函数，证明 $S_{n}$ 的 $\mathcal{F}$ 可测性留作练习。

下面的结论在 $1692$ 年被 James Bernoulli(詹姆斯·伯努利) 证明。

Theorem 1. 当 $n\rightarrow\infty$ 时， $\frac{S_{n}}{n}$ 收敛于 $p$ ，即对任意的 $\epsilon>0$ ，有
$\mathbb{P}\left(p-\epsilon \leq \frac{S_{n}}{n} \leq p+\epsilon\right) \rightarrow 1 \quad \text { as } \quad n \rightarrow \infty$

证明：假设我们重复投掷硬币，每次投掷正面朝上的概率为 $p$ ，则随机变量 $S_{n}$ 表示 $n$ 次试验中正面朝上的次数，因此

$\mathbb{P}\left(\frac{S_{n}}{n} \geq p+\epsilon\right)=\sum_{k \geq n(p+\epsilon)} \mathbb{P}\left(S_{n}=k\right)=\sum_{k=m}^{n}\binom{n}{k} p^{k}(1-p)^{n-k}$

其中 $m=\lceil n(p+\epsilon)\rceil$ ，即不小于 $n(p+\epsilon)$ 的最小整数，接下来的论证是基于概率论的。

设 $\lambda>0$ ，注意到当 $k\geq m$ 时，有

$e^{\lambda k}\geq e^{\lambda n(p+\epsilon)}$

记 $q=1-p$ ，则根据二项式定理，

$\begin{aligned} \mathbb{P}\left(\frac{S_{n}}{n} \geq p+\epsilon\right) & \leq \sum_{k=m}^{n} e^{\lambda[k-n(p+\epsilon)]}\binom{n}{k} p^{k} q^{n-k} \\ & \leq e^{-\lambda n \epsilon} \sum_{k=0}^{n}\binom{n}{k}\left(p e^{\lambda q}\right)^{k}\left(q e^{-\lambda p}\right)^{n-k} \\ &=e^{-\lambda n \epsilon}\left(p e^{\lambda q}+q e^{-\lambda p}\right)^{n} \end{aligned}$

可以证明 $e^{x} \leq x+e^{x^{2}}$ 对 $x \in \mathbb{R}$ 成立，故

$\begin{aligned} \mathbb{P}\left(\frac{S_{n}}{n} \geq p+\epsilon\right) & \leq e^{-\lambda n \epsilon}\left[p e^{\lambda^{2} q^{2}}+q e^{\lambda^{2} p^{2}}\right]^{n} \\ & \leq e^{\lambda^{2} n-\lambda n \epsilon} \end{aligned}$

注：这一点博主思考了很久，后来发现 $pe^{\lambda^2 q^2}+qe^{\lambda^2 p^2}\leq pe^{\lambda^2 }+qe^{\lambda^2 }=e^{\lambda^2}$

我们选取 $\lambda$ 值使得等式右边最小，即 $\lambda=\frac{1}{2} \epsilon$ ，有

$\mathbb{P}\left(\frac{S_{n}}{n} \geq p+\epsilon\right) \leq e^{-\frac{1}{4} n \epsilon^{2}} \quad \text { for } \quad \epsilon>0$

上式称为 Bernstein's inequality(伯恩斯坦不等式)，根据这个不等式可以直接得到

$\mathbb{P}\left( \frac{S_{n}}{n} \geq p+\epsilon\right) \rightarrow 0 \quad \text { as } \quad n \rightarrow \infty$

另一部分的证明也是类似的，因此定理得证。

事实上，伯恩斯坦不等式的力量更加强大，这个不等式告诉我们当 $n\rightarrow \infty$ 时， $S_{n}$ 超出 $np$ 的概率呈指数级增长，这样的不等式常用于 large-deviation estimate(大偏差估计).

比如说，我们可以用这个不等式估计对于任意足够大的 $n$ ， $S_{n}$ 总是落在 $[p-\epsilon,p+\epsilon]$ 的概率。

记事件 $A_{n}=\left\{p-\epsilon \leq \frac{S_{n}}{n}\leq p+\epsilon\right\}$ ，我们要估算的是 $\mathbb{P}\left(\bigcap_{n=m}^{\infty} A_{n}\right)$ ，考虑相反事件 $\bigcup_{n=m}^{\infty} A_{n}^{\mathrm{c}}$ ，根据 Boole's inequality(布尔不等式) 和伯恩斯坦不等式，当 $m\rightarrow \infty$ 时，

$\mathbb{P}\left(\bigcup_{n=m}^{\infty} A_{n}^{\mathrm{c}}\right) \leq \sum_{n=m}^{\infty} \mathbb{P}\left(A_{n}^{\mathrm{c}}\right) \leq \sum_{n=m}^{\infty} 2 e^{-\frac{1}{4} n \epsilon^{2}} \rightarrow 0$

这个我们需要的结果一致：

$\mathbb{P}\left(p-\epsilon \leq \frac{1}{n} S_{n} \leq p+\epsilon \text { for all } n \geq m\right) \rightarrow 1 \quad \text { as } \quad m \rightarrow \infty$

Example 2. 设 $\left\{X_{r}\mid r \geq 1\right\}$ 是相互独立的观测量，且都服从相同的未知分布函数 $F$ ，我们可以用下面的方法估计 $F(x)$ .

设 $I_{n}(x)$ 是事件 $\left\{X_{n} \leq x\right\}$ 的指示函数，根据大数定律，

$\lim_{n\rightarrow\infty}\frac{1}{n}\sum_{r=1}^{n} I_{r}(x)=\mathbb{P}\left(X_{n} \leq x\right)=F(x)$

Exercise 3. 重复投掷一枚硬币，若每次投掷正面朝上的概率为 $p$ ，设 $H_{n},T_{n}$ 分别表示共投掷 $n$ 次硬币时正面朝上和反面朝上的次数，证明：当 $n\rightarrow\infty$ 时，对任意 $\epsilon>0$ ，
$\mathbb{P}\left(2 p-1-\epsilon \leq \frac{1}{n}\left(H_{n}-T_{n}\right) \leq 2 p-1+\epsilon\right) \rightarrow 1$

难度：★★★☆☆（点击查看答案）

显然 $H_{n}+T_{n}=n$ ，故

$\frac{H_{n}-T_{n}}{n}=\frac{2H_{n}}{n}-1$

因此，根据大数定律，当 $n\rightarrow \infty$ 时，

$\mathbb{P}\left(2 p-1-\epsilon \leq \frac{1}{n}\left(H_{n}-T_{n}\right) \leq 2 p-1+\epsilon\right)=\mathbb{P}\left(\left|\frac{1}{n} H_{n}-p\right| \leq \frac{\epsilon}{2}\right) \rightarrow 1$

3、Discrete and continuous variables(离散型和连续型随机变量)

有关随机变量的理论大多基于它们的分布函数，而分布函数的理论和应用非常高深抽象，且依赖于 Lebesgue-Stieltjes integral(勒贝格-斯蒂尔杰斯积分)，我们不得不暂且跳过，我们来探讨一些相对简单的东西，随机变量的性质。

Definition 1. 随机变量 $X$ 是 discrete(离散型) 随机变量，当且仅当 $X$ 的取值集合为可数点集
$\left\{x_{1}, x_{2}, \ldots\right\},\quad x_{i}\in\mathbb{R}$
且 $X$ 的 probability mass function(概率质量函数) $f: \mathbb{R} \rightarrow[0,1]$ ，定义为
$f(x)=\mathbb{P}(X=x)$

离散型随机变量的分布函数在 $\left\{x_{1}, x_{2}, \ldots\right\}$ 处发生阶跃导致不连续，这样的分布称为 atomic(原子化).

Definition 2. 随机变量 $X$ 是 continuous(连续型) 随机变量，当且仅当 $X$ 的分布函数可以表示为
$F(x)=\int_{-\infty}^{x} f(u) d u \quad x \in \mathbb{R}$
其中，积分函数 $f: \mathbb{R} \rightarrow[0, \infty)$ 称为 $X$ 的 probability density function(概率密度函数).

连续型随机变量的分布函数是连续函数，事实上，它还是 absolutely continuous(绝对连续) 函数.

现在我们仅考虑离散型和连续型的随机变量，除此之外还有一些特殊的随机变量

singular(奇异型) 随机变量 —— 基于 Cantor ternary set(康托尔三分集).
mixed(混合型) 随机变量 —— 离散型连续型和奇异型随机变量的混合体。

Example 3. Discrete variables(离散型随机变量). 在 Example 2.1.1 中，随机变量 $X,W$ 的取值分别为 $\{0,1,2\}$ 和 $\{0,4\}$ ，它们都是离散型随机变量。

Example 4. Continuous variables(连续型随机变量). 二维平面上随机放置一根横杆，杆沿顺时针方向旋转到正北方向经过的角记为 $\omega$ ，则样本空间 $\Omega=[0,2\pi)$ ，根据对称性易知
$\mathbb{P}(a<\omega<b)=\frac{b-a}{2\pi}\quad\text{ for } \quad0\leq a<b<2\pi$
考察随机变量 $X(\omega)=\omega, Y(\omega)=\omega^{2}$ .

随机变量 $X,Y$ 的分布函数分别为

$F_{X}(x)=\left\{\begin{array}{cl} {0,} & {x \leq 0,} \\ {\frac{x}{2\pi},} & {0 \leq x<2 \pi,} \\ {1,} & {x \geq 2 \pi,} \end{array} \quad F_{Y}(y)=\left\{\begin{array}{cl} {0,} & {y \leq 0} \\ {\frac{\sqrt{y}}{2\pi},} & {0 \leq y<4 \pi^{2}} \\ {1,} & {y \geq 4 \pi^{2}} \end{array}\right.\right.$

为了说明这一点，设 $0 \leq x<2 \pi$ 且 $0 \leq y<4 \pi^{2}$ ，有

$\begin{aligned} F_{X}(x) &=\mathbb{P}(\{\omega \in \Omega\mid 0 \leq X(\omega) \leq x\}) \\ &=\mathbb{P}(\{\omega \in \Omega\mid 0 \leq \omega \leq x\})=\frac{x}{2\pi}\\ F_{Y}(y) &=\mathbb{P}(\{\omega\in\Omega\mid Y(\omega) \leq y\}) \\ &=\mathbb{P}(\left\{\omega\in\Omega\mid \omega^{2} \leq y\right\})=\mathbb{P}(\{\omega\in\Omega\mid 0 \leq \omega \leq \sqrt{y}\})\\& =\mathbb{P}(X \leq \sqrt{y}) =\frac{\sqrt{y}} {2 \pi} \end{aligned}$

随机变量 $X,Y$ 是连续型的，因为

$F_{X}(x)=\int_{-\infty}^{x} f_{X}(u) d u, \quad F_{Y}(y)=\int_{-\infty}^{y} f_{Y}(u) d u$

其中

$f_{X}(u)=\left\{\begin{array}{cl} {\frac{1}{2\pi},} & {\text { if } 0 \leq u \leq 2 \pi} \\ {0,} & {\text { otherwise }} \end{array}\right.$

$f_{Y}(u)=\left\{\begin{array}{cl} {\frac{1}{4\pi\sqrt{u}},} & {\text { if } 0 \leq u \leq 4 x^{2}} \\ {0,} & {\text { otherwise }} \end{array}\right.$

Example 5. Mixed variables(混合型随机变量). 投掷一枚硬币，正面朝上的概率为 $p$ ，若正面朝上，则进行一次 Example 4 中的试验，则样本空间
$\Omega=\{\mathrm{T}\} \cup\{(\mathrm{H}, x)\mid 0 \leq x<2 \pi\}$
设随机变量 $X: \Omega \rightarrow \mathbb{R}$ 定义为
$X(\mathrm{T})=-1, \quad X((\mathrm{H}, x))=x$

随机变量 $X$ 的取值集合为 $\{-1\} \cup[0,2 \pi)$ ，设 $q=1-p$ ，则分布函数如下：

我们发现

X

既不是离散的，又不是连续的，而是二者混合的产物。

Exercise 6. 设随机变量 $X$ 的分布函数为
$\mathbb{P}(X \leq x)=\left\{\begin{array}{ll} {0} & {\text { if } x \leq 0} \\ {x} & {\text { if } 0<x \leq 1} \\ {1} & {\text { if } x>1} \end{array}\right.$
设 $F$ 为严格递增且连续的分布函数，证明： $Y=F^{-1}(X)$ 是随机变量且有分布函数 $F$ .

难度：★★☆☆☆（点击查看答案）

首先 $Y$ 是随机变量，因为

$\{Y \leq y\}=\{F^{-1}(X)\leq y\}=\{X\leq F(Y)\} \in \mathcal{F}$

其次 $Y$ 的分布函数为 $F$ ，因为

$\mathbb{P}(Y \leq y)=\mathbb{P}\left(F^{-1}(X) \leq y\right)=\mathbb{P}(X \leq F(y))=F(y)$

Exercise 7. 设随机变量 $X$ 有连续的分布函数 $F$ ， $G$ 是严格递增的连续函数，求下列随机变量的分布函数：
（1） $X^{2}$
（2） $\sqrt{X}(X>0)$
（3） $\sin{X}$
（4） $G^{-1}(X)$
（5） $F(X)$
（6） $G^{-1}(F(x))$

难度：★★★☆☆（点击查看答案）

（1）对于 $y\geq 0$ 有

$\mathbb{P}\left(X^{2} \leq y\right)=\mathbb{P}(X \leq \sqrt{y})-\mathbb{P}(X<-\sqrt{y})=F(\sqrt{y})-F(-\sqrt{y})$

（2）对于 $y\geq 0$ 有

$\mathbb{P}(\sqrt{X} \leq y)=\mathbb{P}\left(0 \leq X \leq y^{2}\right)=F\left(y^{2}\right)$

（3）对于 $-1\leq y\leq 1$ 有

$\begin{aligned} \mathbb{P}(\sin X \leq y) &=\sum_{n=-\infty}^{\infty} \mathbb{P}\left((2 n+1) \pi-\sin ^{-1} y \leq X \leq(2 n+2) \pi+\sin ^{-1} y\right) \\ &=\sum_{n=-\infty}^{\infty}\left\{F\left((2 n+2) \pi+\sin ^{-1} y\right)-F\left((2 n+1) \pi-\sin ^{-1} y\right)\right\} \end{aligned}$

（4）对于 $y\in \mathbb{R}$ 有

$\mathbb{P}\left(G^{-1}(X) \leq y\right)=\mathbb{P}(X \leq G(y))=F(G(y))$

（5）对于 $0\leq y\leq 1$ 有

$\mathbb{P}(F(X) \leq y)=\mathbb{P}\left(X \leq F^{-1}(y)\right)=F\left(F^{-1}(y)\right)=y$

若 $F$ 不是严格递增的话会有一些麻烦，这种情况下只需要定义 $F^{-1}(y)=\sup \{x\mid F(x)=y\}$ 即可。

（6）对于 $y\in \mathbb{R}$ 有

$\mathbb{P}\left(G^{-1}(F(X)) \leq y\right)=\mathbb{P}(F(X) \leq G(y))=G(y)$

4、Worked examples(一些例子)

Example 1. Darts(飞镖). 用飞镖打半径为 $3$ 的靶子，将击中的点作为试验的结果，假设玩家不会脱靶，以靶心为坐标原点，则样本空间为
$\Omega=\left\{(x, y)\mid x^{2}+y^{2}<9\right\}$
假设飞镖落在靶上某一区域 $A$ 的概率为
$\mathbb{P}(A)=\frac{|A|}{S}=\frac{|A|}{9\pi}$
计分系统如下：将靶子用半径分别为 $1,2,3$ 的圆 $C_{1},C_{2},C_{3}$ 划分为三个圆环 $A_{1},A_{2},A_{3}$ ，即
$A_{k}=\{(x, y)\mid k-1 \leq \sqrt{x^{2}+y^{2}}<k\}$
若飞镖落在区域 $A_{k}$ ，记玩家得 $k$ 分，设随机变量 $X$ 表示玩家的得分，则
$X(\omega)=k \quad \text { whenever } \quad \omega \in A_{k}$
求随机变量 $X$ 对应的分布函数。

显然，对于 $k=1,2,3$ ，有

$\mathbb{P}(X=k)=\mathbb{P}\left(A_{k}\right)=\frac{|A_{k}|}{9\pi}=\frac{2k-1}{9}$

因此随机变量 $X$ 的分布函数为

$F_{X}(r)=\mathbb{P}(X \leq r)=\left\{\begin{array}{cl} {0} & {,r<1} \\ {\frac{1}{9}\lfloor r\rfloor^{2}} & {,1 \leq r<3} \\ {1} & {,r \geq 3} \end{array}\right.$

由图像可知， $X$ 是离散型随机变量。

Example 2. Continuation of (1). 我们在 Example 1 的基础上改进计分方法，新的计分方法将得分定义为飞镖落点 $\omega$ 到靶心的距离，设随机变量 $Y$ 表示新的得分，则
$Y(\omega)=\sqrt{x^{2}+y^{2}}, \quad \text { if } \quad \omega=(x, y)$
求随机变量 $Y$ 对应的分布函数。

定义区域 $C_{r}$ 表示以靶心的圆心， $r$ 为半径的圆，即

$C_{r}=\left\{(x, y)\mid x^{2}+y^{2} \leq r\right\}$

因此随机变量 $Y$ 的分布函数为

$F_{Y}(r)=\mathbb{P}(Y \leq r)=\mathbb{P}\left(C_{r}\right)=\frac{r^{2}}{9},\quad 0\leq r\leq 3$

由图像可知， $Y$ 是连续型随机变量。

Example 3. Continuation of (1). 我们在 Example 1 的基础上考虑脱靶的情况，若飞镖有 $p$ 的概率脱靶，脱靶时得 $4$ 分，而落在靶上时的概率分布不变，计分方法也不变，求对应随机变量 $Z$ 的分布函数。

显然 $Z\in [0,4]$ ，根据全概率公式，

$\begin{aligned}F_{Z}(r) &=\mathbb{P}(Z \leq r)\\ &=\mathbb{P}(Z \leq r | \text {hits target}) \mathbb{P}(\text {hits target})+\mathbb{P}(Z \leq r | \text {misses target}) \mathbb{P}(\text {misses target})\\ &=\left\{\begin{array}{cl} {0} & {,r<0} \\ {(1-p) F_{Y}(r)} & {,0 \leq r<4} \\ {1} & {,r \geq 4} \end{array}\right. \end{aligned}$

由图像可知， $Z$ 是混合型随机变量。

5、Random Vectors(随机向量)

设 $X,Y$ 为概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 下的随机变量，它们的分布函数 $F_{X},F_{Y}$ 描述了对应的概率分布，但是我们如何得知 $X,Y$ 之间的关系呢？

我们可以把 $X,Y$ 看成一个整体，即随机向量 $(X,Y)\in\mathbb{R}^{2}$ .

Example 1. Tontine(联合养老保险) 是一种订阅者在有生之年每年从养老基金中领取年金的体系，当其它订阅者逝世时，该年金增加，直至最后一人逝世，基金上缴法国政府。显然基金的分配与所有订阅者的寿命 $L_{1}, L_{2}, \ldots, L_{n}$ 有关，我们可以用向量 $\left(L_{1}, L_{2}, \ldots, L_{n}\right)$ 作为随机变量研究相关问题。

Example 2. 用飞镖射击标靶，飞镖的落点到靶心的距离记为 $R$ ，与朝上的铅垂线沿顺时针方向的夹角记为 $\Theta$ ，得分记为 $S$ 。我们可以用随机向量 $(R, \Theta, S)$ 描述一次射击试验，且 $S$ 是关于 $(R, \Theta)$ 的函数。

Example 3. 重复投掷一枚硬币 $n$ 次，随机变量 $X_{i}$ 的值为 $0$ 或 $1$ 分别对应反面朝上和正面朝上，向量
$\mathbf{X}=\left(X_{1}, X_{2}, \ldots, X_{n}\right)$
描述了这个复合试验的结果。

我们知道随机变量 $X$ 的分布函数 $F_{X}$ 定义为 $F_{X}(x)=\mathbb{P}(X \leq x)$ .

类似的，我们可以定义随机向量 $\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ 的分布函数为

$\mathbb{P}\left(X_{1} \leq x_{1}, X_{2} \leq x_{2}, \ldots, X_{n} \leq x_{n}\right)$

为了叙述方便，我们定义一下实向量间的大小关系，若两向量

$\mathbf{x}=\left(x_{1}, x_{2}, \ldots, x_{n}\right),\mathbf{y}=\left(y_{1}, y_{2}, \dots, y_{n}\right)$

对于所有的 $i\in [1,n]$ 满足 $x_{i}\leq y_{i}$ ，则记向量 $\mathbf{x} \leq \mathbf{y}$ .

Definition 4. 概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 下的随机向量 $\mathbf{X}=\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ 的 joint distribution function(联合分布函数) $F_{\mathbf{X}}: \mathbb{R}^{n} \rightarrow[0,1]$ 定义为
$F_{\mathbf{X}}(\mathbf{x})=\mathbb{P}(\mathbf{X} \leq \mathbf{x})\quad \text{ for}\quad \mathbf{x} \in \mathbb{R}^{n}$

与前文一样， $\{\mathbf{X} \leq \mathbf{x}\}$ 是事件 $\{\omega \in \Omega\mid \mathbf{X}(\omega) \leq \mathbf{x}\}$ 的简写。

联合分布函数与普通的分布函数有着类似的性质。

Lemma 5. 随机向量 $(X, Y)$ 的联合分布函数 $F_{X,Y}$ 有如下性质：
（1）无穷处有界：
$\lim _{x, y \rightarrow-\infty} F_{X, Y}(x, y)=0, \quad\lim _{x, y \rightarrow \infty} F_{X, Y}(x, y)=1$
（2）单调不减：
$(x_{1},y_{1})\leq (x_{2},y_{2})\Rightarrow F_{X, Y}\left(x_{1}, y_{1}\right) \leq F_{X, Y}\left(x_{2}, y_{2}\right)$
（3）右连续：
$\lim_{u,v\rightarrow 0^{+}}{F_{X, Y}(x+u, y+v)}=F_{X, Y}(x, y)$

我们陈述该引理时用的是 $2$ 维的随机变量，事实上对于 $n$ 维的随机向量也是成立的，证明从略。

从性质 $(1)$ 可以看出

$\lim _{y \rightarrow \infty} F_{X, Y}(x, y)=\mathbb{P}(X \leq x)=F_{X}(x)$

$\lim _{x \rightarrow \infty} F_{X, Y}(x, y)=\mathbb{P}(Y \leq y)=F_{Y}(y)$

也就是说，可以从联合分布函数推导出 $X,Y$ 的分布函数，但是反过来不行，通常情况下仅知道 $X,Y$ 的分布函数不能推导出联合分布函数。

函数 $F_{X},F_{Y}$ 称为 $F_{X,Y}$ 的 marginal distribution function(边际分布函数).

Example 6. 老师要求班上的每位学生投掷两次均匀硬币并记录下结果，听话的学生 $D$ 按照要求记录下 $(X_{D},Y_{D})$ 作为结果，而调皮的学生 $L$ 仅投掷一次并记录下 $(X_{L},Y_{L})$ 作为结果，其中 $X_{L}=Y_{L}$ ，显然 $X_{D},Y_{D},X_{L},Y_{L}$ 是随机变量且分布函数相同，但是 $(X_{D},Y_{D})$ 和 $(X_{L},Y_{L})$ 的联合分布函数不同，比如
$\mathbb{P}\left(X_{D}=Y_{D}=\text{head}\right)=\frac{1}{4}$ $\mathbb{P}\left(X_{L}=Y_{L}=\text{head}\right)=\frac{1}{2}$

Definition 7. 随机向量 $(X,Y)$ 称为离散型随机向量，当且仅当 $(X,Y)$ 的取值集合为 $\mathbb{R}^{2}$ 的可数子集，且 $(X,Y)$ 的 joint probability mass function(联合概率质量函数) $f: \mathbb{R}^{2} \rightarrow [0,1]$ 定义为
$f(x, y)=\mathbb{P}(X=x, Y=y)$

Definition 8. 随机向量 $(X,Y)$ 称为连续型随机向量，当且仅当 $(X,Y)$ 的联合分布函数可以表示为
$F_{X, Y}(x, y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u, v) d u d v \quad x, y \in \mathbb{R}$
其中，积分函数 $f: \mathbb{R}^{2} \rightarrow[0, \infty)$ 称为 $(X,Y)$ 的 joint probability density function(联合概率密度函数).

Example 9. Three-sided coin(三个面的硬币). 给定一个三个面的硬币，每次投掷有三种可能的结果：正面朝上 $(H)$ ，反面朝上 $(T)$ ，侧面朝上 $(E)$ ，且每种结果的概率都是 $\frac{1}{3}$ ，设 $H_{n},T_{n},E_{n}$ 表示 $n$ 次投掷得到的每种结果的数量，则随机向量 $\left(H_{n}, T_{n}, E_{n}\right)$ 满足
$H_{n}+T_{n}+E_{n}=n$ 若 $n$ 次投掷相互独立，则不难看出
$\mathbb{P}\left(\left(H_{n}, T_{n}, E_{n}\right)=(h, t, e)\right)=\frac{n !}{h ! t ! e !}\left(\frac{1}{3}\right)^{n}$ 其中 $(h,t,e)$ 为非负三元组， $\left(H_{n}, T_{n}, E_{n}\right)$ 为离散型随机向量，且服从 trinomial distribution(三项分布).

Example 10. Darts(飞镖). 考虑 Example 2 中的飞镖打靶模型，若飞镖的落点在标靶上任意一点的概率相等，设标靶半径为 $\rho$ ，则
$\mathbb{P}(R \leq r)=\frac{r^{2}}{\rho^{2}}, \quad \mathbb{P}(\Theta \leq \theta)=\frac{\theta}{2 \pi}$
其中 $0 \leq r \leq \rho, 0 \leq \theta \leq 2 \pi$ ，并且
$\mathbb{P}(R \leq r, \Theta \leq \theta)=\mathbb{P}(R \leq r) \mathbb{P}(\Theta \leq \theta)$
由此得到
$F_{R, \Theta}(r, \theta)=\frac{r^{2}\theta}{2\pi\rho^{2}}=\int_{0}^{r} \int_{0}^{\theta} \frac{u}{\pi \rho^{2}} d u d v$
因此 $(R,\Theta)$ 为连续型随机向量。

Exercise 11. 随机向量 $(X,Y)$ 有联合分布函数
$F_{X, Y}(x, y)=\left\{\begin{array}{ll} {0} & {\text { if } x<0} \\ {\left(1-e^{-x}\right)\left(\frac{1}{2}+\frac{1}{\pi} \tan ^{-1} y\right)} & {\text { if } x \geq 0} \end{array}\right.$
证明： $(X,Y)$ 是连续型随机向量。

难度：★☆☆☆☆（点击查看答案）

通过求导可以得到

$f_{X, Y}(x, y)=\frac{e^{-x}}{\pi\left(1+y^{2}\right)} ,\quad x \geq 0, y \in \mathbb{R}$

Exercise 12. 设 $(X,Y)$ 有联合分布函数 $F$ ，证明：
$\mathbb{P}(a<X \leq b, c<Y \leq d)=F(b, d)-F(a, d)-F(b, c)+F(a, c)$
其中 $a<b,c<d$ .

难度：★★☆☆☆（点击查看答案）

设 $A=\{X \leq b, c<Y \leq d\}, B=\{a<X \leq b, Y \leq d\}$ ，则

$\begin{aligned}\mathbb{P}(a<X \leq b, c<Y \leq d) &=\mathbb{P}(A \cap B)\\ &=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cup B)\\ &=F(b, d)-F(b, c)+F(b, d)-F(a, d)-(F(b, d)-F(a, c))\\ &=F(b, d)-F(a, d)-F(b, c)+F(a, c) \end{aligned}$

Exercise 13. 判断
$F(x, y)=1-e^{-x y}, 0 \leq x, y<\infty$
是否为某随机向量的联合分布函数。

难度：★★☆☆☆（点击查看答案）

$f(x,y)=\frac{\partial^{2}{F}}{\partial{x}\partial{y}}=1-xye^{-xy}$

不能保证在定义域内恒大于等于 $0$ ，故 $F$ 不是联合分布函数。

6、Monte Carlo simulation(蒙特卡罗模拟)

通常情况下，在投掷硬币的试验中，硬币的物理状态对试验结果有很大的影响，我们需要对硬币进行检验，但是物理检验非常复杂，我们可以用模拟试验的方法进行检验，即重复试验多次，并记录下试验结果的比例。

类似的，轮盘赌玩家在赌局开始前总是仔细检测轮盘，防止有人做手脚，不幸的是，赌场总是技高一筹。

我们考虑一个问题，重复投掷一枚均匀的硬币 $50$ 次，问结果序列 $\text{HTHHT}$ 出现的概率。我们当然可以准确地算出这个概率，但是如果只要求近似值，我们可以进行 $50N$ 次试验，每 $50$ 次试验中检验是否出现这个序列，那么选取的 $N$ 足够大时，所求的概率就足够精确。

现实世界的很多事情都可以用这种方法计算概率，但是受限于计算速度与计算机内存，真正实施起来困难重重。

Example 1. Gambler's ruin revisited(赌徒破产问题再论). Example 1.6.3 中的赌徒经过长时间的赌硬币赢得了他的捷豹汽车，现在他打算攒钱买一艘 jacht(游艇)，银行经理提议，为了加速赌局的进程，每一局的赌资应按照一个事先规定好的关于这个赌徒的运气的函数进行变化。赌徒想要知道自己最终获胜的概率，但是他发现无法计算。幸运的是，在赢取捷豹汽车的过程中，赌徒得到了一个极长的硬币结果序列，于是他用该序列在新的条件下进行模拟，当破产或赢得游艇时，从序列当前位置开始进行下一轮试验，这样当进行 $N$ 次试验时，模拟结果是赢得游艇的次数除以 $N$ 就是获胜概率的近似值。

事实上，这种方法得到的结果是不正确的，应该重新投掷硬币而不是直接使用现成的序列。

Example 2. A dam(水坝). 政府计划修建一座水坝用来控制水资源供应及夏季防洪，水坝造价昂贵，有必要协调价格与风险，于是政府决定水坝的高度应恰好保证十年内被洪水冲垮的概率小于 $1\%$ ，没有人知道这个确切高度。此时，一位年轻的概率学家提出了一个方案，通过查询已有的降水量记录和供水需求，可以建立一个可接受的需求供给模型，这个模型包括对未来一段时间降水量分布的估计，然后借助计算机对不同的水坝高度进行多次模拟，根据模拟的结果可以精确地估计水坝的高度。

Example 3. Integration(积分). 设函数 $g:[0,1] \rightarrow[0,1]$ 处处连续但不可导，计算
$I=\int_{0}^{1} g(x) d x$
设随机向量 $(X,Y)$ 在单位正方形 $[0,1]^{2}$ 内服从 uniform distribution(均匀分布)，即该单位正方形内的任意区域 $A$ 满足
$\mathbb{P}((X, Y) \in A)=|A|$
当 $(X,Y)$ 满足 $Y\leq g(X)$ 时，称本次试验成功，那么试验成功的概率就是我们要求的积分 $I$ ，如此重复试验 $N$ 次，记下成功的试验占比，根据大数定律，这个比例就是积分的近似值，至于精确度我们后面讨论。

这种实验性方法称为 hit or miss Monte Carlo technique(蒙特卡罗方法).

事实上，模拟是非常危险的，模拟得到的结果需要谨慎看待，这是因为

计算机模拟依赖于 pseudo-random number generator(伪随机数生成器)，可信度遭到广泛质疑。
使用模拟方法估计某值时，在给定的精确度下很难确定需要的模拟次数。