概率论与随机过程（一）—

第一章事件与概率

1、Introduction

人类世界的存在基础中有这样一条信仰，未来是不可预测的。

例如，对于 dice(骰子) 或者 roulette(轮盘赌) 这样的游戏，如果人们能够提前预测到结果，那么这个游戏就没有存在的必要了，对游戏玩家来说，他们相信在游戏结束前游戏的结果是不确定的。

注：轮盘赌是一种赌博方式，如图所示，玩家在对应的数字处下注，然后庄家转动轮盘，轮盘停止时指向的数字就是赢家

我们使用 random(随机) 或者 probability(概率) 这样的词来表述这种有几率赢得游戏的信仰，并且我们希望能够把这种几率用具体的数字量化。

我们对概率论的主要认知建立在大量概念的基础上，关于概率的数学理论包含这些概念，但是更应该符合大众的认知，这样的理论应该把这些概念构建成公理系统，并且符合相关实验的结论。

本章包含了这个构建过程中的必要步骤。

Exercise 1. De Morgan's laws(德摩根定律) 设 $A_{1},A_{2},\ldots$ 是一组集合，证明：
$\left(\bigcup_{i} A_{i}\right)^{\mathrm{c}}=\bigcap_{i} A_{i}^{\mathrm{c}}, \quad\left(\bigcap_{i} A_{i}\right)^{\mathrm{c}}=\bigcup_{i} A_{i}^{\mathrm{c}}$
其中， $A^{c}$ 表示集合 $A$ 的补集。

难度：★★（点击查看答案）

若 $a \in\left(\bigcup A_{i}\right)^{\mathrm{c}}$ ，则

$a \notin \bigcup A_{i}\Rightarrow a \in A_{i}^{\mathrm{c}}\Rightarrow \left(\bigcup A_{i}\right)^{\mathrm{c}} \subseteq \bigcap A_{i}^{\mathrm{c}}$

反过来，若 $a \in \bigcap A_{i}^{\mathrm{c}}$ ，则

$a \notin A_{i}\Rightarrow a \notin \bigcup A_{i}\Rightarrow \bigcap A_{i}^{\mathrm{c}} \subseteq\left(\bigcup A_{i}\right)^{\mathrm{c}}$

另一部分的证明是类似的。

2、Events as sets(事件集合)

在日常生活中，我们常说这样一句话

$\text{the chance(or probability) of A is p}$

其中 $A$ 表示一件事，比如

the sun shining tomorrow(明天是晴天)
Cambridge winning the Boat Race(剑桥赢得了划船比赛)

而 $p$ 表示一个数字或者形容数量的形容词，比如 one-eight(八分之一)，low(低).

而 $A$ 是否发生取决于一系列影响它的因素，这些因素影响 $A$ 的过程称为一次 experiment(实验) 或 trial(试验)，一次试验的 result(结果) 称为它的 outcome(结果).

注：在英文中，result 指由原因所引起的结果，而 outcome 强调事件特有的结局，表示最终的结果。

在通常情况下，我们不能在试验结束前提前预知它的结果，我们只能列出有可能出现的结果。

Definition 1. 一次试验的所有可能结果组成的集合称为 sample space(样本空间)，记作 $\Omega$

Example 2. 投掷一枚硬币，有 $2$ 种可能出现的结果，head(正面朝上) 记为 $H$ ，tail(反面朝上) 记为 $T$ ，因此 $\Omega=\{H,T\}$ ，我们考虑下面列出的一些可能发生的事件：
（1）结果正面朝上
（2）结果正面朝上或反面朝上
（3）结果正面朝上且反面朝上（看上去不太可能发生的样子）
（4）结果不是正面朝上

Example 3. 扔一枚骰子，有 $6$ 种可能出现的结果，因此
$\Omega=\{1,2,3,4,5,6\}$
我们考虑下面列出的一些可能发生的事件：
（1）结果是 $1$
（2）结果是偶数
（3）结果是不超过 $3$ 的偶数
（4）结果不是偶数

我们发现这些事件都能被表示成 $\Omega$ 的一个子集 $A$ ，例如在 Example 1 中，

（1） $A=\{H\}$
（2） $A=\{H\} \cup\{T\}$
（3） $A=\{H\} \cap\{T\}$
（4） $A=\{H\}^{c}$

而在 Example 2 中，我们列出的事件可以表示为

（1） $A=\{1\}$
（2） $A=\{2,4,6\}$
（3） $A=\{2,4,6\} \cap\{1,2,3\}$
（4） $A=\{2,4,6\}^{c}$

如果 $A$ 中仅包含一个元素，我们把它称为 Elementary event(基本事件)，例如 $\{H\}$ ，我们可以简写为 $H$ .

通常情况下，我们可以使用集合论中的记号来描述事件间的关系，比如 $A,B$ 同时发生可以记为 $A\cap B$ .

若 $A,B$ 是两个事件，那么我们可以考虑事件

$A\cap B,A\cup B,A^{c}$

若 $A\cap B=\varnothing$ ，我们称 $A,B$ 两事件 disjoint(不相容).

空集 $\varnothing$ 表示 impossible event(不可能事件)，因为其中没有元素， $\varnothing$ 代表的事件不可能发生。

全集 $\Omega$ 表示 certain event(必然事件)，因为 $\Omega$ 代表的事件一定会发生。

因此事件是 $\Omega$ 的子集，但是 $\Omega$ 的子集一定表示事件吗？答案是否定的，但是这个问题解释起来非常困难。

现在我们考虑 $\Omega$ 的一些子集构成的集合 $\mathcal{F}$ ，满足以下性质的 $\mathcal{F}$ 称为 field(域)：

（1）若 $A,B\in \mathcal{F}$ ，则 $A\cup B \in \mathcal{F}$
（2）若 $A\in \mathcal{F}$ ，则 $A^{c}\in\mathcal{F}$
（3）空集 $\varnothing \in \mathcal{F}$

因此，一个域 $\mathcal{F}$ 满足

$A_{1}, A_{2}, \ldots, A_{n} \in \mathcal{F}\Rightarrow \bigcup_{i=1}^{n} A_{i} \in \mathcal{F}$

也就是说，域 $\mathcal{F}$ 对有限个集合的 union(并运算) 封闭。

这在 $\Omega$ 是有限集的情况下是显然的，现在我们来看一个 $\Omega$ 是无限集的例子。

Example 4. 投掷一枚硬币直到出现正面朝上为止，那么样本空间为
$\Omega=\left\{\omega_{1}, \omega_{2}, \omega_{3}, \ldots\right\}$
其中 $\omega_{i}$ 表示前 $i-1$ 次投掷的结果是反面朝上且第 $i$ 次是正面朝上，记事件
$A=\left\{\omega_{2}, \omega_{4}, \omega_{6}, \ldots\right\}$
显然 $A$ 是 $\Omega$ 中的无限多个元素组成的集合，并且我们希望 $A\in \mathcal{F}$ ，以便我们讨论事件 $A$ 的概率

因此，我们需要 $\mathcal{F}$ 对可数个集合的并运算封闭，为了满足这个性质，我们把域的定义稍微改造一下。

Definition 5. 考虑样本空间 $\Omega$ 的一些子集构成的集合 $\mathcal{F}$ ，满足以下条件的 $\mathcal{F}$ 称为 $\sigma$ -field( $\sigma域$ )
（1） $\varnothing \in \mathcal{F}$
（2）若 $A_{1}, A_{2}, \ldots \in \mathcal{F}$ ，则 $\bigcup_{i=1}^{\infty} A_{i} \in \mathcal{F}$
（3）若 $A \in \mathcal{F}$ ，则 $A^{c} \in \mathcal{F}$

Example 6. 样本空间 $\Omega$ 上的最小的 $\sigma$ 域是
$\mathcal{F}=\{\varnothing, \Omega\}$

Example 7. 若 $A$ 是样本空间 $\Omega$ 下的一个事件，那么
$\mathcal{F}=\left\{\varnothing, A, A^{\mathrm{c}}, \Omega\right\}$
是 $\Omega$ 上的一个 $\sigma$ 域。

Example 8. 记 $\Omega$ 的幂集为 $\{0,1\}^{\Omega}$ ，它包含了 $\Omega$ 的所有子集，显然是一个 $\sigma$ 域。

Example 9. 根据定义我们知道 $\sigma$ 域对可数个集合的并运算封闭，事实上， $\sigma$ 域对可数个集合的 intersection(交运算) 也是封闭的，即
$A_{1}, A_{2}, \ldots, \in \mathcal{F}\Rightarrow \bigcap_{i} A_{i} \in \mathcal{F}$

证明：根据德摩根定律，

$\bigcap_{i} A_{i}=\left(\bigcup_{i} A_{i}^{c}\right)^{c}$

等式右边是可数个集合进行并运算后的补集，显然在 $\mathcal{F}$ 中。

总结一下，对于任意一个试验，有一对 $(\Omega,\mathcal{F})$ 与之对应，其中 $\Omega$ 表示所有可能的试验结果组成的集合， $\mathcal{F}$ 表示 $\Omega$ 的一些子集构成的 $\sigma$ 域，这个域包含了所有我们可能考虑的事件。

Exercise 10. 设 $\mathcal{F}$ 为 $\sigma$ 域且 $A,B\in \mathcal{F}$ ，证明：
$A \backslash B\in \mathcal{F},\quad A \triangle B \in \mathcal{F}$

难度：★★（点击查看答案）

$A \backslash B=A \cap B^{\mathrm{c}}=\left(A^{\mathrm{c}} \cup B\right)^{\mathrm{c}}$

$A \Delta B=(A \backslash B) \cup(B \backslash A)=\left(A^{\mathrm{c}} \cup B\right)^{\mathrm{c}} \cup\left(A \cup B^{\mathrm{c}}\right)^{\mathrm{c}}$

Exercise 11. 设 $\mathcal{F}$ 是 $\Omega$ 下的 $\sigma$ 域且 $B \in \mathcal{F}$ ，证明：
$\mathcal{G}=\{A \cap B\mid A \in \mathcal{F}\}$
是 $B$ 下的 $\sigma$ 域。

难度：★★★（点击查看答案）

$\varnothing \in \mathcal{F}\Rightarrow \varnothing=\varnothing \cap B \in \mathcal{G}$

$A_{1}, A_{2}, \ldots \in \mathcal{F}\Rightarrow \bigcup_{i}\left(A_{i} \cap B\right)=\left(\bigcup_{i} A_{i}\right) \cap B \in \mathcal{G}$

$A \in \mathcal{F},A^{\mathrm{c}} \in \mathcal{F}\Rightarrow B \backslash(A \cap B)=A^{\mathrm{c}} \cap B \in \mathcal{G}$

3、Probability(概率)

我们希望能够量化事件发生的几率，假设我们在相同条件下重复进行了 $N$ 次完全相同的试验，设 $A$ 是一个事件，在每一次试验中， $A$ 可能发生，也可能不发生。

大量的科学试验表明，随着试验次数 $N$ 越来越大，事件 $A$ 发生的比例逐渐趋近于一个常数，记 $N(A)$ 表示 $A$ 发生的次数，即

$\lim_{n\rightarrow \infty}\frac{N(A)}{N}=\text{A constant value}$

我们可以用这个极限值描述 $A$ 在任一试验中发生的概率 $\mathbb{P}(A)$ ，显然这个概率值在 $0$ 和 $1$ 之间。

当 $A=\varnothing$ 时， $N(\varnothing)=0$ ，因此 $\mathbb{P}(\varnothing)=0$
当 $A=\Omega$ 时， $N(\Omega)=N$ ，因此 $\mathbb{P}(\Omega)=1$

设 $A,B$ 是两个不相容的事件，那么

$N(A\cup B)=N(A)+N(B)$

因此事件 $A\cup B$ 发生的概率可以表示为

$\mathbb{P}(A \cup B)=\mathbb{P}(A)+\mathbb{P}(B)$

根据上面的讨论，概率函数 $\mathbb{P}$ 需要满足 finitely additive(有穷可加性)，即

$A_{1}, A_{2}, \ldots, A_{n} \text { are disjoint}\Rightarrow \mathbb{P}\left(\bigcup_{i=1}^{n} A_{i}\right)=\sum_{i=1}^{n} \mathbb{P}\left(A_{i}\right)$

现在我们得到的这些关系足以确定事件集中的每个事件的概率值。

我们把上面这个过程中得到的 $\mathcal{F}$ 中每个事件的概率函数称为 probability measure(概率测度).

Definition 1. 定义在 $(\Omega,\mathcal{F})$ 上的概率测度 $\mathbb{P}$ 是一个函数 $\mathbb{P}:\mathcal{F}\rightarrow[0,1]$ ，满足
（1） $\mathbb{P}(\varnothing)=0, \quad \mathbb{P}(\Omega)=1$
（2）若 $A_{1},A_{2},\ldots$ 是 $\mathcal{F}$ 中的一组不相容事件，即对于 $i\neq j$ ，有 $A_{i}\cap A_{j}=\varnothing$ ，那么
$\mathbb{P}\left(\bigcup_{i=1}^{\infty} A_{i}\right)=\sum_{i=1}^{\infty} \mathbb{P}\left(A_{i}\right)$
三元组 $(\Omega, \mathcal{F}, \mathbb{P})$ 称为 probability space(概率空间)

我们可以把概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 应用于任意试验，那么任何关于试验的问题都可以在这个概率空间下解决。

Example 2. 投掷一枚硬币（可以是不均匀的），我们可以得到
$\Omega=\{\mathrm{H}, \mathrm{T}\},\quad \mathcal{F}=\{\varnothing, \mathrm{H}, \mathrm{T}, \Omega\}$
对应的概率测度为
$\mathbb{P}(\varnothing)=0, \quad \mathbb{P}(\mathrm{H})=p, \quad \mathbb{P}(\mathrm{T})=1-p, \quad \mathbb{P}(\Omega)=1$
其中 $p\in [0,1]$ ，如果 $p=\frac{1}{2}$ ，那么这个硬币是均匀的

Example 3. 投掷一枚骰子，我们可以得到
$\Omega=\{1,2,3,4,5,6\},\quad \mathcal{F}=\{0,1\}^{\Omega}$
对应的概率测度为
$\mathbb{P}(A)=\sum_{i \in A} p_{i} \quad \text { for any } \quad A \subseteq \Omega$
其中 $p_{1}, p_{2}, \ldots, p_{6}\in [0,1]$ 且和为 $1$ ， $p_{i}$ 表示数字 $i$ 朝上的概率，如果所有的 $p_{i}=\frac{1}{6}$ ，那么这个骰子是均匀的，在这种情况下，
$\mathbb{P}(A)=\frac{1}{6}|A| \quad \text { for any } A \subseteq \Omega$
其中 $|A|$ 表示集合 $A$ 的大小。

三元组 $(\Omega, \mathcal{F}, \mathbb{P})$ 表示一般的概率空间，我们给出它的一些简单性质。

Lemma 4. 对于事件 $A$ ，有
$\mathbb{P}\left(A^{\mathrm{c}}\right)=1-\mathbb{P}(A)$

证明：我们知道

$A \cup A^{\mathrm{c}}=\Omega,\quad A \cap A^{\mathrm{c}}=\varnothing$

因此，根据概率测度的定义，

$\mathbb{P}\left(A \cup A^{c}\right)=\mathbb{P}(A)+\mathbb{P}\left(A^{c}\right)=1$

Lemma 5. 对于两事件 $A,B$ ，若 $B \supseteq A$ ，那么
$\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B \backslash A) \geq \mathbb{P}(A)$

证明：引理中， $B\backslash A$ 表示属于 $B$ 但不属于 $A$ 的元素组成的集合，因此

$B=A \cup(B \backslash A),\quad$

且 $A$ 与 $B\backslash A$ 不相容，因此

$\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B \backslash A)\geq \mathbb{P}(A)$

注：在使用 $\mathbb{P}(B \backslash A)$ 时，我们要求 $B \backslash A \in \mathcal{F}$ ，这一点我们已经在 Exercise 1.2.10 中证明。

Lemma 6. 对于两个事件 $A,B$ ，有
$\mathbb{P}(A \cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B)$
更一般的，对于 $n$ 个事件 $A_{1}, A_{2}, \ldots, A_{n}$ ，有
$\begin{aligned}\mathbb{P}\left(\bigcup_{i=1}^{n} A_{i}\right)=& \sum_{i} \mathbb{P}\left(A_{i}\right)-\sum_{i<j} \mathbb{P}\left(A_{i} \cap A_{j}\right)+\sum_{i<j<k} \mathbb{P}\left(A_{i} \cap A_{j} \cap A_{k}\right)-\cdots \\&+(-1)^{n+1} \mathbb{P}\left(A_{1} \cap A_{2} \cap \cdots \cap A_{n}\right)\end{aligned}$

证明：由于 $A \cup B=A \cup(B \backslash A)$ ，根据 Lemma 5，

$\begin{aligned}\mathbb{P}(A \cup B) &=\mathbb{P}(A)+\mathbb{P}(B \backslash A)=\mathbb{P}(A)+\mathbb{P}(B \backslash(A \cap B)) \\&=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B)\end{aligned}$

我们数学归纳法可以证明 $n$ 个事件的情况，设 $m\geq 2$ ，假设对于 $n\leq m$ 时引理成立，则

$\begin{aligned} \mathbb{P}\left(\bigcup_{i=1}^{m+1} A_{i}\right) &=\mathbb{P}\left(\bigcup_{1=1}^{m} A_{i}\right)+\mathbb{P}\left(A_{m+1}\right)-\mathbb{P}\left\{\left(\bigcup_{i=1}^{m} A_{i}\right) \cap A_{m+1}\right\} \\ &=\mathbb{P}\left(\bigcup_{i=1}^{m} A_{i}\right)+\mathbb{P}\left(A_{m+1}\right)-\mathbb{P}\left\{\bigcup_{i=1}^{m}\left(A_{i} \cap A_{m+1}\right)\right\} \end{aligned}$

等式右边的项展开后即可得到结果。

在上面的证明过程中，我们多次用到不相容事件的并的概率测度等于每个事件概率测度的和，可以看出，有些时候求事件交的概率测度比求事件并的概率测度要容易一些。

下面的这条性质更加高科技，并且说明了 $\mathbb{P}$ 是连续的集合函数，事实上，这条性质本质上等价于 $\mathbb{P}$ 具有 countable additive(可数可加性)

Lemma 7. 设 $A_{1},A_{2},\dots$ 为递增事件序列，即 $A_{1} \subseteq A_{2} \subseteq A_{3} \subseteq \cdots$ ，记 $A$ 为序列的极限
$A=\bigcup_{i=1}^{\infty} A_{i}=\lim _{i \rightarrow \infty} A_{i}$
那么
$\mathbb{P}(A)=\lim _{i \rightarrow \infty} \mathbb{P}\left(A_{i}\right)$
类似的，设 $B_{1},B_{2},\dots$ 为递减事件序列，即 $B_{1} \supseteq B_{2} \supseteq B_{3} \supseteq \cdots$ ，记 $B$ 为序列的极限
$B=\bigcap_{i=1}^{\infty} B_{i}=\lim _{i \rightarrow \infty} B_{i}$
那么
$\mathbb{P}(B)=\lim _{i \rightarrow \infty} \mathbb{P}\left(B_{i}\right)$

证明：由于

$A=A_{1} \cup\left(A_{2} \backslash A_{1}\right) \cup\left(A_{3} \backslash A_{2}\right) \cup \cdots$

是一系列不相容事件的并集，因此

$\begin{aligned} \mathbb{P}(A) &=\mathbb{P}\left(A_{1}\right)+\sum_{i=1}^{\infty} \mathbb{P}\left(A_{i+1} \backslash A_{i}\right) \\ &=\mathbb{P}\left(A_{1}\right)+\lim _{n \rightarrow \infty} \sum_{i=1}^{n-1}\left[\mathbb{P}\left(A_{i+1}\right)-\mathbb{P}\left(A_{i}\right)\right] \\ &=\lim _{n \rightarrow \infty} \mathbb{P}\left(A_{n}\right) \end{aligned}$

对于递减事件的情况，取其补集即可证明。

最后我们来看一些术语。

若事件 $A$ 满足 $\mathbb{P}(A)=0$ ，那么称 $A$ 为 null(空事件).

若事件 $A$ 满足 $\mathbb{P}(A)=1$ ，那么称 $A$ occurs almost surely(几乎必然发生).

不要把空事件与不可能事件混淆，空事件在我们身边时有发生，虽然它们发生的概率为零，比如说，扔飞镖至靶上任意一点的概率是 $0$ ，但这个事件是有可能发生的。

因此，不可能事件是空事件，而空事件不一定是不可能事件。

Example 8. 重复投掷一枚均匀的硬币，总会出现正面朝上的情况，这是因为
$\begin{aligned}\mathbb{P}(\text {some head turns up})&=1-\mathbb{P}(\text {no head ever})\\&=1-\lim _{n \rightarrow \infty} \mathbb{P}(\text {no head in first n tosses})\\&=1-\lim _{n \rightarrow \infty} 2^{-n}=1\end{aligned}$
更一般的，不停投掷这枚硬币，总会出现一个给定的试验结果序列。设 $s$ 是给定的长度为 $k$ 的试验结果序列，将总的试验结果序列划分为不相交的长度为 $k$ 的区间，则任意一段区间等于 $s$ 的概率为 $2^{-k}$ ，且相互独立，并且 前 $n$ 个区间中出现 $s$ 是 $s$ 出现在前 $nk$ 次试验 的子事件，因此
$\begin{aligned}\mathbb{P}(s \text { turns up eventually})&=\lim _{n \rightarrow \infty} \mathbb{P}(s \text { occurs in the first } n k \text { tosses})\\&\geq\lim_{n\rightarrow \infty} \mathbb{P}(s \text { occurs as one of the first } n \text { groups})\\&=1-\lim _{n \rightarrow \infty} \mathbb{P}(\text {none of the first } n \text { groups is } s)\\&=1-\lim _{n \rightarrow \infty}\left(1-2^{-k}\right)^{n}=1\end{aligned}$

根据这则例子，我们可以理解著名的 Murphy's Law(墨菲定律)：

$\text{If anything can go wrong, it will.}$

如果事情有变坏的可能，不管这种可能性有多小，它总会发生。墨菲定律本质上阐述了任何小概率事件都有可能发生。

比如在上面的例子中，连续投掷一枚硬币 $10$ 次，全部正面朝上的概率微乎其微，但是只要我们不停地投掷下去，这种情况总会发生。人生也是一样，哪怕成功的概率小到近乎为零，只要不停的尝试，总会成功。

Exercise 9. 设事件 $A,B$ 的概率分别为 $\mathbb{P}(A)=\frac{3}{4},\mathbb{P}(B)=\frac{1}{3}$ ，证明：
$\frac{1}{12} \leq \mathbb{P}(A \cap B) \leq \frac{1}{3}$
以此为经验求 $\mathbb{P}(A \cup B)$ 的上下界。

难度：★★（点击查看答案）

$\mathbb{P}(A \cap B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cup B) \geq \mathbb{P}(A)+\mathbb{P}(B)-1=\frac{1}{12}$

$\mathbb{P}(A \cap B) \leq \min \{\mathbb{P}(A), \mathbb{P}(B)\}=\frac{1}{3}$

$\mathbb{P}(A \cup B)\leq \mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B) \leq \min \{\mathbb{P}(A)+\mathbb{P}(B), 1\}=1$

$\mathbb{P}(A \cup B) \geq \max \{\mathbb{P}(A), \mathbb{P}(B)\}=\frac{3}{4}$

Exercise 10. 证明 Boole's inequality(布尔不等式)：
$\mathbb{P}\left(\bigcup_{i=1}^{n} A_{i}\right) \leq \sum_{i=1}^{n} \mathbb{P}\left(A_{i}\right), \quad \mathbb{P}\left(\bigcap_{i=1}^{n} A_{i}\right) \geq 1-\sum_{i=1}^{n} \mathbb{P}\left(A_{i}^{\mathrm{c}}\right)$

难度：★★★（点击查看答案）

先证第一个式子，当 $n=1$ 时显然成立，使用数学归纳法，假设 $n\leq m$ 时不等式成立，则

$\begin{aligned} \mathbb{P}\left(\bigcup_{i=1}^{m+1} A_{i}\right) &=\mathbb{P}\left(\bigcup_{i=1}^{m} A_{i}\right)+\mathbb{P}\left(A_{m+1}\right)-\mathbb{P}\left(\bigcup_{i=1}^{m}\left(A_{i} \cap A_{m+1}\right)\right) \\ & \leq \mathbb{P}\left(\bigcup_{i=1}^{m} A_{i}\right)+\mathbb{P}\left(A_{m+1}\right) \leq \sum_{i=1}^{m+1} \mathbb{P}\left(A_{i}\right) \end{aligned}$

第一个式子说明了一组事件同时发生的概率不大于单个事件的概率之和，证明第二个式子：

$\mathbb{P}\left(\bigcap_{i=1}^{n} A_{i}\right)=\mathbb{P}\left(\left(\bigcup_{i=1}^{n} A_{i}^{\mathrm{c}}\right)^{\mathrm{c}}\right)=1-\mathbb{P}\left(\bigcup_{i=1}^{n} A_{i}^{\mathrm{c}}\right) \geq 1-\sum_{1}^{n} \mathbb{P}\left(A_{i}^{\mathrm{c}}\right)$

Exercise 11. 设 $r\geq 1$ ，事件 $A_{r}$ 对于所有的 $r$ 满足 $\mathbb{P}(A_{r})=1$ ，证明：
$\mathbb{P}\left(\bigcap_{r=1}^{\infty} A_{r}\right)=1$

难度：★★★（点击查看答案）

根据布尔不等式有：

$\begin{aligned} \mathbb{P}\left(\bigcap_{r=1}^{\infty} A_{r}\right) &=\lim _{n \rightarrow \infty} \mathbb{P}\left(\bigcap_{r=1}^{n} A_{r}\right)=\lim _{n \rightarrow \infty}\left[1-\mathbb{P}\left(\left(\bigcap_{r=1}^{n} A_{r}\right)^{c}\right)\right] \\ &=1-\lim _{n \rightarrow \infty} \mathbb{P}\left(\bigcup_{r=1}^{n} A_{r}^{c}\right) \geq 1-\lim _{n \rightarrow \infty} \sum_{r=1}^{n} \mathbb{P}\left(A_{r}^{c}\right)=1 \end{aligned}$

Exercise 12. 给定一组事件 $A_{r}$ ， $1\leq r\leq n$ ，已知所有的 $A_{r}$ 中至少有一个发生，至多有两个发生，且
$\mathbb{P}\left(A_{r}\right)=p,\quad \mathbb{P}\left(A_{r} \cap A_{s}\right)=q, r \neq s$
证明： $p\geq \frac{1}{n}$ 且 $q\leq \frac{2}{n}$ .

难度：★★★★（点击查看答案）

$1=\mathbb{P}\left(\bigcup_{i=1}^{n} A_{r}\right)=\sum_{r} \mathbb{P}\left(A_{r}\right)-\sum_{r<s} \mathbb{P}\left(A_{r} \cap A_{s}\right)=n p-\frac{1}{2} n(n-1) q$

$p=\frac{1}{n}+\frac{1}{2}(n-1)q\geq \frac{1}{n}$

$q=\frac{2(np-1)}{n(n-1)}\leq\frac{2(n-1)}{n(n-1)}=\frac{2}{n}$

Exercise 13. 给定一组事件 $A_{r}$ ， $1\leq r\leq n$ ，已知所有的 $A_{r}$ 中至少有一个发生，至多有三个发生，至少有两个发生的概率为 $\frac{1}{2}$ ，且
$\mathbb{P}\left(A_{r}\right)=p,\quad \mathbb{P}\left(A_{r} \cap A_{s}\right)=q, r \neq s$ $\mathbb{P}\left(A_{r} \cap A_{s} \cap A_{t}\right)=x, r<s<t$
证明： $p\geq \frac{3}{2n}$ 且 $q\leq \frac{4n-5}{n(n-1)}$ .

难度：★★★★★（点击查看答案）

由于 $A_{r}$ 中至少有一个发生，有

$\begin{aligned} 1=\mathbb{P}\left(\bigcup_{i=1}^{n} A_{r}\right) &=\sum_{r} \mathbb{P}\left(A_{r}\right)-\sum_{r<s} \mathbb{P}\left(A_{r} \cap A_{s}\right)+\sum_{r<s<t} \mathbb{P}\left(A_{r} \cap A_{s} \cap A_{t}\right) \\ &=n p-\binom{n}{2} q+\binom{n}{3} x \end{aligned}$

由于 $A_{r}$ 中至少有两个发生的概率为 $\frac{1}{2}$ ，有

$\begin{aligned} \frac{1}{2}=\mathbb{P}\left(\bigcup_{r<s}\left(A_{r} \cap A_{s}\right)\right)&=\sum_{r<s} \mathbb{P}\left(A_{r} \cap A_{s}\right)-\frac{1}{2} \sum_{r<s,t<u \atop(r, s) \neq(t, u)} \mathbb{P}\left(A_{r} \cap A_{s} \cap A_{t} \cap A_{u}\right)+\cdots \\ &=\binom{n}{2}q-3\binom{n}{3}x+\binom{n}{3}x \end{aligned}$

这一点不太好推导，我们需要仔细考虑后面的项中有贡献的部分。

对于四项式，需要满足 $r<s,t<u,(r,s)\neq (t,u)$ ，所有情况为

$\left\{\begin{array}{ll} r=t：s<u \text{ or } s>u\\ r=u：t<s \\ s=t：r<u\\ s=u：r<t \text{ or } r>t \end{array}\right.\Rightarrow Ans=-\frac{1}{2}\times 6=-3$

对于六项式，需要满足 $r<s,t<u,v<w$ ，且 $(r,s),(t,u),(v,w)$ 互不相同，我们在四项式的基础上令 $(v,w)$ 按大小关系等于剩余的项，所有情况为

$\left\{\begin{array}{ll} r=t：\left\{\begin{matrix} s<u：v=s,w=u \\ s>u：v=u,w=s \end{matrix}\right.\\ r=u：t<s：v=t,w=s \\ s=t：r<u：v=r,w=u\\ s=u：\left\{\begin{matrix} r<t：v=r,w=t \\ r>t：v=t,w=r \end{matrix}\right. \end{array}\right.\Rightarrow Ans=\frac{1}{6}\times 6=1$

从八项式开始，就没有贡献了。注意到 $q$ 的下界并不是 $0$ ，因此我们联立消去 $q$ 得到

$p=\frac{3}{2n}+\frac{(n-1)(n-2)}{6}x\geq \frac{3}{2n}$

而 $x$ 的上界不为 $1$ ，因此联立消去 $x$ 得到

$q=\frac{2np-\frac{5}{2}}{\binom{n}{2}}\leq \frac{4n-5}{n(n-1)}$

4、Conditional probability(条件概率)

现实中存在许多如下形式的关于概率的描述

$\text{if B occurs, then the probability of A is p}$

其中， $A,B$ 是两个事件， $p$ 是一个描述概率的量或形容词，接下来考虑把这种概率加入到我们的理论中。

假设我们重复进行了 $N$ 次试验，每次试验考虑 $A,B$ 是否发生。

现在换一种视角，仅考虑事件 $B$ 已经发生了的试验，而不考虑其它试验，那么事件 $A$ 发生的试验占比

$\frac{N(A \cap B)}{N(B)}=\frac{\frac{N(A\cap B)}{N}}{\frac{N(B)}{N}}$

因此，在事件 $B$ 发生的前提下， $A$ 发生的概率应定义为

$\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}$

Definition 1. 若 $\mathbb{P}(B)>0$ ，那么事件 $B$ 发生的条件下事件 $A$ 发生的 conditional probability(条件概率) 定义为
$\mathbb{P}(A | B)=\frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}$

Example 2. 投掷两个均匀的骰子，已知第一个骰子点数为 $3$ ，那么总点数大于 $6$ 的概率是多少？

显然答案是 $\frac{1}{2}$ ，因为要使总点数大于 $6$ ，第二个骰子点数只能是 $\{4,5,6\}$ .

我们尝试用条件概率解释它，取 $\Omega=\{1,2,3,4,5,6\}^{2},\mathcal{F}=\{0,1\}^{\Omega}$ ，那么

$\mathbb{P}(A)=\frac{|A|}{36} ,\quad \text{for any } A \subseteq \Omega$

设事件 $B$ 表示第一个骰子点数为 $3$ ，事件 $A$ 表示总点数大于 $6$ ，则

$\begin{aligned}B&=\{(3, b)\mid 1 \leq b \leq 6\} \\ A&=\{(a, b)\mid a+b>6\}\\A \cap B&=\{(3,4),(3,5),(3,6)\}\end{aligned}$

因此

$\mathbb{P}(A | B)=\frac{\mathbb{P}(A \cap B)}{\mathbb{P}(B)}=\frac{|A \cap B|}{|B|}=\frac{3}{6}$

注：对于两集合 $A,B$ ，有 $A\times B=\{(a,b)\mid a\in A,b\in B\}$ 而 $A^{2}=A\times A$ ，因此 $\{1,2,3,4,5,6\}^{2}=\{(a,b)\mid 1\leq a,b\leq 6\}$

Example 3. 某家庭中有两个孩子，求已知至少有一个男孩的条件下，两个孩子都是男孩的概率是多少？

所有可能的情况共 $4$ 种，对应的样本空间为

$\Omega=\{\mathrm{GG}, \mathrm{GB}, \mathrm{BG}, \mathrm{BB}\}$

其中， $\mathbb{P}(\mathrm{GG})=\mathbb{P}(\mathrm{BB})=\mathbb{P}(\mathrm{GB})=\mathbb{P}(\mathrm{BG})=\frac{1}{4}$ ，因此

$\begin{aligned} \mathbb{P}(\mathrm{BB} | \text {one boy at least}) &=\mathbb{P}(\mathrm{BB} | \mathrm{GB} \cup \mathrm{BG} \cup \mathrm{BB}) \\ &=\frac{\mathbb{P}(\mathrm{BB} \cap(\mathrm{GB} \cup \mathrm{BG} \cup\mathrm{BB}))}{\mathbb{P}(\mathrm{GB} \cup \mathrm{BG} \cup \mathrm{BB})} \\ &=\frac{\mathbb{P}(\mathrm{BB})}{\mathbb{P}(\mathrm{GB} \cup \mathrm{BG} \cup\mathrm{BB})}=\frac{1}{3} \end{aligned}$

很多人会把这个问题的答案算成 $\frac{1}{2}$ ，因为他们认为

$\mathbb{P}(\mathrm{BB} | \text {one child is a boy})=\mathbb{P}(\text {the other child is a boy})$

然而这是不正确的，因为对于左边的概率测度，样本空间为 $\{\mathrm{BB},\mathrm{GB},\mathrm{BG}\}$ ，而对于右边的概率测度，样本空间为 $\{\mathrm{BB},\mathrm{GB},\mathrm{BG},\mathrm{GG}\}$ ，两者并不相等

现在我们修改一下问题，求已知年龄较小的那个孩子是男孩的条件下，两个孩子都是男孩的概率。

$\begin{aligned} \mathbb{P}(\mathrm{BB} | \text {younger is a boy}) &=\mathbb{P}(\mathrm{BB} | \mathrm{GB} \cup \mathrm{BB}) \\ &=\frac{\mathbb{P}(\mathrm{BB} \cap(\mathrm{GB} \cup \mathrm{B}))}{\mathbb{P}(\mathrm{GB} \cup \mathrm{BB})}=\frac{\mathbb{P}(\mathrm{BB})}{\mathbb{P}(\mathrm{GB} \cup \mathrm{BB})}=\frac{1}{2} \end{aligned}$

接下来的定理在概率论中非常关键，在此之前，先来介绍一个概念

对于样本空间 $\Omega$ 下的一组事件 $B_{1}, B_{2}, \dots, B_{n}$ ，如果满足

$B_{i} \cap B_{j}=\varnothing \quad \text { when } \quad i \neq j, \quad \text { and } \quad \bigcup_{i=1}^{n} B_{i}=\Omega$

那么称 $B_{1}, B_{2}, \dots, B_{n}$ 为 $\Omega$ 的一个 partition(划分).

Lemma 4. 对于事件 $A,B$ ，其中 $0<\mathbb{P}(B)<1$ ，有
$\mathbb{P}(A)=\mathbb{P}(A | B) \mathbb{P}(B)+\mathbb{P}\left(A | B^{c}\right) \mathbb{P}\left(B^{c}\right)$
更一般的，若 $B_{1}, B_{2}, \dots, B_{n}$ 是 $\Omega$ 的一个划分，且 $\mathbb{P}\left(B_{i}\right)>0$ ，那么
$\mathbb{P}(A)=\sum_{i=1}^{n} \mathbb{P}\left(A | B_{i}\right) \mathbb{P}\left(B_{i}\right)$

证明：由于 $A=(A \cap B) \cup\left(A \cap B^{\mathrm{c}}\right)$ ，且 $A \cap B$ 与 $A \cap B^{c}$ 不相容，因此

$\begin{aligned} \mathbb{P}(A) &=\mathbb{P}(A \cap B)+\mathbb{P}\left(A \cap B^{\mathrm{c}}\right) \\ &=\mathbb{P}(A | B) \mathbb{P}(B)+\mathbb{P}\left(A | B^{\mathrm{c}}\right) \mathbb{P}\left(B^{\mathrm{c}}\right) \end{aligned}$

定理第二部分的证明是类似的，这就是著名的全概率公式。

Lemma 5. Bayes formula(贝叶斯公式) 若 $A_{1}, A_{2}, \ldots, A_{n}$ 为 $\Omega$ 的一个划分，则
$\mathbb{P}\left(A_{j} | B\right)=\frac{\mathbb{P}\left(B | A_{j}\right) \mathbb{P}\left(A_{j}\right)}{\sum_{i=1}^{n} \mathbb{P}\left(B | A_{i}\right) \mathbb{P}\left(A_{i}\right)}$

证明：根据条件概率的定义，结合全概率公式，有

$\mathbb{P}\left(A_{j} | B\right)=\frac{\mathbb{P}\left(A_{j} \cap B\right)}{\mathbb{P}(B)}=\frac{\mathbb{P}\left(B | A_{j}\right) \mathbb{P}\left(A_{j}\right)}{\sum_{i=1}^{n} \mathbb{P}\left(B | A_{i}\right) \mathbb{P}\left(A_{i}\right)}$

Example 6. 给定两个完全相同的 urns(瓮)，每个瓮中都有一组除颜色外完全相同的小球，瓮Ⅰ中有 $2$ 个白球和 $3$ 个蓝球，瓮Ⅱ中有 $3$ 个白球和 $4$ 个蓝球，现在从瓮Ⅰ中随机取出一个球放入瓮Ⅱ，然后再从瓮Ⅱ中随机取出一个球，问这个球是蓝色的概率是多少？

现在我们已经足够熟练，不必再去详细地刻画问题对应的概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ .

问题中，最终球的颜色依赖于从瓮Ⅰ中取出的球的颜色。

设事件 $A$ 表示最终得到蓝球，事件 $B$ 表示从瓮Ⅰ中取出蓝球，根据 Lemma 4，

$\mathbb{P}(A)=\mathbb{P}(A | B) \mathbb{P}(B)+\mathbb{P}\left(A | B^{c}\right) \mathbb{P}\left(B^{c}\right)$

式中各部分概率都很容易计算，

$\mathbb{P}(B)=\frac{3}{5}, \quad \mathbb{P}\left(B^{c}\right)=\frac{2}{5}$

$\begin{aligned} \mathbb{P}(A | B) &=\mathbb{P} (A | \text { urn II contains 3 white and 5 blue balls})=\frac{5}{8}\\ \mathbb{P}(A | B^{c}) &=\mathbb{P}(A | \text { urn II contains 4 white and 4 blue balls) }=\frac{1}{2}\end{aligned}$

因此

$\mathbb{P}(A)=\frac{5}{8} \cdot \frac{3}{5}+\frac{1}{2} \cdot \frac{2}{5}=\frac{23}{40}$

Example 7. 有两个工厂生产 zoggles(防雾器)，其中厂Ⅰ的次品率为 $20\%$ ，厂Ⅱ次品率为 $5\%$ ，假设厂Ⅰ每周生成的防雾器是厂Ⅱ的 $2$ 倍，现在从两厂一周生产的防雾器中随机抽取一个。
（1）求抽取的防雾器不是次品的概率。
（2）若抽取的防雾器是次品，求其生产自厂Ⅰ的概率。

（1）设事件 $A$ 表示最终抽取的防雾器不是次品，事件 $B$ 表示抽取的防雾器来自厂Ⅰ，则

$\begin{aligned} \mathbb{P}(A) &=\mathbb{P}(A | B) \mathbb{P}(B)+\mathbb{P}\left(A | B^{\mathfrak{c}}\right) \mathbb{P}\left(B^{\mathfrak{c}}\right) \\ &=\frac{4}{5} \cdot \frac{2}{3}+\frac{19}{20} \cdot \frac{1}{3}=\frac{51}{60} \end{aligned}$

（2）要求的概率是 $\mathbb{P}\left(B | A^{\mathrm{c}}\right)$ ，用条件概率公式计算它

$\mathbb{P}\left(B | A^{\mathrm{c}}\right)=\frac{\mathbb{P}\left(B \cap A^{\mathrm{c}}\right)}{\mathbb{P}\left(A^{\mathrm{c}}\right)}=\frac{\mathbb{P}\left(A^{\mathrm{c}} | B\right) \mathbb{P}(B)}{\mathbb{P}\left(A^{\mathrm{c}}\right)}=\frac{\frac{1}{5} \cdot \frac{2}{3}}{1-\frac{51}{60}}=\frac{8}{9}$

最后我们看一个非常有警示意义的例子，它将时刻提醒你在计算条件概率时不能搞错逻辑关系，不严谨的定义和符号曾使很多概率研究者误入歧途，其中甚至有纯数学的奠基人 Boole(布尔).

Example 8. Prisoners' paradox(囚徒悖论). 在一个腐朽的国家里，三个囚犯 $A,B,C$ 未经审讯被关押起来，监狱的看守告诉他们，国家元首决定任意选取其中一个释放，另外两个将被枪毙，但看守不能告诉他们被释放的人是谁。囚犯 $A$ 知道自己存活的概率是 $\frac{1}{3}$ ，他秘密询问看守，要求看守告诉自己 $B,C$ 中哪一个会被枪毙。
“如果 $B$ 被释放，告诉我 $C$ 的名字。”
“如果 $C$ 被释放，告诉我 $B$ 的名字。”
“如果我被释放，随机从 $B,C$ 中选出一个名字告诉我。”
看守告诉 $A$ 囚犯 $B$ 将被枪毙，那么此时 $A$ 存活的概率是多少呢？

答案也许是 $\frac{1}{2}$ ，因为存活者可以是 $A$ 或者 $C$ ，两者存活的概率相等。

答案也许是 $\frac{1}{3}$ ，因为询问之前 $A$ 就已经知道 $B,C$ 中至少枪毙一人，询问得知 $B$ 被枪毙并没有提供更多的信息， $A$ 存活率的计算没有发生变化。

读者可以仔细思考一下这个有趣的问题，究竟哪个答案是正确的？

难度：★★★★★（点击查看答案）

设事件 $A,B,C$ 分别表示对应囚犯被释放，事件 $b$ 表示看守告诉 $A$ 囚犯 $B$ 会被枪毙，根据贝叶斯公式

$\begin{aligned} P(A | b) &=\frac{P(b | A) P(A)}{P(b | A) P(A)+P(b | B) P(B)+P(b | C) P(C)} \\ &=\frac{\frac{1}{2} \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3}+0 \times \frac{1}{3}+1 \times \frac{1}{3}}=\frac{1}{3} \end{aligned}$

其中 $P(b | A)=\frac{1}{2}$ ，这是因为在 $A$ 被释放的情况下，看守可以告诉 $A$ 囚犯 $B$ 或 $C$ 被枪毙。

然而 $P(b | C)=1$ ，这是因为在 $C$ 被释放的情况下，看守只能告诉 $A$ 囚犯 $B$ 被枪毙。我们还可以算出

$\begin{aligned} P(C | b) &=\frac{P(b | C) P(C)}{P(b | A) P(A)+P(b | B) P(B)+P(b | C) P(C)} \\ &=\frac{1 \times \frac{1}{3}}{\frac{1}{2} \times \frac{1}{3}+0 \times \frac{1}{3}+1 \times \frac{1}{3}}=\frac{2}{3} \end{aligned}$

和囚徒悖论类似的问题还有很多，比如下面这个。

Exercise 9. Monty Hall problem(蒙提霍尔问题) 在一场真人秀中，参赛者面前有三扇关闭着的门，其中一扇的后面藏着一辆汽车，另外两扇门后面则各藏有一只山羊，选中后面有车的那扇门就可以赢得该汽车。当参赛者选定了一扇门，但未去开启它的时候，事先知道情况的主持人会开启剩下两扇门中的一扇，露出藏着的一只山羊。主持人其后问参赛者要不要更换选择，选另一扇仍然关着的门。如果你是参赛者，你将如何选择？

难度：★★★★（点击查看答案）

所有等可能的情况如下：

参赛者挑山羊一号，主持人挑山羊二号，更换赢得汽车
参赛者挑山羊二号，主持人挑山羊一号，更换赢得汽车
参赛者挑汽车，主持人挑任意一头山羊，更换结果失败

因此 $\mathbb{P}(\text{change})=\frac{2}{3}$ ，应该更换。很多人误以为换与不换的概率都是 $\frac{1}{2}$ ，这是因为他们混淆了 主持人随机打开一扇门结果是山羊 和 主持人打开一扇有山羊的门 两事件。

5、Independence(独立性)

很多情况下，事件 $B$ 的发生会改变事件 $A$ 发生的概率，也就是说

$\mathbb{P}(A)\rightarrow \mathbb{P}(A | B)$

如果 $A$ 的概率没有发生变化，也就是 $\mathbb{P}(A | B)=\mathbb{P}(A)$ ，那么我们称事件 $A,B$ 是 independent(独立的).

Definition 1. 事件 $A,B$ 是独立的，当且仅当
$\mathbb{P}(A \cap B)=\mathbb{P}(A) \mathbb{P}(B)$
更一般的，一组事件 $\left\{A_{i}\mid i \in I\right\}$ 是独立的，当且仅当
$\mathbb{P}\left(\bigcap_{i \in J} A_{i}\right)=\prod_{i \in J} \mathbb{P}\left(A_{i}\right)$
对于 $I$ 的所有有限子集 $J$ 成立。

注：我们常犯的一种错误就是混淆独立事件和不相容事件。

$A,B$ 独立的条件是 $\mathbb{P}(A \cap B)=\mathbb{P}(A) \mathbb{P}(B)$

$A,B$ 不相容的条件是 $A \cap B=\varnothing$

如果一组事件 $\left\{A_{i}\mid i \in I\right\}$ 满足

$\mathbb{P}\left(A_{i} \cap A_{j}\right)=\mathbb{P}\left(A_{i}\right) \mathbb{P}\left(A_{j}\right)\quad \text{for all } i \neq j$

那么我们称这组事件 pairwise independent(两两独立).

Example 2. 设
$\Omega=\{a b c, a c b, c a b, c b a, b c a, b a c, a a a, b b b, c c c\}$
那么 $\Omega$ 中的 $9$ 个基本事件的概率都是 $\frac{1}{9}$ . 设事件 $A_{k}$ 表示第 $k$ 个字母是 $a$ ，那么事件组 $\left\{A_{1}, A_{2}, A_{3}\right\}$ 不独立，但是满足两两独立。

$\mathbb{P}(A_{1})=\mathbb{P}(A_{2})=\mathbb{P}(A_{3})=\frac{1}{3}$

$\mathbb{P}(A_{1}\cap A_{2})=\frac{1}{9}=\mathbb{P}(A_{1})\mathbb{P}(A_{2})$

$\mathbb{P}(A_{1}\cap A_{3})=\frac{1}{9}=\mathbb{P}(A_{1})\mathbb{P}(A_{3})$

$\mathbb{P}(A_{2}\cap A_{3})=\frac{1}{9}=\mathbb{P}(A_{2})\mathbb{P}(A_{3})$

$\mathbb{P}(A_{1}\cap A_{2}\cap A_{3})=\frac{1}{9}\neq \mathbb{P}(A_{1})\mathbb{P}(A_{2})\mathbb{P}(A_{3})$

Example 3. 从一副 $52$ 张的扑克牌中随机抽取一张，抽到的牌的花色和点数是独立的。比如说
$\mathbb{P}(黑桃K)=\frac{1}{52}=\frac{1}{4}\cdot\frac{1}{13}=\mathbb{P}(K)\mathbb{P}(黑桃)$

设事件 $C$ 满足 $\mathbb{P}(C)>0$ ，那么事件称 $A,B$ 关于 $C$ 条件独立，当且仅当

$\mathbb{P}(A \cap B | C)=\mathbb{P}(A | C) \mathbb{P}(B | C)$

条件独立也可以扩展到一组事件，我们将在习题中看到它。

Exercise 4. 若事件 $A,B$ 独立，证明：
$A^{c},B \text{ are independent}$

难度：★（点击查看答案）

$\begin{aligned} \mathbb{P}\left(A^{\mathrm{c}} \cap B\right) &=\mathbb{P}(B \backslash\{A \cap B\})=\mathbb{P}(B)-\mathbb{P}(A \cap B) \\ &=\mathbb{P}(B)-\mathbb{P}(A) \mathbb{P}(B)=\mathbb{P}\left(A^{\mathrm{c}}\right) \mathbb{P}(B) \end{aligned}$

Exercise 5. 设 $\Omega=\{1,2, \ldots, p\}$ ，其中 $p$ 为素数， $\mathcal{F}$ 由 $\Omega$ 的所有子集构成，且
$\mathbb{P}(A)=\frac{|A|}{p},\quad \text{for } A\in\mathcal{F}$
证明：若事件 $A,B$ 独立，则 $A,B$ 中至少有一个是 $\varnothing$ 或 $\Omega$ .

难度：★★（点击查看答案）

设 $|A|=a,|B|=b,|A \cap B|=c$ ，由 $A,B$ 独立得

$\frac{c}{p}=\frac{a}{p}\cdot \frac{b}{p}\Rightarrow ab=pc$

若 $ab=0$ ，则 $A,B$ 中至少有一个 $\varnothing$ .

若 $ab\neq 0$ ，则 $p|ab$ ，而 $p$ 是素数，因此 $p|a$ 或 $p|b$ ，即 $A,B$ 中至少有一个 $\Omega$ .

Exercise 6. Galton's paradox(高尔顿悖论) 投掷三枚均匀的硬币，至少有两枚结果相同，另外一枚正面或反面朝上的概率都是 $\frac{1}{2}$ ，因此
$\mathbb{P}(\text{all alike})=\frac{1}{2}$
这与我们直接计算得到的 $\frac{1}{4}$ 不同，你怎么看？

难度：★★（点击查看答案）

当我们看到至少有两枚硬币结果相同时，试验已经结束了，此时第三枚硬币的状态已经确定，两种结果并不是等概率的。

6、Worked examples(一些例子)

Example 1. 考虑桥牌发牌过程，事件 $A$ 表示一轮发牌后每个玩家都有一张 ace(A牌)，证明在 $7$ 轮游戏中事件 $A$ 至少发生一次的概率是 $\frac{1}{2}$ .

桥牌使用的是一副去掉大小王的 $52$ 张的扑克牌，随机分发给 $4$ 名玩家，因此发牌的方案数为 $\frac{52!}{(13!)^{4}}$ ，把 $4$ 张 $A$ 牌分给 $4$ 名玩家有 $4!$ 种方案，随机分发剩余的牌方案数为 $\frac{48!}{(12!)^{4}}$ ，因此

$\mathbb{P}(A)=\frac{4 ! 48 ! /(12 !)^{4}}{52 ! /(13 !)^{4}} \approx \frac{1}{10}$

设事件 $B_{i}$ 表示事件 $A$ 在第 $i$ 轮游戏中第一次发生，那么

$\mathbb{P}(B_{i})=\mathbb{P}\left(A^{\mathrm{c}}\right)^{i-1} \mathbb{P}(A)\approx\left(1-\frac{1}{10}\right)^{i-1} \frac{1}{10}$

显然所有的 $B_{i}$ 都是不相容的，因此

$\mathbb{P}(A \text { occurs in seven deals})=\sum_{i=1}^{7} \mathbb{P}\left(B_{i}\right) \approx \sum_{i=1}^{7}\left(\frac{9}{10}\right)^{i-1} \frac{1}{10} \approx \frac{1}{2}$

你能想到更简单的方法得到答案吗？

$\mathbb{P}(A \text { occurs in seven deals})=1-\mathbb{P}\left(A^{\mathrm{c}}\right)^{7}\approx \frac{1}{2}$

Example 2. 从 $A$ 到 $B$ 有两条路，从 $B$ 到 $C$ 有两条路，时值腊月，大雪纷飞，这四条路中的每一条都有 $p$ 的概率被封锁，且相互独立，求从 $A$ 出发能够到达 $C$ 的概率。

根据事件的独立性

$\begin{aligned}\mathbb{P}(\text {open road})=&\mathbb{P}(\text {(open road from } \mathrm{A} \text { to } \mathrm{B}) \cap \text { (open road from } \mathrm{B} \text { to } \mathrm{C}))\\ =&\mathbb{P}(\text {open road from } \mathrm{A} \text { to } \mathrm{B}) \mathbb{P}(\text {open road from } \mathrm{B} \text { to } \mathrm{C})\end{aligned}$

由于所有路段被封锁的概率都是 $p$ ，得到

$\begin{aligned} \mathbb{P}(\text {open road}) &=(1-\mathbb{P}(\text {no road from } \mathrm{A} \text { to } \mathrm{B}))^{2} \\ &=\{1-\mathbb{P}(\text {(first road blocked)} \cap(\text {second road blocked}))\}^{2} \\ &=\{1-\mathbb{P}(\text {first road blocked}) \mathbb{P}(\text {second road blocked})\}^{2}\\&=(1-p^2)^2 \end{aligned}$

如果增加一条从 $A$ 直接到 $C$ 的路，同样有 $p$ 的概率被封锁，那么

$\begin{aligned}\mathbb{P}(\text {open road})&=\mathbb{P}(\text {open road} | \text {direct road blocked})\cdot p+\mathbb{P}(\text {open road} | \text {direct road open}) \cdot(1-p)\\&=\left(1-p^{2}\right)^{2} \cdot p+1 \cdot(1-p)\end{aligned}$

Example 3 Gambler's ruin(赌徒破产). 有个赌徒想要攒钱购买售价 $N$ 美元的 Jaguar(捷豹汽车)，他现在的存款共有 $k$ 美元，且 $0<k<N$ ，他想通过和银行经理赌博的方式赢取剩下的钱。游戏规则是这样的，每次投掷一枚均匀的硬币，若正面朝上，银行经理付给他 $1$ 美元，若反面朝上，他付给银行经理 $1$ 美元，游戏重复进行，直到他能够买得起汽车或者输光了所有的钱为止，求此人最终破产的概率。

设事件 $A$ 表示最终破产，事件 $B$ 表示第一次投掷硬币正面朝上，则

$\mathbb{P}_{k}(A)=\mathbb{P}_{k}(A | B) \mathbb{P}(B)+\mathbb{P}_{k}\left(A | B^{\mathrm{c}}\right) \mathbb{P}\left(B^{\mathrm{c}}\right)$

其中 $\mathbb{P}_{k}$ 表示初始金钱为 $k$ .

如果事件 $B$ 发生，那么赌徒的财产变为 $k+1$ ，此时相当于改变游戏的初始金钱重新开始游戏，因此

$\mathbb{P}_{k}(A | B)=\mathbb{P}_{k+1}(A),\quad \mathbb{P}_{k}\left(A | B^{\mathfrak{c}}\right)=\mathbb{P}_{k-1}(A)$

不妨记 $p_{k}=\mathbb{P}_{k}(A)$ ，则

$p_{k}=\left\{\begin{matrix}1, &k=0 \\ \frac{1}{2}(p_{k+1}+p_{k-1}), &0<k<N \\ 0, &k=N \end{matrix}\right.$

当 $0<k<N$ 时，我们变一下式子得到

$p_{k}-p_{k-1}=p_{k+1}-p_{k}$

因此 $\{p_{k}\}$ 是等差数列，结合初始条件得到

$\mathbb{P}_{k}(A)=1-\frac{k}{N}$

我们发现当汽车的价格增加时，破产的可能性也会增加，当 $N\rightarrow \infty$ 时，必然破产。

Example 4 Testimony(证言). 某法庭正在审查某事件 $T$ 发生的可能性，该事件有两名目击证人 $\text{Alf}$ 和 $\text{Bob}$ ，他们说真话的概率分别是 $\alpha,\beta$ ，且两人事先没有串通，设事件 $A,B$ 分别表示 $\text{Alf}$ 和 $\text{Bob}$ 宣称事件 $T$ 发生，且 $\tau=\mathbb{P}(T)$ ，求在 $\text{Alf}$ 和 $\text{Bob}$ 都宣称 $T$ 发生的情况下， $T$ 发生的概率。

由于两人没有事先串通，所以事件 $A,B$ 关于 $T$ 和 $T^{c}$ 条件独立，因此

$\begin{aligned}\mathbb{P}(A \cap B | T)&=\mathbb{P}(A | T) \mathbb{P}(B | T)=\alpha \beta \\ \mathbb{P}\left(A \cap B | T^{\mathrm{c}}\right)&=\mathbb{P}\left(A | T^{\mathrm{c}}\right) \mathbb{P}\left(B | T^{\mathrm{c}}\right)=(1-\alpha)(1-\beta)\end{aligned}$

结合全概率公式（其实是贝叶斯公式）得到

$\begin{aligned}\mathbb{P}(T | A \cap B)&=\frac{\mathbb{P}(T \cap A \cap B)}{\mathbb{P}(A \cap B)}\\&=\frac{\mathbb{P}(A \cap B | T) \mathbb{P}(T)}{\mathbb{P}(A \cap B | T) \mathbb{P}(T)+\mathbb{P}\left(A \cap B | T^{\mathrm{c}}\right) \mathbb{P}\left(T^{\mathrm{c}}\right)}\\&=\frac{\alpha \beta \tau}{\alpha \beta \tau+(1-\alpha)(1-\beta)(1-\tau)}\end{aligned}$

例如，当 $\alpha=\beta=\frac{9}{10},\tau=\frac{1}{1000}$ 时， $\mathbb{P}(T | A \cap B)=\frac{81}{1080}$ .

这个计算结果告诉我们一个小概率事件即使被诚实度高的人确认发生，依然是小概率事件。

Example 5 False positive(假阳性检验). 某疾病在人群中的发病率是 $10^{-5}$ ，仪器检测患者时有 $99\%$ 的概率结果为阳性，检测正常人时有 $1\%$ 的概率结果为阳性，求某人检验为阳性时患此病的概率。

根据贝叶斯公式

$\begin{aligned}\mathbb{P}(\text {ill} |+) &=\frac{\mathbb{P}(+| \text {ill}) \mathbb{P}(\text {ill})}{\mathbb{P}(+| \text {ill}) \mathbb{P}(\text {ill})+\mathbb{P}(+| \text {healthy}) \mathbb{P}(\text {healthy})} \\&=\frac{\frac{99}{100} \cdot 10^{-5}}{\frac{99}{100} \cdot 10^{-5}+\frac{1}{100}\left(1-10^{-5}\right)}\approx\frac{1}{1011}\end{aligned}$

我们发现即使检测为阳性，患病的概率依然非常小。

Example 6 Simpson's paradox(辛普森悖论). 专家进行了临床试验来确定两种药物的功效，试验结果如下：
关于试验结果有两种截然相反的观点：
（1）药物Ⅰ和药物Ⅱ的成功率分别为 $\frac{219}{2020}$ 和 $\frac{1010}{2200}$ ，因此药物Ⅱ更优秀。
（2）药物Ⅰ和药物Ⅱ对女性的成功率分别为 $\frac{1}{10}$ 和 $\frac{1}{20}$ ，对男性的成功了分别为 $\frac{19}{20}$ 和 $\frac{1}{2}$ ，因此药物Ⅰ更优秀。

这个著名的统计学悖论可以描述为，对于事件 $A,B,C$ ，如下的情况可能发生:

$\left.\begin{matrix} \mathbb{P}(A | B \cap C)>\mathbb{P}\left(A | B^{c} \cap C\right)\\ \mathbb{P}\left(A | B \cap C^{c}\right)>\mathbb{P}\left(A | B^{c} \cap C^{c}\right) \end{matrix}\right\} \Rightarrow \mathbb{P}(A | B)<\mathbb{P}\left(A | B^{c}\right)$

在上面的例子中，事件 $A$ 表示患者被治愈，事件 $B$ 表示使用了药物Ⅰ，事件 $C$ 表示患者是女性，设

$\left.\begin{matrix} \mathbb{P}(A | B \cap C)=\frac{p_{1}}{q_{1}}\\ \mathbb{P}(A | B \cap C^{c})=\frac{p_{2}}{q_{2}} \end{matrix}\right\} \Rightarrow \mathbb{P}(A | B)=\frac{p_{1}+p_{2}}{q_{1}+q_{2}}$

$\left.\begin{matrix} \mathbb{P}(A | B^{c} \cap C)=\frac{p_{3}}{q_{3}}\\ \mathbb{P}(A | B^{c} \cap C^{c})=\frac{p_{4}}{q_{4}} \end{matrix}\right\} \Rightarrow \mathbb{P}(A | B^{c})=\frac{p_{3}+p_{4}}{q_{3}+q_{4}}$

设向量 $\vec{A}=(q, p)$ ，则其斜率为 $\frac{p}{q}$ ，即相应事件的概率，因此取

$\vec{B_{1}}=(p_{1},q_{1}),\quad \vec{B_{2}}=(p_{2},q_{2}),\quad \vec{L_{1}}=(p_{3},q_{3}),\quad \vec{L_{2}}=(p_{4},q_{4})$

如图所示：

虽然向量 $\vec{B_{1}},\vec{B_{2}}$ 的斜率分别大于 $\vec{L_{1}},\vec{L_{2}}$ ，但

$\text{slope}(\vec{B_{1}}+\vec{B_{2}})<\text{slope}(\vec{L_{1}}+\vec{L_{2}})$

这就是辛普森悖论产生的原因，辛普森悖论在很多地方都有发生，比如

UC Berkeley gender bias(加州大学伯克利分校的性别偏见问题).
Kidney stone treatment(肾结石治疗问题).
Batting averages(平均击球数问题).