第三章 离散型随机变量
我们回顾一下,离散型随机变量 X X X 仅在可数点集 { x 1 , x 2 , … } \left\{x_{1}, x_{2}, \ldots\right\} { x 1 , x 2 , … } 上取值,其分布函数 F ( x ) = P ( X ≤ x ) F(x)=\mathbb{P}(X \leq x) F ( x ) = P ( X ≤ x ) 为阶跃函数,除此之外,它的概率质量函数同样值得研究。
Definition 1. 离散型随机变量 X X X 有 probability mass function(概率质量函数) f : R → [ 0 , 1 ] f: \mathbb{R} \rightarrow[0,1] f : R → [ 0 , 1 ] ,定义为
f ( x ) = P ( X = x ) f(x)=\mathbb{P}(X=x) f ( x ) = P ( X = x )
分布函数与质量函数间的关系为
F ( x ) = ∑ x i ≤ x f ( x i ) , f ( x ) = F ( x ) − lim y → x − F ( y ) F(x)=\sum_{x_{i} \leq x} f\left(x_{i}\right), \quad f(x)=F(x)-\lim _{y \rightarrow x^{-}} F(y) F ( x ) = x i ≤ x ∑ f ( x i ) , f ( x ) = F ( x ) − y → x − lim F ( y )
Lemma 2. 概率质量函数 f : R → [ 0 , 1 ] f: \mathbb{R} \rightarrow[0,1] f : R → [ 0 , 1 ] 满足
∑ x ∈ R f ( x ) = 1 \sum_{x\in \mathbb{R}} f(x)=1 x ∈ R ∑ f ( x ) = 1
Example 3. Binomial distribution(二项分布). 投掷一枚硬币 n n n 次,每次结果为正面朝上的概率为 p p p ,反面朝上的概率为 q = 1 − p q=1-p q = 1 − p ,则 Ω = { H , T } n \Omega=\{\mathrm{H}, \mathrm{T}\}^{n} Ω = { H , T } n ,设结果为正面朝上的次数为随机变量 X ∈ { 0 , 1 , 2 , … , n } X\in \{0,1,2,\ldots,n\} X ∈ { 0 , 1 , 2 , … , n } ,显然 X X X 为离散型随机变量,其概率质量函数 f ( x ) f(x) f ( x ) 满足
f ( x ) = 0 if x ∉ { 0 , 1 , 2 , … , n } f(x)=0 \quad \text { if } \quad x \notin\{0,1,2, \ldots, n\} f ( x ) = 0 if x ∈ / { 0 , 1 , 2 , … , n } 设整数 k ∈ [ 0 , n ] k\in [0,n] k ∈ [ 0 , n ] ,则
f ( k ) = ( n k ) p k q n − k f(k)=\binom{n}{k} p^{k} q^{n-k} f ( k ) = ( k n ) p k q n − k 我们称随机变量 X X X 服从参数为 n , p n,p n , p 的二项分布,记作 X ∼ bin ( n , p ) X \sim \text{bin}(n,p) X ∼ bin ( n , p ) .
Example 4. Poisson distribution(泊松分布). 若随机变量 X ∈ { 0 , 1 , 2 , … } X\in \{0,1,2,\ldots\} X ∈ { 0 , 1 , 2 , … } 有质量函数
f ( k ) = λ k k ! e − λ , k = 0 , 1 , 2 , … f(k)=\frac{\lambda^{k}}{k !} e^{-\lambda}, \quad k=0,1,2, \ldots f ( k ) = k ! λ k e − λ , k = 0 , 1 , 2 , … 其中 λ > 0 \lambda>0 λ > 0 ,则称 X X X 服从参数为 λ \lambda λ 的泊松分布.
Exercise 5. Log-convexity(对数凸性).
(1)证明二项分布和泊松分布的质量函数满足
f ( k − 1 ) f ( k + 1 ) ≤ f ( k ) 2 , k ≥ 1 f(k-1) f(k+1) \leq f(k)^{2},\quad k\geq 1 f ( k − 1 ) f ( k + 1 ) ≤ f ( k ) 2 , k ≥ 1 (2)证明质量函数 f ( k ) = 90 / ( π k ) 4 f(k)=90 /(\pi k)^{4} f ( k ) = 9 0 / ( π k ) 4 满足
f ( k − 1 ) f ( k + 1 ) ≥ f ( k ) 2 , k ≥ 1 f(k-1) f(k+1) \geq f(k)^{2},\quad k\geq 1 f ( k − 1 ) f ( k + 1 ) ≥ f ( k ) 2 , k ≥ 1 (3)找出一个质量函数满足
f ( k − 1 ) f ( k + 1 ) = f ( k ) 2 , k ≥ 1 f(k-1) f(k+1) = f(k)^{2},\quad k\geq 1 f ( k − 1 ) f ( k + 1 ) = f ( k ) 2 , k ≥ 1
难度:★★★☆☆(点击查看答案)
(1)对于二项分布,有
f ( k − 1 ) f ( k + 1 ) f ( k ) 2 = ( n k − 1 ) ( n k + 1 ) ( n k ) 2 = k ( n − k ) ( k + 1 ) ( n − k + 1 ) = n k − k 2 n k − k 2 + n + 1 < 1 \begin{aligned}\frac{f(k-1)f(k+1)}{f(k)^{2}}
&=\frac{\binom{n}{k-1}\binom{n}{k+1}}{\binom{n}{k}^{2}}=\frac{k(n-k)}{(k+1)(n-k+1)}\\
&=\frac{nk-k^{2}}{nk-k^{2}+n+1}<1
\end{aligned} f ( k ) 2 f ( k − 1 ) f ( k + 1 ) = ( k n ) 2 ( k − 1 n ) ( k + 1 n ) = ( k + 1 ) ( n − k + 1 ) k ( n − k ) = n k − k 2 + n + 1 n k − k 2 < 1
对于泊松分布,有
f ( k − 1 ) f ( k + 1 ) f ( k ) 2 = k k + 1 < 1 \frac{f(k-1)f(k+1)}{f(k)^{2}}=\frac{k}{k+1}<1 f ( k ) 2 f ( k − 1 ) f ( k + 1 ) = k + 1 k < 1
(2)对于给定的质量函数,有
f ( k − 1 ) f ( k + 1 ) f ( k ) 2 = k 4 ( k − 1 ) 4 ( k + 1 ) 4 = ( k 2 k 2 − 1 ) 4 > 1 \frac{f(k-1)f(k+1)}{f(k)^{2}}=\frac{k^{4}}{(k-1)^{4}(k+1)^{4}}=\left(\frac{k^{2}}{k^{2}-1}\right)^{4}>1 f ( k ) 2 f ( k − 1 ) f ( k + 1 ) = ( k − 1 ) 4 ( k + 1 ) 4 k 4 = ( k 2 − 1 k 2 ) 4 > 1
(3)我们发现需要满足的条件等价于
log f ( k − 1 ) + log f ( k + 1 ) 2 = log f ( k ) \frac{\log{f(k-1)}+\log{f(k+1)}}{2}=\log{f(k)} 2 log f ( k − 1 ) + log f ( k + 1 ) = log f ( k )
即我们的函数需要满足取对数之后,二阶导恒为零,显然取 f ( x ) = p e x f(x)=pe^{x} f ( x ) = p e x 满足条件。
我们之前探讨了事件间的独立性,事件 A , B A,B A , B 独立,当且仅当 A A A 发生的概率不受 B B B 发生概率的影响,即
P ( A ∩ B ) = P ( A ) P ( B ) \mathbb{P}(A \cap B)=\mathbb{P}(A) \mathbb{P}(B) P ( A ∩ B ) = P ( A ) P ( B )
类似的,我们考虑离散型随机变量 X , Y X,Y X , Y 的独立性,即 X X X 的取值不影响 Y Y Y 的分布。
Definition 1. 离散型随机变量 X , Y X,Y X , Y 独立,当且仅当对于所有的 x , y x,y x , y ,事件 { X = x } , { Y = y } \{X=x\},\{Y=y\} { X = x } , { Y = y } 独立。
设 X X X 的取值集合为 { x 1 , x 2 , … } \left\{x_{1}, x_{2}, \dots\right\} { x 1 , x 2 , … } ,Y Y Y 的取值集合为 { y 1 , y 2 , … } \left\{y_{1}, y_{2}, \ldots\right\} { y 1 , y 2 , … } ,设事件
A i = { X = x i } , B j = { Y = y j } A_{i}=\left\{X=x_{i}\right\}, \quad B_{j}=\left\{Y=y_{j}\right\} A i = { X = x i } , B j = { Y = y j }
注意到 X , Y X,Y X , Y 可以表示为指示函数 I A i , I B j I_{A_{i}},I_{B_{j}} I A i , I B j 的线性组合
X = ∑ i x i I A i , Y = ∑ j y j I B j X=\sum_{i} x_{i} I_{A_{i}},\quad Y=\sum_{j} y_{j} I_{B_{j}} X = i ∑ x i I A i , Y = j ∑ y j I B j
因此要使 X , Y X,Y X , Y 的取值互不影响,要求 A i , B j A_{i},B_{j} A i , B j 的概率互不影响。
Example 2. Poisson flips(泊松投掷). 投掷一枚硬币,正面朝上的概率为 p = 1 − q p=1-q p = 1 − q ,设随机变量 X , Y X,Y X , Y 分别表示正面和反面朝上的次数,若投掷硬币 N N N 次,其中 N N N 服从参数为 λ \lambda λ 的泊松分布,则 X , Y X,Y X , Y 独立。
根据全概率公式,
P ( X = x ) = ∑ n ≥ x P ( X = x ∣ N = n ) P ( N = n ) = ∑ n ≥ x ( n x ) p x q n − x λ n n ! e − λ = ∑ n ≥ x λ n x ! ( n − x ) ! p x q n − x e − λ = ∑ n ≥ 0 λ n + x x ! n ! p x q n e − λ = ( λ p ) x x ! e − λ ∑ n ≥ 0 ( λ q ) n n ! = ( λ p ) x x ! e − λ e λ q = ( λ p ) x x ! e − λ p \begin{aligned}
\mathbb{P}(X=x) &=\sum_{n \geq x} \mathbb{P}(X=x | N=n) \mathbb{P}(N=n) \\
&=\sum_{n \geq x}\binom{n}{x} p^{x} q^{n-x} \frac{\lambda^{n}}{n !} e^{-\lambda}=\sum_{n\geq x}\frac{\lambda^{n}}{x!(n-x)!}p^{x}q^{n-x}e^{-\lambda}\\
&=\sum_{n\geq 0}\frac{\lambda^{n+x}}{x!n!}p^{x}q^{n}e^{-\lambda}=\frac{(\lambda p)^{x}}{x!}e^{-\lambda}\sum_{n\geq 0}\frac{(\lambda q)^{n}}{n!}\\
&=\frac{(\lambda p)^{x}}{x!}e^{-\lambda}e^{\lambda q}=\frac{(\lambda p)^{x}}{x !} e^{-\lambda p}
\end{aligned} P ( X = x ) = n ≥ x ∑ P ( X = x ∣ N = n ) P ( N = n ) = n ≥ x ∑ ( x n ) p x q n − x n ! λ n e − λ = n ≥ x ∑ x ! ( n − x ) ! λ n p x q n − x e − λ = n ≥ 0 ∑ x ! n ! λ n + x p x q n e − λ = x ! ( λ p ) x e − λ n ≥ 0 ∑ n ! ( λ q ) n = x ! ( λ p ) x e − λ e λ q = x ! ( λ p ) x e − λ p
P ( X = x , Y = y ) = P ( X = x , Y = y ∣ N = x + y ) P ( N = x + y ) = ( x + y x ) p x q y λ x + y ( x + y ) ! e − λ = ( λ p ) x ( λ q ) y x ! y ! e − λ \begin{aligned}
\mathbb{P}(X=x, Y=y) &=\mathbb{P}(X=x, Y=y | N=x+y) \mathbb{P}(N=x+y) \\
&=\binom{x+y}{x} p^{x} q^{y} \frac{\lambda^{x+y}}{(x+y) !} e^{-\lambda}=\frac{(\lambda p)^{x}(\lambda q)^{y}}{x ! y !} e^{-\lambda}
\end{aligned} P ( X = x , Y = y ) = P ( X = x , Y = y ∣ N = x + y ) P ( N = x + y ) = ( x x + y ) p x q y ( x + y ) ! λ x + y e − λ = x ! y ! ( λ p ) x ( λ q ) y e − λ
因此 X , Y X,Y X , Y 独立。
Theorem 3. 若随机变量 X , Y X,Y X , Y 独立,且函数 g , h : R → R g, h: \mathbb{R} \rightarrow \mathbb{R} g , h : R → R ,则随机变量 g ( X ) , h ( Y ) g(X),h(Y) g ( X ) , h ( Y ) 也是独立的。
证明:对于 a , b ∈ R a,b\in\mathbb{R} a , b ∈ R
P ( g ( X ) = a , h ( Y ) = b ) = ∑ g ( x ) = a , h ( y ) = b P ( X = x , Y = y ) = ∑ g ( x ) = a , h ( y ) = b P ( X = x ) P ( Y = y ) = ∑ g ( x ) = a P ( X = x ) ∑ h ( y ) = b P ( Y = y ) = P ( g ( X ) = a ) P ( h ( Y ) = b ) \begin{aligned}\mathbb{P}(g(X)=a, h(Y)=b)
&= \sum_{g(x)=a,h(y)=b} \mathbb{P}(X=x, Y=y)\\
&= \sum_{g(x)=a,h(y)=b} \mathbb{P}(X=x) \mathbb{P}(Y=y)\\
&= \sum_{g(x)=a} \mathbb{P}(X=x) \sum_{h(y)=b} \mathbb{P}(Y=y)\\
&= \mathbb{P}(g(X)=a) \mathbb{P}(h(Y)=b)
\end{aligned} P ( g ( X ) = a , h ( Y ) = b ) = g ( x ) = a , h ( y ) = b ∑ P ( X = x , Y = y ) = g ( x ) = a , h ( y ) = b ∑ P ( X = x ) P ( Y = y ) = g ( x ) = a ∑ P ( X = x ) h ( y ) = b ∑ P ( Y = y ) = P ( g ( X ) = a ) P ( h ( Y ) = b )
更一般的,我们可以把独立性推广到多个随机变量,即一组离散型随机变量 { X i ∣ i ∈ I } \left\{X_{i}\mid i \in I\right\} { X i ∣ i ∈ I } 独立,当且仅当事件 { X i = x i } \left\{X_{i}=x_{i}\right\} { X i = x i } 对于 X i X_{i} X i 的所有取值 x i x_{i} x i 都独立。
Exercise 4. 设随机变量 X , Y ∈ Z + X,Y\in \mathbb{Z}^{+} X , Y ∈ Z + 相互独立,且拥有相同的质量函数 f ( x ) = 2 − x f(x)=2^{-x} f ( x ) = 2 − x ,求:
(1)P ( min { X , Y } ≤ x ) \mathbb{P}(\min \{X, Y\} \leq x) P ( min { X , Y } ≤ x ) ,其中 x ≥ 1 x\geq 1 x ≥ 1
(2)P ( X < Y ) \mathbb{P}(X<Y) P ( X < Y )
(3)P ( X divides Y ) \mathbb{P}(X \text { divides } Y) P ( X divides Y )
(4)P ( X ≥ k Y ) \mathbb{P}(X \geq k Y) P ( X ≥ k Y ) ,其中 k k k 为给定正整数
(5)P ( X = r Y ) \mathbb{P}(X=r Y) P ( X = r Y ) ,其中 r r r 为给定正实数
难度:★★☆☆☆(点击查看答案)
P ( min { X , Y } ≤ x ) = 1 − P ( X > x , Y > x ) = 1 − P ( X > x ) P ( Y > x ) = 1 − 2 − x ⋅ 2 − x = 1 − 4 − x P ( X < Y ) = ∑ x = 1 ∞ ∑ y = x + 1 ∞ P ( X = x , Y = y ) = ∑ x = 1 ∞ ∑ y = x + 1 ∞ 2 − x ⋅ 2 − y = 1 3 P ( X divides Y ) = ∑ k = 1 ∞ P ( Y = k X ) = ∑ k = 1 ∞ ∑ x = 1 ∞ P ( Y = k x , X = x ) = ∑ k = 1 ∞ ∑ x = 1 ∞ 2 − k x 2 − x = ∑ k = 1 ∞ 1 2 k + 1 − 1 P ( X ≥ k Y ) = ∑ y = 1 ∞ P ( X ≥ k y , Y = y ) = ∑ y = 1 ∞ P ( X ≥ k y ) P ( Y = y ) = ∑ y = 1 ∞ ∑ x = 0 ∞ 2 − k y − x 2 − y = 2 2 k + 1 − 1 P ( X = r Y ) = ∑ k = 1 ∞ P ( X = k m , Y = k n ) ( r 的最简分数形式为 m n ) = ∑ k = 1 ∞ 2 − k m 2 − k n = 1 2 m + n − 1 \begin{aligned}
\mathbb{P}(\min \{X, Y\} \leq x) &=1-\mathbb{P}(X>x, Y>x)=1-\mathbb{P}(X>x) \mathbb{P}(Y>x) \\
&=1-2^{-x} \cdot 2^{-x}=1-4^{-x}\\
\mathbb{P}(X<Y)&=\sum_{x=1}^{\infty}\sum_{y=x+1}^{\infty}\mathbb{P}(X=x,Y=y)\\
&=\sum_{x=1}^{\infty}\sum_{y=x+1}^{\infty}2^{-x}\cdot 2^{-y}=\frac{1}{3}\\
\mathbb{P}(X \text { divides } Y) &=\sum_{k=1}^{\infty} \mathbb{P}(Y=k X)=\sum_{k=1}^{\infty} \sum_{x=1}^{\infty} \mathbb{P}(Y=k x, X=x) \\
&=\sum_{k=1}^{\infty} \sum_{x=1}^{\infty} 2^{-k x} 2^{-x}=\sum_{k=1}^{\infty} \frac{1}{2^{k+1}-1}\\
\mathbb{P}(X \geq k Y) &=\sum_{y=1}^{\infty} \mathbb{P}(X \geq k y, Y=y)=\sum_{y=1}^{\infty} \mathbb{P}(X \geq k y) \mathbb{P}(Y=y) \\
&=\sum_{y=1}^{\infty} \sum_{x=0}^{\infty} 2^{-k y-x} 2^{-y}=\frac{2}{2^{k+1}-1}\\
\mathbb{P}(X=r Y)&=\sum_{k=1}^{\infty} \mathbb{P}(X=k m, Y=k n)(r \text{ 的最简分数形式为 } \frac{m}{n})\\
&=\sum_{k=1}^{\infty} 2^{-k m} 2^{-k n}=\frac{1}{2^{m+n}-1}
\end{aligned} P ( min { X , Y } ≤ x ) P ( X < Y ) P ( X divides Y ) P ( X ≥ k Y ) P ( X = r Y ) = 1 − P ( X > x , Y > x ) = 1 − P ( X > x ) P ( Y > x ) = 1 − 2 − x ⋅ 2 − x = 1 − 4 − x = x = 1 ∑ ∞ y = x + 1 ∑ ∞ P ( X = x , Y = y ) = x = 1 ∑ ∞ y = x + 1 ∑ ∞ 2 − x ⋅ 2 − y = 3 1 = k = 1 ∑ ∞ P ( Y = k X ) = k = 1 ∑ ∞ x = 1 ∑ ∞ P ( Y = k x , X = x ) = k = 1 ∑ ∞ x = 1 ∑ ∞ 2 − k x 2 − x = k = 1 ∑ ∞ 2 k + 1 − 1 1 = y = 1 ∑ ∞ P ( X ≥ k y , Y = y ) = y = 1 ∑ ∞ P ( X ≥ k y ) P ( Y = y ) = y = 1 ∑ ∞ x = 0 ∑ ∞ 2 − k y − x 2 − y = 2 k + 1 − 1 2 = k = 1 ∑ ∞ P ( X = k m , Y = k n ) ( r 的最简分数形式为 n m ) = k = 1 ∑ ∞ 2 − k m 2 − k n = 2 m + n − 1 1
Exercise 5. 三个玩家 A , B , C A,B,C A , B , C 按照 A B C A B C … ABCABC\ldots A B C A B C … 的顺序轮流扔骰子。
(1)证明:最先扔出 6 6 6 的玩家是 A A A ,其次是 B B B ,最后是 C C C 的概率为 216 1001 \frac{216}{1001} 1 0 0 1 2 1 6 .
(2)证明:最先扔出的 6 6 6 来自玩家 A A A ,第二次来自 B B B ,第三次来自 C C C 的概率为 46656 753571 \frac{46656}{753571} 7 5 3 5 7 1 4 6 6 5 6 .
难度:★★★★☆(点击查看答案)
(1)设事件 { A < B < C } \{A<B<C\} { A < B < C } 表示 A A A 比 B B B 先扔出 6 6 6 ,且 B B B 比 C C C 先扔出 6 6 6 ,那么该事件发生的情况如下:
本轮中 A , B A,B A , B 都扔出了 6 6 6 .
本轮中 A A A 扔出了 6 6 6 ,B , C B,C B , C 没有扔出,且接下来的游戏中事件 { B < C } \{B<C\} { B < C } 发生。
本轮中没有人扔出 6 6 6 ,且接下来的游戏中事件 { A < B < C } \{A<B<C\} { A < B < C } 发生。
事件 { B < C } \{B<C\} { B < C } 的定义是类似的,因此
P ( A < B < C ) = ( 1 6 ) 2 + 1 6 ( 5 6 ) 2 P ( B < C ) + ( 5 6 ) 3 P ( A < B < C ) \mathbb{P}(A<B<C)=\left(\frac{1}{6}\right)^{2}+\frac{1}{6}\left(\frac{5}{6}\right)^{2} \mathbb{P}(B<C)+\left(\frac{5}{6}\right)^{3} \mathbb{P}(A<B<C) P ( A < B < C ) = ( 6 1 ) 2 + 6 1 ( 6 5 ) 2 P ( B < C ) + ( 6 5 ) 3 P ( A < B < C )
P ( B < C ) = ( 5 6 ) 2 P ( B < C ) + 1 6 \mathbb{P}(B<C)=\left(\frac{5}{6}\right)^{2} \mathbb{P}(B<C)+\frac{1}{6} P ( B < C ) = ( 6 5 ) 2 P ( B < C ) + 6 1
据此我们得到 P ( B < C ) = 6 11 \mathbb{P}(B<C)=\frac{6}{11} P ( B < C ) = 1 1 6 ,P ( A < B < C ) = 216 1001 \mathbb{P}(A<B<C)=\frac{216}{1001} P ( A < B < C ) = 1 0 0 1 2 1 6
(2)设 N N N 表示第一个 6 6 6 出现时三人的投掷总次数,那么最先扔出的 6 6 6 来自 A A A 等价于 N ∈ { 1 , 4 , 7 , … } N\in \{1,4,7,\ldots\} N ∈ { 1 , 4 , 7 , … } 且
P ( N ∈ { 1 , 4 , 7 , … } ) = ∑ k = 1 , 4 , 7 , … ( 5 6 ) k − 1 1 6 = 36 91 \mathbb{P}(N \in\{1,4,7, \ldots\})=\sum_{k=1,4,7, \ldots}\left(\frac{5}{6}\right)^{k-1} \frac{1}{6}=\frac{36}{91} P ( N ∈ { 1 , 4 , 7 , … } ) = k = 1 , 4 , 7 , … ∑ ( 6 5 ) k − 1 6 1 = 9 1 3 6
当 A A A 扔出第一个 6 6 6 时,游戏次序变成了 B C A B C A … BCABCA\ldots B C A B C A … ,因此第二个 6 6 6 来自 B B B 的概率是相同的,第三个同理,故
A n s = ( 36 91 ) 3 = 46656 753571 Ans=\left(\frac{36}{91}\right)^{3}=\frac{46656}{753571} A n s = ( 9 1 3 6 ) 3 = 7 5 3 5 7 1 4 6 6 5 6
设 x 1 , x 2 , … , x N x_{1}, x_{2}, \ldots, x_{N} x 1 , x 2 , … , x N 为用数字表示的 N N N 次试验的结果,则它们的均值
m = 1 N ∑ i x i m=\frac{1}{N} \sum_{i} x_{i} m = N 1 i ∑ x i
现在,我们设随机变量 X 1 , X 2 , … , X N X_{1}, X_{2}, \ldots, X_{N} X 1 , X 2 , … , X N 分别表示这 N N N 次试验的结果,则这些随机变量是离散型的,且拥有相同的分布函数 f f f ,那么对于某个取值 x x x ,约有 N f ( x ) Nf(x) N f ( x ) 个 X i X_{i} X i 取到 x x x 这个值,因此这些随机变量的均值为
m ≈ 1 N ∑ x x N f ( x ) = ∑ x x f ( x ) m \approx \frac{1}{N} \sum_{x} x N f(x)=\sum_{x} x f(x) m ≈ N 1 x ∑ x N f ( x ) = x ∑ x f ( x )
这个均值 m m m 被称为分布函数 f f f 的 expectation(期望) 或 mean value(均值) .
Definition 1. 随机变量 X X X 的期望或均值定义为
E ( X ) = ∑ x x f ( x ) \mathbb{E}(X)=\sum_{x} x f(x) E ( X ) = x ∑ x f ( x ) 其中 f f f 为分布函数,且和式绝对收敛。
我们要求右边的和式绝对收敛,这是为了保证交换 x i x_{i} x i 的求和次序不会对和式的值产生影响。
想象一下,我们把 X X X 的取值 x x x 看成数轴上的点,这个点的重量为 f ( x ) f(x) f ( x ) ,那么 X X X 的期望实际上就是这些点的重心位置。
Example 2. 我们回到 Example 2.1.1 中的例子,随机变量 X , W X,W X , W 的期望值为
E ( X ) = ∑ x x P ( X = x ) = 0 ⋅ 1 4 + 1 ⋅ 1 2 + 2 ⋅ 1 4 = 1 E ( W ) = ∑ x x P ( W = x ) = 0 ⋅ 3 4 + 4 ⋅ 1 4 = 1 \begin{aligned}
\mathbb{E}(X)&=\sum_{x} x \mathbb{P}(X=x)=0 \cdot \frac{1}{4}+1 \cdot \frac{1}{2}+2 \cdot \frac{1}{4}=1 \\
\mathbb{E}(W)&=\sum_{x} x \mathbb{P}(W=x)=0 \cdot \frac{3}{4}+4 \cdot \frac{1}{4}=1
\end{aligned} E ( X ) E ( W ) = x ∑ x P ( X = x ) = 0 ⋅ 4 1 + 1 ⋅ 2 1 + 2 ⋅ 4 1 = 1 = x ∑ x P ( W = x ) = 0 ⋅ 4 3 + 4 ⋅ 4 1 = 1
若 X X X 为随机变量且函数 g : R → R g: \mathbb{R} \rightarrow \mathbb{R} g : R → R ,设 Y = g ( X ) Y=g(X) Y = g ( X ) ,严谨一点的话应该是 Y ( ω ) = g ( X ( ω ) ) Y(\omega)=g(X(\omega)) Y ( ω ) = g ( X ( ω ) ) ,显然 Y Y Y 也是一个随机变量,现在我们想知道 Y Y Y 的期望值。
按照定义,我们必须先求出 Y Y Y 的分布函数 f Y f_{Y} f Y ,但这个过程可能非常复杂,而使用下面的引理可以避免这些复杂的计算。
Lemma 3. 若随机变量 X X X 有分布函数 f f f ,且函数 g : R → R g: \mathbb{R} \rightarrow \mathbb{R} g : R → R ,则
E ( g ( X ) ) = ∑ x g ( x ) f ( x ) \mathbb{E}(g(X))=\sum_{x} g(x) f(x) E ( g ( X ) ) = x ∑ g ( x ) f ( x ) 其中,右边的和式绝对收敛。
证明如下:(亮点在于最后一步中的交换求和号)
E ( g ( X ) ) = ∑ y y P ( g ( X ) = y ) = ∑ y ∑ x : g ( x ) = y y P ( X = x ) = ∑ x g ( x ) P ( X = x ) \begin{aligned}\mathbb{E}(g(X))
&=\sum_{y} y \mathbb{P}(g(X)=y)=\sum_{y} \sum_{x: g(x)=y} y \mathbb{P}(X=x)\\
&=\sum_{x} g(x) \mathbb{P}(X=x)
\end{aligned} E ( g ( X ) ) = y ∑ y P ( g ( X ) = y ) = y ∑ x : g ( x ) = y ∑ y P ( X = x ) = x ∑ g ( x ) P ( X = x )
这个引理被称为 law of the unconscious statisitician(无意识统计学家法则) .
Example 4. 设随机变量 X X X 的取值为 − 2 , − 1 , 1 , 3 -2,-1,1,3 − 2 , − 1 , 1 , 3 ,对应的概率分别为 1 4 , 1 8 , 1 4 , 3 8 \frac{1}{4}, \frac{1}{8}, \frac{1}{4}, \frac{3}{8} 4 1 , 8 1 , 4 1 , 8 3 ,现在要求 Y = X 2 Y=X^{2} Y = X 2 的期望。
我们用这个例子直观的检验一下上面的引理,按照常规流程来做,Y Y Y 的取值为 1 , 4 , 9 1,4,9 1 , 4 , 9 ,对应的概率分别为 3 8 , 1 4 , 3 8 \frac{3}{8}, \frac{1}{4}, \frac{3}{8} 8 3 , 4 1 , 8 3 ,因此
E ( Y ) = ∑ x x P ( Y = x ) = 1 ⋅ 3 8 + 4 ⋅ 1 4 + 9 ⋅ 3 8 = 19 4 \mathbb{E}(Y)=\sum_{x} x \mathbb{P}(Y=x)=1 \cdot \frac{3}{8}+4 \cdot \frac{1}{4}+9 \cdot \frac{3}{8}=\frac{19}{4} E ( Y ) = x ∑ x P ( Y = x ) = 1 ⋅ 8 3 + 4 ⋅ 4 1 + 9 ⋅ 8 3 = 4 1 9
而如果直接使用引理
E ( Y ) = ∑ x x 2 P ( X = x ) = 4 ⋅ 1 4 + 1 ⋅ 1 8 + 1 ⋅ 1 4 + 9 ⋅ 3 8 = 19 4 \mathbb{E}(Y)=\sum_{x} x^{2} \mathbb{P}(X=x)=4 \cdot \frac{1}{4}+1 \cdot \frac{1}{8}+1 \cdot \frac{1}{4}+9 \cdot \frac{3}{8}=\frac{19}{4} E ( Y ) = x ∑ x 2 P ( X = x ) = 4 ⋅ 4 1 + 1 ⋅ 8 1 + 1 ⋅ 4 1 + 9 ⋅ 8 3 = 4 1 9
Definition 5. 若 k k k 为正整数,则随机变量 X X X 的 k-th moment(k阶矩) m k m_{k} m k 定义为
m k = E ( X k ) m_{k}=\mathbb{E}\left(X^{k}\right) m k = E ( X k ) 且 X X X 的 k-th central moment(k阶中心矩) σ k \sigma_{k} σ k 定义为
σ k = E ( ( X − m 1 ) k ) \sigma_{k}=\mathbb{E}\left(\left(X-m_{1}\right)^{k}\right) σ k = E ( ( X − m 1 ) k )
我们最常使用的两个矩是
m 1 = E ( X ) , σ 2 = E ( ( X − E X ) 2 ) m_{1}=\mathbb{E}(X),\quad \sigma_{2}=\mathbb{E}\left((X-\mathbb{E} X)^{2}\right) m 1 = E ( X ) , σ 2 = E ( ( X − E X ) 2 )
分别叫做 X X X 的 expectation(期望) 和 variance(方差) ,这两个量分别描述了 X X X 的平均值和分散程度。
我们常把 m 1 m_{1} m 1 记为 μ \mu μ ,把方差记为 var ( X ) \operatorname{var}(X) v a r ( X ) ,其非负平方根 σ = var ( X ) \sigma=\sqrt{\operatorname{var}(X)} σ = v a r ( X ) 称为 standard deviation(标准偏差) .
注:根据定义,显然 var ( X ) \operatorname{var}(X) v a r ( X ) 非负,因此开方是没有问题的。
事实上中心矩 { σ i } \{\sigma_{i}\} { σ i } 总能用 { m i } \{m_{i}\} { m i } 表示,如
σ 2 = ∑ x ( x − m 1 ) 2 f ( x ) = ∑ x x 2 f ( x ) − 2 m 1 ∑ x x f ( x ) + m 1 2 ∑ x f ( x ) = m 2 − m 1 2 \begin{aligned}
\sigma_{2} &=\sum_{x}\left(x-m_{1}\right)^{2} f(x) \\
&=\sum_{x} x^{2} f(x)-2 m_{1} \sum_{x} x f(x)+m_{1}^{2} \sum_{x} f(x) \\
&=m_{2}-m_{1}^{2}
\end{aligned} σ 2 = x ∑ ( x − m 1 ) 2 f ( x ) = x ∑ x 2 f ( x ) − 2 m 1 x ∑ x f ( x ) + m 1 2 x ∑ f ( x ) = m 2 − m 1 2
该式即是普遍使用的方差计算式
var ( X ) = E ( ( X − E X ) 2 ) = E ( X 2 ) − ( E X ) 2 \operatorname{var}(X)=\mathbb{E}\left((X-\mathbb{E} X)^{2}\right)=\mathbb{E}\left(X^{2}\right)-(\mathbb{E} X)^{2} v a r ( X ) = E ( ( X − E X ) 2 ) = E ( X 2 ) − ( E X ) 2
Example 6. Bernoulli distribution(伯努利分布). 设 X X X 为伯努利变量,取值为 1 1 1 的概率为 p = 1 − q p=1-q p = 1 − q ,则
E ( X ) = ∑ x x f ( x ) = 0 ⋅ q + 1 ⋅ p = p E ( X 2 ) = ∑ x x 2 f ( x ) = 0 ⋅ q + 1 ⋅ p = p var ( X ) = E ( X 2 ) − E ( X ) 2 = p q \begin{aligned}
\mathbb{E}(X) &=\sum_{x} x f(x)=0 \cdot q+1 \cdot p=p \\
\mathbb{E}\left(X^{2}\right) &=\sum_{x} x^{2} f(x)=0 \cdot q+1 \cdot p=p \\
\operatorname{var}(X) &=\mathbb{E}\left(X^{2}\right)-\mathbb{E}(X)^{2}=p q
\end{aligned} E ( X ) E ( X 2 ) v a r ( X ) = x ∑ x f ( x ) = 0 ⋅ q + 1 ⋅ p = p = x ∑ x 2 f ( x ) = 0 ⋅ q + 1 ⋅ p = p = E ( X 2 ) − E ( X ) 2 = p q
Example 7. Binomial distribution(二项分布). 设 X ∼ bin ( n , p ) X\sim \text{bin}(n,p) X ∼ bin ( n , p ) ,则
E ( X ) = ∑ k = 0 n k f ( k ) = ∑ k = 0 n k ( n k ) p k q n − k \mathbb{E}(X)=\sum_{k=0}^{n} k f(k)=\sum_{k=0}^{n} k\binom{n}{k} p^{k} q^{n-k} E ( X ) = k = 0 ∑ n k f ( k ) = k = 0 ∑ n k ( k n ) p k q n − k 为了计算这个和式,我们把恒等式
∑ k = 0 n ( n k ) x k = ( 1 + x ) n \sum_{k=0}^{n}\binom{n}{k} x^{k}=(1+x)^{n} k = 0 ∑ n ( k n ) x k = ( 1 + x ) n 两边求导并乘上一个 x x x 得到
∑ k = 0 n k ( n k ) x k = n x ( 1 + x ) n − 1 \sum_{k=0}^{n} k\binom{n}{k} x^{k}=n x(1+x)^{n-1} k = 0 ∑ n k ( k n ) x k = n x ( 1 + x ) n − 1 将 x = p / q x=p/q x = p / q 带入得
E ( X ) = n q n p q ( 1 + p q ) n − 1 = n p \mathbb{E}(X)=nq^{n}\frac{p}{q}(1+\frac{p}{q})^{n-1}=np E ( X ) = n q n q p ( 1 + q p ) n − 1 = n p 类似的,我们可以算出 var ( X ) = n p q \operatorname{var}(X)=n p q v a r ( X ) = n p q
Theorem 8. 期望算子 E \mathbb{E} E 具有线性性质,即对于 a , b ∈ R a, b \in \mathbb{R} a , b ∈ R ,有
E ( a X + b Y ) = a E ( X ) + b E ( Y ) \mathbb{E}(a X+b Y)=a \mathbb{E}(X)+b \mathbb{E}(Y) E ( a X + b Y ) = a E ( X ) + b E ( Y )
证明:设事件 A x = { X = x } , B y = { Y = y } A_{x}=\{X=x\}, B_{y}=\{Y=y\} A x = { X = x } , B y = { Y = y } ,则
E ( a X + b Y ) = ∑ x , y ( a x + b y ) P ( A x ∩ B y ) = ∑ x a x ∑ y P ( A x ∩ B y ) + ∑ y b y ∑ x P ( A x ∩ B y ) \begin{aligned}\mathbb{E}(a X+b Y)
&=\sum_{x, y}(a x+b y) \mathbb{P}\left(A_{x} \cap B_{y}\right)\\
&=\sum_{x}a x \sum_{y}\mathbb{P}\left(A_{x} \cap B_{y}\right)+\sum_{y}b y\sum_{x}\mathbb{P}\left(A_{x} \cap B_{y}\right)
\end{aligned} E ( a X + b Y ) = x , y ∑ ( a x + b y ) P ( A x ∩ B y ) = x ∑ a x y ∑ P ( A x ∩ B y ) + y ∑ b y x ∑ P ( A x ∩ B y )
我们发现需要解决两个部分:
∑ y P ( A x ∩ B y ) = P ( A x ∩ ( ⋃ y B y ) ) = P ( A x ∩ Ω ) = P ( A x ) \sum_{y} \mathbb{P}\left(A_{x} \cap B_{y}\right)=\mathbb{P}\left(A_{x} \cap\left(\bigcup_{y} B_{y}\right)\right)=\mathbb{P}\left(A_{x} \cap \Omega\right)=\mathbb{P}\left(A_{x}\right) y ∑ P ( A x ∩ B y ) = P ( A x ∩ ( y ⋃ B y ) ) = P ( A x ∩ Ω ) = P ( A x )
∑ x P ( A x ∩ B y ) = P ( ( ⋃ x A x ) ∩ B y ) = P ( Ω ∩ B y ) = P ( B y ) \sum_{x} \mathbb{P}\left(A_{x} \cap B_{y}\right)=\mathbb{P}\left(\left(\bigcup_{x} A_{x} \right)\cap B_{y}\right)=\mathbb{P}\left(\Omega \cap B_{y}\right)=\mathbb{P}\left(B_{y}\right) x ∑ P ( A x ∩ B y ) = P ( ( x ⋃ A x ) ∩ B y ) = P ( Ω ∩ B y ) = P ( B y )
带入得到
E ( a X + b Y ) = a ∑ x x P ( A x ) + b ∑ y y P ( B y ) = a E ( X ) + b E ( Y ) \begin{aligned}\mathbb{E}(a X+b Y)
&=a \sum_{x} x \mathbb{P}\left(A_{x}\right)+b \sum_{y} y \mathbb{P}\left(B_{y}\right) \\
&=a \mathbb{E}(X)+b \mathbb{E}(Y)
\end{aligned} E ( a X + b Y ) = a x ∑ x P ( A x ) + b y ∑ y P ( B y ) = a E ( X ) + b E ( Y )
我们证明了期望的线性性质,但遗憾的是 E ( X Y ) = E ( X ) E ( Y ) \mathbb{E}(X Y)=\mathbb{E}(X) \mathbb{E}(Y) E ( X Y ) = E ( X ) E ( Y ) 并不是普遍成立的。
Theorem 9. 若随机变量 X , Y X,Y X , Y 独立,则
E ( X Y ) = E ( X ) E ( Y ) \mathbb{E}(X Y)=\mathbb{E}(X) \mathbb{E}(Y) E ( X Y ) = E ( X ) E ( Y )
证明:设事件 A x = { X = x } , B y = { Y = y } A_{x}=\{X=x\}, B_{y}=\{Y=y\} A x = { X = x } , B y = { Y = y } ,则
E ( X Y ) = ∑ x , y x y P ( A x ) P ( B y ) by independence = ∑ x P ( A x ) ∑ y P ( B y ) = E ( X ) E ( Y ) \begin{aligned}
\mathbb{E}(X Y) &=\sum_{x, y} x y \mathbb{P}\left(A_{x}\right) \mathbb{P}\left(B_{y}\right) \quad \text { by independence } \\
&=\sum x \mathbb{P}\left(A_{x}\right) \sum y \mathbb{P}\left(B_{y}\right)=\mathbb{E}(X) \mathbb{E}(Y)
\end{aligned} E ( X Y ) = x , y ∑ x y P ( A x ) P ( B y ) by independence = ∑ x P ( A x ) ∑ y P ( B y ) = E ( X ) E ( Y )
若随机变量 X , Y X,Y X , Y 满足 E ( X Y ) = E ( X ) E ( Y ) \mathbb{E}(X Y)=\mathbb{E}(X) \mathbb{E}(Y) E ( X Y ) = E ( X ) E ( Y ) ,我们称 X , Y X,Y X , Y uncorrelated(不相关) .
上面的定理告诉我们独立的随机变量一定不相关,但是反过来却不一定成立。
Example 10. 设 X , Y X,Y X , Y 服从参数为 1 2 \frac{1}{2} 2 1 的伯努利分布,证明:
X + Y , ∣ X − Y ∣ X+Y, \quad |X-Y| X + Y , ∣ X − Y ∣ 不相关却不独立。
E { ( X + Y ) ∣ X − Y ∣ } = 1 4 ( 0 + 1 + 1 + 0 ) = 1 2 E ( X + Y ) E ( ∣ X − Y ∣ ) = 1 4 ( 0 + 1 + 1 + 2 ) × 1 4 ( 0 + 1 + 1 + 0 ) = 1 2 P ( X + Y = 0 , ∣ X − Y ∣ = 0 ) = P ( X = 0 , Y = 0 ) = 1 4 P ( X + Y = 0 ) P ( ∣ X − Y ∣ = 0 ) = P 2 ( X = 0 , Y = 0 ) P ( X = 1 , Y = 1 ) = 1 8 \begin{aligned}
\mathbb{E}\{(X+Y)|X-Y|\}&=\frac{1}{4}(0+1+1+0)=\frac{1}{2}\\
\mathbb{E}(X+Y) \mathbb{E}(|X-Y|)&=\frac{1}{4}(0+1+1+2)\times \frac{1}{4}(0+1+1+0)=\frac{1}{2}\\
\mathbb{P}(X+Y=0,|X-Y|=0)&=\mathbb{P}(X=0,Y=0)=\frac{1}{4}\\
\mathbb{P}(X+Y=0) \mathbb{P}(|X-Y|=0)&=\mathbb{P}^{2}(X=0,Y=0)\mathbb{P}(X=1,Y=1)=\frac{1}{8}
\end{aligned} E { ( X + Y ) ∣ X − Y ∣ } E ( X + Y ) E ( ∣ X − Y ∣ ) P ( X + Y = 0 , ∣ X − Y ∣ = 0 ) P ( X + Y = 0 ) P ( ∣ X − Y ∣ = 0 ) = 4 1 ( 0 + 1 + 1 + 0 ) = 2 1 = 4 1 ( 0 + 1 + 1 + 2 ) × 4 1 ( 0 + 1 + 1 + 0 ) = 2 1 = P ( X = 0 , Y = 0 ) = 4 1 = P 2 ( X = 0 , Y = 0 ) P ( X = 1 , Y = 1 ) = 8 1
Theorem 11. 随机变量 X , Y X,Y X , Y 的方差满足
(1)var ( a X ) = a 2 var ( X ) \operatorname{var}(a X)=a^{2} \operatorname{var}(X) v a r ( a X ) = a 2 v a r ( X ) ,其中 a ∈ R a\in \mathbb{R} a ∈ R .
(2)var ( X + Y ) = var ( X ) + var ( Y ) \operatorname{var}(X+Y)=\operatorname{var}(X)+\operatorname{var}(Y) v a r ( X + Y ) = v a r ( X ) + v a r ( Y ) ,当且仅当 X , Y X,Y X , Y 不相关。
证明:(1)根据期望的线性性质
var ( a X ) = E { ( a X − E ( a X ) ) 2 } = E { a 2 ( X − E X ) 2 } = a 2 E { ( X − E X ) 2 } = a 2 var ( X ) \begin{aligned}
\operatorname{var}(a X) &=\mathbb{E}\left\{(a X-\mathbb{E}(a X))^{2}\right\}=\mathbb{E}\left\{a^{2}(X-\mathbb{E} X)^{2}\right\} \\
&=a^{2} \mathbb{E}\left\{(X-\mathbb{E} X)^{2}\right\}=a^{2} \operatorname{var}(X)
\end{aligned} v a r ( a X ) = E { ( a X − E ( a X ) ) 2 } = E { a 2 ( X − E X ) 2 } = a 2 E { ( X − E X ) 2 } = a 2 v a r ( X )
(2)根据 X , Y X,Y X , Y 的不相关性
var ( X + Y ) = E { ( X + Y − E ( X + Y ) ) 2 } = E [ ( X − E X ) 2 + 2 ( X Y − E ( X ) E ( Y ) ) + ( Y − E Y ) 2 ] = var ( X ) + 2 [ E ( X Y ) − E ( X ) E ( Y ) ] + var ( Y ) = var ( X ) + var ( Y ) \begin{aligned}
\operatorname{var}(X+Y) &=\mathbb{E}\left\{(X+Y-\mathbb{E}(X+Y))^{2}\right\} \\
&=\mathbb{E}\left[(X-\mathbb{E} X)^{2}+2(X Y-\mathbb{E}(X) \mathbb{E}(Y))+(Y-\mathbb{E} Y)^{2}\right] \\
&=\operatorname{var}(X)+2[\mathbb{E}(X Y)-\mathbb{E}(X) \mathbb{E}(Y)]+\operatorname{var}(Y) \\
&=\operatorname{var}(X)+\operatorname{var}(Y)
\end{aligned} v a r ( X + Y ) = E { ( X + Y − E ( X + Y ) ) 2 } = E [ ( X − E X ) 2 + 2 ( X Y − E ( X ) E ( Y ) ) + ( Y − E Y ) 2 ] = v a r ( X ) + 2 [ E ( X Y ) − E ( X ) E ( Y ) ] + v a r ( Y ) = v a r ( X ) + v a r ( Y )
在某些情况下,级数 S = ∑ x f ( x ) S=\sum x f(x) S = ∑ x f ( x ) 不是绝对收敛的,此时,分布函数 f ( x ) f(x) f ( x ) 的期望不存在,我们来看下面的例子。
Example 12. A distribution without a mean(不存在期望的分布). 设随机变量 X X X 有分布函数
f ( k ) = A k − 2 for k = ± 1 , ± 2 , … f(k)=A k^{-2} \quad \text { for } \quad k=\pm 1,\pm 2, \ldots f ( k ) = A k − 2 for k = ± 1 , ± 2 , … 选定 A A A 的值使得分布函数满足 ∑ f ( k ) = 1 \sum f(k)=1 ∑ f ( k ) = 1 ,我们发现
∑ k k f ( k ) = A ∑ k ≠ 0 k − 1 \sum_{k} k f(k)=A \sum_{k \neq 0} k^{-1} k ∑ k f ( k ) = A k = 0 ∑ k − 1 正负两部分都不收敛,因此级数不满足绝对收敛,期望不存在。
值得一提的是,现在我们可以将概率论的根基建立在期望算子 E \mathbb{E} E 上,而不是概率测度 P \mathbb{P} P ,毕竟我们关于 average 的直觉已经和量化的概率一样好了。
严谨来说,我们以 Theorem 8 为公理定义了名为 expectation operator(期望算子) 的东西,作用于随机变量所在的空间,而事件发生的概率可以重新定义为
P ( A ) = E ( I A ) \mathbb{P}(A)=\mathbb{E}\left(I_{A}\right) P ( A ) = E ( I A )
Whittle 曾是该理论的有力支持者,著有《Probability via Expectation 》.
这样的理论可用于解决 quantum theory(量子理论) 中的概率学问题,量子理论是理论物理学的一个重要分支,其中的某些问题不能在概率学框架下完整解决。这类问题中不存在样本空间 Ω \Omega Ω ,不存在指示函数,不存在概率空间下的那一套东西,但是存在期望算子 E \mathbb{E} E ,可作用于一种叫做 observables(可观测量) 的线性算子。
Example 13. Wagers(打赌). 概率学家们曾思考一个问题,支付一定的费用开启游戏,然后根据你在游戏中的表现给予奖励,例如我将一枚硬币掩藏在掌下,然后邀请一位朋友支付 1 1 1 英镑的价格来猜测硬币正面或反面朝上,猜对获得 2 2 2 英镑的报酬,猜错则血本无归。
这样的游戏看起来很公平,因为庄家和玩家最终收益的期望值均为 0 0 0 ,朋友们乐意借此消遣无趣的生活。
但是,如果我将游戏的奖励换成 2 10 2^{10} 2 1 0 英镑,你是否愿意支付 2 9 2^{9} 2 9 英镑来玩这个游戏呢?
虽然收益的期望值还是 0 0 0 ,游戏仍旧公平,但诸位必定会慎重考虑三思而行,因为这是一场真金白银的豪赌。
由此可见,游戏的公平性与合理性并不等价,玩家对待小赌和大赌的态度是不同的,尽管获胜的概率都是 50 % 50\% 5 0 % .
我们引入 utility function(效用函数) u ( x ) u(x) u ( x ) 表示某人获取 x x x 英镑的满意程度,则游戏的合理费用应该是
1 2 ( u ( 0 ) + u ( 2 10 ) ) \frac{1}{2}(u(0)+u(2^{10})) 2 1 ( u ( 0 ) + u ( 2 1 0 ) )
当然,每个人的效用函数都是不同的,但是都满足 u ( 0 ) = 0 u(0)=0 u ( 0 ) = 0 ,且 u u u 单调不减,对于较小的 x x x ,u ( x ) u(x) u ( x ) 的值非常接近 x x x ,且 u u u 为凹函数,因此
u ( x ) ≤ x u ( 1 ) for x ≥ 1 u(x)\leq xu(1) \quad \text{for } x\geq 1 u ( x ) ≤ x u ( 1 ) for x ≥ 1
效用函数是微观经济学中的常用概念,它衡量了消费者对于某次消费的满意程度,其中包含了三条重要原理:
人对于财富的占有多多益善,即 u ′ ( x ) > 0 u^{\prime}(x)>0 u ′ ( x ) > 0 .
随着财富的增加,满足程度的增加速度不断下降,即 u ′ ′ ( x ) < 0 u^{\prime\prime}(x)<0 u ′ ′ ( x ) < 0 .
在随机条件下,人的决策行为准则是获得最大期望效用值而非最大期望金额。
这也验证了经济市场中的一个准则:
no free lunch with vanishing risk \text{no free lunch with vanishing risk} no free lunch with vanishing risk
Example 14. Joy 现有 100 100 1 0 0 大洋,他的行为准则是最大化期望效用且效用函数为
u ( x ) = x u(x)=\sqrt{x} u ( x ) = x 已知 Joy 有 0.1 0.1 0 . 1 的概率睡过他的经济学考试,错过考试需要向学校缴纳 100 100 1 0 0 块的补考费,然而 Joy 的室友 Mary 从未睡过头,Joy 可以向她支付一定的费用请她帮忙在考试当天叫醒自己,求 Joy 愿意支付的最大费用。
如果采用决策一,即顺天应命不接受叫醒服务,则期望效用为
u 1 = 9 10 100 = 9 u_{1}=\frac{9}{10}\sqrt{100}=9 u 1 = 1 0 9 1 0 0 = 9
如果采用决策二,花费 x x x 元接受叫醒服务,则期望效用为
u 2 = 100 − x u_{2}=\sqrt{100-x} u 2 = 1 0 0 − x
我们发现当 x ≤ 19 x\leq 19 x ≤ 1 9 时,u 2 ≤ u 1 u_{2}\leq u_{1} u 2 ≤ u 1 ,即愿意支付的最大费用为 19 19 1 9 元。
Example 15. St Peterburg paradox(圣彼得堡悖论) 重复投掷一枚均匀的硬币,直到出现正面朝上为止,记投掷次数为 k k k ,玩家将获得 2 k 2^{k} 2 k 英镑的奖励,你愿意花费多少钱参加这个游戏?
我们发现一次游戏的期望收益为
∑ k = 1 ∞ 2 − k ⋅ 2 k = ∞ \sum_{k=1}^{\infty} 2^{-k} \cdot 2^{k}=\infty k = 1 ∑ ∞ 2 − k ⋅ 2 k = ∞
即如果玩家希望实现自己的收益最大化,只要能够参加游戏,付出多少钱都是可以接受的,然而事实并非如此。
我们知道随着试验次数的增加,试验的结果将会接近其数学期望,设玩家进行了 N N N 次试验,根据计算机模拟的结果,每次试验的平均收益
W ≈ log N log 2 W\approx \frac{\log{N}}{\log{2}} W ≈ log 2 log N
虽然随着 N N N 的增大,W W W 的值也在不断增大,但是增长速度太慢了,如果游戏的参与称为为 1 1 1 亿元,解出对应的 N ≈ 1 0 301000000 N\approx 10^{301000000} N ≈ 1 0 3 0 1 0 0 0 0 0 0 ,也就是说,重复进行这么多次游戏,你的收益才能和成本抵消。
这个例子告诉我们不能完全按照期望来做决策,我们还需要考虑期望和实验次数的关系。
Exercise 16. Coupons(礼券). 某商场发行了 c c c 种礼券,每包不透明的商品内等概率的含有一种礼券,集齐所有种类的礼券可获得神秘奖品,假设你每天买一包商品。
(1)求收集 j j j 种到 j + 1 j+1 j + 1 种不同礼券需要花费的天数的期望值。
(2)求获得神秘奖品需要花费的天数的期望值。
难度:★★☆☆☆(点击查看答案)
(1)已经拥有 j j j 种不同礼券时,设随机变量 X X X 表示获得新礼券的数量,则每购买一包商品时
P ( X = 1 ) = c − j c , P ( X = 0 ) = j c \mathbb{P}(X=1)=\frac{c-j}{c},\quad \mathbb{P}(X=0)=\frac{j}{c} P ( X = 1 ) = c c − j , P ( X = 0 ) = c j
设用时为 n n n 天,则
E ( n X ) = n E ( X ) = n ( c − j ) c = 1 ⇒ n = c c − j \mathbb{E}(nX)=n\mathbb{E}(X)=\frac{n(c-j)}{c}=1\Rightarrow n=\frac{c}{c-j} E ( n X ) = n E ( X ) = c n ( c − j ) = 1 ⇒ n = c − j c
(2)有了上一问的经验就很简单了
A n s = ∑ j = 0 c − 1 c c − j = c ∑ k = 1 c 1 k Ans=\sum_{j=0}^{c-1} \frac{c}{c-j}=c \sum_{k=1}^{c} \frac{1}{k} A n s = j = 0 ∑ c − 1 c − j c = c k = 1 ∑ c k 1
Exercise 17. n n n 个玩家轮流投掷一枚均匀的骰子,则一轮游戏中
(1)若每有一对玩家掷出相同的点数,集体获得一分,求集体总分的期望与方差。
(2)若每有一对玩家掷出相同的点数,集体获得与该点数相同的分数,求集体总分的期望与方差。
难度:★★★★☆(点击查看答案)
(1)设 I i j I_{ij} I i j 表示事件玩家 i , j i,j i , j 掷出相同点数的指示函数,则
E ( I i j ) = P ( I i j = 1 ) = ∑ i = 1 6 ( 1 6 ) 2 = 1 6 , i ≠ j \mathbb{E}\left(I_{i j}\right)=\mathbb{P}\left(I_{i j}=1\right)=\sum_{i=1}^{6}\left(\frac{1}{6}\right)^{2}=\frac{1}{6}, \quad i \neq j E ( I i j ) = P ( I i j = 1 ) = i = 1 ∑ 6 ( 6 1 ) 2 = 6 1 , i = j
var ( I i j ) = E ( I i j 2 ) − E 2 ( I i j ) = 1 6 − 1 36 = 5 36 , i ≠ j \operatorname{var}(I_{ij})=\mathbb{E}(I^{2}_{ij})-\mathbb{E}^{2}(I_{ij})=\frac{1}{6}-\frac{1}{36}=\frac{5}{36},\quad i\neq j v a r ( I i j ) = E ( I i j 2 ) − E 2 ( I i j ) = 6 1 − 3 6 1 = 3 6 5 , i = j
设集体总分为 S S S ,根据期望的线性性质
E ( S ) = ∑ i < j E ( I i j ) = 1 6 ( n 2 ) \mathbb{E}(S)=\sum_{i<j} \mathbb{E}\left(I_{i j}\right)=\frac{1}{6}\binom{n}{2} E ( S ) = i < j ∑ E ( I i j ) = 6 1 ( 2 n )
事实上,随机变量组 { I i j ∣ i < j } \left\{I_{i j}\mid i<j\right\} { I i j ∣ i < j } 两两独立,这是因为
E ( I i j I j k ) = P ( i , j , k throw same number ) = ∑ r = 1 6 ( 1 6 ) 3 = 1 36 = E ( I i j ) E ( I j k ) \begin{aligned}
\mathbb{E}\left(I_{i j} I_{j k}\right)&=\mathbb{P}(i, j, k \text { throw same number})\\
&=\sum_{r=1}^{6}\left(\frac{1}{6}\right)^{3}=\frac{1}{36}=\mathbb{E}\left(I_{i j}\right) \mathbb{E}\left(I_{j k}\right)
\end{aligned} E ( I i j I j k ) = P ( i , j , k throw same number ) = r = 1 ∑ 6 ( 6 1 ) 3 = 3 6 1 = E ( I i j ) E ( I j k )
因此,根据方差的性质
var ( S ) = var ( ∑ i < j I i j ) = ∑ i < j var ( I i j ) = 5 36 ( n 2 ) \operatorname{var}(S)=\operatorname{var}\left(\sum_{i<j} I_{i j}\right)=\sum_{i<j} \operatorname{var}\left(I_{i j}\right)=\frac{5}{36}\binom{n}{2} v a r ( S ) = v a r ( i < j ∑ I i j ) = i < j ∑ v a r ( I i j ) = 3 6 5 ( 2 n )
(2)设 X i j X_{ij} X i j 表示玩家 i , j i,j i , j 的得分,则
E ( X i j ) = ∑ i = 1 6 i ( 1 6 ) 2 = 7 12 , i ≠ j \mathbb{E}\left(X_{i j}\right)=\sum_{i=1}^{6}i\left(\frac{1}{6}\right)^{2}=\frac{7}{12}, \quad i \neq j E ( X i j ) = i = 1 ∑ 6 i ( 6 1 ) 2 = 1 2 7 , i = j
E ( S ) = ∑ i < j E ( X i j ) = 7 12 ( n 2 ) \mathbb{E}(S)=\sum_{i<j} \mathbb{E}\left(X_{i j}\right)=\frac{7}{12}\binom{n}{2} E ( S ) = i < j ∑ E ( X i j ) = 1 2 7 ( 2 n )
现在 X i j X_{ij} X i j 之间并不是两两独立的,我们只能埋头苦算
var ( S ) = E { ( ∑ i < j X i j ) 2 } − E 2 ( S ) = ( n 2 ) E ( X 12 2 ) + ( n 3 ) E ( X 12 X 23 ) + { ( n 2 ) 2 − ( n 2 ) − ( n 3 ) } E ( X 12 ) 2 − ( 7 12 ) 2 ( n 2 ) 2 = 315 144 ( n 2 ) + 35 432 ( n 3 ) \begin{aligned}
\operatorname{var}(S) &=\mathbb{E}\left\{\left(\sum_{i<j} X_{i j}\right)^{2}\right\}-\mathbb{E}^{2}(S) \\
&=\binom{n}{2} \mathbb{E}\left(X_{12}^{2}\right)+\binom{n}{3} \mathbb{E}\left(X_{12} X_{23}\right)+\left\{\binom{n}{2}^{2}-\binom{n}{2}-\binom{n}{3}\right\} \mathbb{E}\left(X_{12}\right)^{2}-\left(\frac{7}{12}\right)^{2}\binom{n}{2}^{2} \\
&=\frac{315}{144}\binom{n}{2}+\frac{35}{432}\binom{n}{3}
\end{aligned} v a r ( S ) = E ⎩ ⎪ ⎨ ⎪ ⎧ ( i < j ∑ X i j ) 2 ⎭ ⎪ ⎬ ⎪ ⎫ − E 2 ( S ) = ( 2 n ) E ( X 1 2 2 ) + ( 3 n ) E ( X 1 2 X 2 3 ) + { ( 2 n ) 2 − ( 2 n ) − ( 3 n ) } E ( X 1 2 ) 2 − ( 1 2 7 ) 2 ( 2 n ) 2 = 1 4 4 3 1 5 ( 2 n ) + 4 3 2 3 5 ( 3 n )
注:以上是官方所给答案,但是博主认为上述过程中没有考虑到 X i j , X i k X_{ij},X_{ik} X i j , X i k 不独立的情形,因此博主的答案是
var ( S ) = ( n 2 ) E ( X 12 2 ) + 6 ( n 3 ) E ( X 12 X 23 ) + 6 ( n 4 ) E 2 ( X 12 ) − ( 7 12 ) 2 ( n 2 ) 2 = 91 36 ( n 2 ) + 91 36 ( n 3 ) + 24 49 ( n 4 ) − 49 144 ( n 2 ) 2 \begin{aligned}\operatorname{var}(S)
&=\binom{n}{2}\mathbb{E}(X^{2}_{12})+6\binom{n}{3}\mathbb{E}(X_{12}X_{23})+6\binom{n}{4}\mathbb{E}^{2}(X_{12})-\left(\frac{7}{12}\right)^{2}\binom{n}{2}^{2}\\
&=\frac{91}{36}\binom{n}{2}+\frac{91}{36}\binom{n}{3}+\frac{24}{49}\binom{n}{4}-\frac{49}{144}\binom{n}{2}^{2}
\end{aligned} v a r ( S ) = ( 2 n ) E ( X 1 2 2 ) + 6 ( 3 n ) E ( X 1 2 X 2 3 ) + 6 ( 4 n ) E 2 ( X 1 2 ) − ( 1 2 7 ) 2 ( 2 n ) 2 = 3 6 9 1 ( 2 n ) + 3 6 9 1 ( 3 n ) + 4 9 2 4 ( 4 n ) − 1 4 4 4 9 ( 2 n ) 2
注意到 ( n 2 ) + 6 ( n 3 ) + 6 ( n 4 ) = ( n 2 ) 2 \binom{n}{2}+6\binom{n}{3}+6\binom{n}{4}=\binom{n}{2}^{2} ( 2 n ) + 6 ( 3 n ) + 6 ( 4 n ) = ( 2 n ) 2 ,因此
var ( S ) = 315 144 ( n 2 ) + 35 72 ( n 3 ) \operatorname{var}(S)=\frac{315}{144}\binom{n}{2}+\frac{35}{72}\binom{n}{3} v a r ( S ) = 1 4 4 3 1 5 ( 2 n ) + 7 2 3 5 ( 3 n )
Exercise 18. Arbitrage(套利). 在一场赌马游戏中,共 n n n 匹赛马,第 k k k 匹马的下注回报率为 π ( k ) \pi(k) π ( k ) ,且满足
∑ k = 1 n 1 π ( k ) + 1 < 1 \sum_{k=1}^{n}\frac{1}{\pi(k)+1}<1 k = 1 ∑ n π ( k ) + 1 1 < 1 证明:存在一种下注方法可以保证盈利。
难度:★★☆☆☆(点击查看答案)
我们在所有的赛马上下注,第 k k k 匹马上下注 1 π ( k ) + 1 \frac{1}{\pi(k)+1} π ( k ) + 1 1 ,那么总的花费小于 1 1 1 ,且不管哪匹马获胜我们的回报都是 1 1 1 .
4、Indicators and matching(指示函数和匹配问题)
本节我们介绍一些指示函数的应用,在 Example 2.1.8 中我们定义了指示函数
I A ( ω ) = { 1 if ω ∈ A 0 if ω ∈ A c I_{A}(\omega)=\left\{\begin{array}{ll}
1 & \text { if } \omega \in A \\
0 & \text { if } \omega \in A^{c}
\end{array}\right. I A ( ω ) = { 1 0 if ω ∈ A if ω ∈ A c
并且我们知道 E I A = P ( A ) \mathbb{E} I_{A}=\mathbb{P}(A) E I A = P ( A ) .
Example 1. 我们尝试用指示函数证明 Lemma 1.3.6 ,即
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) \mathbb{P}(A \cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
显然,对于指示函数,有
I A ∪ A c = 1 , I A ∩ B = I A I B I_{A \cup A^{c}}=1,\quad I_{A \cap B}=I_{A} I_{B} I A ∪ A c = 1 , I A ∩ B = I A I B
因此
I A ∪ B = 1 − I ( A ∪ B ) c = 1 − I A c ∩ B c = 1 − I A c I B c = 1 − ( 1 − I A ) ( 1 − I B ) = I A + I B − I A I B \begin{aligned}
I_{A \cup B} &=1-I_{(A \cup B)^{c}}=1-I_{A^{c} \cap B^{c}} \\
&=1-I_{A^{c}} I_{B^{c}}=1-\left(1-I_{A}\right)\left(1-I_{B}\right) \\
&=I_{A}+I_{B}-I_{A} I_{B}
\end{aligned} I A ∪ B = 1 − I ( A ∪ B ) c = 1 − I A c ∩ B c = 1 − I A c I B c = 1 − ( 1 − I A ) ( 1 − I B ) = I A + I B − I A I B
两边取期望得到
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) \mathbb{P}(A \cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A \cap B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
更一般的,设 B = ⋃ i = 1 n A i B=\bigcup_{i=1}^{n} A_{i} B = ⋃ i = 1 n A i ,则
I B = 1 − ∏ i = 1 n ( 1 − I A i ) I_{B}=1-\prod_{i=1}^{n}\left(1-I_{A_{i}}\right) I B = 1 − i = 1 ∏ n ( 1 − I A i )
把乘积展开后两边取期望得到
P ( ⋃ i = 1 n A i ) = ∑ i P ( A i ) − ∑ i < j P ( A i ∩ A j ) + ⋯ + ( − 1 ) n + 1 P ( A 1 ∩ ⋯ ∩ A n ) \mathbb{P}\left(\bigcup_{i=1}^{n} A_{i}\right)=\sum_{i} \mathbb{P}\left(A_{i}\right)-\sum_{i<j} \mathbb{P}\left(A_{i} \cap A_{j}\right)+\cdots+(-1)^{n+1} \mathbb{P}\left(A_{1} \cap \cdots \cap A_{n}\right) P ( i = 1 ⋃ n A i ) = i ∑ P ( A i ) − i < j ∑ P ( A i ∩ A j ) + ⋯ + ( − 1 ) n + 1 P ( A 1 ∩ ⋯ ∩ A n )
这个恒等式称为 inclusion-exclusion formula(容斥公式) .
Example 2. Matching problem(匹配问题). 一位秘书打印了 n n n 封不同的信,每封信都有与之匹配的信封,秘书失误把沓信件摔下来楼梯,于是只好把它们随机地重新放入信封中,假设每种匹配方案都是等概率的,我们想知道恰好有 r r r 封信放入正确信封的概率。
设 L 1 , L 2 , … , L n L_{1},L_{2},\ldots,L_{n} L 1 , L 2 , … , L n 表示这些信件,事件 A i A_{i} A i 表示 L i L_{i} L i 放入了正确的信封,且 I i I_{i} I i 为 A i A_{i} A i 的指示函数,定义
S = ∑ π I j 1 ⋯ I j r ( 1 − I k r + 1 ) ⋯ ( 1 − I k n ) S=\sum_{\pi} I_{j_{1}} \cdots I_{j_{r}}\left(1-I_{k_{r+1}}\right) \cdots\left(1-I_{k_{n}}\right) S = π ∑ I j 1 ⋯ I j r ( 1 − I k r + 1 ) ⋯ ( 1 − I k n )
其中 j 1 , … , j r , k r + 1 , … , k n j_{1},\ldots,j_{r},k_{r+1},\ldots,k_{n} j 1 , … , j r , k r + 1 , … , k n 枚举了所有 1 , 2 , … , n 1,2,\ldots,n 1 , 2 , … , n 的排列,记随机变量 X X X 表示放入正确信封的信件数量,则
S = { 0 if X ≠ r r ! ( n − r ) ! if X = r S=\left\{\begin{array}{ll}
0 & \text { if } X \neq r \\
r !(n-r) ! & \text { if } X=r
\end{array}\right. S = { 0 r ! ( n − r ) ! if X = r if X = r
我们要求的事件是 { X = r } \{X=r\} { X = r } ,其指示函数
I = 1 r ! ( n − r ) ! S I=\frac{1}{r !(n-r) !} S I = r ! ( n − r ) ! 1 S
也就是说,我们只要求出 E ( S ) \mathbb{E}(S) E ( S ) ,问题就解决了,将 S S S 的定义式两边取期望,根据对称性得到
E ( S ) = ∑ π ∑ s = 0 n − r ( − 1 ) s ( n − r s ) E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s ) \mathbb{E}(S)=\sum_{\pi} \sum_{s=0}^{n-r}(-1)^{s}\binom{n-r}{s} \mathbb{E}\left(I_{j_{1}} \cdots I_{j_{r}} I_{k_{r+1}} \cdots I_{k_{r+s}}\right) E ( S ) = π ∑ s = 0 ∑ n − r ( − 1 ) s ( s n − r ) E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s )
而 E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s ) \mathbb{E}\left(I_{j_{1}} \cdots I_{j_{r}} I_{k_{r+1}} \cdots I_{k_{r+s}}\right) E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s ) 即 L j 1 , … , L j r , L k r + 1 , L k r + s L_{j_{1}},\ldots,L_{j_{r}},L_{k_{r+1}},L_{k_{r+s}} L j 1 , … , L j r , L k r + 1 , L k r + s 都放入正确信封的概率,因此
E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s ) = ( n − r − s ) ! n ! \mathbb{E}\left(I_{j_{1}} \cdots I_{j_{r}} I_{k_{r+1}} \cdots I_{k_{r+s}}\right)=\frac{(n-r-s) !}{n !} E ( I j 1 ⋯ I j r I k r + 1 ⋯ I k r + s ) = n ! ( n − r − s ) !
将这些公式代入得到
P ( X = r ) = E ( I ) = 1 r ! ( n − r ) ! E ( S ) = 1 r ! ( n − r ) ! ∑ s = 0 n − r ( − 1 ) s ( n − r s ) n ! ( n − r − s ) ! n ! = 1 r ! ∑ s = 0 n − r ( − 1 ) s 1 s ! \begin{aligned}
\mathbb{P}(X=r) &=\mathbb{E}(I)=\frac{1}{r !(n-r) !} \mathbb{E}(S) \\
&=\frac{1}{r !(n-r) !} \sum_{s=0}^{n-r}(-1)^{s}\binom{n-r}{s} n ! \frac{(n-r-s) !}{n !} \\
&=\frac{1}{r !} \sum_{s=0}^{n-r}(-1)^{s} \frac{1}{s !}
\end{aligned} P ( X = r ) = E ( I ) = r ! ( n − r ) ! 1 E ( S ) = r ! ( n − r ) ! 1 s = 0 ∑ n − r ( − 1 ) s ( s n − r ) n ! n ! ( n − r − s ) ! = r ! 1 s = 0 ∑ n − r ( − 1 ) s s ! 1
特别的,当 n → ∞ n\rightarrow \infty n → ∞ 时,没有信装入正确信封的概率为
lim n → ∞ ∑ s = 0 n ( − 1 ) s s ! = e − 1 \lim_{n\rightarrow \infty} \sum_{s=0}^{n}\frac{(-1)^s}{s!}=e^{-1} n → ∞ lim s = 0 ∑ n s ! ( − 1 ) s = e − 1
事实上,我们可以使用容斥公式更简单的解决匹配问题,留作练习。
Example 3. The probabilistic method(概率学方法). 一块土地的外围有 17 17 1 7 根护栏,其中有 5 5 5 根损坏,证明:存在连续的 7 7 7 根护栏,其中至少有 3 3 3 根损坏。
我们给护栏编号为 1 , 2 , … , 17 1,2,\ldots,17 1 , 2 , … , 1 7 ,设 I k I_{k} I k 表示第 k k k 根护栏损坏的指示函数,随机变量 R k R_{k} R k 编号为 k + 1 , k + 2 , … , k + 7 ( m o d 17 ) k+1,k+2,\ldots,k+7\pmod{17} k + 1 , k + 2 , … , k + 7 ( m o d 1 7 ) 的护栏中损坏的数量。
现在,我们等概率的随机选取一根护栏 K K K ,有
E ( R K ) = 1 17 ∑ k = 1 17 ( I k + 1 + I k + 2 + ⋯ + I k + 7 ) = ∑ j = 1 17 7 17 I j = 7 17 ⋅ 5 > 2 \mathbb{E}\left(R_{K}\right)=\frac{1}{17}\sum_{k=1}^{17} \left(I_{k+1}+I_{k+2}+\cdots+I_{k+7}\right)=\sum_{j=1}^{17} \frac{7}{17} I_{j}=\frac{7}{17} \cdot 5>2 E ( R K ) = 1 7 1 k = 1 ∑ 1 7 ( I k + 1 + I k + 2 + ⋯ + I k + 7 ) = j = 1 ∑ 1 7 1 7 7 I j = 1 7 7 ⋅ 5 > 2
由于 R k R_{k} R k 的取值为整数,因此 P ( R K ≥ 3 ) > 0 \mathbb{P}\left(R_{K} \geq 3\right)>0 P ( R K ≥ 3 ) > 0 ,得证。
Exercise 4. The probabilistic method(概率学方法). 设 G = ( V , E ) G=(V,E) G = ( V , E ) 为有限图,对于任意的点集 W W W 和边 e ∈ E e\in E e ∈ E ,定义指示函数 I W ( e ) = { 1 if e connects W and W c 0 otherwise I_{W}(e)=\left\{\begin{array}{ll}1 & \text { if } e \text { connects } W \text { and } W^{\mathrm{c}} \\ 0 & \text { otherwise }\end{array}\right. I W ( e ) = { 1 0 if e connects W and W c otherwise 设 N W = ∑ e ∈ E I W ( e ) N_{W}=\sum_{e \in E} I_{W}(e) N W = ∑ e ∈ E I W ( e ) ,证明:存在 W ⊆ W\subseteq W ⊆ 使得 N W ≥ 1 2 ∣ E ∣ N_{W} \geq \frac{1}{2}|E| N W ≥ 2 1 ∣ E ∣ .
难度:★★★☆☆(点击查看答案)
我们对图 G G G 的所有顶点以 1 2 \frac{1}{2} 2 1 的概率黑白染色,令 W W W 表示白色点集,则 N W N_{W} N W 表示端点为一黑一白的边的数量,故
E N W = 1 2 ∣ E ∣ , P ( N W > 1 2 ∣ E ∣ ) > 0 \mathbb{E} N_{W}=\frac{1}{2}|E|, \quad \mathbb{P}(N_{W}>\frac{1}{2}|E|)>0 E N W = 2 1 ∣ E ∣ , P ( N W > 2 1 ∣ E ∣ ) > 0
Example 1. Bernoulli trials(伯努利试验). 随机变量 X X X 的取值为 0 , 1 0,1 0 , 1 ,对应的概率分别为 p , q = 1 − p p,q=1-p p , q = 1 − p ,有时我们可以用 X X X 描述一次试验的结果,0 , 1 0,1 0 , 1 分别表示失败和成功,其概率质量函数
f ( 0 ) = 1 − p , f ( 1 ) = p f(0)=1-p, \quad f(1)=p f ( 0 ) = 1 − p , f ( 1 ) = p 且期望 E X = p \mathbb{E} X=p E X = p ,方差 var ( X ) = p ( 1 − p ) \operatorname{var}(X)=p(1-p) v a r ( X ) = p ( 1 − p ) .
Example 2. Binomial distribution(二项分布). 我们进行 n n n 次伯努利试验 X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X 1 , X 2 , … , X n ,试验成功的次数 Y = X 1 + X 2 + ⋯ + X n Y=X_{1}+X_{2}+\cdots+X_{n} Y = X 1 + X 2 + ⋯ + X n ,根据 Example 3.1.3 的讨论,Y Y Y 的质量函数
f ( k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , … , n f(k)=\binom{n}{k} p^{k}(1-p)^{n-k}, \quad k=0,1, \ldots, n f ( k ) = ( k n ) p k ( 1 − p ) n − k , k = 0 , 1 , … , n 根据 Theorem 3.3.9 和 Theorem 3.3.11 可得
E Y = n p , var ( Y ) = n p ( 1 − p ) \mathbb{E} Y=n p, \quad \operatorname{var}(Y)=n p(1-p) E Y = n p , v a r ( Y ) = n p ( 1 − p )
Example 3. Trinomial distribution(三项分布). 我们进行 n n n 次试验,每次试验有 3 3 3 种可能的结果,不妨用红白蓝表示,对应的概率分别为 p , q , 1 − p − q p,q,1-p-q p , q , 1 − p − q ,那么红白蓝的次数分别为 r , w , n − r − w r,w,n-r-w r , w , n − r − w 的概率为
n ! r ! w ! ( n − r − w ) ! p r q w ( 1 − p − q ) n − r − w \frac{n !}{r ! w !(n-r-w) !} p^{r} q^{w}(1-p-q)^{n-r-w} r ! w ! ( n − r − w ) ! n ! p r q w ( 1 − p − q ) n − r − w 这就是参数为 n , p , q n,p,q n , p , q 的三项分布,更一般的,若试验的结果有 t t t 种,称为 multinomial distribution(多项分布) .
Example 4. Poisson distribution(泊松分布). 泊松随机变量是指服从质量函数
f ( k ) = λ k k ! e − λ , k = 0 , 1 , 2 , … f(k)=\frac{\lambda^{k}}{k !} e^{-\lambda}, \quad k=0,1,2, \ldots f ( k ) = k ! λ k e − λ , k = 0 , 1 , 2 , … 的随机变量,其中参数 λ > 0 \lambda>0 λ > 0 ,不难验证泊松分布的期望与方差都是 λ \lambda λ .
泊松分布的由来如下,设随机变量 Y ∼ bin ( n , p ) Y\sim \text{bin}(n,p) Y ∼ bin ( n , p ) ,设 λ = E ( Y ) = n p \lambda=\mathbb{E}(Y)=n p λ = E ( Y ) = n p ,当 n → ∞ , p → 0 n \rightarrow \infty, p \rightarrow 0 n → ∞ , p → 0 时
P ( Y = k ) = ( n k ) p k ( 1 − p ) n − k ∼ 1 k ! ( n p 1 − p ) k ( 1 − p ) n → λ k k ! e − λ \mathbb{P}(Y=k)=\binom{n}{k} p^{k}(1-p)^{n-k} \sim \frac{1}{k !}\left(\frac{n p}{1-p}\right)^{k}(1-p)^{n} \rightarrow \frac{\lambda^{k}}{k !} e^{-\lambda} P ( Y = k ) = ( k n ) p k ( 1 − p ) n − k ∼ k ! 1 ( 1 − p n p ) k ( 1 − p ) n → k ! λ k e − λ
Example 5. Geometric distribution(几何分布). 几何随机变量是指服从质量函数
f ( k ) = p ( 1 − p ) k − 1 , k = 1 , 2 , … f(k)=p(1-p)^{k-1}, \quad k=1,2, \ldots f ( k ) = p ( 1 − p ) k − 1 , k = 1 , 2 , … 的随机变量,其中参数 p ∈ ( 0 , 1 ) p\in (0,1) p ∈ ( 0 , 1 ) ,不难验证几何分布的期望为 p − 1 p^{-1} p − 1 ,方差为 ( 1 − p ) p − 2 (1-p)p^{-2} ( 1 − p ) p − 2 .
几何分布的由来如下,不断进行参数为 p p p 的伯努利试验,记 W W W 为第一次试验成功时已经进行的试验次数,我们把 W W W 称为 waiting time(等待时长) ,那么显然 P ( W > k ) = ( 1 − p ) k \mathbb{P}(W>k)=(1-p)^{k} P ( W > k ) = ( 1 − p ) k ,因此
P ( W = k ) = P ( W > k − 1 ) − P ( W > k ) = p ( 1 − p ) k − 1 \mathbb{P}(W=k)=\mathbb{P}(W>k-1)-\mathbb{P}(W>k)=p(1-p)^{k-1} P ( W = k ) = P ( W > k − 1 ) − P ( W > k ) = p ( 1 − p ) k − 1
Example 6. Negative binomal distribution(负二项分布). 负二项分布是几何分布的扩展,设 W r W_{r} W r 表示伯努利试验成功 r r r 次时的等待时长,不难验证 W r W_{r} W r 有质量函数
P ( W r = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r , k = r , r + 1 , … \mathbb{P}\left(W_{r}=k\right)=\binom{k-1}{r-1} p^{r}(1-p)^{k-r}, \quad k=r, r+1, \ldots P ( W r = k ) = ( r − 1 k − 1 ) p r ( 1 − p ) k − r , k = r , r + 1 , … 事实上,W r W_{r} W r 是 r r r 个几何随机变量的和,设 X i X_{i} X i 表示第 i − 1 i-1 i − 1 次成功至第 i i i 次成功之间的等待时长,不难看出 X 1 , X 2 , … , X r X_{1},X_{2},\ldots,X_{r} X 1 , X 2 , … , X r 为相互独立的几何随机变量,且
W r = X 1 + X 2 + ⋯ + X r W_{r}=X_{1}+X_{2}+\cdots+X_{r} W r = X 1 + X 2 + ⋯ + X r 应用 Theorem 3.3.8 和 Theorem 3.3.11 不难求出 W r W_{r} W r 的期望和方差。
Exercise 7. 设 X X X 服从泊松分布
P ( X = n ) = p n ( λ ) = λ n n ! e − λ , for n ≥ 0 \mathbb{P}(X=n)=p_{n}(\lambda)=\frac{\lambda^{n}}{n!}e^{-\lambda}, \quad\text { for } n \geq 0 P ( X = n ) = p n ( λ ) = n ! λ n e − λ , for n ≥ 0 证明:
P ( X ≤ n ) = 1 − ∫ 0 λ p n ( x ) d x \mathbb{P}(X \leq n)=1-\int_{0}^{\lambda} p_{n}(x) d x P ( X ≤ n ) = 1 − ∫ 0 λ p n ( x ) d x
难度:★★★☆☆(点击查看答案)
我们将要证的式子两边对 λ \lambda λ 求导得
d d λ { P ( X ≤ n ) } = − p n ( λ ) \frac{d}{d\lambda}\{\mathbb{P}(X\leq n)\}=-p_n(\lambda) d λ d { P ( X ≤ n ) } = − p n ( λ )
而 P ( X ≤ n ) = ∑ i = 0 n p i ( λ ) \mathbb{P}(X\leq n)=\sum_{i=0}^{n}p_{i}(\lambda) P ( X ≤ n ) = ∑ i = 0 n p i ( λ ) ,因此
d d λ { P ( X ≤ n ) } = ∑ i = 0 n d d λ p i ( λ ) = ∑ i = 0 n i λ i − 1 e − λ − λ i e − λ i ! = ∑ i = 0 n { p i − 1 ( λ ) − p i ( λ ) } = − p n ( λ ) \begin{aligned}
\frac{d}{d\lambda}\{\mathbb{P}(X\leq n)\}&=\sum_{i=0}^{n}\frac{d}{d\lambda}p_{i}(\lambda)=\sum_{i=0}^{n}\frac{i\lambda^{i-1}e^{-\lambda}-\lambda^{i}e^{-\lambda}}{i!}\\
&=\sum_{i=0}^{n}\{p_{i-1}(\lambda)-p_{i}(\lambda)\}=-p_{n}(\lambda)
\end{aligned} d λ d { P ( X ≤ n ) } = i = 0 ∑ n d λ d p i ( λ ) = i = 0 ∑ n i ! i λ i − 1 e − λ − λ i e − λ = i = 0 ∑ n { p i − 1 ( λ ) − p i ( λ ) } = − p n ( λ )
两边对 λ \lambda λ 积分得到
P ( X ≤ n ) = C − ∫ 0 λ p n ( x ) d x \mathbb{P}(X \leq n)=C-\int_{0}^{\lambda} p_{n}(x) d x P ( X ≤ n ) = C − ∫ 0 λ p n ( x ) d x
令 n = 0 n=0 n = 0 得到 C = 1 C=1 C = 1 ,证毕。
Exercise 8. Capture-recapture(重复捕捉) 某动物群体中共有 b b b 个成员,现捕捉其中 a a a 个,标记后放回,设随机变量 X X X 表示再次捕捉时捉到 m m m 个带标记的成员需要的捕捉次数,证明:
P ( X = n ) = a b ( a − 1 m − 1 ) ( b − a n − m ) / ( b − 1 n − 1 ) \left.{\mathbb{P}(X=n)=\frac{a}{b}\binom{a-1}{m-1}\binom{b-a}{n-m}}\middle/ \binom{b-1}{n-1}\right. P ( X = n ) = b a ( m − 1 a − 1 ) ( n − m b − a ) / ( n − 1 b − 1 ) 并求 E X \mathbb{E} X E X ,事实上,X X X 服从 negative hypergeometric distribution(负超几何分布) .
难度:★★★☆☆(点击查看答案)
为了满足条件,第 n n n 次捕捉的动物必须有标记,前 n − 1 n-1 n − 1 次捕捉的动物中必须有 m − 1 m-1 m − 1 个动物有标记,对应的方案数为 a b ( a − 1 m − 1 ) ( b − a n − m ) \frac{a}{b}\binom{a-1}{m-1}\binom{b-a}{n-m} b a ( m − 1 a − 1 ) ( n − m b − a ) ,而总的方案数为 ( b − 1 n − 1 ) \binom{b-1}{n-1} ( n − 1 b − 1 ) ,证毕。
设 X j X_{j} X j 表示捕捉第 j − 1 j-1 j − 1 和第 j j j 个带标记动物之间捕捉的不带标记的动物的期望个数,则
∑ j = 0 a E X j = b − a \sum_{j=0}^{a}\mathbb{E}X_{j}=b-a j = 0 ∑ a E X j = b − a
根据对称性,有 E X 1 = E X 2 = ⋯ = E X n = b − a a + 1 \mathbb{E}X_{1}=\mathbb{E}X_{2}=\cdots=\mathbb{E}X_{n}=\frac{b-a}{a+1} E X 1 = E X 2 = ⋯ = E X n = a + 1 b − a ,因此
E X = ∑ j = 1 m ( E X j + 1 ) = m ( b + 1 ) a + 1 \mathbb{E}X=\sum_{j=1}^{m}(\mathbb{E}X_{j}+1)=\frac{m(b+1)}{a+1} E X = j = 1 ∑ m ( E X j + 1 ) = a + 1 m ( b + 1 )
概率论常常考虑一组随机变量,这些随机变量之间往往不完全是独立的。
我们需要一个工具来研究这些相互关联的随机变量组,下面我们以两个随机变量为例,来研究它们的相关性。
Definition 1. 离散型随机变量 X , Y X,Y X , Y 的 joint distribution function(联合分布函数) F : R 2 → [ 0 , 1 ] F: \mathbb{R}^{2} \rightarrow[0,1] F : R 2 → [ 0 , 1 ] 定义为
F ( x , y ) = P ( X ≤ x and Y ≤ y ) F(x, y)=\mathbb{P}(X \leq x \text { and } Y \leq y) F ( x , y ) = P ( X ≤ x and Y ≤ y ) 且 joint mass function(联合质量函数) f : R 2 → [ 0 , 1 ] f: \mathbb{R}^{2} \rightarrow[0,1] f : R 2 → [ 0 , 1 ] 定义为
f ( x , y ) = P ( X = x and Y = y ) f(x, y)=\mathbb{P}(X=x \text { and } Y=y) f ( x , y ) = P ( X = x and Y = y )
多个随机变量的联合分布函数与联合质量函数的定义也是一样的。
当需要指明随机变量的符号时,我们用 F X , Y F_{X,Y} F X , Y 和 f X , Y f_{X,Y} f X , Y 来指明对应的随机变量是 X , Y X,Y X , Y .
Lemma 2. 离散型随机变量 X , Y X,Y X , Y 独立当且仅当
f X , Y ( x , y ) = f X ( x ) f Y ( y ) for all x , y ∈ R f_{X, Y}(x, y)=f_{X}(x) f_{Y}(y) \quad \text { for all } x, y \in \mathbb{R} f X , Y ( x , y ) = f X ( x ) f Y ( y ) for all x , y ∈ R 更进一步,X , Y X,Y X , Y 独立当且仅当 f X , Y ( x , y ) f_{X,Y}(x,y) f X , Y ( x , y ) 可以写成仅含有 x x x 的函数 g ( x ) g(x) g ( x ) 与仅含有 y y y 的函数 h ( y ) h(y) h ( y ) 的乘积
f X , Y ( x , y ) = g ( x ) h ( y ) f_{X,Y}(x,y)=g(x)h(y) f X , Y ( x , y ) = g ( x ) h ( y )
证明:(1)设事件 A x = { X = x } , B y = { Y = y } A_{x}=\{X=x\},B_{y}=\{Y=y\} A x = { X = x } , B y = { Y = y } ,则
f X , Y ( x , y ) = P ( A x ∩ B y ) f_{X,Y}(x, y)=\mathbb{P}\left(A_{x} \cap B_{y}\right) f X , Y ( x , y ) = P ( A x ∩ B y )
根据 Definition 3.2.1 ,若 X , Y X,Y X , Y 独立,则
f X , Y ( x , y ) = P ( A x ) P ( B y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y)=\mathbb{P}(A_{x})\mathbb{P}(B_{y})=f_{X}(x)f_{Y}(y) f X , Y ( x , y ) = P ( A x ) P ( B y ) = f X ( x ) f Y ( y )
若 f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X, Y}(x, y)=f_{X}(x) f_{Y}(y) f X , Y ( x , y ) = f X ( x ) f Y ( y ) ,则对于 x , y ∈ R x,y\in \mathbb{R} x , y ∈ R
P ( A x ∩ B y ) = P ( A x ) P ( B y ) ⇒ X , Y 独立 \mathbb{P}\left(A_{x} \cap B_{y}\right)=\mathbb{P}(A_{x})\mathbb{P}(B_{y})\Rightarrow X,Y 独立 P ( A x ∩ B y ) = P ( A x ) P ( B y ) ⇒ X , Y 独 立
(2)若 f X , Y ( x , y ) = g ( x ) h ( y ) f_{X,Y}(x,y)=g(x)h(y) f X , Y ( x , y ) = g ( x ) h ( y ) ,则
f X ( x ) = ∑ y f X , Y ( x , y ) = g ( x ) ∑ y h ( y ) f_{X}(x)=\sum_{y} f_{X, Y}(x, y)=g(x) \sum_{y} h(y) f X ( x ) = y ∑ f X , Y ( x , y ) = g ( x ) y ∑ h ( y )
f Y ( y ) = ∑ x f X , Y ( x , y ) = h ( y ) ∑ x g ( x ) f_{Y}(y)=\sum_{x} f_{X, Y}(x, y)=h(y) \sum_{x} g(x) f Y ( y ) = x ∑ f X , Y ( x , y ) = h ( y ) x ∑ g ( x )
而 ∑ x g ( x ) ∑ y h ( y ) = 1 \sum_{x} g(x) \sum_{y} h(y)=1 ∑ x g ( x ) ∑ y h ( y ) = 1 ,因此
f X ( x ) f Y ( y ) = g ( x ) h ( y ) ∑ x g ( x ) ∑ y h ( y ) = g ( x ) h ( y ) = f X , Y ( x , y ) f_{X}(x) f_{Y}(y)=g(x) h(y) \sum_{x} g(x) \sum_{y} h(y)=g(x) h(y)=f_{X, Y}(x, y) f X ( x ) f Y ( y ) = g ( x ) h ( y ) x ∑ g ( x ) y ∑ h ( y ) = g ( x ) h ( y ) = f X , Y ( x , y )
注:上述过程中,为了验证 f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X, Y}(x, y)=f_{X}(x) f_{Y}(y) f X , Y ( x , y ) = f X ( x ) f Y ( y ) ,我们计算了 marginal mass function(边际质量函数) f X , f Y f_{X},f_{Y} f X , f Y ,原理如下:
f X ( x ) = P ( X = x ) = P ( ⋃ y ( { X = x } ∩ { Y = y } ) ) = ∑ y P ( X = x , Y = y ) = ∑ y f X , Y ( x , y ) \begin{aligned}
f_{X}(x) &=\mathbb{P}(X=x)=\mathbb{P}\left(\bigcup_{y}(\{X=x\} \cap\{Y=y\})\right) \\
&=\sum_{y} \mathbb{P}(X=x, Y=y)=\sum_{y} f_{X, Y}(x, y)
\end{aligned} f X ( x ) = P ( X = x ) = P ( y ⋃ ( { X = x } ∩ { Y = y } ) ) = y ∑ P ( X = x , Y = y ) = y ∑ f X , Y ( x , y )
Example 3. Calculation of marginals(边际的计算) 在 Example 3.2.2 中,我们遇到了一对随机变量 X , Y X,Y X , Y ,它们的联合质量函数为
f ( x , y ) = α x β y x ! y ! e − α − β for x , y = 0 , 1 , 2 , … f(x, y)=\frac{\alpha^{x} \beta^{y}}{x ! y !} e^{-\alpha-\beta} \quad \text { for } \quad x, y=0,1,2, \ldots f ( x , y ) = x ! y ! α x β y e − α − β for x , y = 0 , 1 , 2 , … 其中 α , β > 0 \alpha, \beta>0 α , β > 0 ,那么 X X X 的边际质量函数为
f X ( x ) = ∑ y f ( x , y ) = α x x ! e − α ∑ y = 0 ∞ β y y ! e − β = α x x ! e − α f_{X}(x)=\sum_{y} f(x, y)=\frac{\alpha^{x}}{x !} e^{-\alpha} \sum_{y=0}^{\infty} \frac{\beta^{y}}{y !} e^{-\beta}=\frac{\alpha^{x}}{x !} e^{-\alpha} f X ( x ) = y ∑ f ( x , y ) = x ! α x e − α y = 0 ∑ ∞ y ! β y e − β = x ! α x e − α 因此 X X X 服从参数为 α \alpha α 的泊松分布,且容易验证 X , Y X,Y X , Y 独立。
对于一对随机变量 X , Y X,Y X , Y ,实函数 g ( X , Y ) g(X,Y) g ( X , Y ) 是一个随机变量,我们经常要求它的期望,为了避免计算其复杂的分布函数,我们引入下面的引理。
Lemma 4. 对于随机变量 X , Y X,Y X , Y 组合而成的随机变量 g ( X , Y ) g(X,Y) g ( X , Y ) ,有
E ( g ( X , Y ) ) = ∑ x , y g ( x , y ) f X , Y ( x , y ) \mathbb{E}(g(X, Y))=\sum_{x, y} g(x, y) f_{X, Y}(x, y) E ( g ( X , Y ) ) = x , y ∑ g ( x , y ) f X , Y ( x , y )
证明:该引理的证明与 Lemma 3.3.3 类似
E ( g ( X , Y ) ) = ∑ w w P ( g ( X , Y ) = w ) = ∑ w w ∑ x , y : g ( x , y ) = w P ( X = x , Y = y ) = ∑ x , y P ( X = x , Y = y ) ∑ w : g ( x , y ) = w w = ∑ x , y F X , Y ( x , y ) g ( x , y ) \begin{aligned}
\mathbb{E}(g(X,Y))&=\sum_{w}w\mathbb{P}(g(X,Y)=w)\\
&=\sum_{w}w\sum_{x,y:g(x,y)=w}\mathbb{P}(X=x,Y=y)\\
&=\sum_{x,y}\mathbb{P}(X=x,Y=y)\sum_{w:g(x,y)=w}w\\
&=\sum_{x,y}F_{X,Y}(x,y)g(x,y)
\end{aligned} E ( g ( X , Y ) ) = w ∑ w P ( g ( X , Y ) = w ) = w ∑ w x , y : g ( x , y ) = w ∑ P ( X = x , Y = y ) = x , y ∑ P ( X = x , Y = y ) w : g ( x , y ) = w ∑ w = x , y ∑ F X , Y ( x , y ) g ( x , y )
这个公式对那些试图向门外汉解释独立性的统计学家非常重要。
假设政府希望宣布国防支出与生活费用间的相关性极小,那么不应该发表其联合质量函数的估计结果,大部分群众更喜欢用一个单独的数字来描述这种相关性的规模大小,因此我们引入下面的定义。
Definition 5. 随机变量 X , Y X,Y X , Y 的 covariance(协方差) 定义为
cov ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] \operatorname{cov}(X, Y)=\mathbb{E}[(X-\mathbb{E} X)(Y-\mathbb{E} Y)] c o v ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] 它们的 correlation coefficient(相关系数) 定义为
ρ ( X , Y ) = cov ( X , Y ) var ( X ) ⋅ var ( Y ) \rho(X, Y)=\frac{\operatorname{cov}(X, Y)}{\sqrt{\operatorname{var}(X) \cdot \operatorname{var}(Y)}} ρ ( X , Y ) = v a r ( X ) ⋅ v a r ( Y ) c o v ( X , Y )
根据协方差的定义,我们知道 cov ( X , X ) = var ( X ) \operatorname{cov}(X, X)=\operatorname{var}(X) c o v ( X , X ) = v a r ( X ) ,将定义式展开得到
cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) \operatorname{cov}(X, Y)=\mathbb{E}(X Y)-\mathbb{E}(X) \mathbb{E}(Y) c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y )
根据 Theorem 3.3.9 ,如果 cov ( X , Y ) = 0 \operatorname{cov}(X, Y)=0 c o v ( X , Y ) = 0 ,那么 X , Y X,Y X , Y 不相关,独立的随机变量一定不相关,反之则不一定成立。
Theorem 6. Cauchy-Schwarz inequality(柯西-施瓦茨不等式) 对于随机变量 X , Y X,Y X , Y
E 2 ( X Y ) ≤ E ( X 2 ) E ( Y 2 ) \mathbb{E}^{2}(X Y) \leq \mathbb{E}\left(X^{2}\right) \mathbb{E}\left(Y^{2}\right) E 2 ( X Y ) ≤ E ( X 2 ) E ( Y 2 )
等号成立当且仅当 P ( a X = b Y ) = 1 \mathbb{P}(a X=b Y)=1 P ( a X = b Y ) = 1 ,其中 a , b a,b a , b 是不同时为 0 0 0 的实数。
证明:我们可以设 E ( X 2 ) , E ( Y 2 ) \mathbb{E}\left(X^{2}\right),\mathbb{E}\left(Y^{2}\right) E ( X 2 ) , E ( Y 2 ) 严格为正,因为其中一个为零的情况下证明是显然的,设 Z = a X − b Y Z=a X-b Y Z = a X − b Y ,则
0 ≤ E ( Z 2 ) = a 2 E ( X 2 ) − 2 a b E ( X Y ) + b 2 E ( Y 2 ) 0 \leq \mathbb{E}\left(Z^{2}\right)=a^{2} \mathbb{E}\left(X^{2}\right)-2 a b \mathbb{E}(X Y)+b^{2} \mathbb{E}\left(Y^{2}\right) 0 ≤ E ( Z 2 ) = a 2 E ( X 2 ) − 2 a b E ( X Y ) + b 2 E ( Y 2 )
不妨设 b ≠ 0 b\neq 0 b = 0 ,把右边看成以 a a a 为元的二次方程,那么方程最多有一个实根,其判别式非正,则
E ( X Y ) 2 − E ( X 2 ) E ( Y 2 ) ≤ 0 \mathbb{E}(X Y)^{2}-\mathbb{E}\left(X^{2}\right) \mathbb{E}\left(Y^{2}\right) \leq 0 E ( X Y ) 2 − E ( X 2 ) E ( Y 2 ) ≤ 0
当等号成立时,
E ( Z 2 ) = E ( ( a X − b Y ) 2 ) = 0 \mathbb{E}(Z^{2})=\mathbb{E}\left((a X-b Y)^{2}\right)=0 E ( Z 2 ) = E ( ( a X − b Y ) 2 ) = 0
因此 a X − b Y = 0 aX-bY=0 a X − b Y = 0 恒成立,即存在 a , b ∈ R a,b\in \mathbb{R} a , b ∈ R 使得 P ( a X = b Y ) = 1 \mathbb{P}(aX=bY)=1 P ( a X = b Y ) = 1 .
Lemma 7. 相关系数 ρ \rho ρ 满足
∣ ρ ( X , Y ) ∣ ≤ 1 |\rho(X, Y)| \leq 1 ∣ ρ ( X , Y ) ∣ ≤ 1 等号成立当且仅当存在 P ( a X + b Y = c ) = 1 \mathbb{P}(a X+b Y=c)=1 P ( a X + b Y = c ) = 1 ,其中 a , b , c ∈ R a,b,c\in\mathbb{R} a , b , c ∈ R .
证明:对于随机变量 X − E X X-\mathbb{E} X X − E X 和 Y − E Y Y-\mathbb{E} Y Y − E Y ,根据柯西-施瓦茨不等式
cov 2 ( X , Y ) = E 2 ( ( X − E X ) ( Y − E Y ) ) ≤ E ( ( X − E X ) 2 ) E ( ( Y − E Y ) 2 ) = var ( X ) cov ( Y ) \begin{aligned}
\operatorname{cov}^{2}(X,Y)&=\mathbb{E}^{2}((X-\mathbb{E}X)(Y-\mathbb{E}Y))\\
&\leq \mathbb{E}((X-\mathbb{E}X)^2)\mathbb{E}((Y-\mathbb{E}Y)^2)\\
&=\operatorname{var}(X)\operatorname{cov}(Y)
\end{aligned} c o v 2 ( X , Y ) = E 2 ( ( X − E X ) ( Y − E Y ) ) ≤ E ( ( X − E X ) 2 ) E ( ( Y − E Y ) 2 ) = v a r ( X ) c o v ( Y )
根据相关系数的定义即可证明不等式,当等号成立时
a ( X − E X ) + b ( Y − E Y ) = 0 a(X-\mathbb{E}X)+b(Y-\mathbb{E}Y)=0 a ( X − E X ) + b ( Y − E Y ) = 0
a X − b Y = b E Y − a E X aX-bY=b\mathbb{E}Y-a\mathbb{E}X a X − b Y = b E Y − a E X
令 c = b E Y − a E X c=b\mathbb{E}Y-a\mathbb{E}X c = b E Y − a E X 即可。
Example 8. 设随机变量 X , Y X,Y X , Y 分别在 { 1 , 2 , 3 } , { − 1 , 0 , 2 } \{1,2,3\},\{-1,0,2\} { 1 , 2 , 3 } , { − 1 , 0 , 2 } 取值,其联合质量函数 f ( x , y ) f(x,y) f ( x , y ) 如下:
经过计算,我们可以得到如下结果:
E ( X Y ) = ∑ x , y x y f ( x , y ) = 29 18 E ( X ) = ∑ x x f X ( x ) = 37 18 , E ( Y ) = 13 18 var ( X ) = E ( X 2 ) − E ( X ) 2 = 233 324 , var ( Y ) = 461 324 cov ( X , Y ) = 41 324 , ρ ( X , Y ) = 41 107413 \begin{aligned}
\mathbb{E}(X Y) &=\sum_{x, y} x y f(x, y)=\frac{29}{18} \\
\mathbb{E}(X) &=\sum_{x} x f_{X}(x)=\frac{37}{18}, \quad \mathbb{E}(Y)=\frac{13}{18} \\
\operatorname{var}(X) &=\mathbb{E}\left(X^{2}\right)-\mathbb{E}(X)^{2}=\frac{233}{324}, \quad \operatorname{var}(Y)=\frac{461}{324} \\
\operatorname{cov}(X, Y) &=\frac{41}{324}, \quad \rho(X, Y)=\frac{41}{\sqrt{107413}}
\end{aligned} E ( X Y ) E ( X ) v a r ( X ) c o v ( X , Y ) = x , y ∑ x y f ( x , y ) = 1 8 2 9 = x ∑ x f X ( x ) = 1 8 3 7 , E ( Y ) = 1 8 1 3 = E ( X 2 ) − E ( X ) 2 = 3 2 4 2 3 3 , v a r ( Y ) = 3 2 4 4 6 1 = 3 2 4 4 1 , ρ ( X , Y ) = 1 0 7 4 1 3 4 1
Exercise 9. 设离散型随机变量 X , Y X,Y X , Y 的联合质量函数为
f ( x , y ) = C ( x + y − 1 ) ( x + y ) ( x + y + 1 ) , x , y = 1 , 2 , 3 , … f(x, y)=\frac{C}{(x+y-1)(x+y)(x+y+1)}, \quad x, y=1,2,3, \ldots f ( x , y ) = ( x + y − 1 ) ( x + y ) ( x + y + 1 ) C , x , y = 1 , 2 , 3 , … 求 X , Y X,Y X , Y 的边际质量函数,计算常数 C C C 的值以及 X , Y X,Y X , Y 的协方差。
难度:★★☆☆☆(点击查看答案)
随机变量 X X X 的边际质量函数 f X ( x ) f_{X}(x) f X ( x ) 为
P ( X = x ) = ∑ y = 1 ∞ P ( X = x , Y = y ) = ∑ y = 1 ∞ C 2 { 1 ( x + y − 1 ) ( x + y ) − 1 ( x + y ) ( x + y + 1 ) } = C 2 x ( x + 1 ) = C 2 ( 1 x − 1 x + 1 ) \begin{aligned}
\mathbb{P}(X=x) &=\sum_{y=1}^{\infty} \mathbb{P}(X=x, Y=y) \\
&=\sum_{y=1}^{\infty} \frac{C}{2}\left\{\frac{1}{(x+y-1)(x+y)}-\frac{1}{(x+y)(x+y+1)}\right\} \\
&=\frac{C}{2 x(x+1)}=\frac{C}{2}\left(\frac{1}{x}-\frac{1}{x+1}\right)
\end{aligned} P ( X = x ) = y = 1 ∑ ∞ P ( X = x , Y = y ) = y = 1 ∑ ∞ 2 C { ( x + y − 1 ) ( x + y ) 1 − ( x + y ) ( x + y + 1 ) 1 } = 2 x ( x + 1 ) C = 2 C ( x 1 − x + 1 1 )
根据 ∑ x = 1 ∞ f X ( x ) = 1 \sum_{x=1}^{\infty}f_{X}(x)=1 ∑ x = 1 ∞ f X ( x ) = 1 可得 C = 2 C=2 C = 2 .
注意到 f ( x , y ) f(x,y) f ( x , y ) 中 x , y x,y x , y 的地位相同,因此 Y Y Y 的分布和 X X X 相同,由于
E ( X ) = ∑ x = 1 ∞ ( x + 1 ) − 1 = ∞ \mathbb{E}(X)=\sum_{x=1}^{\infty}(x+1)^{-1}=\infty E ( X ) = x = 1 ∑ ∞ ( x + 1 ) − 1 = ∞
X , Y X,Y X , Y 的协方差不存在。
Exercise 10. 设离散型随机变量 X , Y X,Y X , Y 的期望值为 0 0 0 ,方差为 1 1 1 ,且协方差为 ρ \rho ρ ,证明:
E ( max { X 2 , Y 2 } ) ≤ 1 + 1 − ρ 2 \mathbb{E}\left(\max \left\{X^{2}, Y^{2}\right\}\right) \leq 1+\sqrt{1-\rho^{2}} E ( max { X 2 , Y 2 } ) ≤ 1 + 1 − ρ 2
难度:★★★☆☆(点击查看答案)
我们知道 max { u , v } = 1 2 ( u + v ) + 1 2 ∣ u − v ∣ \operatorname{max}\{u, v\}=\frac{1}{2}(u+v)+\frac{1}{2} |u-v| m a x { u , v } = 2 1 ( u + v ) + 2 1 ∣ u − v ∣ ,因此
E ( max { X 2 , Y 2 } ) = 1 2 E ( X 2 + Y 2 ) + 1 2 E ∣ ( X − Y ) ( X + Y ) ∣ = 1 + 1 2 E ∣ ( X − Y ) ( X + Y ) ∣ \begin{aligned}
\mathbb{E}\left(\max \left\{X^{2}, Y^{2}\right\}\right) &=\frac{1}{2} \mathbb{E}\left(X^{2}+Y^{2}\right)+\frac{1}{2} \mathbb{E}|(X-Y)(X+Y)| \\
&=1+\frac{1}{2} \mathbb{E}|(X-Y)(X+Y)|
\end{aligned} E ( max { X 2 , Y 2 } ) = 2 1 E ( X 2 + Y 2 ) + 2 1 E ∣ ( X − Y ) ( X + Y ) ∣ = 1 + 2 1 E ∣ ( X − Y ) ( X + Y ) ∣
接下来我们需要处理乘积绝对值的期望,把柯西-施瓦茨不等式两边开方得到
∣ E ( X Y ) ∣ ≤ E ( X 2 ) E ( Y 2 ) |\mathbb{E}(XY)|\leq \sqrt{\mathbb{E}(X^{2})\mathbb{E}(Y^{2})} ∣ E ( X Y ) ∣ ≤ E ( X 2 ) E ( Y 2 )
代入得到
E ( max { X 2 , Y 2 } ) ≤ 1 + 1 2 E ( ( X − Y ) 2 ) E ( ( X + Y ) 2 ) = 1 + 1 2 ( 2 − 2 ρ ) ( 2 + 2 ρ ) = 1 + 1 − ρ 2 \begin{aligned}
\mathbb{E}\left(\max \left\{X^{2}, Y^{2}\right\}\right) &\leq 1+\frac{1}{2} \sqrt{\mathbb{E}\left((X-Y)^{2}\right) \mathbb{E}\left((X+Y)^{2}\right)} \\
&=1+\frac{1}{2} \sqrt{(2-2 \rho)(2+2 \rho)}\\
&=1+\sqrt{1-\rho^{2}}
\end{aligned} E ( max { X 2 , Y 2 } ) ≤ 1 + 2 1 E ( ( X − Y ) 2 ) E ( ( X + Y ) 2 ) = 1 + 2 1 ( 2 − 2 ρ ) ( 2 + 2 ρ ) = 1 + 1 − ρ 2
Exercise 11. Mutual information(互信息). 设离散型随机变量 X , Y X,Y X , Y 的联合质量函数为 f f f .
(1)证明:
E ( log f X ( X ) ) ≥ E ( log f Y ( X ) ) \mathbb{E}\left(\log f_{X}(X)\right) \geq \mathbb{E}\left(\log f_{Y}(X)\right) E ( log f X ( X ) ) ≥ E ( log f Y ( X ) ) (2)证明:互信息
I = E ( log { f ( X , Y ) f X ( X ) f Y ( Y ) } ) ≥ 0 I=\mathbb{E}\left(\log \left\{\frac{f(X, Y)}{f_{X}(X) f_{Y}(Y)}\right\}\right)\geq 0 I = E ( log { f X ( X ) f Y ( Y ) f ( X , Y ) } ) ≥ 0 等号成立当且仅当 X , Y X,Y X , Y 独立。
难度:★★★☆☆(点击查看答案)
(1)我们知道 log y ≤ y − 1 \log{y}\leq y-1 log y ≤ y − 1 恒成立,当且仅当 y = 1 y=1 y = 1 时等号成立,因此
E ( log f Y ( X ) f X ( X ) ) ≤ E [ f Y ( X ) f X ( X ) ] − 1 = ∑ x f X ( x ) f Y ( x ) f X ( x ) − 1 = ∑ x f Y ( x ) − 1 ≤ 0 \begin{aligned}
\mathbb{E}\left(\log \frac{f_{Y}(X)}{f_{X}(X)}\right) &\leq \mathbb{E}\left[\frac{f_{Y}(X)}{f_{X}(X)}\right]-1\\
&=\sum_{x}f_{X}(x)\frac{f_{Y}(x)}{f_{X}(x)}-1\\
&=\sum_{x}f_{Y}(x)-1\leq 0
\end{aligned} E ( log f X ( X ) f Y ( X ) ) ≤ E [ f X ( X ) f Y ( X ) ] − 1 = x ∑ f X ( x ) f X ( x ) f Y ( x ) − 1 = x ∑ f Y ( x ) − 1 ≤ 0
等号成立当且仅当 f X = f Y f_{X}=f_{Y} f X = f Y .
(2)还是利用 log y ≤ y − 1 \log{y}\leq y-1 log y ≤ y − 1 得到
E ( log { f X ( X ) f Y ( Y ) f ( X , Y ) } ) ≤ E ( f X ( X ) f Y ( Y ) f ( X , Y ) ) − 1 = ∑ x , y f ( x , y ) f X ( x ) f Y ( y ) f ( x , y ) − 1 = ∑ x f X ( x ) ∑ y f Y ( y ) − 1 = 0 \begin{aligned}
\mathbb{E}\left(\log \left\{\frac{f_{X}(X) f_{Y}(Y)}{f(X, Y)}\right\}\right)&\leq \mathbb{E}\left(\frac{f_{X}(X) f_{Y}(Y)}{f(X, Y)}\right)-1\\
&=\sum_{x,y}f(x,y)\frac{f_{X}(x)f_{Y}(y)}{f(x,y)}-1\\
&=\sum_{x}f_{X}(x)\sum_{y}f_{Y}(y)-1=0
\end{aligned} E ( log { f ( X , Y ) f X ( X ) f Y ( Y ) } ) ≤ E ( f ( X , Y ) f X ( X ) f Y ( Y ) ) − 1 = x , y ∑ f ( x , y ) f ( x , y ) f X ( x ) f Y ( y ) − 1 = x ∑ f X ( x ) y ∑ f Y ( y ) − 1 = 0
等号成立当且仅当 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_{X}(x)f_{Y}(y) f ( x , y ) = f X ( x ) f Y ( y ) ,即 X , Y X,Y X , Y 独立。
之前我们讨论了条件概率 P ( B ∣ A ) \mathbb{P}(B \mid A) P ( B ∣ A ) ,我们可以把它扩展到更一般的情境之下,讨论随机变量 Y Y Y 在已知随机变量 X X X 的值的条件下的条件分布。
Definition 1. 随机变量 Y Y Y 在给定另一随机变量 X = x X=x X = x 下的 conditional distribution function(条件分布函数) F Y ∣ X ( ⋅ ∣ x ) F_{Y \mid X}(\cdot \mid x) F Y ∣ X ( ⋅ ∣ x ) 定义为
F Y ∣ X ( y ∣ x ) = P ( Y ≤ y ∣ X = x ) F_{Y \mid X}(y \mid x)=\mathbb{P}(Y \leq y \mid X=x) F Y ∣ X ( y ∣ x ) = P ( Y ≤ y ∣ X = x ) 其中 P ( X = x ) > 0 \mathbb{P}(X=x)>0 P ( X = x ) > 0 ,对应的 conditional mass function(条件质量函数) f Y ∣ X ( ⋅ ∣ x ) f_{Y \mid X}(\cdot \mid x) f Y ∣ X ( ⋅ ∣ x ) 定义为
f Y ∣ X ( y ∣ x ) = P ( Y = y ∣ X = x ) f_{Y \mid X}(y \mid x)=\mathbb{P}(Y=y \mid X=x) f Y ∣ X ( y ∣ x ) = P ( Y = y ∣ X = x )
根据定义我们可以得到
f Y ∣ X ( y ∣ x ) = P ( Y = y ∣ X = x ) = P ( Y = y , X = x ) P ( X = x ) = f X , Y ( x , y ) f X ( x ) \begin{aligned}
f_{Y \mid X}(y \mid x)
&=\mathbb{P}(Y=y \mid X=x)\\
&=\frac{\mathbb{P}(Y=y, X=x)}{\mathbb{P}(X=x)}=\frac{f_{X,Y}(x,y)}{f_{X}(x)}
\end{aligned} f Y ∣ X ( y ∣ x ) = P ( Y = y ∣ X = x ) = P ( X = x ) P ( Y = y , X = x ) = f X ( x ) f X , Y ( x , y )
由此可知,当 f Y ∣ X = f Y f_{Y \mid X}=f_{Y} f Y ∣ X = f Y 时,X , Y X,Y X , Y 独立。
当给定 X = x X=x X = x 时,Y Y Y 的条件质量函数 f Y ∣ X ( y ∣ x ) f_{Y \mid X}(y \mid x) f Y ∣ X ( y ∣ x ) 是一个关于 y y y 的函数,其均值
∑ y y f Y ∣ X ( y ∣ x ) \sum_{y} y f_{Y \mid X}(y \mid x) y ∑ y f Y ∣ X ( y ∣ x )
命名为 conditional expectation(条件期望) ,当 x x x 值变化时,这个条件期望随之变化,我们把这个函数关系记作
ψ ( x ) = E ( Y ∣ X = x ) = ∑ y y f Y ∣ X ( y ∣ x ) \psi(x)=\mathbb{E}(Y \mid X=x)=\sum_{y} y f_{Y \mid X}(y \mid x) ψ ( x ) = E ( Y ∣ X = x ) = y ∑ y f Y ∣ X ( y ∣ x )
Definition 2. 记 ψ ( x ) = E ( Y ∣ X = x ) \psi(x)=\mathbb{E}(Y \mid X=x) ψ ( x ) = E ( Y ∣ X = x ) ,随机变量 Y Y Y 在给定随机变量 X X X 下的条件期望定义为
E ( Y ∣ X ) = ψ ( X ) \mathbb{E}(Y \mid X)=\psi(X) E ( Y ∣ X ) = ψ ( X )
虽然条件期望听起来像是一个数值,但实际上是一个与 X X X 相关的随机变量。
且条件期望拥有下面这一条重要性质。
Theorem 3. 条件期望 ψ ( X ) = E ( Y ∣ X ) \psi(X)=\mathbb{E}(Y \mid X) ψ ( X ) = E ( Y ∣ X ) 满足
E ( ψ ( X ) ) = E ( Y ) \mathbb{E}(\psi(X))=\mathbb{E}(Y) E ( ψ ( X ) ) = E ( Y )
证明:根据 Lemmma 3.3.3
E ( ψ ( X ) ) = ∑ x ψ ( x ) f X ( x ) = ∑ x , y y f Y ∣ X ( y ∣ x ) f X ( x ) = ∑ x , y y f X , Y ( x , y ) = ∑ y y f Y ( y ) = E ( Y ) \begin{aligned}
\mathbb{E}(\psi(X)) &=\sum_{x} \psi(x) f_{X}(x)=\sum_{x, y} y f_{Y \mid X}(y \mid x) f_{X}(x) \\
&=\sum_{x, y} y f_{X, Y}(x, y)=\sum_{y} y f_{Y}(y)=\mathbb{E}(Y)
\end{aligned} E ( ψ ( X ) ) = x ∑ ψ ( x ) f X ( x ) = x , y ∑ y f Y ∣ X ( y ∣ x ) f X ( x ) = x , y ∑ y f X , Y ( x , y ) = y ∑ y f Y ( y ) = E ( Y )
这个性质非常的重要,它提供了一种计算期望 E ( Y ) \mathbb{E}(Y) E ( Y ) 的方法,类似于全概率公式,可以将期望拆开计算
E ( Y ) = ∑ x E ( Y ∣ X = x ) P ( X = x ) \mathbb{E}(Y)=\sum_{x} \mathbb{E}(Y \mid X=x) \mathbb{P}(X=x) E ( Y ) = x ∑ E ( Y ∣ X = x ) P ( X = x )
Example 4. 一只母鸡下了 N N N 个蛋,N N N 服从参数为 λ \lambda λ 的泊松分布,每个鸡蛋有 p p p 的概率孵化且与其它鸡蛋相互独立,记 K K K 孵化出的雏鸡数量,计算 E ( K ∣ N ) , E ( K ) , E ( N ∣ K ) \mathbb{E}(K \mid N), \mathbb{E}(K),\mathbb{E}(N \mid K) E ( K ∣ N ) , E ( K ) , E ( N ∣ K ) .
我们知道泊松分布的质量函数
f N ( n ) = λ n n ! e − λ f_{N}(n)=\frac{\lambda^{n}}{n !} e^{-\lambda} f N ( n ) = n ! λ n e − λ
根据二项分布可以得到 K K K 在 N N N 下的条件质量函数
f K ∣ N ( k ∣ n ) = ( n k ) p k ( 1 − p ) n − k f_{K \mid N}(k \mid n)=\binom{n}{k} p^{k}(1-p)^{n-k} f K ∣ N ( k ∣ n ) = ( k n ) p k ( 1 − p ) n − k
由此可以计算
ψ ( n ) = E ( K ∣ N = n ) = ∑ k k f K ∣ N ( k ∣ n ) = p n \psi(n)=\mathbb{E}(K \mid N=n)=\sum_{k} k f_{K \mid N}(k \mid n)=p n ψ ( n ) = E ( K ∣ N = n ) = k ∑ k f K ∣ N ( k ∣ n ) = p n
E ( K ∣ N ) = ψ ( N ) = p N \mathbb{E}(K \mid N)=\psi(N)=p N E ( K ∣ N ) = ψ ( N ) = p N
根据 Theorem 3 可得
E ( K ) = E ( ψ ( N ) ) = p E ( N ) = p λ \mathbb{E}(K)=\mathbb{E}(\psi(N))=p \mathbb{E}(N)=p \lambda E ( K ) = E ( ψ ( N ) ) = p E ( N ) = p λ
接下来要求 E ( N ∣ K ) \mathbb{E}(N \mid K) E ( N ∣ K ) ,我们需要知道对应的条件质量函数 f N ∣ K f_{N \mid K} f N ∣ K ,而
f N ∣ K ( n ∣ k ) = P ( N = n ∣ K = k ) = P ( K = k , N = n ) P ( K = k ) = f N , K f K \begin{aligned}
f_{N \mid K}(n \mid k) &=\mathbb{P}(N=n \mid K=k) \\
&=\frac{\mathbb{P}(K=k, N=n) }{\mathbb{P}(K=k)}=\frac{f_{N,K}}{f_{K}}
\end{aligned} f N ∣ K ( n ∣ k ) = P ( N = n ∣ K = k ) = P ( K = k ) P ( K = k , N = n ) = f K f N , K
因此我们需要先求联合质量函数
f N , K ( n , k ) = f K ∣ N ( k ∣ n ) f N ( n ) = ( n k ) p k ( 1 − p ) n − k λ n n ! e − λ f_{N,K}(n,k)=f_{K \mid N}(k \mid n)f_{N}(n)=\binom{n}{k} p^{k}(1-p)^{n-k}\frac{\lambda^n}{n!} e^{-\lambda} f N , K ( n , k ) = f K ∣ N ( k ∣ n ) f N ( n ) = ( k n ) p k ( 1 − p ) n − k n ! λ n e − λ
以及 K K K 的边际质量函数
f K ( k ) = ∑ n = k ∞ ( n k ) p k ( 1 − p ) n − k λ n n ! e − λ = p k k ! e − λ ∑ n = k ∞ ( 1 − p ) n − k ( n − k ) ! λ n = p k k ! e − λ ∑ n = 0 ∞ ( 1 − p ) n n ! λ n + k = p k k ! e − λ λ k ∑ n = 0 ∞ [ ( 1 − p ) λ ] n n ! = p k k ! e − λ λ k e ( 1 − p ) λ = ( λ p ) k e − p λ k ! \begin{aligned}f_{K}(k)
&=\sum_{n=k}^{\infty} \binom{n}{k} p^{k}(1-p)^{n-k}\frac{\lambda^n}{n!} e^{-\lambda}=\frac{p^{k}}{k!}e^{-\lambda}\sum_{n=k}^{\infty} \frac{(1-p)^{n-k}}{(n-k)!} \lambda^n\\
&=\frac{p^{k}}{k!}e^{-\lambda}\sum_{n=0}^{\infty} \frac{(1-p)^{n}}{n!} \lambda^{n+k}=\frac{p^{k}}{k!}e^{-\lambda}\lambda^{k}\sum_{n=0}^{\infty} \frac{[(1-p)\lambda]^{n}}{n!}\\
&=\frac{p^{k}}{k!}e^{-\lambda}\lambda^{k}e^{(1-p)\lambda}=\frac{(\lambda p)^{k}e^{-p\lambda}}{k!}
\end{aligned} f K ( k ) = n = k ∑ ∞ ( k n ) p k ( 1 − p ) n − k n ! λ n e − λ = k ! p k e − λ n = k ∑ ∞ ( n − k ) ! ( 1 − p ) n − k λ n = k ! p k e − λ n = 0 ∑ ∞ n ! ( 1 − p ) n λ n + k = k ! p k e − λ λ k n = 0 ∑ ∞ n ! [ ( 1 − p ) λ ] n = k ! p k e − λ λ k e ( 1 − p ) λ = k ! ( λ p ) k e − p λ
由此得到
f N ∣ K ( n ∣ k ) = f N , K f K = [ ( 1 − p ) λ ] n − k ( n − k ) ! e − ( 1 − p ) λ f_{N \mid K}(n \mid k)=\frac{f_{N,K}}{f_{K}}=\frac{[(1-p)\lambda]^{n-k}}{(n-k)!}e^{-(1-p)\lambda} f N ∣ K ( n ∣ k ) = f K f N , K = ( n − k ) ! [ ( 1 − p ) λ ] n − k e − ( 1 − p ) λ
因此
ψ ( k ) = E ( N ∣ K = k ) = ∑ n = k ∞ n f N ∣ K ( n ∣ k ) = e − ( 1 − p ) λ ∑ n = 0 ∞ ( n + k ) [ ( 1 − p ) λ ] n n ! = k + ( 1 − p ) λ \begin{aligned}\psi(k)
&=\mathbb{E}(N \mid K=k)=\sum_{n=k}^{\infty}nf_{N \mid K}(n \mid k)\\
&=e^{-(1-p)\lambda}\sum_{n=0}^{\infty}(n+k)\frac{[(1-p)\lambda]^{n}}{n!}=k+(1-p)\lambda
\end{aligned} ψ ( k ) = E ( N ∣ K = k ) = n = k ∑ ∞ n f N ∣ K ( n ∣ k ) = e − ( 1 − p ) λ n = 0 ∑ ∞ ( n + k ) n ! [ ( 1 − p ) λ ] n = k + ( 1 − p ) λ
即 E ( N ∣ K ) = K + ( 1 − p ) λ \mathbb{E}(N \mid K)=K+(1-p)\lambda E ( N ∣ K ) = K + ( 1 − p ) λ .
Theorem 5. 条件期望 ψ ( X ) = E ( Y ∣ X ) \psi(X)=\mathbb{E}(Y \mid X) ψ ( X ) = E ( Y ∣ X ) 满足
E ( ψ ( X ) g ( X ) ) = E ( Y g ( X ) ) \mathbb{E}(\psi(X) g(X))=\mathbb{E}(Y g(X)) E ( ψ ( X ) g ( X ) ) = E ( Y g ( X ) ) 其中 g ( X ) g(X) g ( X ) 的期望存在。
证明:和 Theorem 3 类似
E ( ψ ( X ) g ( X ) ) = ∑ x ψ ( x ) g ( x ) f X ( x ) = ∑ x , y y g ( x ) f Y ∣ X ( y ∣ x ) f X ( x ) = ∑ x , y y g ( x ) f X , Y ( x , y ) = E ( Y g ( X ) ) \begin{aligned}
\mathbb{E}(\psi(X) g(X)) &=\sum_{x} \psi(x) g(x) f_{X}(x)=\sum_{x, y} y g(x) f_{Y \mid X}(y \mid x) f_{X}(x) \\
&=\sum_{x, y} y g(x) f_{X, Y}(x, y)=\mathbb{E}(Y g(X))
\end{aligned} E ( ψ ( X ) g ( X ) ) = x ∑ ψ ( x ) g ( x ) f X ( x ) = x , y ∑ y g ( x ) f Y ∣ X ( y ∣ x ) f X ( x ) = x , y ∑ y g ( x ) f X , Y ( x , y ) = E ( Y g ( X ) )
事实上,令 g ( x ) = 1 g(x)=1 g ( x ) = 1 即可得到 Theorem 3 ,该定理将其进行了扩展。
8、Sums of random variables(随机变量的和)
在概率论中,我们常常要考虑随机变量之和的分布,例如我们已经见过的投掷 n n n 枚硬币的例子。
然而还有很多情形更为复杂,我们需要一个系统的理论在解决随机变量之和的问题。
Theorem 1. 我们有 P ( X + Y = z ) = ∑ f ( x , z − x ) \mathbb{P}(X+Y=z)=\sum f(x, z-x) P ( X + Y = z ) = ∑ f ( x , z − x )
证明是显然的
P ( X + Y = z ) = ∑ x P ( X = x , Y = z − x ) = ∑ x f ( x , z − x ) \mathbb{P}(X+Y=z)=\sum_{x} \mathbb{P}(X=x, Y=z-x)=\sum_{x} f(x, z-x) P ( X + Y = z ) = x ∑ P ( X = x , Y = z − x ) = x ∑ f ( x , z − x )
特别的,如果 X , Y X,Y X , Y 独立,那么
P ( X + Y = z ) = f X + Y ( z ) = ∑ x f X ( x ) f Y ( z − x ) \mathbb{P}(X+Y=z)=f_{X+Y}(z)=\sum_{x} f_{X}(x) f_{Y}(z-x) P ( X + Y = z ) = f X + Y ( z ) = x ∑ f X ( x ) f Y ( z − x )
其中 X + Y X+Y X + Y 的质量函数是 X , Y X,Y X , Y 质量函数的 convolution(卷积) ,记作
f X + Y = f X ∗ f Y f_{X+Y}=f_{X} * f_{Y} f X + Y = f X ∗ f Y
Example 2. 设随机变量 X 1 , X 2 X_{1},X_{2} X 1 , X 2 服从几何分布,质量函数均为
f ( k ) = p ( 1 − p ) k − 1 , k = 1 , 2 , … f(k)=p(1-p)^{k-1}, \quad k=1,2, \ldots f ( k ) = p ( 1 − p ) k − 1 , k = 1 , 2 , … 求 Z = X 1 + X 2 Z=X_{1}+X_{2} Z = X 1 + X 2 的质量函数。
P ( Z = z ) = ∑ k P ( X 1 = k ) P ( X 2 = z − k ) = ∑ k = 1 z − 1 p ( 1 − p ) k − 1 p ( 1 − p ) z − k − 1 = ( z − 1 ) p 2 ( 1 − p ) z − 2 , z = 2 , 3 , … \begin{aligned}
\mathbb{P}(Z=z) &=\sum_{k} \mathbb{P}\left(X_{1}=k\right) \mathbb{P}\left(X_{2}=z-k\right) \\
&=\sum_{k=1}^{z-1} p(1-p)^{k-1} p(1-p)^{z-k-1} \\
&=(z-1) p^{2}(1-p)^{z-2}, \quad z=2,3, \ldots
\end{aligned} P ( Z = z ) = k ∑ P ( X 1 = k ) P ( X 2 = z − k ) = k = 1 ∑ z − 1 p ( 1 − p ) k − 1 p ( 1 − p ) z − k − 1 = ( z − 1 ) p 2 ( 1 − p ) z − 2 , z = 2 , 3 , …
Example 3. Pepys's problem(佩皮斯问题). Sam 扔了 6 n 6n 6 n 枚骰子,希望扔出至少 n n n 个 6 6 6 ,而 Isaac 扔了 6 ( n + 1 ) 6(n+1) 6 ( n + 1 ) 枚骰子,希望扔出至少 n + 1 n+1 n + 1 个 6 6 6 ,谁更容易达成目标?
设随机变量 X n X_{n} X n 表示扔 6 n 6n 6 n 个骰子得到的 6 6 6 的个数,那么
X n + 1 = X n + Y X_{n+1}=X_{n}+Y X n + 1 = X n + Y
其中 Y Y Y 的分布与 X 1 X_{1} X 1 相同且与 X n X_{n} X n 独立,那么
P ( X n + 1 ≥ n + 1 ) = ∑ r = 0 6 P ( X n ≥ n + 1 − r ) P ( Y = r ) = P ( X n ≥ n ) + ∑ r = 0 6 [ P ( X n ≥ n + 1 − r ) − P ( X n ≥ n ) ] P ( Y = r ) \begin{aligned}
\mathbb{P}\left(X_{n+1} \geq n+1\right) &=\sum_{r=0}^{6} \mathbb{P}\left(X_{n} \geq n+1-r\right) \mathbb{P}(Y=r) \\
&=\mathbb{P}\left(X_{n} \geq n\right)+\sum_{r=0}^{6}\left[\mathbb{P}\left(X_{n} \geq n+1-r\right)-\mathbb{P}\left(X_{n} \geq n\right)\right] \mathbb{P}(Y=r)
\end{aligned} P ( X n + 1 ≥ n + 1 ) = r = 0 ∑ 6 P ( X n ≥ n + 1 − r ) P ( Y = r ) = P ( X n ≥ n ) + r = 0 ∑ 6 [ P ( X n ≥ n + 1 − r ) − P ( X n ≥ n ) ] P ( Y = r )
设 g ( k ) = P ( X n = k ) g(k)=\mathbb{P}\left(X_{n}=k\right) g ( k ) = P ( X n = k ) ,显然 g ( k ) g(k) g ( k ) 单调递减,因此
P ( X n + 1 ≥ n + 1 ) = P ( X n ≥ n ) + P ( Y = 0 ) ( − g ( n ) ) + ∑ r = 1 6 ∑ k = n − r + 1 n − 1 g ( k ) P ( Y = r ) ≤ P ( X n ≥ n ) + P ( Y = 0 ) ( − g ( n ) ) + ∑ r = 1 6 ( r − 1 ) g ( n ) P ( Y = r ) = P ( X n ≥ n ) + g ( n ) ∑ r = 0 6 ( r − 1 ) P ( Y = r ) = P ( X n ≥ n ) + g ( n ) ( E ( Y ) − 1 ) \begin{aligned}
\mathbb{P}\left(X_{n+1} \geq n+1\right)
&=\mathbb{P}\left(X_{n} \geq n\right)+\mathbb{P}(Y=0)(-g(n))+\sum_{r=1}^{6}\sum_{k=n-r+1}^{n-1}g(k)\mathbb{P}(Y=r)\\
&\leq \mathbb{P}\left(X_{n} \geq n\right)+\mathbb{P}(Y=0)(-g(n))+\sum_{r=1}^{6}(r-1)g(n)\mathbb{P}(Y=r)\\
&=\mathbb{P}\left(X_{n} \geq n\right)+g(n) \sum_{r=0}^{6}(r-1) \mathbb{P}(Y=r)\\
&=\mathbb{P}\left(X_{n} \geq n\right)+g(n)(\mathbb{E}(Y)-1)
\end{aligned} P ( X n + 1 ≥ n + 1 ) = P ( X n ≥ n ) + P ( Y = 0 ) ( − g ( n ) ) + r = 1 ∑ 6 k = n − r + 1 ∑ n − 1 g ( k ) P ( Y = r ) ≤ P ( X n ≥ n ) + P ( Y = 0 ) ( − g ( n ) ) + r = 1 ∑ 6 ( r − 1 ) g ( n ) P ( Y = r ) = P ( X n ≥ n ) + g ( n ) r = 0 ∑ 6 ( r − 1 ) P ( Y = r ) = P ( X n ≥ n ) + g ( n ) ( E ( Y ) − 1 )
显然 E ( Y ) = 1 \mathbb{E}(Y)=1 E ( Y ) = 1 ,因此 Sam 更容易。