概率论与数理统计常用公式大全(基础篇),适合初学者速查速记。注意符号使用与其他教程或有区别。持续更新。
配套习题:概率论与数理统计习题集
后续学习:时序预测评价指标简介
数学基础系列文章:
参考讲义:
习题:
课程:
- 【网盘群】2024考研友资料38群 - 张宇基础30讲 - 概率6讲
1 随机事件与概率
1.1 事件的运算律
交换律:
\begin{aligned}
A\cup B &=B\cup A\\
A\cap B &=B\cap A
\end{aligned}
结合律:
\begin{aligned}
A\cup(B\cup C) &=(A\cup B)\cup C\\
A\cap(B\cap C) &=(A\cap B)\cap C
\end{aligned}
分配律:
\begin{aligned}
A\cup(B\cap C) &=(A\cup B)\cap(A\cup C)\\
A\cap(B\cup C) &=(A\cap B)\cup(A\cap C)
\end{aligned}
德摩根律(对偶律):
\begin{aligned}
\overline{A\cup B} &=\overline A \cap \overline B\\
\overline{A\cap B} &=\overline A \cup \overline B
\end{aligned}
1.2 概率的五大计算公式
加法公式:
\begin{aligned}
P(A\cup B) &=P(A)+P(B)-P(AB)\\
P(A\cup B\cup C) &=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)
\end{aligned}
减法公式:
\begin{aligned}
P(B-A)=P(B)-P(AB)
\end{aligned}
乘法公式:
\begin{aligned}
\text{if }\ P(A)>0\ &\text{ then }\ P(AB)=P(B|A)P(A)\\
\text{if }\ P(B)>0\ &\text{ then }\ P(AB)=P(A|B)P(B) \\
\text{if }\ P(AB)>0\ &\text{ then }\ P(ABC)=P(C|AB)P(B|A)P(A)=P(C|AB)P(A|B)P(B)
\end{aligned}
全概率公式:
\begin{aligned}
P(A)=\sum\limits_{i=1}^nP(A|B_i)P(B_i)\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega
\end{aligned}
贝叶斯公式:
\begin{aligned}
P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum\limits_{i=1}^nP(A|B_i)P(B_i)}\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega
\end{aligned}
注:上述公式中事件
B_i的个数可以是可列个
1.3 事件的独立性
独立的基本定义:
\begin{aligned}
A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\
A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\
A,B,C两两独立 &\Leftrightarrow \left\{\begin{aligned}
P(AB)&=P(A)P(B) \\
P(BC)&=P(B)P(C) \\
P(AC)&=P(A)P(C)
\end{aligned}\right.\\
A,B,C相互独立 &\Leftrightarrow \left\{\begin{aligned}
P(AB)&=P(A)P(B) \\
P(BC)&=P(B)P(C) \\
P(AC)&=P(A)P(C) \\
P(ABC)&=P(A)P(B)P(C)
\end{aligned}\right.\\
\end{aligned}
独立的性质与结论:
- 若事件
A,B相互独立,则A与\overline B、\overline A与B、\overline A与\overline B也相互独立。 - 独立的等价说法:若
0\lt P(A) \lt 1,则
\begin{aligned}
A与B独立&\Leftrightarrow P(AB)=P(A)P(B) \\
& \Leftrightarrow P(B)=P(B|A) \\
& \Leftrightarrow P(B)=P(B|\overline A)\\
&\Leftrightarrow P(B|A)=P(B|\overline A) \\
\end{aligned}
- 若
A_1,A_2,\dots,A_m,B_1,B_2,\dots,B_n相互独立,则f(A_1,A_2,\dots,A_m)与g(B_1,B_2,\dots,B_n)也相互独立,其中f(\cdot),g(\cdot)分别表示对相应事件作任意事件运算。 - 若
P(A)=0或P(A)=1,则A与任何事件B都相互独立。
独立、互斥、互逆的关系:
A与B互斥\RightarrowA与B互斥,但反之不一定成立A与B互斥(或互逆)且均为非零概率事件\RightarrowA与B不独立A与B相互独立且均为非零概率事件\RightarrowA与B不互斥
注:一般情况下,独立和互斥无关,独立推不出互斥,互斥也推不出独立
2 一维随机变量及其分布
离散型 - 分布律
连续型 - 密度函数
2.1 分布函数
设X为随机变量,x为任意实数,称函数
\begin{aligned}
F(x)=P\{X≤x\},\ x\in \mathbb{R}
\end{aligned}
为随机变量X的分布函数,或称X服从F(x)分布,记为X\sim F(x)。
性质:
- 非负性:
0≤F(x)≤1 - 规范性:
F(-\infty)=0,F(+\infty)=1 - 单调不减性:
\forall x_1\lt x_2,F(x_1)≤F(x_2) - 右连续性:
F(x_0+0)=F(x_0)
应用——求概率:
P\{X≤a\}=F(a)P\{X\lt a\}=F(a-0)P\{X=a\}=F(a)-F(a-0)
2.2 密度函数
对于连续型随机变量X,其分布函数可表示为
\begin{aligned}
F(x)=\int_{-\infty}^{x}f(t)\text{d}t,\ x\in \mathbb{R}
\end{aligned}
其中f(x)非负可积,称f(x)为X的概率密度函数,记为X\sim f(x)。
性质:
- 非负性:
f(x)≥0,\ -\infty\lt x\lt +\infty - 规范性:
\int_{-\infty}^{+\infty}f(x)\text{d}x=1 - 对于任意实数
a\lt b,P\{a\lt X≤b\}=\int_{a}^bf(x)\text{d}x - 对于连续型随机变量
X,P\{X=x\}=0,\forall x \in \mathbb{R} - 连续型随机变量的分布函数
F(x)是连续函数 - 在
f(x)的连续点处,有F'(x)=f(x)
2.3 常见的离散型分布
2.3.1 0-1分布
X\sim B(1,p)
\begin{aligned}
P\{X=k\}=p^k(1-p)^{1-k},\ k=0,1
\end{aligned}
\begin{aligned}
EX &=p\\
DX &=p(1-p)
\end{aligned}
2.3.2 二项分布
X\sim B(n,p)
\begin{aligned}
P\{X=k\}=\text{C}_n^kp^k(1-p)^{n-k},\ k=0,1,\dots,n
\end{aligned}
\begin{aligned}
EX&=np\\
DX&=np(1-p)
\end{aligned}
2.3.3 泊松分布
X\sim P(\lambda),\ \lambda>0
\begin{aligned}
P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},\ k=0,1,2,\dots
\end{aligned}
\begin{aligned}
EX=DX=\lambda
\end{aligned}
2.3.4 几何分布
X\sim G(p)
\begin{aligned}
P\{X=k\}=p(1-p)^{k-1},\ 0\lt p \lt 1,\ k=1,2,\dots
\end{aligned}
\begin{aligned}
EX&=\frac1p\\
DX&=\frac{1-p}{p^2}
\end{aligned}
2.3.5 超几何分布
X\sim H(N,M,n)
\begin{aligned}
P\{X=k\}=\frac{\text{C}_M^k\text{C}_{N-M}^{n-k}}{\text{C}_{N}^n},\ k=0,1,\dots,\min\{n,M\}
\end{aligned}
2.4 常见的连续型分布
2.4.1 均匀分布
X\sim U(a,b)
\begin{aligned}
f(x) &=\begin{cases}
\frac{1}{b-a}, &a\lt x\lt b \\
0, & \text{otherwise}
\end{cases}\\
F(x) &=\begin{cases}
0, & x\le a\\
\frac{x-a}{b-a}, &a\lt x\lt b \\
1, & x≥b
\end{cases}
\end{aligned}
\begin{aligned}
EX&=\frac{a+b}2\\
DX&=\frac{(b-a)^2}{12}
\end{aligned}
2.4.2 指数分布
X\sim E(\lambda),\ \lambda\gt 0
\begin{aligned}
f(x) &=\begin{cases}
\lambda \text{e}^{-\lambda x}, & x\gt 0 \\
0, & \text{otherwise}
\end{cases}\\
F(x) &=\begin{cases}
1-\text{e}^{-\lambda x}, & x\ge 0 \\
0, & x\lt 0
\end{cases}
\end{aligned}
\begin{aligned}
EX &=\frac{1}{\lambda}\\
DX &=\frac{1}{\lambda^2}
\end{aligned}
2.4.3 正态分布
一般正态分布:X\sim N(\mu,\sigma^2)\ (-\infty \lt x \lt +\infty,\ \sigma \gt 0)
\begin{aligned}
f(x) &=\frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}\\
F(x) &=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(t-\mu)^2}{2\sigma^2}}\text{d}t
\end{aligned}
\begin{aligned}
EX&=\mu\\
DX&=\sigma^2
\end{aligned}
标准正态分布:X\sim N(0,1)\ (-\infty \lt x \lt +\infty)
\begin{aligned}
\phi(x) &=\frac1{\sqrt{2\pi}}\text{e}^{-\frac{x^2}2}\\
\Phi(x) &=\frac1{\sqrt{2\pi}}\int_{-\infty}^x\text{e}^{-\frac{t^2}{2}}\text{d}t
\end{aligned}
性质:
\Phi(-x)=1-\Phi(x)\Phi(0)=\frac12P\{|X|≤a\}=2\Phi(a)-1
上α分位点:设X\sim N(0,1),对于给定的\alpha\ (0\lt \alpha\lt 1),若u_\alpha满足条件P\{X>u_\alpha\}=\alpha,则称u_\alpha为标准正态分布的上\alpha分位点。
标准正态分布与一般正态分布的关系:正态分布
X\sim N(\mu,\sigma^2)通过线性变换Z=\frac{X-\mu}{\sigma}变为标准正态分布,即进行标准化变量。
2.5 一维随机变量函数的分布
离散型→离散型
设离散型随机变量X的概率分布为P\{X=x_i\}=p_i\ (i=1,2,\cdots),则X的函数Y=g(X)也是离散型随机变量,其概率分布为P\{Y=g(x_i)\}=p_i\ (i=1,2,\cdots),即
\begin{aligned}
Y\sim \begin{bmatrix}
g(x_1) & g(x_2) &\cdots \\
p_1 & p_2 & \cdots
\end{bmatrix}
\end{aligned}
若有若干个g(x_i)值相同,则合并诸项为一项g(x_k),并将相应概率相加作为Y取g(x_k)值的概率。
连续型→连续型(混合型)
设连续型随机变量X的分布函数、概率密度分别为F_X(x),f_X(x),随机变量Y=g(X)为X的函数,则其分布函数和概率密度可用分布函数法求得:
\begin{aligned}
F_Y(y) &=P\{Y≤y\}\\
&=P\{g(X)≤y\}\\
&=\int_{g(x)≤y}f_X(x)\text{d}x
\end{aligned}
若F_Y(y)连续,且除有限个点外,F'_Y(y)存在且连续,则Y的概率密度f_Y(y)=F'_Y(y)。
3 多维随机变量及其分布
3.1 联合分布函数
设X,Y为二维随机变量,x,y为任意实数,称函数
\begin{aligned}
F(x,y)=P\{X≤x,Y≤y\},\ x,y \in \mathbb{R}
\end{aligned}
为二维随机变量(X,Y)的联合分布函数,它表示随机事件\{X≤x\}与\{Y≤y\}同时发生的概率。
性质:
- 非负性:对于任意实数
x,y \in \mathbb{R},0≤F(x,y)≤1 - 规范性:
\begin{aligned} F(-\infty,y) &=\lim\limits_{x\rightarrow -\infty} F(x,y)=0\\ F(x,-\infty) &=\lim\limits_{y\rightarrow -\infty}F(x,y)=0\\ F(-\infty,-\infty) &=\lim\limits_{x,y\rightarrow -\infty}F(x,y)=0\\ F(+\infty,+\infty)&=\lim\limits_{x,y\rightarrow +\infty}F(x,y)=1 \end{aligned} - 单调不减性:
F(x,y)分别关于x和y单调不减 - 右连续性:
F(x,y)分别关于x和y具有右连续,即F(x,y)=F(x+0,y)=F(x,y+0),\ x,y\in \mathbb{R}
3.2 二维离散型随机变量
若二维随机变量(X,Y)可能的取值为有限对或可列无穷多对实数,则称(X,Y)为二维离散型随机变量。
联合分布律:
\begin{aligned}
P\{X=x_i,Y=y_j\} &=p_{ij},\ i,j=1,2,\dots\\
p_{ij} &\ge 0\\
\sum\limits_{i=1}^{+\infty}\sum\limits_{j=1}^{+\infty}p_{ij} &=1
\end{aligned}
边缘分布律:
\begin{aligned}
P\{X=x_i\} &=\sum\limits_{j=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{j=1}^{+\infty}p_{ij}=p_{i\cdot},\ i=1,2,\dots\\
P\{Y=y_j\} &=\sum\limits_{i=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{i=1}^{+\infty}p_{ij}=p_{\cdot j},\ j=1,2,\dots
\end{aligned}
条件分布律:
- 对于给定的
j,若P\{Y=y_j\}>0\ (j=1,2,\cdots),则称\begin{aligned} P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{p_{ij}}{p_{\cdot j}},\ i=1,2,\dots \end{aligned}为在
Y=y_j的条件下随机变量X的条件概率分布。 - 对于给定的
i,若P\{X=x_i\}>0\ (i=1,2,\cdots),则称\begin{aligned} P\{Y=y_j|X=x_i\}=\frac{P\{X=x_i,Y=y_j\}}{P\{X=x_i\}}=\frac{p_{ij}}{p_{i\cdot}},\ j=1,2,\dots \end{aligned}为在
X=x_i的条件下随机变量Y的条件概率分布。
3.3 二维连续型随机变量
设二维随机变量(X,Y)的联合分布函数为F(x,y),若存在非负可积的二元函数f(x,y),使得对任意实数x,y,有
\begin{aligned}
F(x,y)=\int_{-\infty}^x\int_{-\infty}^y f(u,v)\text{d}u\text{d}v
\end{aligned}
则称(X,Y)为二维连续型随机变量,称函数f(x,y)为二维随机变量(X,Y)的概率密度函数或联合密度函数。
性质:
f(x,y)≥0,\ x,y\in \mathbb{R}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)\text{d}x\text{d}y=1- 设
D为平面xOy上任一区域,则点(x,y)落在D内的概率为\begin{aligned} P\{(X,Y)\in D\}=\iint\limits_{D}f(x,y)\text{d}\sigma \end{aligned} - 若
f(x,y)在点(x,y)处连续,则有f(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}
边缘密度函数:
\begin{aligned}
f_X(x) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}y\\
f_Y(y) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}x
\end{aligned}
条件密度函数:
- 当
f_Y(y)>0时,称\begin{aligned} f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} \end{aligned}为在条件
Y=y下X的条件密度函数。 - 当
f_X(x)>0时,称\begin{aligned} f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)} \end{aligned}为在条件
X=x下Y的条件密度函数。
3.4 常见的二维连续型分布
3.4.1 二维均匀分布
设G为平面上有界可求面积的区域,其面积为|G|,若二维随机变量具有密度函数
\begin{aligned}
f(x,y)=\begin{cases}
\frac{1}{|G|}, & (x,y)\in G \\
0, & (x,y) \notin G
\end{cases}
\end{aligned}
则称(X,Y)在区域G上服从二维均匀分布。
性质:若(X,Y)在各平行于坐标轴的矩形区域D=\{(x,y)|a≤x≤b,c≤y≤d\}上服从二维均匀分布,则其两个分量X,Y是独立的,且分别服从区间[a,b],[c,d]上的一维均匀分布。
3.4.2 二维正态分布
若二维连续型随机变量(X,Y)的概率密度为
\begin{aligned}
f(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}\exp\{ \frac{-1}{2(1-\rho^2)} [\frac{(x-\mu_1)^2}{\sigma_1^2} - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} ]\},\ x,y\in \mathbb{R}
\end{aligned}
其中\mu_1,\mu_2,\sigma_1>0,\ -1<\rho<1均为常数,则称(X,Y)服从参数为\mu_1,\mu_2,\sigma_1,\sigma_2,\rho的二维正态分布,记为(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)。
性质:
X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)X与Y独立的充分必要条件为\rho=0X与Y的非零线性组合服从一维正态分布,且- 当
X与Y不独立时\begin{aligned} k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2+2k_1k_2\rho\sigma_1\sigma_2) \end{aligned} - 当
X与Y独立时\begin{aligned} k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2) \end{aligned}
- 当
- 若
(X_1,X_2)服从二维正态分布,且行列式\begin{vmatrix} a & b\\ c &d \end{vmatrix}≠0,则(aX_1+bX_2,cX_1+dX_2)也服从二维正态分布。
3.5 二维随机变量的独立性
定义:
- 若对于任意实数
x,y,有F(x,y)=F_X(x)F_Y(y),则称X和Y相互独立。 - 若对于任意
i,j=1,2,\dots,有P\{X=x_i,Y=y_j\}=P\{X=x_i\}P\{Y=y_j\},则称二维离散型随机变量X和Y相互独立。 - 若对于任意实数
x,y,有f(x,y)=f_X(x)f_Y(y),则称二维连续型随机变量X和Y相互独立。
性质:
- 若
X与Y相互独立,f(x)和g(x)为连续函数,则f(X)与g(Y)也相互独立。 - 若
X_1,X_2,\cdots,X_n,Y_1,Y_2,\cdots,Y_m相互独立,f(\cdot)为n元连续函数,g(\cdot)为m元连续函数,则f(X_1,X_2,\cdots,X_n)与g(Y_1,Y_2,\cdots,Y_m)也相互独立。
3.6 二维随机变量函数的概率分布
离散型
已知(X,Y)的概率分布为
\begin{aligned}
P\{X=x_i,Y=y_j\}=p_{ij},\ i,j=1,2,\dots
\end{aligned}
则Z=g(X,Y)的分布律为
\begin{aligned}
P\{Z=z_k\} &=P\{g(X,Y)=z_k\}\\
&=\sum\limits_{g(x_i,y_j)=z_k}P\{X=x_i,Y=y_j\}
\end{aligned}
连续型
一般方法:分布函数法
设二维连续型随机变量(X,Y)的概率密度函数为f(x,y),则随机变量Z=g(X,Y)的分布函数和概率密度函数为
\begin{aligned}
F_Z(z)&=P\{Z≤z\}=P\{g(X,Y)≤z\}\\
&=\iint\limits_{g(x,y)≤z}f(x,y)\text{d}x\text{d}y\\
f_Z(z)&=F_Z'(z)
\end{aligned}
公式法:卷积公式
设二维连续型随机变量(X,Y)的概率密度为f(x,y),则随机变量Z=X+Y的密度函数为
\begin{aligned}
f_Z(z)&=\int_{-\infty}^{+\infty}f(x,z-x)\text{d}x\\
&=\int_{-\infty}^{+\infty}f(z-y,y)\text{d}y
\end{aligned}
若X与Y独立,则Z=X+Y的密度函数公式称为卷积公式,即
\begin{aligned}
f_X * f_Y &=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)\text{d}x\\
& =\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)\text{d}y
\end{aligned}
4 随机变量的数字特征
4.1 期望
一维随机变量的期望:
- 离散型:设随机变量
X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots),若级数\sum\limits_{i=1}^{\infty}x_ip_i绝对收敛,则\begin{aligned} EX=\sum\limits_{i=1}^{\infty}x_ip_i \end{aligned} - 连续型:设连续型随机变量
X的概率密度为f(x),若积分\int_{-\infty}^{+\infty}xf(x)\text{d}x绝对收敛,则\begin{aligned} EX=\int_{-\infty}^{+\infty}xf(x)\text{d}x \end{aligned} - 随机变量函数:设
X为随机变量,g(x)为连续实函数,令Y=g(X)- 离散型:若
X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots),则\begin{aligned} EY=E[g(X)]=\sum\limits_{i=1}^{\infty}g(x_i)p_i \end{aligned} - 连续型:若
X的密度函数为f_X(x),则\begin{aligned} EY=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f_X(x)\text{d}x \end{aligned}
- 离散型:若
二维随机变量的期望:
- 离散型:设
(X,Y)的概率分布为P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots),则\begin{aligned} EX &=\sum\limits_{i}x_ip_{i\cdot}=\sum\limits_{i}\sum\limits_{j}x_ip_{ij}\\ EY &=\sum\limits_{j}y_jp_{\cdot j}=\sum\limits_{i}\sum\limits_{j}y_ip_{ij} \end{aligned} - 连续型:设
(X,Y)的联合概率密度为\phi(x,y),则\begin{aligned} EX &=\int_{-\infty}^{+\infty}xf_X(x)\text{d}x=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)\text{d}x\text{d}y\\ EY &=\int_{-\infty}^{+\infty}yf_Y(y)\text{d}y=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)\text{d}x\text{d}y \end{aligned} - 随机变量函数:设
(X,Y)为二维随机变量,g(x,y)为二元连续实函数,令Z=g(X,Y)- 离散型:若
(X,Y)的联合分布律为P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots),则\begin{aligned} EZ=E[g(X,Y)]=\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}g(x_i,y_j)p_{ij} \end{aligned} - 连续型:若
(X,Y)的联合密度函数为f(x,y),则\begin{aligned} EZ=E[g(X,Y)]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)\text{d}x\text{d}y \end{aligned}
- 离散型:若
期望的性质:
E(C)=C;E(EX)=EXE(CX)=CEXE(k_1X\pm k_2Y)=k_1EX\pm k_2EY- 若
X与Y相互独立,则有E(XY)=EXEY
4.2 方差
设X是为随机变量,若E(X-EX)^2存在,则称
\begin{aligned}
DX=E(X-EX)^2
\end{aligned}
为X的方差(或记为\text{Var}(X)),称\sqrt{DX}为标准差或均方差。
常用公式(解题时常据此计算EX^2=DX+(EX)^2):
\begin{aligned}
DX=EX^2-(EX)^2
\end{aligned}
性质:
D(C)=0;D(EX)=0;D(DX)=0D(CX)=C^2DXD(C_1X+C_2)=C_1^2DXD(X\pm Y)=DX+DY \pm 2\text{cov}(X,Y)- 若
X,Y相互独立,则D(X\pm Y)=DX+DY
标准化变量:设随机变量X具有数学期望EX=\mu、方差DX=\sigma^2≠0,则X的标准化变量为
\begin{aligned}
X^*=\frac{X-\mu}{\sigma}
\end{aligned}
显然,EX^*=0,DX^*=1,且X^*无量纲。
4.3 协方差
定义
\begin{aligned}
\text{cov}(X,Y)=E[(X-EX)(Y-EY)]
\end{aligned}
常用公式:
\begin{aligned}
\text{cov}(X,Y)=EXY-EXEY
\end{aligned}
性质:
\text{cov}(X,Y)=\text{cov}(Y,X)\text{cov}(X,X)=DX\text{cov}(aX,bY)=ab\text{cov}(X,Y)\text{cov}(X,C)=0\text{cov}(k_1X_1\pm k_2X_2,Y)=k_1\text{cov}(X_1,Y)\pm k_2\text{cov}(X_2,Y)- 若
X与Y相互独立,则\text{cov}(X,Y)=0
4.4 相关系数
定义:
\begin{aligned}
\rho_{XY}=\frac{\text{cov}(X,Y)}{\sqrt{DX}\sqrt{DY}}
\end{aligned}
性质:
|\rho_{XY}|≤1|\rho_{XY}|=1\Leftrightarrow P\{Y=aX+b \}=1,\ a≠0,且当a>0时,\rho_{XY}=1;当a<0时,\rho_{XY}=-1
不相关的等价说法:
\begin{aligned}
\rho_{XY}=0 &\Leftrightarrow \text{cov}(X,Y)=0\\
&\Leftrightarrow EXY=EXEY\\
&\Leftrightarrow D(X\pm Y)=DX+DY
\end{aligned}
不相关与独立的关系:
X,Y相互独立\RightarrowX与Y不相关,反之不成立- 若
(X,Y)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho),则X与Y独立\LeftrightarrowX与Y不相关
4.5 其他数字特征
设X,Y为随机变量,则——
k阶(原点)矩:若EX^k,\ k=1,2,\cdots存在,则称它为X的k阶(原点)矩
k阶中心矩:若E[(X-EX)^k],\ k=1,2,\cdots存在,则称它为X的k阶中心矩
k+l阶混合(原点)矩:若E(X^kY^l),\ k,l=1,2,\cdots存在,则称它为X,Y的k+l阶混合(原点)矩
k+l混合中心矩:若E[(X-EX)^k(Y-EY)^l],\ k,l=1,2,\cdots存在,则称它为X,Y的k+l阶混合中心矩
切比雪夫不等式:设随机变量X的期望EX、方差DX都存在,则对任意\epsilon>0均有
\begin{aligned}
P\{|X-EX|≥\epsilon\}&≤\frac{DX}{\epsilon^2}\\
P\{|X-EX|\lt \epsilon\}&≥1-\frac{DX}{\epsilon^2}
\end{aligned}
5 大数定律与中心极限定理
依概率收敛:对于随机变量序列X_1,X_2,\dots,X_n,\dots和常数a,如果对于任意给定的正数\epsilon,有
\begin{aligned}
\lim\limits_{n\rightarrow \infty} P \left \{\left|X_n-a\right|<\epsilon \right \}=1
\end{aligned}
则称随机变量序列X_1,X_2,\cdots,X_n,\cdots依概率收敛于a,记作X_n \xrightarrow{P}a。
5.1 切比雪夫大数定律
设随机变量X_1,X_2,\dots,X_n,\dots相互独立,数学期望EX_i和方差DX_i均存在,且方差DX_i有公共上界,即存在常数C,使DX_i≤C\ (i=1,2,\dots),则对于任意给定的正数\epsilon,总有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{1}{n}\sum\limits_{i=1}^nX_i-\frac{1}{n}\sum\limits_{i=1}^nEX_i\right|<\epsilon\right \}=1
\end{aligned}
上式表明:当n很大时,相互独立方差有公共上界的随机变量的平均值\frac{1}{n}\sum\limits_{i=1}^nX_i依概率收敛于其数学期望\frac{1}{n}\sum\limits_{i=1}^nEX_i。
5.2 伯努利大数定律
设n_A是n次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意正数\epsilon,有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{n_A}{n}-p\right|<\epsilon\right \}=1
\end{aligned}
上式表明:当n很大时,随机事件A发生的频率\frac{n_A}{n}依概率收敛于事件A的概率p,因此在试验次数充分大时,可以用频率来近似代替概率。
5.3 辛钦大数定律
设随机变量X_1,X_2,\dots,X_n,\dots相互独立,服从相同的分布,具有数学期望EX_i=\mu\ (i=1,2,\dots),则对于任意给定的正数\epsilon,总有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac1n \sum\limits_{i=1}^nX_i-\mu\right|<\epsilon \right\}=1
\end{aligned}
上式表明:当n很大时,独立同分布的随机变量的平均值\frac1n\sum\limits_{i=1}^nX_i依概率收敛于其数学期望\mu
5.4 列维-林德伯格中心极限定理
设随机变量X_1,X_2,\dots,X_n,\dots相互独立,服从相同的分布,具有数学期望EX_i=\mu和方差DX_i=\sigma^2>0\ (i=1,2,\dots),则对于任意实数x,有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\frac{\sum\limits_{i=1}^n X_i-n\mu}{\sqrt n \sigma}≤x \right\}=\Phi(x)
\end{aligned}
上式表明:在定理条件下,当n充分大时,\sum\limits_{i=1}^nX_i以正态分布为极限分布。
5.5 棣莫弗-拉普拉斯中心极限定理
设随机变量X_n服从参数为n,p\ (0\lt p\lt 1,\ n=1,2,\cdots)的二项分布,即X_n\sim B(n,p),则对于任意实数x,有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\frac{X_n-np}{\sqrt{np(1-p)}}≤x\right\}=\Phi(x)
\end{aligned}
上式表明:当重复实验次数足够多时,二项分布以正态分布极限分布。
6 数理统计
6.1 重要统计量
样本均值:
\begin{aligned}
\overline X=\frac1n \sum\limits_{i=1}^nX_i,\text{ 观测值 }\overline x=\frac1n \sum\limits_{i=1}^n x_i
\end{aligned}
\begin{aligned}
E\overline X &=\mu\\
D\overline X &=\frac{\sigma^2}{n}
\end{aligned}
样本方差:
\begin{aligned}
S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2,\text{ 观测值 }s^2=\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2
\end{aligned}
\begin{aligned}
ES^2=\sigma^2
\end{aligned}
样本标准差:
\begin{aligned}
S=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2},\text{ 观测值 }s=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2}
\end{aligned}
样本k阶原点矩
\begin{aligned}
A_k=\frac1n \sum\limits_{i=1}^n X_i^k,\text{ 观测值 }a_k=\frac1n \sum\limits_{i=1}^n x_i^k,\ k=1,2,\dots
\end{aligned}
若总体的X的k阶原点矩EX^k=\mu_k\ (k=1,2,\dots)存在,则当n\rightarrow \infty时,有
\begin{aligned}
A_k=\frac1n \sum\limits_{i=1}^n X_i^k \xrightarrow{P}EX^k,\ k=1,2,\dots
\end{aligned}
样本k阶中心矩:
\begin{aligned}
B_k=\frac1n\sum\limits_{i=1}^n(X_i-\overline X)^k,\text{ 观测值 }b_k=\frac1n\sum\limits_{i=1}^n(x_i-\overline x)^k,\ k=2,3,\dots
\end{aligned}
顺序统计量:设总体X的分布函数为F(x),X_1,X_2,\dots,X_n是来自总体X的样本,则统计量X_{(n)}=\max(X_1,X_2,\dots,X_n)和X_{(1)}=\min(X_1,X_2,\dots,X_n)的分布函数分别为
\begin{aligned}
F_{X_{(n)}}(x) &=P\{\max(X_1,X_2,\dots,X_n)≤x\}=[F(x)]^n\\
F_{X_{(1)}}(x) &=P\{\min(X_1,X_2,\dots,X_n)≤x\}=[1-F(x)]^n
\end{aligned}
6.2 三大分布
6.2.1 卡方分布
设随机变量X_1,X_2,\dots,X_n相互独立,且均服从标准正态分布N(0,1),则随机变量
\begin{aligned}
\chi^2=X_1^2+X_2^2+\cdots+X_n^2
\end{aligned}
服从自由度为n的\chi^2分布(卡方分布,Chi-square Distribution),记作\chi^2\sim \chi^2(n)。
性质:设X\sim \chi^2(n_1),Y\sim \chi^2(n_2),且X,Y相互独立,则X+Y\sim \chi^2(n_1+n_2)。
数字特征:
E\chi^2=n,\ D\chi^2=2n
上α分位点:设\chi^2\sim \chi^2(n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{\chi^2\gt \chi_{\alpha}^2(n)\}=\alpha的点\chi_{\alpha}^2(n)为\chi^2(n)的上\alpha分位点。
6.2.2 t分布
设随机变量X\sim N(0,1),Y\sim \chi^2(n),且X,Y相互独立,则随机变量
\begin{aligned}
t=\frac{X}{\sqrt{Y/n}}
\end{aligned}
服从自由度为n的t分布,记作t\sim t(n)。
性质:t分布的概率密度f(x)是偶函数,且有\lim\limits_{n\rightarrow \infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},即当n充分大时,t(n)分布近似于N(0,1)分布。
上α分位点:设t\sim t(n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{t\gt t_{\alpha}(n)\}=\alpha的点t_{\alpha}(n)为t(n)的上\alpha分位点。
6.2.3 F分布
设随机变量X\sim \chi^2(m),Y\sim \chi^2(n),且X,Y相互独立,则随机变量
\begin{aligned}
F=\frac{X/m}{Y/n}
\end{aligned}
服从自由度为(m,n)的F分布,记为F\sim F(m,n)。
性质:若F\sim F(m,n),则\frac1F \sim F(n,m)。
上α分位点:设F\sim F(m,n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{F\gt F_{\alpha}(m,n)\}=\alpha的点F_{\alpha}(m,n)为F(m,n)的上\alpha分位点。
6.3 抽样分布
一个正态总体的抽样分布:设X_1,X_2,\cdots,X_n是来自正态总体X\sim N(\mu,\sigma^2)的样本,样本均值为\overline X,样本方差为S^2,则有
\overline X\sim N(\mu,\frac{\sigma^2}{n}),\frac{\overline X-\mu}{\sigma / \sqrt n}\sim N(0,1)\overline X与S^2相互独立,且\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)\frac1{\sigma^2}\sum\limits_{i=1}^n(X_i-\mu)^2\sim \chi^2(n)
两个正态总体的抽样分布:设X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2),X_1,X_2,\cdots,X_{n_1}和Y_1,Y_2,\cdots,Y_{n_2}分别来自总体X和Y的样本,且两个样本相互独立,则有
\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)- 若
\sigma_1^2=1\sigma_2^2,则\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim t(n_1+n_2-2),其中S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} \frac{\frac1{\sigma_1^2} \sum\limits_{i=1}^{n_1}(X_i-\mu_1)^2/n_1}{\frac1{\sigma_2^2} \sum\limits_{j=1}^{n_1}(Y_j-\mu_2)^2/n_2}\sim F(n_1,n_2)\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)
6.4 矩估计
原理:样本的k阶原点矩依概率收敛于总体的k阶原点矩。
步骤:假设有k个待估参数\theta_1,\theta_2,\cdots,\theta_k,则
- 求出总体的
k阶原点矩\mu_k=EX^k\ (k=1,2,\cdots) - 令样本的
k阶原点矩A_k=\frac1n \sum\limits_{i=1}^nX_i^k等于总体的k阶原点矩,即令\begin{aligned} EX^k=\frac1n \sum\limits_{i=1}^n X_i^k,\ k=1,2,\dots \end{aligned} - 解该方程组,得
\theta_i的矩估计量为\hat \theta_i(X_1,X_2,\dots,X_n),则\theta_i的矩估计值为\hat \theta_i(x_1,x_2,\dots,x_n)
注:当待估参数为1个时,通常令
EX=\frac1n \sum\limits_{i=1}^n X_i,即可解得\theta的矩估计量与相应的矩估计值。
6.5 最大似然估计法
似然函数和最大似然估计:
- 离散型随机变量:设总体
X的分布律为P\{X=a_i\}=p(a_i;\theta),\ i=1,2,\dots,X_1,X_2,\dots,X_n为取自X的样本,则X_1,X_2,\dots,X_n的联合分布律的似然函数为\begin{aligned} L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^np(x_i;\theta),\ x_i \in \{a_1,a_2,\dots\} \end{aligned}待估参数
\theta的最大似然估计为L(x_1,x_2,\dots,x_n;\theta)关于\theta的最大值点\hat \theta。 - 连续型随机变量:设总体
X的密度函数为f(x;\theta),X_1,X_2,\dots,X_n为取自X的样本,则似然函数为\begin{aligned} L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta) \end{aligned}待估参数
\theta的最大似然估计为L(x_1,x_2,\dots,x_n;\theta)关于\theta的最大值点\hat \theta。
注:上述两种中的
\theta可为多个待估参数(\theta_1,\theta_2,\cdots,\theta_k)
最大似然估计的求解步骤:假设有k个待估参数(\theta_1,\theta_2,\dots,\theta_k)
- 写出似然函数
- 离散型:
\begin{aligned} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^np(x_i;\theta_1,\theta_2,\cdots,\theta_k) \end{aligned} - 连续型
\begin{aligned} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2,\cdots,\theta_k) \end{aligned}
- 离散型:
- 取对数
\ln L - 若
\ln L对\theta_1,\theta_2,\dots,\theta_k可微,求偏导数\frac{\partial \ln L}{\partial \theta_i},\ i=1,2,\dots,k;判断方程组\frac{\partial \ln L}{\partial \theta_i}=0是否有解。若有解则其解即为所求最大似然估计;若无解则要概率极大似然估计的意义(使似然函数取得最大值),此时,估计值常在\theta_i的边界点上达到。
注:对于只有一个未知参数只需将步骤(3)中求偏导变为一元函数求导即可
6.6 估计量的评选标准
无偏性:若\theta的估计量\hat \theta(X_1,X_2,\dots,X_n)的数学期望E\hat \theta存在,且E\hat \theta=\theta,则称\hat \theta(X_1,X_2,\dots,X_n)为未知参数\theta的无偏估计量。
有效性:\hat \theta_1(X_1,X_2,\dots,X_n)和\hat \theta_1(X_1,X_2,\dots,X_n)都是未知参数\theta的无偏估计量,若D\hat\theta_1≤D\hat\theta_2,且至少对于某一个\theta\in \Theta不等号成立,则称\hat \theta_1(X_1,X_2,\dots,X_n)比\hat \theta_1(X_1,X_2,\dots,X_n)更有效。
一致性(相合性):若对任意\epsilon>0,有
\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\hat\theta-\theta\right|\lt\epsilon\right\}=1
\end{aligned}
则称\hat \theta为\theta的一致估计量。
6.7 区间估计、假设检验…
【WIP】
《概率论与数理统计常用公式大全》有6条评论