概率论与数理统计常用公式大全

概率论与数理统计常用公式大全(基础篇),适合初学者速查速记。注意符号使用与其他教程或有区别。持续更新。

配套习题:概率论与数理统计习题集

后续学习:时序预测评价指标简介

数学基础系列文章:

参考讲义:

习题:

课程:

  • 【网盘群】2024考研友资料38群 - 张宇基础30讲 - 概率6讲
Hyplus目录

1 随机事件与概率

1.1 事件的运算律

交换律

\begin{aligned}
A\cup B &=B\cup A\\
A\cap B &=B\cap A
\end{aligned}

结合律

\begin{aligned}
A\cup(B\cup C) &=(A\cup B)\cup C\\
A\cap(B\cap C) &=(A\cap B)\cap C
\end{aligned}

分配律

\begin{aligned}
A\cup(B\cap C) &=(A\cup B)\cap(A\cup C)\\
A\cap(B\cup C) &=(A\cap B)\cup(A\cap C)
\end{aligned}

德摩根律(对偶律):

\begin{aligned}
\overline{A\cup B} &=\overline A \cap \overline B\\
\overline{A\cap B} &=\overline A \cup \overline B
\end{aligned}

1.2 概率的五大计算公式

加法公式

\begin{aligned}
P(A\cup B) &=P(A)+P(B)-P(AB)\\
P(A\cup B\cup C) &=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)
\end{aligned}

减法公式

\begin{aligned}
P(B-A)=P(B)-P(AB)
\end{aligned}

乘法公式

\begin{aligned}
\text{if }\ P(A)>0\ &\text{ then }\ P(AB)=P(B|A)P(A)\\
\text{if }\ P(B)>0\ &\text{ then }\ P(AB)=P(A|B)P(B) \\
\text{if }\ P(AB)>0\ &\text{ then }\ P(ABC)=P(C|AB)P(B|A)P(A)=P(C|AB)P(A|B)P(B)
\end{aligned}

全概率公式

\begin{aligned}
P(A)=\sum\limits_{i=1}^nP(A|B_i)P(B_i)\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega
\end{aligned}

贝叶斯公式

\begin{aligned}
P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum\limits_{i=1}^nP(A|B_i)P(B_i)}\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega
\end{aligned}

注:上述公式中事件B_i的个数可以是可列个

1.3 事件的独立性

独立的基本定义:

\begin{aligned}
A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\
A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\
A,B,C两两独立 &\Leftrightarrow \left\{\begin{aligned}
P(AB)&=P(A)P(B) \\
P(BC)&=P(B)P(C) \\
P(AC)&=P(A)P(C)
\end{aligned}\right.\\
A,B,C相互独立 &\Leftrightarrow \left\{\begin{aligned}
P(AB)&=P(A)P(B) \\
P(BC)&=P(B)P(C) \\
P(AC)&=P(A)P(C) \\
P(ABC)&=P(A)P(B)P(C)
\end{aligned}\right.\\
\end{aligned}

独立的性质与结论:

  1. 若事件A,B相互独立,则A\overline B\overline AB\overline A\overline B也相互独立。
  2. 独立的等价说法:若0\lt P(A) \lt 1,则
\begin{aligned}
 A与B独立&\Leftrightarrow P(AB)=P(A)P(B) \\
& \Leftrightarrow P(B)=P(B|A) \\
& \Leftrightarrow P(B)=P(B|\overline A)\\
&\Leftrightarrow P(B|A)=P(B|\overline A) \\
\end{aligned}
  1. A_1,A_2,\dots,A_m,B_1,B_2,\dots,B_n相互独立,则f(A_1,A_2,\dots,A_m)g(B_1,B_2,\dots,B_n)也相互独立,其中f(\cdot),g(\cdot)分别表示对相应事件作任意事件运算。
  2. P(A)=0P(A)=1,则A与任何事件B都相互独立。

独立、互斥、互逆的关系:

  1. AB互斥 \Rightarrow AB互斥,但反之不一定成立
  2. AB互斥(或互逆)且均为非零概率事件 \Rightarrow AB不独立
  3. AB相互独立且均为非零概率事件 \Rightarrow AB不互斥

注:一般情况下,独立和互斥无关,独立推不出互斥,互斥也推不出独立


2 一维随机变量及其分布

离散型 - 分布律
连续型 - 密度函数

2.1 分布函数

X为随机变量,x为任意实数,称函数

\begin{aligned}
F(x)=P\{X≤x\},\ x\in \mathbb{R}
\end{aligned}

为随机变量X分布函数,或称X服从F(x)分布,记为X\sim F(x)

性质:

  1. 非负性:0≤F(x)≤1
  2. 规范性:F(-\infty)=0,F(+\infty)=1
  3. 单调不减性:\forall x_1\lt x_2,F(x_1)≤F(x_2)
  4. 右连续性:F(x_0+0)=F(x_0)

应用——求概率:

  1. P\{X≤a\}=F(a)
  2. P\{X\lt a\}=F(a-0)
  3. P\{X=a\}=F(a)-F(a-0)

2.2 密度函数

对于连续型随机变量X,其分布函数可表示为

\begin{aligned}
F(x)=\int_{-\infty}^{x}f(t)\text{d}t,\ x\in \mathbb{R}
\end{aligned}

其中f(x)非负可积,称f(x)X概率密度函数,记为X\sim f(x)

性质:

  1. 非负性:f(x)≥0,\ -\infty\lt x\lt +\infty
  2. 规范性:\int_{-\infty}^{+\infty}f(x)\text{d}x=1
  3. 对于任意实数a\lt bP\{a\lt X≤b\}=\int_{a}^bf(x)\text{d}x
  4. 对于连续型随机变量XP\{X=x\}=0,\forall x \in \mathbb{R}
  5. 连续型随机变量的分布函数F(x)是连续函数
  6. f(x)的连续点处,有F'(x)=f(x)

2.3 常见的离散型分布

2.3.1 0-1分布

X\sim B(1,p)

\begin{aligned}
P\{X=k\}=p^k(1-p)^{1-k},\ k=0,1
\end{aligned}
\begin{aligned}
EX &=p\\
DX &=p(1-p)
\end{aligned}

2.3.2 二项分布

X\sim B(n,p)

\begin{aligned}
P\{X=k\}=\text{C}_n^kp^k(1-p)^{n-k},\ k=0,1,\dots,n
\end{aligned}
\begin{aligned}
EX&=np\\
DX&=np(1-p)
\end{aligned}

2.3.3 泊松分布

X\sim P(\lambda),\ \lambda>0

\begin{aligned}
P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},\ k=0,1,2,\dots
\end{aligned}
\begin{aligned}
EX=DX=\lambda
\end{aligned}

2.3.4 几何分布

X\sim G(p)

\begin{aligned}
P\{X=k\}=p(1-p)^{k-1},\ 0\lt p \lt 1,\ k=1,2,\dots
\end{aligned}
\begin{aligned}
EX&=\frac1p\\
DX&=\frac{1-p}{p^2}
\end{aligned}

2.3.5 超几何分布

X\sim H(N,M,n)

\begin{aligned}
P\{X=k\}=\frac{\text{C}_M^k\text{C}_{N-M}^{n-k}}{\text{C}_{N}^n},\ k=0,1,\dots,\min\{n,M\}
\end{aligned}

2.4 常见的连续型分布

2.4.1 均匀分布

X\sim U(a,b)

\begin{aligned}
f(x) &=\begin{cases}
 \frac{1}{b-a}, &a\lt x\lt b \\
0,  & \text{otherwise}
\end{cases}\\
F(x) &=\begin{cases}
0, & x\le a\\
 \frac{x-a}{b-a}, &a\lt x\lt b \\
1,  & x≥b
\end{cases}
\end{aligned}
\begin{aligned}
EX&=\frac{a+b}2\\
DX&=\frac{(b-a)^2}{12}
\end{aligned}

2.4.2 指数分布

X\sim E(\lambda),\ \lambda\gt 0

\begin{aligned}
f(x) &=\begin{cases}
\lambda \text{e}^{-\lambda x}, & x\gt 0 \\
0,  & \text{otherwise}
\end{cases}\\
F(x) &=\begin{cases}
1-\text{e}^{-\lambda x}, & x\ge 0 \\
0,  & x\lt 0
\end{cases}
\end{aligned}
\begin{aligned}
EX &=\frac{1}{\lambda}\\
DX &=\frac{1}{\lambda^2}
\end{aligned}

2.4.3 正态分布

一般正态分布X\sim N(\mu,\sigma^2)\ (-\infty \lt x \lt +\infty,\ \sigma \gt 0)

\begin{aligned}
f(x) &=\frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}\\
F(x) &=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(t-\mu)^2}{2\sigma^2}}\text{d}t
\end{aligned}
\begin{aligned}
EX&=\mu\\
DX&=\sigma^2
\end{aligned}

标准正态分布X\sim N(0,1)\ (-\infty \lt x \lt +\infty)

\begin{aligned}
\phi(x) &=\frac1{\sqrt{2\pi}}\text{e}^{-\frac{x^2}2}\\
\Phi(x) &=\frac1{\sqrt{2\pi}}\int_{-\infty}^x\text{e}^{-\frac{t^2}{2}}\text{d}t
\end{aligned}

性质:

  1. \Phi(-x)=1-\Phi(x)
  2. \Phi(0)=\frac12
  3. P\{|X|≤a\}=2\Phi(a)-1

上α分位点:设X\sim N(0,1),对于给定的\alpha\ (0\lt \alpha\lt 1),若u_\alpha满足条件P\{X>u_\alpha\}=\alpha,则称u_\alpha为标准正态分布的上\alpha分位点。

标准正态分布与一般正态分布的关系:正态分布X\sim N(\mu,\sigma^2)通过线性变换Z=\frac{X-\mu}{\sigma}变为标准正态分布,即进行标准化变量

2.5 一维随机变量函数的分布

离散型→离散型

设离散型随机变量X的概率分布为P\{X=x_i\}=p_i\ (i=1,2,\cdots),则X的函数Y=g(X)也是离散型随机变量,其概率分布为P\{Y=g(x_i)\}=p_i\ (i=1,2,\cdots),即

\begin{aligned}
Y\sim \begin{bmatrix}
 g(x_1) & g(x_2) &\cdots \\
 p_1 & p_2 & \cdots
\end{bmatrix}
\end{aligned}

若有若干个g(x_i)值相同,则合并诸项为一项g(x_k),并将相应概率相加作为Yg(x_k)值的概率。

连续型→连续型(混合型)

设连续型随机变量X的分布函数、概率密度分别为F_X(x),f_X(x),随机变量Y=g(X)X的函数,则其分布函数和概率密度可用分布函数法求得:

\begin{aligned}
F_Y(y) &=P\{Y≤y\}\\
 &=P\{g(X)≤y\}\\
 &=\int_{g(x)≤y}f_X(x)\text{d}x
\end{aligned}

F_Y(y)连续,且除有限个点外,F'_Y(y)存在且连续,则Y的概率密度f_Y(y)=F'_Y(y)


3 多维随机变量及其分布

3.1 联合分布函数

X,Y为二维随机变量,x,y为任意实数,称函数

\begin{aligned}
F(x,y)=P\{X≤x,Y≤y\},\ x,y \in \mathbb{R}
\end{aligned}

为二维随机变量(X,Y)联合分布函数,它表示随机事件\{X≤x\}\{Y≤y\}同时发生的概率。

性质:

  1. 非负性:对于任意实数x,y \in \mathbb{R}0≤F(x,y)≤1
  2. 规范性:
    \begin{aligned}
    F(-\infty,y) &=\lim\limits_{x\rightarrow -\infty} F(x,y)=0\\
    F(x,-\infty) &=\lim\limits_{y\rightarrow -\infty}F(x,y)=0\\
    F(-\infty,-\infty) &=\lim\limits_{x,y\rightarrow -\infty}F(x,y)=0\\
    F(+\infty,+\infty)&=\lim\limits_{x,y\rightarrow +\infty}F(x,y)=1
    \end{aligned}
  3. 单调不减性:F(x,y)分别关于xy单调不减
  4. 右连续性:F(x,y)分别关于xy具有右连续,即F(x,y)=F(x+0,y)=F(x,y+0),\ x,y\in \mathbb{R}

3.2 二维离散型随机变量

若二维随机变量(X,Y)可能的取值为有限对或可列无穷多对实数,则称(X,Y)二维离散型随机变量

联合分布律

\begin{aligned}
P\{X=x_i,Y=y_j\} &=p_{ij},\ i,j=1,2,\dots\\
p_{ij} &\ge 0\\
\sum\limits_{i=1}^{+\infty}\sum\limits_{j=1}^{+\infty}p_{ij} &=1
\end{aligned}

边缘分布律

\begin{aligned}
P\{X=x_i\} &=\sum\limits_{j=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{j=1}^{+\infty}p_{ij}=p_{i\cdot},\ i=1,2,\dots\\
P\{Y=y_j\} &=\sum\limits_{i=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{i=1}^{+\infty}p_{ij}=p_{\cdot j},\ j=1,2,\dots
\end{aligned}

条件分布律

  • 对于给定的j,若P\{Y=y_j\}>0\ (j=1,2,\cdots),则称
    \begin{aligned}
    P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{p_{ij}}{p_{\cdot j}},\ i=1,2,\dots
    \end{aligned}

    为在Y=y_j的条件下随机变量X的条件概率分布。

  • 对于给定的i,若P\{X=x_i\}>0\ (i=1,2,\cdots),则称
    \begin{aligned}
    P\{Y=y_j|X=x_i\}=\frac{P\{X=x_i,Y=y_j\}}{P\{X=x_i\}}=\frac{p_{ij}}{p_{i\cdot}},\ j=1,2,\dots
    \end{aligned}

    为在X=x_i的条件下随机变量Y的条件概率分布。

3.3 二维连续型随机变量

设二维随机变量(X,Y)的联合分布函数为F(x,y),若存在非负可积的二元函数f(x,y),使得对任意实数x,y,有

\begin{aligned}
F(x,y)=\int_{-\infty}^x\int_{-\infty}^y f(u,v)\text{d}u\text{d}v
\end{aligned}

则称(X,Y)二维连续型随机变量,称函数f(x,y)为二维随机变量(X,Y)的概率密度函数或联合密度函数

性质:

  1. f(x,y)≥0,\ x,y\in \mathbb{R}
  2. \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)\text{d}x\text{d}y=1
  3. D为平面xOy上任一区域,则点(x,y)落在D内的概率为
    \begin{aligned}
    P\{(X,Y)\in D\}=\iint\limits_{D}f(x,y)\text{d}\sigma
    \end{aligned}
  4. f(x,y)在点(x,y)处连续,则有f(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}

边缘密度函数

\begin{aligned}
f_X(x) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}y\\
f_Y(y) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}x
\end{aligned}

条件密度函数

  • f_Y(y)>0时,称
    \begin{aligned}
    f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
    \end{aligned}

    为在条件Y=yX的条件密度函数。

  • f_X(x)>0时,称
    \begin{aligned}
    f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}
    \end{aligned}

    为在条件X=xY的条件密度函数。

3.4 常见的二维连续型分布

3.4.1 二维均匀分布

G为平面上有界可求面积的区域,其面积为|G|,若二维随机变量具有密度函数

\begin{aligned}
f(x,y)=\begin{cases}
 \frac{1}{|G|}, & (x,y)\in G \\
 0, & (x,y) \notin G
\end{cases}
\end{aligned}

则称(X,Y)在区域G上服从二维均匀分布

性质:若(X,Y)在各平行于坐标轴的矩形区域D=\{(x,y)|a≤x≤b,c≤y≤d\}上服从二维均匀分布,则其两个分量X,Y是独立的,且分别服从区间[a,b],[c,d]上的一维均匀分布。

3.4.2 二维正态分布

若二维连续型随机变量(X,Y)的概率密度为

\begin{aligned}
f(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}\exp\{ \frac{-1}{2(1-\rho^2)} [\frac{(x-\mu_1)^2}{\sigma_1^2} - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} ]\},\  x,y\in \mathbb{R}
\end{aligned}

其中\mu_1,\mu_2,\sigma_1>0,\ -1<\rho<1均为常数,则称(X,Y)服从参数为\mu_1,\mu_2,\sigma_1,\sigma_2,\rho二维正态分布,记为(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)

性质:

  1. X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)
  2. XY独立的充分必要条件为\rho=0
  3. XY的非零线性组合服从一维正态分布,且
    • XY不独立时
      \begin{aligned}
      k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2+2k_1k_2\rho\sigma_1\sigma_2)
      \end{aligned}
    • XY独立时
      \begin{aligned}
      k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2)
      \end{aligned}
  4. (X_1,X_2)服从二维正态分布,且行列式\begin{vmatrix} a & b\\ c &d \end{vmatrix}≠0,则(aX_1+bX_2,cX_1+dX_2)也服从二维正态分布。

3.5 二维随机变量的独立性

定义:

  1. 若对于任意实数x,y,有F(x,y)=F_X(x)F_Y(y),则称XY相互独立。
  2. 若对于任意i,j=1,2,\dots,有P\{X=x_i,Y=y_j\}=P\{X=x_i\}P\{Y=y_j\},则称二维离散型随机变量XY相互独立。
  3. 若对于任意实数x,y,有f(x,y)=f_X(x)f_Y(y),则称二维连续型随机变量XY相互独立。

性质:

  1. XY相互独立,f(x)g(x)为连续函数,则f(X)g(Y)也相互独立。
  2. X_1,X_2,\cdots,X_n,Y_1,Y_2,\cdots,Y_m相互独立,f(\cdot)n元连续函数,g(\cdot)m元连续函数,则f(X_1,X_2,\cdots,X_n)g(Y_1,Y_2,\cdots,Y_m)也相互独立。

3.6 二维随机变量函数的概率分布

离散型

已知(X,Y)的概率分布为

\begin{aligned}
P\{X=x_i,Y=y_j\}=p_{ij},\ i,j=1,2,\dots
\end{aligned}

Z=g(X,Y)的分布律为

\begin{aligned}
P\{Z=z_k\} &=P\{g(X,Y)=z_k\}\\
&=\sum\limits_{g(x_i,y_j)=z_k}P\{X=x_i,Y=y_j\}
\end{aligned}

连续型

一般方法:分布函数法

设二维连续型随机变量(X,Y)的概率密度函数为f(x,y),则随机变量Z=g(X,Y)的分布函数和概率密度函数为

\begin{aligned}
F_Z(z)&=P\{Z≤z\}=P\{g(X,Y)≤z\}\\
&=\iint\limits_{g(x,y)≤z}f(x,y)\text{d}x\text{d}y\\
f_Z(z)&=F_Z'(z)
\end{aligned}
公式法:卷积公式

设二维连续型随机变量(X,Y)的概率密度为f(x,y),则随机变量Z=X+Y的密度函数为

\begin{aligned}
f_Z(z)&=\int_{-\infty}^{+\infty}f(x,z-x)\text{d}x\\
&=\int_{-\infty}^{+\infty}f(z-y,y)\text{d}y
\end{aligned}

XY独立,则Z=X+Y的密度函数公式称为卷积公式,即

\begin{aligned}
f_X * f_Y &=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)\text{d}x\\
& =\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)\text{d}y
\end{aligned}

4 随机变量的数字特征

4.1 期望

一维随机变量的期望:

  • 离散型:设随机变量X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots),若级数\sum\limits_{i=1}^{\infty}x_ip_i绝对收敛,则
    \begin{aligned}
    EX=\sum\limits_{i=1}^{\infty}x_ip_i
    \end{aligned}
  • 连续型:设连续型随机变量X的概率密度为f(x),若积分\int_{-\infty}^{+\infty}xf(x)\text{d}x绝对收敛,则
    \begin{aligned}
    EX=\int_{-\infty}^{+\infty}xf(x)\text{d}x
    \end{aligned}
  • 随机变量函数:设X为随机变量,g(x)为连续实函数,令Y=g(X)
    • 离散型:若X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots),则
      \begin{aligned}
      EY=E[g(X)]=\sum\limits_{i=1}^{\infty}g(x_i)p_i
      \end{aligned}
    • 连续型:若X的密度函数为f_X(x),则
      \begin{aligned}
      EY=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f_X(x)\text{d}x
      \end{aligned}

二维随机变量的期望:

  • 离散型:设(X,Y)的概率分布为P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots),则
    \begin{aligned}
    EX &=\sum\limits_{i}x_ip_{i\cdot}=\sum\limits_{i}\sum\limits_{j}x_ip_{ij}\\
    EY &=\sum\limits_{j}y_jp_{\cdot j}=\sum\limits_{i}\sum\limits_{j}y_ip_{ij}
    \end{aligned}
  • 连续型:设(X,Y)的联合概率密度为\phi(x,y),则
    \begin{aligned}
    EX &=\int_{-\infty}^{+\infty}xf_X(x)\text{d}x=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)\text{d}x\text{d}y\\
    EY &=\int_{-\infty}^{+\infty}yf_Y(y)\text{d}y=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)\text{d}x\text{d}y
    \end{aligned}
  • 随机变量函数:设(X,Y)为二维随机变量,g(x,y)为二元连续实函数,令Z=g(X,Y)
    • 离散型:若(X,Y)的联合分布律为P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots),则
      \begin{aligned}
      EZ=E[g(X,Y)]=\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}g(x_i,y_j)p_{ij}
      \end{aligned}
    • 连续型:若(X,Y)的联合密度函数为f(x,y),则
      \begin{aligned}
      EZ=E[g(X,Y)]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)\text{d}x\text{d}y
      \end{aligned}

期望的性质:

  1. E(C)=CE(EX)=EX
  2. E(CX)=CEX
  3. E(k_1X\pm k_2Y)=k_1EX\pm k_2EY
  4. XY相互独立,则有E(XY)=EXEY

4.2 方差

X是为随机变量,若E(X-EX)^2存在,则称

\begin{aligned}
DX=E(X-EX)^2
\end{aligned}

X方差(或记为\text{Var}(X)),称\sqrt{DX}标准差均方差

常用公式(解题时常据此计算EX^2=DX+(EX)^2):

\begin{aligned}
DX=EX^2-(EX)^2
\end{aligned}

性质:

  1. D(C)=0D(EX)=0D(DX)=0
  2. D(CX)=C^2DX
  3. D(C_1X+C_2)=C_1^2DX
  4. D(X\pm Y)=DX+DY \pm 2\text{cov}(X,Y)
  5. X,Y相互独立,则D(X\pm Y)=DX+DY

标准化变量:设随机变量X具有数学期望EX=\mu、方差DX=\sigma^2≠0,则X的标准化变量为

\begin{aligned}
X^*=\frac{X-\mu}{\sigma}
\end{aligned}

显然,EX^*=0DX^*=1,且X^*无量纲。

4.3 协方差

定义

\begin{aligned}
\text{cov}(X,Y)=E[(X-EX)(Y-EY)]
\end{aligned}

常用公式:

\begin{aligned}
\text{cov}(X,Y)=EXY-EXEY
\end{aligned}

性质:

  1. \text{cov}(X,Y)=\text{cov}(Y,X)
  2. \text{cov}(X,X)=DX
  3. \text{cov}(aX,bY)=ab\text{cov}(X,Y)
  4. \text{cov}(X,C)=0
  5. \text{cov}(k_1X_1\pm k_2X_2,Y)=k_1\text{cov}(X_1,Y)\pm k_2\text{cov}(X_2,Y)
  6. XY相互独立,则\text{cov}(X,Y)=0

4.4 相关系数

定义:

\begin{aligned}
\rho_{XY}=\frac{\text{cov}(X,Y)}{\sqrt{DX}\sqrt{DY}}
\end{aligned}

性质:

  1. |\rho_{XY}|≤1
  2. |\rho_{XY}|=1\Leftrightarrow P\{Y=aX+b \}=1,\ a≠0,且当a>0时,\rho_{XY}=1;当a<0时,\rho_{XY}=-1

不相关的等价说法:

\begin{aligned}
\rho_{XY}=0 &\Leftrightarrow \text{cov}(X,Y)=0\\
 &\Leftrightarrow EXY=EXEY\\
 &\Leftrightarrow D(X\pm Y)=DX+DY
\end{aligned}

不相关与独立的关系:

  1. X,Y相互独立 \Rightarrow XY不相关,反之不成立
  2. (X,Y)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho),则XY独立 \Leftrightarrow XY不相关

4.5 其他数字特征

X,Y为随机变量,则——

k阶(原点)矩:若EX^k,\ k=1,2,\cdots存在,则称它为Xk阶(原点)矩

k阶中心矩:若E[(X-EX)^k],\ k=1,2,\cdots存在,则称它为Xk阶中心矩

k+l阶混合(原点)矩:若E(X^kY^l),\ k,l=1,2,\cdots存在,则称它为X,Yk+l阶混合(原点)矩

k+l混合中心矩:若E[(X-EX)^k(Y-EY)^l],\ k,l=1,2,\cdots存在,则称它为X,Yk+l阶混合中心矩

切比雪夫不等式:设随机变量X的期望EX、方差DX都存在,则对任意\epsilon>0均有

\begin{aligned}
P\{|X-EX|≥\epsilon\}&≤\frac{DX}{\epsilon^2}\\
P\{|X-EX|\lt \epsilon\}&≥1-\frac{DX}{\epsilon^2}
\end{aligned}

5 大数定律与中心极限定理

依概率收敛:对于随机变量序列X_1,X_2,\dots,X_n,\dots和常数a,如果对于任意给定的正数\epsilon,有

\begin{aligned}
\lim\limits_{n\rightarrow \infty} P \left \{\left|X_n-a\right|<\epsilon \right \}=1
\end{aligned}

则称随机变量序列X_1,X_2,\cdots,X_n,\cdots依概率收敛于a,记作X_n \xrightarrow{P}a

5.1 切比雪夫大数定律

设随机变量X_1,X_2,\dots,X_n,\dots相互独立,数学期望EX_i和方差DX_i均存在,且方差DX_i有公共上界,即存在常数C,使DX_i≤C\ (i=1,2,\dots),则对于任意给定的正数\epsilon,总有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{1}{n}\sum\limits_{i=1}^nX_i-\frac{1}{n}\sum\limits_{i=1}^nEX_i\right|<\epsilon\right \}=1
\end{aligned}

上式表明:当n很大时,相互独立方差有公共上界的随机变量的平均值\frac{1}{n}\sum\limits_{i=1}^nX_i依概率收敛于其数学期望\frac{1}{n}\sum\limits_{i=1}^nEX_i

5.2 伯努利大数定律

n_An次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意正数\epsilon,有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{n_A}{n}-p\right|<\epsilon\right \}=1
\end{aligned}

上式表明:当n很大时,随机事件A发生的频率\frac{n_A}{n}依概率收敛于事件A的概率p,因此在试验次数充分大时,可以用频率来近似代替概率。

5.3 辛钦大数定律

设随机变量X_1,X_2,\dots,X_n,\dots相互独立,服从相同的分布,具有数学期望EX_i=\mu\ (i=1,2,\dots),则对于任意给定的正数\epsilon,总有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\frac1n \sum\limits_{i=1}^nX_i-\mu\right|<\epsilon \right\}=1
\end{aligned}

上式表明:当n很大时,独立同分布的随机变量的平均值\frac1n\sum\limits_{i=1}^nX_i依概率收敛于其数学期望\mu

5.4 列维-林德伯格中心极限定理

设随机变量X_1,X_2,\dots,X_n,\dots相互独立,服从相同的分布,具有数学期望EX_i=\mu和方差DX_i=\sigma^2>0\ (i=1,2,\dots),则对于任意实数x,有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\frac{\sum\limits_{i=1}^n X_i-n\mu}{\sqrt n \sigma}≤x \right\}=\Phi(x)
\end{aligned}

上式表明:在定理条件下,当n充分大时,\sum\limits_{i=1}^nX_i以正态分布为极限分布。

5.5 棣莫弗-拉普拉斯中心极限定理

设随机变量X_n服从参数为n,p\ (0\lt p\lt 1,\ n=1,2,\cdots)的二项分布,即X_n\sim B(n,p),则对于任意实数x,有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\frac{X_n-np}{\sqrt{np(1-p)}}≤x\right\}=\Phi(x)
\end{aligned}

上式表明:当重复实验次数足够多时,二项分布以正态分布极限分布。


6 数理统计

6.1 重要统计量

样本均值

\begin{aligned}
\overline X=\frac1n \sum\limits_{i=1}^nX_i,\text{ 观测值 }\overline x=\frac1n \sum\limits_{i=1}^n x_i
\end{aligned}
\begin{aligned}
E\overline X &=\mu\\
D\overline X &=\frac{\sigma^2}{n}
\end{aligned}

样本方差

\begin{aligned}
S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2,\text{ 观测值 }s^2=\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2
\end{aligned}
\begin{aligned}
ES^2=\sigma^2
\end{aligned}

样本标准差

\begin{aligned}
S=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2},\text{ 观测值 }s=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2}
\end{aligned}

样本k阶原点矩

\begin{aligned}
A_k=\frac1n \sum\limits_{i=1}^n X_i^k,\text{ 观测值 }a_k=\frac1n \sum\limits_{i=1}^n x_i^k,\ k=1,2,\dots
\end{aligned}

若总体的Xk阶原点矩EX^k=\mu_k\ (k=1,2,\dots)存在,则当n\rightarrow \infty时,有

\begin{aligned}
A_k=\frac1n \sum\limits_{i=1}^n X_i^k \xrightarrow{P}EX^k,\ k=1,2,\dots
\end{aligned}

样本k阶中心矩

\begin{aligned}
B_k=\frac1n\sum\limits_{i=1}^n(X_i-\overline X)^k,\text{ 观测值 }b_k=\frac1n\sum\limits_{i=1}^n(x_i-\overline x)^k,\ k=2,3,\dots
\end{aligned}

顺序统计量:设总体X的分布函数为F(x)X_1,X_2,\dots,X_n是来自总体X的样本,则统计量X_{(n)}=\max(X_1,X_2,\dots,X_n)X_{(1)}=\min(X_1,X_2,\dots,X_n)的分布函数分别为

\begin{aligned}
F_{X_{(n)}}(x) &=P\{\max(X_1,X_2,\dots,X_n)≤x\}=[F(x)]^n\\
F_{X_{(1)}}(x) &=P\{\min(X_1,X_2,\dots,X_n)≤x\}=[1-F(x)]^n
\end{aligned}

6.2 三大分布

6.2.1 卡方分布

设随机变量X_1,X_2,\dots,X_n相互独立,且均服从标准正态分布N(0,1),则随机变量

\begin{aligned}
\chi^2=X_1^2+X_2^2+\cdots+X_n^2
\end{aligned}

服从自由度为n\chi^2分布卡方分布,Chi-square Distribution),记作\chi^2\sim \chi^2(n)

性质:设X\sim \chi^2(n_1),Y\sim \chi^2(n_2),且X,Y相互独立,则X+Y\sim \chi^2(n_1+n_2)

数字特征:

E\chi^2=n,\ D\chi^2=2n

上α分位点:设\chi^2\sim \chi^2(n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{\chi^2\gt \chi_{\alpha}^2(n)\}=\alpha的点\chi_{\alpha}^2(n)\chi^2(n)的上\alpha分位点。

6.2.2 t分布

设随机变量X\sim N(0,1),Y\sim \chi^2(n),且X,Y相互独立,则随机变量

\begin{aligned}
t=\frac{X}{\sqrt{Y/n}}
\end{aligned}

服从自由度为nt分布,记作t\sim t(n)

性质:t分布的概率密度f(x)是偶函数,且有\lim\limits_{n\rightarrow \infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},即当n充分大时,t(n)分布近似于N(0,1)分布。

上α分位点:设t\sim t(n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{t\gt t_{\alpha}(n)\}=\alpha的点t_{\alpha}(n)t(n)的上\alpha分位点。

6.2.3 F分布

设随机变量X\sim \chi^2(m),Y\sim \chi^2(n),且X,Y相互独立,则随机变量

\begin{aligned}
F=\frac{X/m}{Y/n}
\end{aligned}

服从自由度为(m,n)F分布,记为F\sim F(m,n)

性质:若F\sim F(m,n),则\frac1F \sim F(n,m)

上α分位点:设F\sim F(m,n),对于任意给定的\alpha\ (0\lt \alpha \lt 1),称满足条件P\{F\gt F_{\alpha}(m,n)\}=\alpha的点F_{\alpha}(m,n)F(m,n)的上\alpha分位点。

6.3 抽样分布

一个正态总体的抽样分布:设X_1,X_2,\cdots,X_n是来自正态总体X\sim N(\mu,\sigma^2)的样本,样本均值为\overline X,样本方差为S^2,则有

  1. \overline X\sim N(\mu,\frac{\sigma^2}{n}),\frac{\overline X-\mu}{\sigma / \sqrt n}\sim N(0,1)
  2. \overline XS^2相互独立,且\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)
  3. \frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)
  4. \frac1{\sigma^2}\sum\limits_{i=1}^n(X_i-\mu)^2\sim \chi^2(n)

两个正态总体的抽样分布:设X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)X_1,X_2,\cdots,X_{n_1}Y_1,Y_2,\cdots,Y_{n_2}分别来自总体XY的样本,且两个样本相互独立,则有

  1. \frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)
  2. \sigma_1^2=1\sigma_2^2,则\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim t(n_1+n_2-2),其中S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}
  3. \frac{\frac1{\sigma_1^2} \sum\limits_{i=1}^{n_1}(X_i-\mu_1)^2/n_1}{\frac1{\sigma_2^2} \sum\limits_{j=1}^{n_1}(Y_j-\mu_2)^2/n_2}\sim F(n_1,n_2)
  4. \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

6.4 矩估计

原理:样本的k阶原点矩依概率收敛于总体的k阶原点矩。

步骤:假设有k个待估参数\theta_1,\theta_2,\cdots,\theta_k,则

  1. 求出总体的k阶原点矩\mu_k=EX^k\ (k=1,2,\cdots)
  2. 令样本的k阶原点矩A_k=\frac1n \sum\limits_{i=1}^nX_i^k等于总体的k阶原点矩,即令
    \begin{aligned}
    EX^k=\frac1n \sum\limits_{i=1}^n X_i^k,\ k=1,2,\dots
    \end{aligned}
  3. 解该方程组,得\theta_i的矩估计量为\hat \theta_i(X_1,X_2,\dots,X_n),则\theta_i的矩估计值为\hat \theta_i(x_1,x_2,\dots,x_n)

注:当待估参数为1个时,通常令EX=\frac1n \sum\limits_{i=1}^n X_i,即可解得\theta的矩估计量与相应的矩估计值。

6.5 最大似然估计法

似然函数最大似然估计

  • 离散型随机变量:设总体X的分布律为P\{X=a_i\}=p(a_i;\theta),\ i=1,2,\dotsX_1,X_2,\dots,X_n为取自X的样本,则X_1,X_2,\dots,X_n的联合分布律的似然函数为
    \begin{aligned}
    L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^np(x_i;\theta),\ x_i \in \{a_1,a_2,\dots\}
    \end{aligned}

    待估参数\theta的最大似然估计为L(x_1,x_2,\dots,x_n;\theta)关于\theta的最大值点\hat \theta

  • 连续型随机变量:设总体X的密度函数为f(x;\theta)X_1,X_2,\dots,X_n为取自X的样本,则似然函数为
    \begin{aligned}
    L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta)
    \end{aligned}

    待估参数\theta的最大似然估计为L(x_1,x_2,\dots,x_n;\theta)关于\theta的最大值点\hat \theta

注:上述两种中的\theta可为多个待估参数(\theta_1,\theta_2,\cdots,\theta_k)

最大似然估计的求解步骤:假设有k个待估参数(\theta_1,\theta_2,\dots,\theta_k)

  1. 写出似然函数
    • 离散型:
      \begin{aligned}
      L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^np(x_i;\theta_1,\theta_2,\cdots,\theta_k)
      \end{aligned}
    • 连续型
      \begin{aligned}
      L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2,\cdots,\theta_k)
      \end{aligned}
  2. 取对数\ln L
  3. \ln L\theta_1,\theta_2,\dots,\theta_k可微,求偏导数\frac{\partial \ln L}{\partial \theta_i},\ i=1,2,\dots,k;判断方程组\frac{\partial \ln L}{\partial \theta_i}=0是否有解。若有解则其解即为所求最大似然估计;若无解则要概率极大似然估计的意义(使似然函数取得最大值),此时,估计值常在\theta_i的边界点上达到。

注:对于只有一个未知参数只需将步骤(3)中求偏导变为一元函数求导即可

6.6 估计量的评选标准

无偏性:若\theta的估计量\hat \theta(X_1,X_2,\dots,X_n)的数学期望E\hat \theta存在,且E\hat \theta=\theta,则称\hat \theta(X_1,X_2,\dots,X_n)为未知参数\theta无偏估计量

有效性\hat \theta_1(X_1,X_2,\dots,X_n)\hat \theta_1(X_1,X_2,\dots,X_n)都是未知参数\theta的无偏估计量,若D\hat\theta_1≤D\hat\theta_2,且至少对于某一个\theta\in \Theta不等号成立,则称\hat \theta_1(X_1,X_2,\dots,X_n)\hat \theta_1(X_1,X_2,\dots,X_n)更有效。

一致性(相合性):若对任意\epsilon>0,有

\begin{aligned}
\lim\limits_{n\rightarrow \infty}P\left\{\left|\hat\theta-\theta\right|\lt\epsilon\right\}=1
\end{aligned}

则称\hat \theta\theta一致估计量

6.7 区间估计、假设检验…

【WIP】

《概率论与数理统计常用公式大全》有6条评论

  1. Pingback: 机器学习强化笔记 – Hyperplasma
  2. Pingback: 概率论与数理统计习题集 – Hyperplasma
  3. Pingback: 时序预测评价指标 – Hyperplasma
  4. Pingback: 高等数学(数二强化冲刺笔记) – Hyperplasma
  5. Pingback: 线性代数(数二强化冲刺笔记) – Hyperplasma
  6. Pingback: [Oldge] 数学模型与方法(概统) – Hyperplasma

发表评论