概率论与数理统计常用公式大全（基础篇），适合初学者速查速记。注意符号使用与其他教程或有区别。持续更新。

配套习题：概率论与数理统计习题集

后续学习：时序预测评价指标简介

数学基础系列文章：

高等数学（数二强化冲刺笔记）

线性代数（数二强化冲刺笔记）

概率论与数理统计

参考讲义：

【PDF Expert】张宇基础30讲概率论与数理统计分册
【Zotero】《概率论与数理统计》（第四版，浙江大学）

习题：

课程：

【网盘群】2024考研友资料38群 - 张宇基础30讲 - 概率6讲

Hyplus目录

1 随机事件与概率

1.1 事件的运算律

交换律：

 $\begin{aligned} A\cup B &=B\cup A\\ A\cap B &=B\cap A \end{aligned}$

结合律：

 $\begin{aligned} A\cup(B\cup C) &=(A\cup B)\cup C\\ A\cap(B\cap C) &=(A\cap B)\cap C \end{aligned}$

分配律：

 $\begin{aligned} A\cup(B\cap C) &=(A\cup B)\cap(A\cup C)\\ A\cap(B\cup C) &=(A\cap B)\cup(A\cap C) \end{aligned}$

德摩根律（对偶律）：

 $\begin{aligned} \overline{A\cup B} &=\overline A \cap \overline B\\ \overline{A\cap B} &=\overline A \cup \overline B \end{aligned}$

1.2 概率的五大计算公式

加法公式：

 $\begin{aligned} P(A\cup B) &=P(A)+P(B)-P(AB)\\ P(A\cup B\cup C) &=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC) \end{aligned}$

减法公式：

 $\begin{aligned} P(B-A)=P(B)-P(AB) \end{aligned}$

乘法公式：

 $\begin{aligned} \text{if }\ P(A)>0\ &\text{ then }\ P(AB)=P(B|A)P(A)\\ \text{if }\ P(B)>0\ &\text{ then }\ P(AB)=P(A|B)P(B) \\ \text{if }\ P(AB)>0\ &\text{ then }\ P(ABC)=P(C|AB)P(B|A)P(A)=P(C|AB)P(A|B)P(B) \end{aligned}$

全概率公式：

 $\begin{aligned} P(A)=\sum\limits_{i=1}^nP(A|B_i)P(B_i)\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega \end{aligned}$

贝叶斯公式：

 $\begin{aligned} P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum\limits_{i=1}^nP(A|B_i)P(B_i)}\ \text{ where }\ B_iB_j=\empty\ (i≠j),\ \bigcup\limits_{i=1}^nB_i=\Omega \end{aligned}$

注：上述公式中事件 $B_i$ 的个数可以是可列个

1.3 事件的独立性

独立的基本定义：

 $\begin{aligned} A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\ A与B独立 &\Leftrightarrow P(AB)=P(A)P(B)\\ A,B,C两两独立 &\Leftrightarrow \left\{\begin{aligned} P(AB)&=P(A)P(B) \\ P(BC)&=P(B)P(C) \\ P(AC)&=P(A)P(C) \end{aligned}\right.\\ A,B,C相互独立 &\Leftrightarrow \left\{\begin{aligned} P(AB)&=P(A)P(B) \\ P(BC)&=P(B)P(C) \\ P(AC)&=P(A)P(C) \\ P(ABC)&=P(A)P(B)P(C) \end{aligned}\right.\\ \end{aligned}$

独立的性质与结论：

若事件 $A,B$ 相互独立，则 $A$ 与 $\overline B$ 、 $\overline A$ 与 $B$ 、 $\overline A$ 与 $\overline B$ 也相互独立。
独立的等价说法：若 $0\lt P(A) \lt 1$ ，则

 $\begin{aligned} A与B独立&\Leftrightarrow P(AB)=P(A)P(B) \\ & \Leftrightarrow P(B)=P(B|A) \\ & \Leftrightarrow P(B)=P(B|\overline A)\\ &\Leftrightarrow P(B|A)=P(B|\overline A) \\ \end{aligned}$

若 $A_1,A_2,\dots,A_m,B_1,B_2,\dots,B_n$ 相互独立，则 $f(A_1,A_2,\dots,A_m)$ 与 $g(B_1,B_2,\dots,B_n)$ 也相互独立，其中 $f(\cdot),g(\cdot)$ 分别表示对相应事件作任意事件运算。
若 $P(A)=0$ 或 $P(A)=1$ ，则 $A$ 与任何事件 $B$ 都相互独立。

独立、互斥、互逆的关系：

$A$ 与 $B$ 互斥 $\Rightarrow$ $A$ 与 $B$ 互斥，但反之不一定成立
$A$ 与 $B$ 互斥（或互逆）且均为非零概率事件 $\Rightarrow$ $A$ 与 $B$ 不独立
$A$ 与 $B$ 相互独立且均为非零概率事件 $\Rightarrow$ $A$ 与 $B$ 不互斥

注：一般情况下，独立和互斥无关，独立推不出互斥，互斥也推不出独立

2 一维随机变量及其分布

离散型 - 分布律
连续型 - 密度函数

2.1 分布函数

设 $X$ 为随机变量， $x$ 为任意实数，称函数

 $\begin{aligned} F(x)=P\{X≤x\},\ x\in \mathbb{R} \end{aligned}$

为随机变量 $X$ 的分布函数，或称 $X$ 服从 $F(x)$ 分布，记为 $X\sim F(x)$ 。

性质：

非负性： $0\leqF(x)\leq1$
规范性： $F(-\infty)=0,F(+\infty)=1$
单调不减性： $\forall x_1\lt x_2,F(x_1)≤F(x_2)$
右连续性： $F(x_0+0)=F(x_0)$

应用——求概率：

$P\{X≤a\}=F(a)$
$P\{X\lt a\}=F(a-0)$
$P\{X=a\}=F(a)-F(a-0)$

2.2 密度函数

对于连续型随机变量 $X$ ，其分布函数可表示为

 $\begin{aligned} F(x)=\int_{-\infty}^{x}f(t)\text{d}t,\ x\in \mathbb{R} \end{aligned}$

其中 $f(x)$ 非负可积，称 $f(x)$ 为 $X$ 的概率密度函数，记为 $X\sim f(x)$ 。

性质：

非负性： $f(x)≥0,\ -\infty\lt x\lt +\infty$
规范性： $\int_{-\infty}^{+\infty}f(x)\text{d}x=1$
对于任意实数 $a\lt b$ ， $P\{a\lt X≤b\}=\int_{a}^bf(x)\text{d}x$
对于连续型随机变量 $X$ ， $P\{X=x\}=0,\forall x \in \mathbb{R}$
连续型随机变量的分布函数 $F(x)$ 是连续函数
在 $f(x)$ 的连续点处，有 $F'(x)=f(x)$

2.3 常见的离散型分布

2.3.1 0-1分布

$X\sim B(1,p)$

 $\begin{aligned} P\{X=k\}=p^k(1-p)^{1-k},\ k=0,1 \end{aligned}$

 $\begin{aligned} EX &=p\\ DX &=p(1-p) \end{aligned}$

2.3.2 二项分布

$X\sim B(n,p)$

 $\begin{aligned} P\{X=k\}=\text{C}_n^kp^k(1-p)^{n-k},\ k=0,1,\dots,n \end{aligned}$

 $\begin{aligned} EX&=np\\ DX&=np(1-p) \end{aligned}$

2.3.3 泊松分布

$X\sim P(\lambda),\ \lambda>0$

 $\begin{aligned} P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},\ k=0,1,2,\dots \end{aligned}$

 $\begin{aligned} EX=DX=\lambda \end{aligned}$

2.3.4 几何分布

$X\sim G(p)$

 $\begin{aligned} P\{X=k\}=p(1-p)^{k-1},\ 0\lt p \lt 1,\ k=1,2,\dots \end{aligned}$

 $\begin{aligned} EX&=\frac1p\\ DX&=\frac{1-p}{p^2} \end{aligned}$

2.3.5 超几何分布

$X\sim H(N,M,n)$

 $\begin{aligned} P\{X=k\}=\frac{\text{C}_M^k\text{C}_{N-M}^{n-k}}{\text{C}_{N}^n},\ k=0,1,\dots,\min\{n,M\} \end{aligned}$

2.4 常见的连续型分布

2.4.1 均匀分布

$X\sim U(a,b)$

 $\begin{aligned} f(x) &=\begin{cases} \frac{1}{b-a}, &a\lt x\lt b \\ 0, & \text{otherwise} \end{cases}\\ F(x) &=\begin{cases} 0, & x\le a\\ \frac{x-a}{b-a}, &a\lt x\lt b \\ 1, & x≥b \end{cases} \end{aligned}$

 $\begin{aligned} EX&=\frac{a+b}2\\ DX&=\frac{(b-a)^2}{12} \end{aligned}$

2.4.2 指数分布

$X\sim E(\lambda),\ \lambda\gt 0$

 $\begin{aligned} f(x) &=\begin{cases} \lambda \text{e}^{-\lambda x}, & x\gt 0 \\ 0, & \text{otherwise} \end{cases}\\ F(x) &=\begin{cases} 1-\text{e}^{-\lambda x}, & x\ge 0 \\ 0, & x\lt 0 \end{cases} \end{aligned}$

 $\begin{aligned} EX &=\frac{1}{\lambda}\\ DX &=\frac{1}{\lambda^2} \end{aligned}$

2.4.3 正态分布

一般正态分布： $X\sim N(\mu,\sigma^2)\ (-\infty \lt x \lt +\infty,\ \sigma \gt 0)$

 $\begin{aligned} f(x) &=\frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ F(x) &=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}\text{e}^{-\frac{(t-\mu)^2}{2\sigma^2}}\text{d}t \end{aligned}$

 $\begin{aligned} EX&=\mu\\ DX&=\sigma^2 \end{aligned}$

标准正态分布： $X\sim N(0,1)\ (-\infty \lt x \lt +\infty)$

 $\begin{aligned} \phi(x) &=\frac1{\sqrt{2\pi}}\text{e}^{-\frac{x^2}2}\\ \Phi(x) &=\frac1{\sqrt{2\pi}}\int_{-\infty}^x\text{e}^{-\frac{t^2}{2}}\text{d}t \end{aligned}$

性质：

$\Phi(-x)=1-\Phi(x)$
$\Phi(0)=\frac12$
$P\{|X|≤a\}=2\Phi(a)-1$

上α分位点：设 $X\sim N(0,1)$ ，对于给定的 $\alpha\ (0\lt \alpha\lt 1)$ ，若 $u_\alpha$ 满足条件 $P\{X>u_\alpha\}=\alpha$ ，则称 $u_\alpha$ 为标准正态分布的上 $\alpha$ 分位点。

标准正态分布与一般正态分布的关系：正态分布 $X\sim N(\mu,\sigma^2)$ 通过线性变换 $Z=\frac{X-\mu}{\sigma}$ 变为标准正态分布，即进行标准化变量。

2.5 一维随机变量函数的分布

离散型→离散型

设离散型随机变量 $X$ 的概率分布为 $P\{X=x_i\}=p_i\ (i=1,2,\cdots)$ ，则 $X$ 的函数 $Y=g(X)$ 也是离散型随机变量，其概率分布为 $P\{Y=g(x_i)\}=p_i\ (i=1,2,\cdots)$ ，即

 $\begin{aligned} Y\sim \begin{bmatrix} g(x_1) & g(x_2) &\cdots \\ p_1 & p_2 & \cdots \end{bmatrix} \end{aligned}$

若有若干个 $g(x_i)$ 值相同，则合并诸项为一项 $g(x_k)$ ，并将相应概率相加作为 $Y$ 取 $g(x_k)$ 值的概率。

连续型→连续型（混合型）

设连续型随机变量 $X$ 的分布函数、概率密度分别为 $F_X(x),f_X(x)$ ，随机变量 $Y=g(X)$ 为 $X$ 的函数，则其分布函数和概率密度可用分布函数法求得：

 $\begin{aligned} F_Y(y) &=P\{Y≤y\}\\ &=P\{g(X)≤y\}\\ &=\int_{g(x)≤y}f_X(x)\text{d}x \end{aligned}$

若 $F_Y(y)$ 连续，且除有限个点外， $F'_Y(y)$ 存在且连续，则 $Y$ 的概率密度 $f_Y(y)=F'_Y(y)$ 。

3 多维随机变量及其分布

3.1 联合分布函数

设 $X,Y$ 为二维随机变量， $x,y$ 为任意实数，称函数

 $\begin{aligned} F(x,y)=P\{X≤x,Y≤y\},\ x,y \in \mathbb{R} \end{aligned}$

为二维随机变量 $(X,Y)$ 的联合分布函数，它表示随机事件 $\{X≤x\}$ 与 $\{Y≤y\}$ 同时发生的概率。

性质：

非负性：对于任意实数 $x,y \in \mathbb{R}$ ， $0\leqF(x,y)\leq1$

规范性：

 $\begin{aligned} F(-\infty,y) &=\lim\limits_{x\rightarrow -\infty} F(x,y)=0\\ F(x,-\infty) &=\lim\limits_{y\rightarrow -\infty}F(x,y)=0\\ F(-\infty,-\infty) &=\lim\limits_{x,y\rightarrow -\infty}F(x,y)=0\\ F(+\infty,+\infty)&=\lim\limits_{x,y\rightarrow +\infty}F(x,y)=1 \end{aligned}$

单调不减性： $F(x,y)$ 分别关于 $x$ 和 $y$ 单调不减
右连续性： $F(x,y)$ 分别关于 $x$ 和 $y$ 具有右连续，即 $F(x,y)=F(x+0,y)=F(x,y+0),\ x,y\in \mathbb{R}$

3.2 二维离散型随机变量

若二维随机变量 $(X,Y)$ 可能的取值为有限对或可列无穷多对实数，则称 $(X,Y)$ 为二维离散型随机变量。

联合分布律：

 $\begin{aligned} P\{X=x_i,Y=y_j\} &=p_{ij},\ i,j=1,2,\dots\\ p_{ij} &\ge 0\\ \sum\limits_{i=1}^{+\infty}\sum\limits_{j=1}^{+\infty}p_{ij} &=1 \end{aligned}$

边缘分布律：

 $\begin{aligned} P\{X=x_i\} &=\sum\limits_{j=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{j=1}^{+\infty}p_{ij}=p_{i\cdot},\ i=1,2,\dots\\ P\{Y=y_j\} &=\sum\limits_{i=1}^{+\infty}P\{X=x_i,Y=y_j\}=\sum\limits_{i=1}^{+\infty}p_{ij}=p_{\cdot j},\ j=1,2,\dots \end{aligned}$

条件分布律：

对于给定的

j

，若

P\{Y=y_j\}>0\ (j=1,2,\cdots)

，则称

 $\begin{aligned} P\{X=x_i|Y=y_j\}=\frac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\frac{p_{ij}}{p_{\cdot j}},\ i=1,2,\dots \end{aligned}$

为在 $Y=y_j$ 的条件下随机变量 $X$ 的条件概率分布。

对于给定的

i

，若

P\{X=x_i\}>0\ (i=1,2,\cdots)

，则称

 $\begin{aligned} P\{Y=y_j|X=x_i\}=\frac{P\{X=x_i,Y=y_j\}}{P\{X=x_i\}}=\frac{p_{ij}}{p_{i\cdot}},\ j=1,2,\dots \end{aligned}$

为在 $X=x_i$ 的条件下随机变量 $Y$ 的条件概率分布。

3.3 二维连续型随机变量

设二维随机变量 $(X,Y)$ 的联合分布函数为 $F(x,y)$ ，若存在非负可积的二元函数 $f(x,y)$ ，使得对任意实数 $x,y$ ，有

 $\begin{aligned} F(x,y)=\int_{-\infty}^x\int_{-\infty}^y f(u,v)\text{d}u\text{d}v \end{aligned}$

则称 $(X,Y)$ 为二维连续型随机变量，称函数 $f(x,y)$ 为二维随机变量 $(X,Y)$ 的概率密度函数或联合密度函数。

性质：

$f(x,y)≥0,\ x,y\in \mathbb{R}$
$\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)\text{d}x\text{d}y=1$

设

D

为平面

xOy

上任一区域，则点

(x,y)

落在

D

内的概率为

 $\begin{aligned} P\{(X,Y)\in D\}=\iint\limits_{D}f(x,y)\text{d}\sigma \end{aligned}$

若 $f(x,y)$ 在点 $(x,y)$ 处连续，则有 $f(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}$

边缘密度函数：

 $\begin{aligned} f_X(x) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}y\\ f_Y(y) &=\int_{-\infty}^{+\infty}f(x,y)\text{d}x \end{aligned}$

条件密度函数：

当

f_Y(y)>0

时，称

 $\begin{aligned} f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} \end{aligned}$

为在条件 $Y=y$ 下 $X$ 的条件密度函数。

当

f_X(x)>0

时，称

\begin{aligned}
f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}
\end{aligned}

为在条件 $X=x$ 下 $Y$ 的条件密度函数。

3.4 常见的二维连续型分布

3.4.1 二维均匀分布

设 $G$ 为平面上有界可求面积的区域，其面积为 $|G|$ ，若二维随机变量具有密度函数

 $\begin{aligned} f(x,y)=\begin{cases} \frac{1}{|G|}, & (x,y)\in G \\ 0, & (x,y) \notin G \end{cases} \end{aligned}$

则称 $(X,Y)$ 在区域 $G$ 上服从二维均匀分布。

性质：若 $(X,Y)$ 在各平行于坐标轴的矩形区域 $D=\{(x,y)|a≤x≤b,c≤y≤d\}$ 上服从二维均匀分布，则其两个分量 $X,Y$ 是独立的，且分别服从区间 $[a,b],[c,d]$ 上的一维均匀分布。

3.4.2 二维正态分布

若二维连续型随机变量 $(X,Y)$ 的概率密度为

 $\begin{aligned} f(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}}\exp\{ \frac{-1}{2(1-\rho^2)} [\frac{(x-\mu_1)^2}{\sigma_1^2} - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} ]\},\ x,y\in \mathbb{R} \end{aligned}$

其中 $\mu_1,\mu_2,\sigma_1>0,\ -1<\rho<1$ 均为常数，则称 $(X,Y)$ 服从参数为 $\mu_1,\mu_2,\sigma_1,\sigma_2,\rho$ 的二维正态分布，记为 $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ 。

性质：

$X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$
$X$ 与 $Y$ 独立的充分必要条件为 $\rho=0$

X

与

Y

的非零线性组合服从一维正态分布，且

当

X

与

Y

不独立时

 $\begin{aligned} k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2+2k_1k_2\rho\sigma_1\sigma_2) \end{aligned}$

当

X

与

Y

独立时

 $\begin{aligned} k_1X+k_2Y\sim N(k_1\mu_1+k_2\mu_2,k_1^2\sigma_1^2+k_2^2\sigma_2^2) \end{aligned}$

若 $(X_1,X_2)$ 服从二维正态分布，且行列式 $\begin{vmatrix} a & b\\ c &d \end{vmatrix}≠0$ ，则 $(aX_1+bX_2,cX_1+dX_2)$ 也服从二维正态分布。

3.5 二维随机变量的独立性

定义：

若对于任意实数 $x,y$ ，有 $F(x,y)=F_X(x)F_Y(y)$ ，则称 $X$ 和 $Y$ 相互独立。
若对于任意 $i,j=1,2,\dots$ ，有 $P\{X=x_i,Y=y_j\}=P\{X=x_i\}P\{Y=y_j\}$ ，则称二维离散型随机变量 $X$ 和 $Y$ 相互独立。
若对于任意实数 $x,y$ ，有 $f(x,y)=f_X(x)f_Y(y)$ ，则称二维连续型随机变量 $X$ 和 $Y$ 相互独立。

性质：

若 $X$ 与 $Y$ 相互独立， $f(x)$ 和 $g(x)$ 为连续函数，则 $f(X)$ 与 $g(Y)$ 也相互独立。
若 $X_1,X_2,\cdots,X_n,Y_1,Y_2,\cdots,Y_m$ 相互独立， $f(\cdot)$ 为 $n$ 元连续函数， $g(\cdot)$ 为 $m$ 元连续函数，则 $f(X_1,X_2,\cdots,X_n)$ 与 $g(Y_1,Y_2,\cdots,Y_m)$ 也相互独立。

3.6 二维随机变量函数的概率分布

离散型

已知 $(X,Y)$ 的概率分布为

 $\begin{aligned} P\{X=x_i,Y=y_j\}=p_{ij},\ i,j=1,2,\dots \end{aligned}$

则 $Z=g(X,Y)$ 的分布律为

 $\begin{aligned} P\{Z=z_k\} &=P\{g(X,Y)=z_k\}\\ &=\sum\limits_{g(x_i,y_j)=z_k}P\{X=x_i,Y=y_j\} \end{aligned}$

连续型

一般方法：分布函数法

设二维连续型随机变量 $(X,Y)$ 的概率密度函数为 $f(x,y)$ ，则随机变量 $Z=g(X,Y)$ 的分布函数和概率密度函数为

 $\begin{aligned} F_Z(z)&=P\{Z≤z\}=P\{g(X,Y)≤z\}\\ &=\iint\limits_{g(x,y)≤z}f(x,y)\text{d}x\text{d}y\\ f_Z(z)&=F_Z'(z) \end{aligned}$

公式法：卷积公式

设二维连续型随机变量 $(X,Y)$ 的概率密度为 $f(x,y)$ ，则随机变量 $Z=X+Y$ 的密度函数为

 $\begin{aligned} f_Z(z)&=\int_{-\infty}^{+\infty}f(x,z-x)\text{d}x\\ &=\int_{-\infty}^{+\infty}f(z-y,y)\text{d}y \end{aligned}$

若 $X$ 与 $Y$ 独立，则 $Z=X+Y$ 的密度函数公式称为卷积公式，即

 $\begin{aligned} f_X * f_Y &=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)\text{d}x\\ & =\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)\text{d}y \end{aligned}$

4 随机变量的数字特征

4.1 期望

一维随机变量的期望：

离散型：设随机变量X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots)，若级数\sum\limits_{i=1}^{\infty}x_ip_i绝对收敛，则
```
 $\begin{aligned} EX=\sum\limits_{i=1}^{\infty}x_ip_i \end{aligned}$ 
```
连续型：设连续型随机变量X的概率密度为f(x)，若积分\int_{-\infty}^{+\infty}xf(x)\text{d}x绝对收敛，则
```
 $\begin{aligned} EX=\int_{-\infty}^{+\infty}xf(x)\text{d}x \end{aligned}$ 
```
随机变量函数：设X为随机变量，g(x)为连续实函数，令Y=g(X)
- 离散型：若X的分布律为P\{X=x_i\}=p_i\ (i=1,2,\cdots)，则
```
 $\begin{aligned} EY=E[g(X)]=\sum\limits_{i=1}^{\infty}g(x_i)p_i \end{aligned}$ 
```
- 连续型：若X的密度函数为f_X(x)，则
```
 $\begin{aligned} EY=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f_X(x)\text{d}x \end{aligned}$ 
```

二维随机变量的期望：

离散型：设

(X,Y)

的概率分布为

P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots)

，则

 $\begin{aligned} EX &=\sum\limits_{i}x_ip_{i\cdot}=\sum\limits_{i}\sum\limits_{j}x_ip_{ij}\\ EY &=\sum\limits_{j}y_jp_{\cdot j}=\sum\limits_{i}\sum\limits_{j}y_ip_{ij} \end{aligned}$

连续型：设

(X,Y)

的联合概率密度为

\phi(x,y)

，则

 $\begin{aligned} EX &=\int_{-\infty}^{+\infty}xf_X(x)\text{d}x=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)\text{d}x\text{d}y\\ EY &=\int_{-\infty}^{+\infty}yf_Y(y)\text{d}y=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)\text{d}x\text{d}y \end{aligned}$

随机变量函数：设(X,Y)为二维随机变量，g(x,y)为二元连续实函数，令Z=g(X,Y)
- 离散型:若(X,Y)的联合分布律为P\{X=x_i,Y=y_j\}=p_{ij}\ (i,j=1,2,\cdots)，则
```
 $\begin{aligned} EZ=E[g(X,Y)]=\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}g(x_i,y_j)p_{ij} \end{aligned}$ 
```
- 连续型:若(X,Y)的联合密度函数为f(x,y)，则
```
 $\begin{aligned} EZ=E[g(X,Y)]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)\text{d}x\text{d}y \end{aligned}$ 
```

期望的性质：

$E(C)=C$ ； $E(EX)=EX$
$E(CX)=CEX$
$E(k_1X\pm k_2Y)=k_1EX\pm k_2EY$
若 $X$ 与 $Y$ 相互独立，则有 $E(XY)=EXEY$

4.2 方差

设 $X$ 是为随机变量，若 $E(X-EX)^2$ 存在，则称

 $\begin{aligned} DX=E(X-EX)^2 \end{aligned}$

为 $X$ 的方差（或记为 $\text{Var}(X)$ ），称 $\sqrt{DX}$ 为标准差或均方差。

常用公式（解题时常据此计算 $EX^2=DX+(EX)^2$ ）：

 $\begin{aligned} DX=EX^2-(EX)^2 \end{aligned}$

性质：

$D(C)=0$ ； $D(EX)=0$ ； $D(DX)=0$
$D(CX)=C^2DX$
$D(C_1X+C_2)=C_1^2DX$
$D(X\pm Y)=DX+DY \pm 2\text{cov}(X,Y)$
若 $X,Y$ 相互独立，则 $D(X\pm Y)=DX+DY$

标准化变量：设随机变量 $X$ 具有数学期望 $EX=\mu$ 、方差 $DX=\sigma^2≠0$ ，则 $X$ 的标准化变量为

 $\begin{aligned} X^*=\frac{X-\mu}{\sigma} \end{aligned}$

显然， $EX^*=0$ ， $DX^*=1$ ，且 $X^*$ 无量纲。

4.3 协方差

定义

 $\begin{aligned} \text{cov}(X,Y)=E[(X-EX)(Y-EY)] \end{aligned}$

常用公式：

 $\begin{aligned} \text{cov}(X,Y)=EXY-EXEY \end{aligned}$

性质：

$\text{cov}(X,Y)=\text{cov}(Y,X)$
$\text{cov}(X,X)=DX$
$\text{cov}(aX,bY)=ab\text{cov}(X,Y)$
$\text{cov}(X,C)=0$
$\text{cov}(k_1X_1\pm k_2X_2,Y)=k_1\text{cov}(X_1,Y)\pm k_2\text{cov}(X_2,Y)$
若 $X$ 与 $Y$ 相互独立，则 $\text{cov}(X,Y)=0$

4.4 相关系数

定义：

 $\begin{aligned} \rho_{XY}=\frac{\text{cov}(X,Y)}{\sqrt{DX}\sqrt{DY}} \end{aligned}$

性质：

$|\rho_{XY}|≤1$
$|\rho_{XY}|=1\Leftrightarrow P\{Y=aX+b \}=1,\ a≠0$ ，且当 $a>0$ 时， $\rho_{XY}=1$ ；当 $a<0$ 时， $\rho_{XY}=-1$

不相关的等价说法：

 $\begin{aligned} \rho_{XY}=0 &\Leftrightarrow \text{cov}(X,Y)=0\\ &\Leftrightarrow EXY=EXEY\\ &\Leftrightarrow D(X\pm Y)=DX+DY \end{aligned}$

不相关与独立的关系：

$X,Y$ 相互独立 $\Rightarrow$ $X$ 与 $Y$ 不相关，反之不成立
若 $(X,Y)\sim N(\mu_1,\mu_2;\sigma_1^2,\sigma_2^2;\rho)$ ，则 $X$ 与 $Y$ 独立 $\Leftrightarrow$ $X$ 与 $Y$ 不相关

4.5 其他数字特征

设 $X,Y$ 为随机变量，则——

k阶（原点）矩：若 $EX^k,\ k=1,2,\cdots$ 存在，则称它为 $X$ 的 $k$ 阶（原点）矩

k阶中心矩：若 $E[(X-EX)^k],\ k=1,2,\cdots$ 存在，则称它为 $X$ 的 $k$ 阶中心矩

k+l阶混合（原点）矩：若 $E(X^kY^l),\ k,l=1,2,\cdots$ 存在，则称它为 $X,Y$ 的 $k+l$ 阶混合（原点）矩

k+l混合中心矩：若 $E[(X-EX)^k(Y-EY)^l],\ k,l=1,2,\cdots$ 存在，则称它为 $X,Y$ 的 $k+l$ 阶混合中心矩

切比雪夫不等式：设随机变量 $X$ 的期望 $EX$ 、方差 $DX$ 都存在，则对任意 $\epsilon>0$ 均有

 $\begin{aligned} P\{|X-EX|≥\epsilon\}&≤\frac{DX}{\epsilon^2}\\ P\{|X-EX|\lt \epsilon\}&≥1-\frac{DX}{\epsilon^2} \end{aligned}$

5 大数定律与中心极限定理

依概率收敛：对于随机变量序列 $X_1,X_2,\dots,X_n,\dots$ 和常数 $a$ ，如果对于任意给定的正数 $\epsilon$ ，有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty} P \left \{\left|X_n-a\right|<\epsilon \right \}=1 \end{aligned}$

则称随机变量序列 $X_1,X_2,\cdots,X_n,\cdots$ 依概率收敛于 $a$ ，记作 $X_n \xrightarrow{P}a$ 。

5.1 切比雪夫大数定律

设随机变量 $X_1,X_2,\dots,X_n,\dots$ 相互独立，数学期望 $EX_i$ 和方差 $DX_i$ 均存在，且方差 $DX_i$ 有公共上界，即存在常数 $C$ ，使 $DX_i≤C\ (i=1,2,\dots)$ ，则对于任意给定的正数 $\epsilon$ ，总有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{1}{n}\sum\limits_{i=1}^nX_i-\frac{1}{n}\sum\limits_{i=1}^nEX_i\right|<\epsilon\right \}=1 \end{aligned}$

上式表明：当 $n$ 很大时，相互独立方差有公共上界的随机变量的平均值 $\frac{1}{n}\sum\limits_{i=1}^nX_i$ 依概率收敛于其数学期望 $\frac{1}{n}\sum\limits_{i=1}^nEX_i$ 。

5.2 伯努利大数定律

设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意正数 $\epsilon$ ，有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\left|\frac{n_A}{n}-p\right|<\epsilon\right \}=1 \end{aligned}$

上式表明：当 $n$ 很大时，随机事件 $A$ 发生的频率 $\frac{n_A}{n}$ 依概率收敛于事件 $A$ 的概率 $p$ ，因此在试验次数充分大时，可以用频率来近似代替概率。

5.3 辛钦大数定律

设随机变量 $X_1,X_2,\dots,X_n,\dots$ 相互独立，服从相同的分布，具有数学期望 $EX_i=\mu\ (i=1,2,\dots)$ ，则对于任意给定的正数 $\epsilon$ ，总有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\left|\frac1n \sum\limits_{i=1}^nX_i-\mu\right|<\epsilon \right\}=1 \end{aligned}$

上式表明：当 $n$ 很大时，独立同分布的随机变量的平均值 $\frac1n\sum\limits_{i=1}^nX_i$ 依概率收敛于其数学期望 $\mu$

5.4 列维-林德伯格中心极限定理

设随机变量 $X_1,X_2,\dots,X_n,\dots$ 相互独立，服从相同的分布，具有数学期望 $EX_i=\mu$ 和方差 $DX_i=\sigma^2>0\ (i=1,2,\dots)$ ，则对于任意实数 $x$ ，有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\frac{\sum\limits_{i=1}^n X_i-n\mu}{\sqrt n \sigma}≤x \right\}=\Phi(x) \end{aligned}$

上式表明：在定理条件下，当 $n$ 充分大时， $\sum\limits_{i=1}^nX_i$ 以正态分布为极限分布。

5.5 棣莫弗-拉普拉斯中心极限定理

设随机变量 $X_n$ 服从参数为 $n,p\ (0\lt p\lt 1,\ n=1,2,\cdots)$ 的二项分布，即 $X_n\sim B(n,p)$ ，则对于任意实数 $x$ ，有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\frac{X_n-np}{\sqrt{np(1-p)}}≤x\right\}=\Phi(x) \end{aligned}$

上式表明：当重复实验次数足够多时，二项分布以正态分布极限分布。

6 数理统计

6.1 重要统计量

样本均值：

 $\begin{aligned} \overline X=\frac1n \sum\limits_{i=1}^nX_i,\text{ 观测值 }\overline x=\frac1n \sum\limits_{i=1}^n x_i \end{aligned}$

 $\begin{aligned} E\overline X &=\mu\\ D\overline X &=\frac{\sigma^2}{n} \end{aligned}$

样本方差：

 $\begin{aligned} S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2,\text{ 观测值 }s^2=\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2 \end{aligned}$

 $\begin{aligned} ES^2=\sigma^2 \end{aligned}$

样本标准差：

 $\begin{aligned} S=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline X)^2},\text{ 观测值 }s=\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n(x_i-\overline x)^2} \end{aligned}$

样本k阶原点矩

 $\begin{aligned} A_k=\frac1n \sum\limits_{i=1}^n X_i^k,\text{ 观测值 }a_k=\frac1n \sum\limits_{i=1}^n x_i^k,\ k=1,2,\dots \end{aligned}$

若总体的 $X$ 的 $k$ 阶原点矩 $EX^k=\mu_k\ (k=1,2,\dots)$ 存在，则当 $n\rightarrow \infty$ 时，有

 $\begin{aligned} A_k=\frac1n \sum\limits_{i=1}^n X_i^k \xrightarrow{P}EX^k,\ k=1,2,\dots \end{aligned}$

样本k阶中心矩：

 $\begin{aligned} B_k=\frac1n\sum\limits_{i=1}^n(X_i-\overline X)^k,\text{ 观测值 }b_k=\frac1n\sum\limits_{i=1}^n(x_i-\overline x)^k,\ k=2,3,\dots \end{aligned}$

顺序统计量：设总体 $X$ 的分布函数为 $F(x)$ ， $X_1,X_2,\dots,X_n$ 是来自总体 $X$ 的样本，则统计量 $X_{(n)}=\max(X_1,X_2,\dots,X_n)$ 和 $X_{(1)}=\min(X_1,X_2,\dots,X_n)$ 的分布函数分别为

 $\begin{aligned} F_{X_{(n)}}(x) &=P\{\max(X_1,X_2,\dots,X_n)≤x\}=[F(x)]^n\\ F_{X_{(1)}}(x) &=P\{\min(X_1,X_2,\dots,X_n)≤x\}=[1-F(x)]^n \end{aligned}$

6.2 三大分布

6.2.1 卡方分布

设随机变量 $X_1,X_2,\dots,X_n$ 相互独立，且均服从标准正态分布 $N(0,1)$ ，则随机变量

 $\begin{aligned} \chi^2=X_1^2+X_2^2+\cdots+X_n^2 \end{aligned}$

服从自由度为 $n$ 的 $\chi^2$ 分布（卡方分布，Chi-square Distribution），记作 $\chi^2\sim \chi^2(n)$ 。

性质：设 $X\sim \chi^2(n_1),Y\sim \chi^2(n_2)$ ，且 $X,Y$ 相互独立，则 $X+Y\sim \chi^2(n_1+n_2)$ 。

数字特征：

 $E\chi^2=n,\ D\chi^2=2n$

上α分位点：设 $\chi^2\sim \chi^2(n)$ ，对于任意给定的 $\alpha\ (0\lt \alpha \lt 1)$ ，称满足条件 $P\{\chi^2\gt \chi_{\alpha}^2(n)\}=\alpha$ 的点 $\chi_{\alpha}^2(n)$ 为 $\chi^2(n)$ 的上 $\alpha$ 分位点。

6.2.2 t分布

设随机变量 $X\sim N(0,1),Y\sim \chi^2(n)$ ，且 $X,Y$ 相互独立，则随机变量

 $\begin{aligned} t=\frac{X}{\sqrt{Y/n}} \end{aligned}$

服从自由度为 $n$ 的 $t$ 分布，记作 $t\sim t(n)$ 。

性质： $t$ 分布的概率密度 $f(x)$ 是偶函数，且有 $\lim\limits_{n\rightarrow \infty}f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$ ，即当 $n$ 充分大时， $t(n)$ 分布近似于 $N(0,1)$ 分布。

上α分位点：设 $t\sim t(n)$ ，对于任意给定的 $\alpha\ (0\lt \alpha \lt 1)$ ，称满足条件 $P\{t\gt t_{\alpha}(n)\}=\alpha$ 的点 $t_{\alpha}(n)$ 为 $t(n)$ 的上 $\alpha$ 分位点。

6.2.3 F分布

设随机变量 $X\sim \chi^2(m),Y\sim \chi^2(n)$ ，且 $X,Y$ 相互独立，则随机变量

 $\begin{aligned} F=\frac{X/m}{Y/n} \end{aligned}$

服从自由度为 $(m,n)$ 的 $F$ 分布，记为 $F\sim F(m,n)$ 。

性质：若 $F\sim F(m,n)$ ，则 $\frac1F \sim F(n,m)$ 。

上α分位点：设 $F\sim F(m,n)$ ，对于任意给定的 $\alpha\ (0\lt \alpha \lt 1)$ ，称满足条件 $P\{F\gt F_{\alpha}(m,n)\}=\alpha$ 的点 $F_{\alpha}(m,n)$ 为 $F(m,n)$ 的上 $\alpha$ 分位点。

6.3 抽样分布

一个正态总体的抽样分布：设 $X_1,X_2,\cdots,X_n$ 是来自正态总体 $X\sim N(\mu,\sigma^2)$ 的样本，样本均值为 $\overline X$ ，样本方差为 $S^2$ ，则有

$\overline X\sim N(\mu,\frac{\sigma^2}{n}),\frac{\overline X-\mu}{\sigma / \sqrt n}\sim N(0,1)$
$\overline X$ 与 $S^2$ 相互独立，且 $\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$
$\frac{\overline X-\mu}{S/\sqrt n}\sim t(n-1)$
$\frac1{\sigma^2}\sum\limits_{i=1}^n(X_i-\mu)^2\sim \chi^2(n)$

两个正态总体的抽样分布：设 $X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2)$ ， $X_1,X_2,\cdots,X_{n_1}$ 和 $Y_1,Y_2,\cdots,Y_{n_2}$ 分别来自总体 $X$ 和 $Y$ 的样本，且两个样本相互独立，则有

$\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
若 $\sigma_1^2=1\sigma_2^2$ ，则 $\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim t(n_1+n_2-2)$ ，其中 $S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$
$\frac{\frac1{\sigma_1^2} \sum\limits_{i=1}^{n_1}(X_i-\mu_1)^2/n_1}{\frac1{\sigma_2^2} \sum\limits_{j=1}^{n_1}(Y_j-\mu_2)^2/n_2}\sim F(n_1,n_2)$
$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$

6.4 矩估计

原理：样本的 $k$ 阶原点矩依概率收敛于总体的 $k$ 阶原点矩。

步骤：假设有 $k$ 个待估参数 $\theta_1,\theta_2,\cdots,\theta_k$ ，则

求出总体的 $k$ 阶原点矩 $\mu_k=EX^k\ (k=1,2,\cdots)$
令样本的k阶原点矩A_k=\frac1n \sum\limits_{i=1}^nX_i^k等于总体的k阶原点矩，即令
```
 $\begin{aligned} EX^k=\frac1n \sum\limits_{i=1}^n X_i^k,\ k=1,2,\dots \end{aligned}$ 
```
解该方程组，得 $\theta_i$ 的矩估计量为 $\hat \theta_i(X_1,X_2,\dots,X_n)$ ，则 $\theta_i$ 的矩估计值为 $\hat \theta_i(x_1,x_2,\dots,x_n)$

注：当待估参数为1个时，通常令 $EX=\frac1n \sum\limits_{i=1}^n X_i$ ，即可解得 $\theta$ 的矩估计量与相应的矩估计值。

6.5 最大似然估计法

似然函数和最大似然估计：

离散型随机变量：设总体X的分布律为P\{X=a_i\}=p(a_i;\theta),\ i=1,2,\dots，X_1,X_2,\dots,X_n为取自X的样本，则X_1,X_2,\dots,X_n的联合分布律的似然函数为
```
 $\begin{aligned} L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^np(x_i;\theta),\ x_i \in \{a_1,a_2,\dots\} \end{aligned}$ 
```
待估参数 $\theta$ 的最大似然估计为 $L(x_1,x_2,\dots,x_n;\theta)$ 关于 $\theta$ 的最大值点 $\hat \theta$ 。
连续型随机变量：设总体X的密度函数为f(x;\theta)，X_1,X_2,\dots,X_n为取自X的样本，则似然函数为
```
 $\begin{aligned} L(x_1,x_2,\dots,x_n;\theta)=\prod\limits_{i=1}^nf(x_i;\theta) \end{aligned}$ 
```
待估参数 $\theta$ 的最大似然估计为 $L(x_1,x_2,\dots,x_n;\theta)$ 关于 $\theta$ 的最大值点 $\hat \theta$ 。

注：上述两种中的 $\theta$ 可为多个待估参数 $(\theta_1,\theta_2,\cdots,\theta_k)$

最大似然估计的求解步骤：假设有 $k$ 个待估参数 $(\theta_1,\theta_2,\dots,\theta_k)$

写出似然函数

离散型：

 $\begin{aligned} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^np(x_i;\theta_1,\theta_2,\cdots,\theta_k) \end{aligned}$

连续型

 $\begin{aligned} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_k)=\prod\limits_{i=1}^nf(x_i;\theta_1,\theta_2,\cdots,\theta_k) \end{aligned}$

取对数 $\ln L$
若 $\ln L$ 对 $\theta_1,\theta_2,\dots,\theta_k$ 可微，求偏导数 $\frac{\partial \ln L}{\partial \theta_i},\ i=1,2,\dots,k$ ；判断方程组 $\frac{\partial \ln L}{\partial \theta_i}=0$ 是否有解。若有解则其解即为所求最大似然估计；若无解则要概率极大似然估计的意义（使似然函数取得最大值），此时，估计值常在 $\theta_i$ 的边界点上达到。

注：对于只有一个未知参数只需将步骤（3）中求偏导变为一元函数求导即可

6.6 估计量的评选标准

无偏性：若 $\theta$ 的估计量 $\hat \theta(X_1,X_2,\dots,X_n)$ 的数学期望 $E\hat \theta$ 存在，且 $E\hat \theta=\theta$ ，则称 $\hat \theta(X_1,X_2,\dots,X_n)$ 为未知参数 $\theta$ 的无偏估计量。

有效性： $\hat \theta_1(X_1,X_2,\dots,X_n)$ 和 $\hat \theta_1(X_1,X_2,\dots,X_n)$ 都是未知参数 $\theta$ 的无偏估计量，若 $D\hat\theta_1≤D\hat\theta_2$ ，且至少对于某一个 $\theta\in \Theta$ 不等号成立，则称 $\hat \theta_1(X_1,X_2,\dots,X_n)$ 比 $\hat \theta_1(X_1,X_2,\dots,X_n)$ 更有效。

一致性（相合性）：若对任意 $\epsilon>0$ ，有

 $\begin{aligned} \lim\limits_{n\rightarrow \infty}P\left\{\left|\hat\theta-\theta\right|\lt\epsilon\right\}=1 \end{aligned}$

则称 $\hat \theta$ 为 $\theta$ 的一致估计量。

6.7 区间估计、假设检验…

【WIP】

综合大模型

控制台

实用工具·极

信息检索

其他工具/资源

非常规搜索引擎