概率论辅导讲义
第一章 概率论的基本概念
本章是整个概率论的基础,核心是理解随机现象、建立概率模型,并掌握概率的公理化定义和基本计算方法。
1 随机试验与样本空间
- 随机试验: 满足以下三个条件的试验:
- 可重复性: 可以在相同条件下重复进行。
- 多结果性: 试验的所有可能结果是明确的,但不止一个。
- 不确定性: 每次试验之前,无法预知确切的结果。
- 样本空间: 随机试验所有可能结果组成的集合,记作 或 S。
- 示例: 抛一枚硬币,Ω = {正面, 反面}。
- 样本点: 样本空间中的每一个元素,记作 。
- 随机事件: 样本空间的一个子集,记作 A, B, C,事件发生,当且仅当它包含的一个样本点发生。
- 必然事件: Ω 本身,每次试验必然发生。
- 不可能事件: 空集 ∅,每次试验都不可能发生。
2 事件的关系与运算
理解事件之间的关系是进行复杂概率计算的前提。

| 运算 | 符号 | 文氏图 | 含义 |
|---|---|---|---|
| 包含 | A ⊂ B | A完全在B内 | 若A发生,则B一定发生 |
| 相等 | A = B | A和B完全重合 | A和B同时发生或同时不发生 |
| 和/并 | A ∪ B | A和B覆盖的区域 | A或B至少有一个发生 |
| 积/交 | A ∩ B | A和B重叠的区域 | A和B同时发生 |
| 差 | A - B | A中不在B内的部分 | A发生而B不发生 |
| 互斥/不相容 | A ∩ B = ∅ | A和B无重叠 | A和B不能同时发生 |
| 对立/补 | A̅ (或 Aᶜ) | Ω中不在A内的部分 | A不发生 |
运算律:
- 交换律: A ∪ B = B ∪ A, A ∩ B = B ∩ A
- 结合律: (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C)
- 分配律: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
- 德摩根律: A̅ ∪ B̅ = A̅ ∩ B̅, A̅ ∩ B̅ = A̅ ∪ B̅ (非常重要!)
3 概率的公理化定义
设试验的样本空间为Ω,对于其任一事件A,定义一个实数P(A),如果P(·)满足以下三条公理,则称P(A)为事件A的概率。
- 非负性: 对于任意事件 A,有 0 ≤ P(A) ≤ 1。
- 规范性: P(Ω) = 1。
- 可列可加性: 对于一列两两互斥的事件 A₁, A₂, ...,有 P(∪Aᵢ) = ΣP(Aᵢ)。
4 古典概型与几何概型
-
古典概型:
- 特点: 样本空间有限(n个样本点),且每个样本点发生的可能性相等(等可能性)。
- 计算公式: P(A) = 事件A包含的样本点数 k / 样本空间总样本点数 n。
- 关键: 正确计数,常用方法有列举法、排列组合法。
-
几何概型:
(图片来源网络,侵删)- 特点: 样本空间是一个有度量的几何区域(长度、面积、体积),且每个样本点“落入”某子区域的可能性只与该子区域的度量成正比,与位置和形状无关。
- 计算公式: P(A) = 构成事件A的子区域度量 g / 样本空间的总度量 G。
5 条件概率与全概率公式
-
条件概率:
- 定义: 在事件B已经发生的条件下,事件A发生的概率,记作 P(A|B)。
- 计算公式: P(A|B) = P(A ∩ B) / P(B),P(B) > 0。
- 理解: 条件概率将样本空间“缩小”到了事件B的范围内。
-
乘法公式:
- 由条件概率定义变形得到:P(A ∩ B) = P(A) P(B|A) = P(B) P(A|B)。
- 推广: P(A₁ ∩ A₂ ∩ ... ∩ Aₙ) = P(A₁) P(A₂|A₁) P(A₃|A₁∩A₂) P(Aₙ|A₁∩...∩Aₙ₋₁)。
-
全概率公式:
- 目的: 计算一个复杂事件A的概率,当事件A可以分解为一组互斥事件(构成样本空间的一个划分)B₁, B₂, ..., Bₙ下的条件概率之和时使用。
- 公式: *P(A) = Σ P(Bᵢ) P(A|Bᵢ)** (i=1 to n)。
- 理解: “化整为零,各个击破”。
-
贝叶斯公式:
(图片来源网络,侵删)- 目的: 在已知结果A发生的情况下,反推“原因”Bᵢ发生的概率。
- 公式: *P(Bᵢ|A) = [P(Bᵢ) P(A|Bᵢ)] / P(A) = [P(Bᵢ) P(A|Bᵢ)] / [Σ P(Bⱼ) P(A|Bⱼ)]** (j=1 to n)。
- 理解: “由果溯因”,P(Bᵢ)称为先验概率,P(Bᵢ|A)称为后验概率。
6 事件的独立性
- 定义: 如果事件A的发生对事件B发生的概率没有影响,即 *P(A ∩ B) = P(A) P(B)**,则称事件A与B相互独立。
- 等价条件:
- P(A ∩ B) = P(A) * P(B)
- P(A|B) = P(A) (当 P(B) > 0)
- P(B|A) = P(B) (当 P(A) > 0)
- 重要结论:
- A与B独立 ⇔ A与B̅独立 ⇔ A̅与B独立 ⇔ A̅与B̅独立。
- 若A与B独立,则A与B不一定互斥,反之亦然。
- 独立性的推广: 事件组A₁, A₂, ..., Aₙ相互独立,则其中任意k (2 ≤ k ≤ n)个事件的积的概率等于它们各自概率的积。
第二章 随机变量及其分布
本章的核心思想是将随机事件“量化”,用数值来描述随机试验的结果,从而引入函数和微积分等强大工具。
1 随机变量
- 定义: 设Ω是随机试验的样本空间,如果对Ω中的每一个样本点ω,都有一个实数X(ω)与之对应,则称X(ω)为随机变量。
- 分类:
- 离散型随机变量: 取值有限个或可列无限个。
- 连续型随机变量: 取值充满某个区间或整个实数轴。
2 离散型随机变量
-
概率分布律 (Probability Mass Function, PMF):
- 定义: 描述离散型随机变量X取各个可能值的概率,记作 pₖ = P(X = xₖ)。
- 性质:
- pₖ ≥ 0
- Σ pₖ = 1 (对所有k求和)
-
常用离散型分布:
| 分布名称 | 符号 | 参数 | 分布律 P(X=k) | 应用场景 |
|---|---|---|---|---|
| 0-1分布 | B(1, p) | p (0<p<1) | P(X=k) = pᵏ(1-p)¹⁻ᵏ, k=0,1 | 单次试验,只有两种结果(如抛硬币、产品是否合格) |
| 二项分布 | B(n, p) | n (正整数), p (0<p<1) | P(X=k) = C(n,k) pᵏ(1-p)ⁿ⁻ᵏ, k=0,1,...,n | n次独立重复试验(伯努利试验)中,事件A发生的次数 |
| 泊松分布 | P(λ) | λ (λ>0) | P(X=k) = (λᵏ e⁻ᵏ) / k!, k=0,1,2,... | 单位时间内稀有事件(如电话呼叫、事故)发生的次数 |
| 几何分布 | G(p) | p (0<p<1) | P(X=k) = (1-p)ᵏ⁻¹ p, k=1,2,3,... | 独立重复试验中,首次成功所需的试验次数 |
| 超几何分布 | H(n, M, N) | N (总体数), M (成功数), n (抽取数) | P(X=k) = [C(M,k)C(N-M,n-k)] / C(N,n) | 不放回抽样中,抽到指定成功品的数量 |
3 连续型随机变量
-
概率密度函数:
- 定义: 对于随机变量X的分布函数F(x),如果存在非负函数f(x),使得 F(x) = ∫(-∞ to x) f(t) dt,则称X为连续型随机变量,f(x)为其概率密度函数。
- 性质:
- f(x) ≥ 0
- ∫(-∞ to +∞) f(x) dx = 1
- P(a < X ≤ b) = ∫(a to b) f(x) dx
- P(X = a) = 0 (单点概率为零)
- f(x) = F'(x) (在f(x)的连续点)
-
分布函数:
- 定义: F(x) = P(X ≤ x),无论X是离散还是连续,都存在。
- 性质: 单调不减,右连续,F(-∞)=0, F(+∞)=1。
-
常用连续型分布:
| 分布名称 | 符号 | 参数 | 概率密度函数 f(x) | 分布函数 F(x) | 应用场景 |
|---|---|---|---|---|---|
| 均匀分布 | U(a, b) | a, b (a<b) | f(x) = 1/(b-a), a≤x≤b; 0, 其他 | F(x) = 0 (x<a); (x-a)/(b-a) (a≤x≤b); 1 (x>b) | 在区间[a,b]上等可能取值 |
| 指数分布 | Exp(λ) | λ (λ>0) | f(x) = λe⁻λˣ, x≥0; 0, x<0 | F(x) = 1-e⁻λˣ, x≥0; 0, x<0 | 描述寿命、等待时间等无记忆性的过程 |
| 正态分布 | N(μ, σ²) | μ (均值), σ² (方差) | f(x) = (1/√(2π)σ) * e^(-(x-μ)²/(2σ²)) | 无初等表达式,查表或计算器 | 描述自然、社会现象中大量随机变量的分布,是核心中的核心 |
| 标准正态分布 | N(0, 1) | μ=0, σ²=1 | φ(x) = (1/√(2π)) * e^(-x²/2) | Φ(x) = ∫(-∞ to x) φ(t) dt | 任何正态分布都可通过标准化转化为标准正态分布 |
| 卡方分布 | χ²(n) | n (自由度) | 略 | 略 | 统计推断中(如方差检验)的基础分布 |
| t分布 | t(n) | n (自由度) | 略 | 略 | 小样本均值推断的基础分布 |
4 随机变量函数的分布
- 离散型: Y = g(X),求出Y的所有可能取值yᵢ,P(Y=yᵢ) = Σ P(X=xₖ) (其中g(xₖ)=yᵢ)。
- 连续型: Y = g(X)。
- 分布函数法 (通用): F_Y(y) = P(Y ≤ y) = P(g(X) ≤ y),通过解不等式得到X的范围,再对X的密度函数积分。
- 公式法 (单调函数): 若g(x)严格单调,且可导,则 f_Y(y) = *f_X(g⁻¹(y)) |d/dy [g⁻¹(y)]|**。
第三章 多维随机变量及其分布
本章将单个随机变量扩展到多个随机变量组成的向量,研究它们之间的联合关系。
1 二维随机变量及其分布
-
联合分布律 (离散型):
- P(X = xᵢ, Y = yⱼ) = pᵢⱼ
- 性质: pᵢⱼ ≥ 0, ΣΣ pᵢⱼ = 1
-
联合概率密度 (连续型):
- f(x, y) ≥ 0, ∫∫ f(x,y) dx dy = 1
- P((X,Y) ∈ G) = ∫∫_G f(x,y) dx dy
-
边缘分布:
- 边缘分布律 (离散型): P(X = xᵢ) = Σⱼ pᵢⱼ (对j求和) P(Y = yⱼ) = Σᵢ pᵢⱼ (对i求和)
- 边缘概率密度 (连续型): f_X(x) = ∫(-∞ to +∞) f(x,y) dy f_Y(y) = ∫(-∞ to +∞) f(x,y) dx
- 理解: 边缘分布是单个变量的分布,它忽略了另一个变量的信息。
-
条件分布:
- 条件分布律 (离散型): P(X = xᵢ | Y = yⱼ) = P(X=xᵢ, Y=yⱼ) / P(Y=yⱼ) = pᵢⱼ / p·ⱼ
- 条件概率密度 (连续型): f_X|Y(x|y) = f(x,y) / f_Y(y) (当 f_Y(y) > 0)
-
独立性:
- 定义: 随机变量X和Y相互独立,如果对于任意实数x, y,有 *P(X ≤ x, Y ≤ y) = P(X ≤ x) P(Y ≤ y)**。
- 等价条件 (更常用):
- 离散型: pᵢⱼ = pᵢ· * p·ⱼ (对所有i,j)
- 连续型: f(x,y) = f_X(x) * f_Y(y) (几乎所有点)
- 理解: 独立性意味着联合分布完全由边缘分布决定,变量之间没有任何信息关联。
2 二维随机变量函数的分布
- Z = X + Y:
- 离散型: P(Z=z) = Σᵢ P(X=xᵢ, Y=z-xᵢ)
- 连续型: f_Z(z) = ∫(-∞ to +∞) f(x, z-x) dx = ∫(-∞ to +∞) f(z-y, y) dy (卷积公式)
- Z = max(X, Y) 和 Z = min(X, Y):
- 通常用分布函数法处理,利用独立性简化计算。
- 若X, Y独立:
- F_max(z) = P(max(X,Y) ≤ z) = P(X ≤ z, Y ≤ z) = F_X(z) * F_Y(z)
- F_min(z) = P(min(X,Y) ≤ z) = 1 - P(min(X,Y) > z) = 1 - P(X > z, Y > z) = 1 - (1-F_X(z)) * (1-F_Y(z))
第四章 随机变量的数字特征
数字特征是描述随机变量分布某些“特征”的数值,如平均值、离散程度等。
1 数学期望
- 定义: 描述随机变量取值的“平均水平”或“中心位置”。
- 计算公式:
- 离散型: E(X) = Σ xᵢ pᵢ
- 连续型: E(X) = ∫(-∞ to +∞) x f(x) dx
- 性质:
- E(c) = c (c为常数)
- E(cX) = cE(X)
- E(X + Y) = E(X) + E(Y)
- 若X, Y独立,则 E(XY) = E(X)E(Y)
- 函数的期望: E(g(X)) = Σ g(xᵢ)pᵢ (离散) 或 ∫ g(x)f(x)dx (连续)
2 方差
- 定义: 描述随机变量取值与其均值E(X)的偏离程度。
- 计算公式: Var(X) = E[(X - E(X))²] = E(X²) - [E(X)]² (后一个公式更常用)
- 性质:
- Var(c) = 0 (c为常数)
- Var(cX) = c²Var(X)
- Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)
- 若X, Y独立,则 Var(X + Y) = Var(X) + Var(Y)
- 标准差: σ(X) = √Var(X)
3 协方差与相关系数
-
协方差:
- 定义: Cov(X, Y) = E[(X - E(X))(Y - E(Y))] = E(XY) - E(X)E(Y)
- 意义: 度量X和Y之间的线性关联方向和强度。
- 性质:
- Cov(X, X) = Var(X)
- Cov(X, Y) = Cov(Y, X)
- 若X, Y独立,则 Cov(X, Y) = 0 (但反之不成立)
-
相关系数:
- 定义: ρ_XY = Cov(X, Y) / (σ_X σ_Y)
- 意义: 标准化的协方差,取值范围在[-1, 1]之间。
- ρ = 1: 完全正线性相关
- ρ = -1: 完全负线性相关
- ρ = 0: 线性不相关 (注意:不独立!除非是联合正态分布)
- 性质: |ρ| ≤ 1。
4 矩
- k阶原点矩: νₖ = E(Xᵏ)
- k阶中心矩: μₖ = E[(X - E(X))ᵏ]
- 协方差矩阵: 描述多维随机变量各分量之间的二阶数字特征。
第五章 大数定律与中心极限定理
本章是连接概率论与数理统计的桥梁,解释了为什么随机现象的宏观表现会呈现出规律性。
1 大数定律
- 意义: 在大量重复试验中,随机事件的频率会稳定在其概率附近;随机变量的平均值会稳定在其期望附近。
- 切比雪夫大数定律: 设X₁, X₂, ...是相互独立、期望方差都存在的随机变量序列,若方差一致有界,则 X̄ = (X₁+...+Xₙ)/n 依概率收敛于 E(X̄) = (E(X₁)+...+E(Xₙ))/n。
- 伯努利大数定律: 设nₐ是n次独立重复试验中事件A发生的次数,p是A发生的概率,则 nₐ/n 依概率收敛于 p,这是频率稳定于概率的理论基础。
2 中心极限定理
- 意义: 大量独立随机变量的和(或平均值)的分布,会趋向于正态分布,无论单个变量是什么分布。
- 独立同分布的中心极限定理 (林德伯格-列维定理):
- 设X₁, X₂, ...是独立同分布的随机变量序列,E(Xᵢ)=μ, Var(Xᵢ)=σ²>0,记 Zₙ = (X̄ - μ) / (σ/√n),则当n→∞时,Zₙ的分布函数标准正态分布。
- 应用: 当n很大时,X̄ ~ N(μ, σ²/n) 近似成立,这是统计推断的理论基石。
- 棣莫弗-拉普拉斯定理: 伯努利试验的中心极限定理,设nₙ ~ B(n, p),则当n很大时,(nₙ - np) / √(np(1-p)) ~ N(0, 1) 近似成立。
第六章 数理统计的基本概念
本章开始进入数理统计领域,核心是如何利用样本信息来推断总体的特征。
1 总体、样本与统计量
- 总体: 研究对象的全体,是一个随机变量X,其分布F(x)未知。
- 样本: 从总体中抽取的n个个体 X₁, X₂, ..., Xₙ,它们是独立同分布的,与总体X同分布。
- 统计量: 样本的函数,不依赖于任何未知参数。
- 样本均值: X̄ = (1/n) ΣXᵢ
- 样本方差: S² = (1/(n-1)) Σ(Xᵢ - X̄)² (注意分母是n-1,是无偏估计)
- 样本标准差: S = √S²
- 样本k阶矩: Aₖ = (1/n) ΣXᵢᵏ
- 样本k阶中心矩: Bₖ = (1/n) Σ(Xᵢ - X̄)ᵏ
2 抽样分布
统计量的分布称为抽样分布。
- 正态总体的抽样分布:
- 样本均值: 若 X₁, ..., Xₙ ~ N(μ, σ²),则 X̄ ~ N(μ, σ²/n)。
- 卡方分布: 若 X₁, ..., Xₙ ~ N(μ, σ²),则 Σ((Xᵢ - X̄)/σ)² ~ χ²(n-1)。
- t分布: 若 X₁, ..., Xₙ ~ N(μ, σ²),则 (X̄ - μ) / (S/√n) ~ t(n-1)。
- F分布: 若 X₁, ..., Xₘ ~ N(μ₁, σ₁²),Y₁, ..., Yₙ ~ N(μ₂, σ₂²),且两者独立,则 (S₁²/σ₁²) / (S₂²/σ₂²) ~ F(m-1, n-1)。
学习建议
- 概念先行: 深刻理解每个概念的定义和直观意义,而不是死记硬背公式。
- 图形辅助: 多画文氏图、分布图(如正态分布曲线),帮助理解事件关系和分布形态。
- 对比学习: 将离散型和连续型分布对比着学,将一维和多维对比着学,你会发现很多思想是相通的。
- 重视例题: 概率论是应用性很强的学科,通过做题来检验和巩固所学知识是最好的方法,从典型例题开始,逐步挑战综合题。
- 联系实际: 思考这些概念和模型在现实生活中的应用(如保险、金融、质量控制),这会让你更有学习动力。
希望这份讲义能成为你学习概率路上的得力助手!祝你学习顺利!
