1590 字
8 分钟
高级统计方法 第一轮学习 Chapter 1

高级统计方法 第一轮学习 Chapter 1 导论#

导论#

1.1 基本概念#

预测变量 XX:也称作自变量,输入变量,协变量,属性

结果变量 YY:也称作因变量,响应变量,目标变量

1.2 监督学习 VS 无监督学习#

Supervised Learning VS Unsupervised Learning

  • 此处我们认为监督学习与指导学习同义。下文皆使用监督学习指代。

监督学习#

  1. 数据要求:训练数据必须有明确的标签(正确答案)。

  2. 学习目标:模型通过最小化预测输出与真实标签之间的误差(如损失函数)来优化参数。

  3. 任务类型:

    • 分类

    • 回归

无监督学习#

  1. 数据要求:没有结果变量,只有在一组样本上测量的一组预测变量(特征)。

  2. 学习目标:发现数据的内在分布、结构或关联,而不是预测某个具体值。

  3. 任务类型:

    • 聚类

    • 降维

统计基础复习#

2.1 概率基础#

随机试验、基本事件、样本空间、随机事件、概率与频率的定义 此处省略#

随机变量#

随机变量的本质一个函数

概率分布#

离散型随机变量的概率分布并不复杂。

连续型随机变量:

  • 概率密度函数 f(x)f(x):不在意单点取值,故直接取开区间。
P{a<X<b}=abp(x)dxP\{a < X < b\} = \int_a^b{p(x)dx}
  • 概率分布函数 F(x)F(x):常取左闭右开区间。

定义为

F(x)=P{Xx}F(x) = P\{X \leq x\}

连续型随机变量下即为:

F(x)=xp(t)dtF(x) = \int_{-\infty}^x{p(t)dt}

可简单理解为

p(x)=F(x)p(x) = F^{'}(x)

常用的离散型、连续型随机变量分布 此处省略#

无非就是 二项分布、泊松分布、均匀分布、指数分布、正态分布

实际上他课上好像没有细讲 t 分布、F 分布、卡方分布

这些好像后面用的才比较多。。。

随机变量的数字特征#

E(X)={i=1xipi,if X is discrete+xp(x)dx,if X is continuousE(X) = \begin{cases} \sum_{i = 1}^{\infty}{x_i p_i}, & \text{if X is discrete} \\ \int_{-\infty}^{+\infty}{x p(x) dx}, & \text{if X is continuous} \\ \end{cases}D(X)={i=1(xiE(X))2pi,if X is discrete+(xE(X))2p(x)dx,if X if continuousD(X) = \begin{cases} \sum_{i = 1}^{\infty}{(x_i - E(X))^2 p_i}, & \text{if X is discrete} \\ \int_{-\infty}^{+\infty}{(x - E(X))^2 p(x) dx}, & \text{if X if continuous} \\ \end{cases}

2.2 统计学基础#

总体与样本#

同一总体的不同样本可以认为是独立同分布的变量。

总体均值:μ=1Ni = 1N xi\mu = \frac { 1 } { N } \sum _ { i ~ = ~ 1 } ^ { N } ~ x _ { i }

总体方差:σ2=1Ni=1N(xiμ)2=1Ni=1N(xi2μ2)\sigma^ { 2 } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N }(x _ {i } - \mu ) ^ { 2 } = \frac { 1 } { N } \sum _ { i = 1 } ^ { N }(x _ {i } ^ { 2 } -\mu^{ 2 } )

总体标准差:S=σ2S = \sqrt{\sigma^2}

样本均值:x=1ni=1nxi\overline { x } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } x _ { i }

样本方差:s2=1n1i=1n(xix)2s ^ { 2 } = { \frac { 1 } { n - 1 } } \sum _ { i = 1 } ^ { n } \left ( x _ { i } - { \overline { x } } \right ) ^ { 2 }

通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。即nn 取得充分大,样本均值、样本方差分别逼近总体均值和总体方差

参数估计问题#

假定总体 XX 的分布函数形式已知,需要对其中的某些参数进行估计。

估计方法:矩估计法、最小二乘法、最大似然法

假设检验问题#

从样本值出发,判断关于总体分布的某种假设是否成立。

  1. 提出原假设(或称零假设)和备选假设(或称对立假设)

  2. 指定显著性水平 α\alpha(一般取 0.05,0.01,0.05, 0.01, \ldots

  3. 构造检验统计量 WW

  4. 进行统计试验——收集数据、计算检验统计量及显著性概率值 pp

    通常已知检验统计量 W 的概率分布性质

    p 值是在原假设 H0H_0 为真的情况下,出现“等于或比当前样本统计量更极端”的结果的概率。

  5. 根据显著性水平 α\alpha 值进行判断

2.3 概率模型及公式#

条件概率、全概率 此处省略#

Bayes 公式#

P(BiA)=P(ABi)P(Bi)j=1nP(ABj)P(Bj),i=1,2,,nP(B_i | A) = \frac { P(A | B_i) P(B_i) } { \sum _ { j = 1 } ^ { n } P(A | B_j) P(B_j) }, \quad i = 1, 2, \ldots, n

Bayes 公式的本质是利用已知条件概率反推未知条件概率,即为后验概率公式。

先验:能直接看到的,不需要计算的,所以是“先”

后验:不能直接看到的,需要计算的,是“我们关注的”

  • 条件概率、联合概率和先验概率、后验概率并不在一个对比维度

2.4 最大似然估计和贝叶斯估计#

最大似然估计#

最大似然估计:假设因(也就是总体的模型参数)是固定但未知的,然后把所有各种可能的“因”代进去,算一遍当前的“果”的概率(产生已观测到的数据D的可能性,也就是“似然”),能够产生最大概率(似然)的那个“因” 就认为是真正的“因”.

Bayesian 参数估计#

P(pD)=P(Dp)P(p)P(D)P(\vec{p} | D) = \frac { P(D | \vec{p}) P(\vec{p}) } { P(D) }

其中:

P(D)=pP(Dp)P(p)dpP(D) = \int_{\vec{p}} { P(D | \vec{p}) P(\vec{p}) d\vec{p} }

贝叶斯估计:和最大似然估计最显著的区别是,假设事件的因(也就是要估计的参数)是随机分布的,但这些因是有概率性,就是先验概率(某个车间的零件比例)

MAP 估计(Maximum a posterior estimation,最大后验概率估计):选择使后验概率最大的参数值作为估计值

即,在贝叶斯参数估计式中,选择使 P(p)P(Dp)P ( \vec { p } ) P ( D | \vec { p } ) 最大的 p\vec{p} 作为估计值。

pML=argmaxpP(p)P(Dp)\vec { p } ^ { M L } = \arg \operatorname*{max}_{\vec{ p}} P ( \vec { p } ) P ( D | \vec { p } )

和最大似然估计的差别:P(p)P(\vec{p}) 这部分(考虑各个车间的零件比例,不同骰子的出现概率)。 注:当 (p1,p2,,pn)(p_1, p_2, \ldots, p_n) 均匀分布时,等效于最大似然估计。 但有了 P(p)P(\vec{p}) 这部分后,使得 Bayes 估计适用于小样本情况。

2.5 向量、矩阵和线性代数初步 此处省略#

高级统计方法 第一轮学习 Chapter 1
https://blog.farewe1ll.top/posts/高级统计方法第一轮学习-chapter_1/
作者
Farewe1ll 山竹
发布于
2025-11-18
许可协议
CC BY-NC-SA 4.0