高级统计方法 第一轮学习 Chapter 1 导论
导论
1.1 基本概念
预测变量 :也称作自变量,输入变量,协变量,属性
结果变量 :也称作因变量,响应变量,目标变量
1.2 监督学习 VS 无监督学习
Supervised Learning VS Unsupervised Learning
- 此处我们认为监督学习与指导学习同义。下文皆使用监督学习指代。
监督学习
-
数据要求:训练数据必须有明确的标签(正确答案)。
-
学习目标:模型通过最小化预测输出与真实标签之间的误差(如损失函数)来优化参数。
-
任务类型:
-
分类
-
回归
-
无监督学习
-
数据要求:没有结果变量,只有在一组样本上测量的一组预测变量(特征)。
-
学习目标:发现数据的内在分布、结构或关联,而不是预测某个具体值。
-
任务类型:
-
聚类
-
降维
-
统计基础复习
2.1 概率基础
随机试验、基本事件、样本空间、随机事件、概率与频率的定义 此处省略
随机变量
随机变量的本质是一个函数
概率分布
离散型随机变量的概率分布并不复杂。
连续型随机变量:
- 概率密度函数 :不在意单点取值,故直接取开区间。
- 概率分布函数 :常取左闭右开区间。
定义为
连续型随机变量下即为:
可简单理解为
常用的离散型、连续型随机变量分布 此处省略
无非就是 二项分布、泊松分布、均匀分布、指数分布、正态分布
实际上他课上好像没有细讲 t 分布、F 分布、卡方分布
这些好像后面用的才比较多。。。
随机变量的数字特征
2.2 统计学基础
总体与样本
同一总体的不同样本可以认为是独立同分布的变量。
总体均值:
总体方差:
总体标准差:
样本均值:
样本方差:
通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。即当 取得充分大,样本均值、样本方差分别逼近总体均值和总体方差
参数估计问题
假定总体 的分布函数形式已知,需要对其中的某些参数进行估计。
估计方法:矩估计法、最小二乘法、最大似然法
假设检验问题
从样本值出发,判断关于总体分布的某种假设是否成立。
-
提出原假设(或称零假设)和备选假设(或称对立假设)
-
指定显著性水平 (一般取 )
-
构造检验统计量
-
进行统计试验——收集数据、计算检验统计量及显著性概率值
通常已知检验统计量 W 的概率分布性质
p 值是在原假设 为真的情况下,出现“等于或比当前样本统计量更极端”的结果的概率。
-
根据显著性水平 值进行判断
2.3 概率模型及公式
条件概率、全概率 此处省略
Bayes 公式
Bayes 公式的本质是利用已知条件概率反推未知条件概率,即为后验概率公式。
先验:能直接看到的,不需要计算的,所以是“先”
后验:不能直接看到的,需要计算的,是“我们关注的”
- 条件概率、联合概率和先验概率、后验概率并不在一个对比维度
2.4 最大似然估计和贝叶斯估计
最大似然估计
最大似然估计:假设因(也就是总体的模型参数)是固定但未知的,然后把所有各种可能的“因”代进去,算一遍当前的“果”的概率(产生已观测到的数据D的可能性,也就是“似然”),能够产生最大概率(似然)的那个“因” 就认为是真正的“因”.
Bayesian 参数估计
其中:
贝叶斯估计:和最大似然估计最显著的区别是,假设事件的因(也就是要估计的参数)是随机分布的,但这些因是有概率性,就是先验概率(某个车间的零件比例)
MAP 估计(Maximum a posterior estimation,最大后验概率估计):选择使后验概率最大的参数值作为估计值
即,在贝叶斯参数估计式中,选择使 最大的 作为估计值。
和最大似然估计的差别: 这部分(考虑各个车间的零件比例,不同骰子的出现概率)。 注:当 均匀分布时,等效于最大似然估计。 但有了 这部分后,使得 Bayes 估计适用于小样本情况。