高级统计方法第一轮学习 Chapter 3 线性回归#

简单线性回归#

1.1 怎样估计系数#

估计系数——最小二乘估计#

定义 $e_i$ 为第 $i$ 个观察值的残差：观测值减预测值。

则残差平方和（RSS）为：

RSS = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2

最小二乘法的目标是选择 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 使得 RSS 最小化。

通过对 $\hat{\beta}_0$ 和 $\hat{\beta}_1$ 求偏导并设为零，可以得到最小化 RSS 的解：

\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}

\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}

1.2 估计系数的准确性#

怎么理解系数估计值的准确性#

我们认为 $\hat{\beta}_1$ 和 $\hat{\beta}_0$ 是对真实 $\beta_1$ 和 $\beta_0$ 的无偏估计，不会系统高估或低估真实参数。

这里无偏估计指的是，当样本量趋于无穷大时，估计值的期望等于真实参数值。

引入标准误差（SE）来衡量估计值的变异性：

SE(\hat{\beta}_1) = \sqrt{\frac{\sigma^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2}}

SE(\hat{\beta}_0) = \sqrt{\sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \right)}

其中 $\sigma^2$ 是误差项的方差，可以用标准残差误（Residual Standard Error, RSE）来作为 $\sigma$ 的估计：

RSE = \sqrt{\frac{1}{n-2} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

这里的 $SE$ 本质上是估计的参数所遵从的分布的标准差。

在模型为线性回归且假设误差项 $\epsilon$ 服从正态分布的前提下， $\hat{\beta}_1$ 和 $\hat{\beta}_0$ 也近似服从正态分布。则此时我们可以构建近似的 $95\%$ 置信区间：

\hat{\beta}_j \pm 2 \cdot SE(\hat{\beta}_j) \quad (j=0,1)

此处置信区间的概念是：该区间有 $95\%$ 的概率包含真实参数值。

在线性回归中，有可能我们用于构建模型的预测变量本身就不应该出现在模型中，即 $\beta_j = 0$ 。则以下我们可以通过假设检验来判断某个变量是否应该出现在模型中。

我们假设

零假设 $H_0$ ： $X$ 与 $Y$ 无关

备择假设 $H_a$ ： $X$ 与 $Y$ 有一定关系

在此处我们可以计算 $t$ 统计量：

t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} \quad (j=0,1)

如果零假设成立，则上述 $t$ 统计量服从自由度为 $n-2$ 的 $t$ 分布。

我们可以计算出该 $t$ 统计量对应的 $p$ 值，从而判断是否拒绝零假设。

$p$ 值的含义是：在零假设成立的前提下，观察到当前样本统计量或更极端结果的概率。也就是在拒绝零假设的情况下，犯第一类错误的概率。

第一类错误：当零假设为真时，错误地拒绝了零假设。
第二类错误：当零假设为假时，错误地未能拒绝零假设。

1.3 评价模型的准确性#

评价模型准确性#

可以计算标准残差误（Residual Standard Error, RSE）来衡量模型的拟合优度：

RSE = \sqrt{\frac{1}{n - p - 1} RSS} = \sqrt{\frac{1}{n - p - 1} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

残差标准误（RSE）在本质上是对 $\epsilon$ 的标准差的估计，即 RSE 代表响应值偏离真正回归线的平均量。

另一个角度：RSE 测量的是回归后仍无法解释的变异性：也就是说，即使回归是准确的，甚至模型是已知的，预测仍然是不准确的。

还可以计算 $R^2$ 来衡量模型的拟合优度：

R^2 = 1 - \frac{RSS}{TSS} = \frac{TSS - RSS}{TSS}

其中总平方和（TSS）定义为： $TSS = \sum_{i=1}^{n} (y_i - \bar{y})^2$ ，衡量的是回归分析之前响应变量的总变异性。

$Y$ 的变异性由两部分产生： $x$ 的变化和 $\epsilon$ 的误差。

那么可以理解公式：RSS 测量的是回归后仍无法解释的变异性，而 TSS 测量的是回归前的总变异性，则 $TSS - RSS$ 就是回归解释的变异性。进一步的， $R^2$ 衡量的是回归解释的变异性占总变异性的比例。

实际上，在简单线性回归中， $R^2$ 等于 $X$ 与 $Y$ 之间的样本相关系数的平方。而当进行多元线性回归时， $R^2$ 就不能简单等于各个预测变量与响应变量的相关系数平方之和。

预测的不确定性：预测区间和置信区间#

预测区间：对于给定的 $x$ ，预测值 $\hat{y}$ 的不确定性。衡量的是 $\hat{y}$ 与 $y$ 的接近程度；预测区间既包含 $f(X)$ 的估计误差（可约误差， $f(x)$ 与 $\hat{f}(x)$ 的差异)，也包含单个点偏离总体回归平面程度的不确定性（不可约误差 $\epsilon$ ）

置信区间：对于给定的 $x$ ，回归函数 $f(x)$ 的不确定性。衡量的是 $\hat{y}$ 与 $f(x)$ 的接近程度；置信区间只包含 $f(X)$ 的估计误差（可约误差， $f(x)$ 与 $\hat{f}(x)$ 的差异）

预测区间总比置信区间宽，因为预测区间包含了不可约误差；但这两个区间的中心点是相同的。

1.4 统计量简单梳理#

下面把线性回归中最常见的几个统计量：R²、RSS、SE、RSE 系统性地对比一下，便于记忆和理解。

统计量	全称	公式	含义	是否受样本量 $n$ 影响	备注
RSS	Residual Sum of Squares残差平方和	$RSS = \sum_{i=1}^n (y_i - \hat{y}_i)^2$	所有残差平方加总，衡量模型整体拟合误差的绝对大小。回归后无法解释的变异性。	强烈受影响， $n$ 越大、 $y$ 尺度越大，RSS 通常越大	最原始的损失函数，不能直接比较不同数据集的模型
TSS	Total Sum of Squares总平方和	$TSS = \sum_{i=1}^n (y_i - \bar{y})^2$	回归前 $y$ 的总变异性。	同样随 $n$ 、 $y$ 尺度变大	RSS + ESS = TSS
R²	Coefficient of Determination决定系数	$R^2 = 1 - \frac{RSS}{TSS} = \frac{ESS}{TSS}$	模型解释了响应变量多少比例的变异	不受 $n$ 影响且不受 $y$ 尺度影响（标准化指标）	最常用、最直观的拟合优度指标
SE（系数标准误）	Standard Error of regression coefficients	对于第 $j$ 个系数 $\beta_j$ ： $SE(\hat{\beta}_j) = \sqrt{ \widehat{Var}(\hat{\beta}_j) } = \sqrt{ \hat{\sigma}^2 (X^TX)^{-1}_{jj} }$	估计系数的分布的标准差	受 $n$ 、 $\sigma^2$ 、 $X$ 的杠杆影响	每个系数都有自己的 SE
RSE	Residual Standard Error残差标准误	$RSE = \hat{\sigma} = \sqrt{\frac{RSS}{n-p-1}}$ （减去的 $1$ 为截距）	对扰动项 $\epsilon$ 的标准差的估计，即“平均每个点偏离回归线有多远”（单位与 $y$ 相同）	已除以自由度，相对公平，但仍随 $y$ 尺度变化

多元线性回归#

2.0 多元线性回归#

多元线性回归#

多元线性回归模型形式为：

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_p X_p + \epsilon

使用多元线性回归模型时，需要满足两个重要假设：

线性假设：响应变量 $Y$ 与每个预测变量 $X_j$ 之间的关系是线性的。
可加性假设：预测变量 $X_j$ 之间没有完全的线性相关性（即不存在多重共线性）。

2.1 估计回归系数#

估计回归系数#

同样的，最小化残差平方和（RSS）来估计回归系数。

2.2 多元线性回归的一些重要问题#

一些重要问题#

Q1：预测变量 $X_1, X_2, \ldots, X_p$ 中是否至少有一个可以用来预测响应变量?（所有系数都为 $0$ ）
Q2：所有预测变量都有助于解释𝑌吗?或仅仅是预测变量的一个子集对预测有用?（变量选择）
Q3：模型对数据的拟合程度如何? （TSS，RSS等）

Q1：至少有一个预测变量是有用的么？#

使用 $F$ 统计量回答

F={\frac{(\mathrm{TSS}-\mathrm{RSS})/p}{\mathrm{RSS}/(n-p-1)}}{\sim}F_{p,n-p-1}

零假设 $H_0$ ：所有 $\beta_j=0$ ，即没有预测变量是有用的

备择假设 $H_a$ ：至少有一个 $\beta_j \ne 0$ ，即至少有一个预测变量是有用的

如果零假设成立，则上述 $F$ 统计量服从自由度为 $p$ 和 $n-p-1$ 的 $F$ 分布。

使用 $F$ 统计量，而不是进行多重假设检验（即单独检验每个 $\beta_j$ 是否为零，是为了避免多重假设检验使假阳性显著增加的问题）

如果用各个预测变量的 $t$ 统计量进行单独检验，则每个检验都有一定的犯第一类错误的概率，多个检验累积起来会显著增加整体犯第一类错误的概率。

Q2：判断重要的变量#

即变量选择问题。

显而易见的方法是最优子集选择法（Best Subset Selection）：对于给定的 $p$ 个预测变量，考虑所有可能的 $2^p$ 个子集（一般按照预测变量的个数 $\binom{p}{k}, k = 0, 1, \ldots, p$ ），选择使得某个评价指标（如 $R^2$ 、调整后的 $R^2$ 、AIC、BIC、交叉验证误差等）最优的子集。

然而，当 $p$ 较大时，最优子集选择法计算量过大，难以实现。此时可以使用前向选择和后向选择法。

前向选择（Forward selection）#

从零模型开始：

建立简单线性回归模型，并把使 $RSS$ 最小的变量添加到零模型中；（一共 $p$ 个简单线性回归模型，选 $1$ 个）
再加入一个新变量，得到新的双变量模型，加入的变量是使新模型的 $RSS$ 最小的变量；（一共 $(p-1)$ 个两变量线性回归模型，选 $1$ 个）
这一过程持续到满足某种停止规则为止。

后向选择（Backward selection）#

从包含所有预测变量的全模型开始：

从全模型中删除一个变量，删除的变量是使得新模型的 $RSS$ 最小的变量；（一共 $p$ 个 $(p-1)$ 变量线性回归模型，选 $1$ 个）
再删除一个变量，得到新的 $(p-2)$ 变量模型，删除的变量是使得新模型的 $RSS$ 最小的变量；（一共 $p-1$ 个 $(p-2)$ 变量线性回归模型，选 $1$ 个）
这一过程持续到满足某种停止规则为止。

Q3：模型对数据的拟合程度#

RSE 和 $R^2$ 同样适用于多元线性回归模型。

$R^2$ 统计量衡量的依然是方差的解释比例，需要注意在多元线性回归中， $R^2$ 等于 $Cor(Y, \hat{Y})^2$ ，是响应值和拟合值相关系数的平方线性拟合的特征：在所有可能的模型中，使上述相关系数最大。

直观理解多元线性回归中的 $R^2$ 为所有预测变量一起，解释了响应变量多少比例的变异性。该值一定大于等于各个预测变量单独与响应变量的相关系数，即 $R^2 >= \max_j r_j^2$ ，但是又小于等于各个预测变量与响应变量相关系数平方之和，即 $R^2 <= \sum_{j=1}^p r_j^2$ 。原因是：预测变量之间可能存在相关性（共线性），导致各个预测变量与响应变量的相关系数平方之和高估了总的解释变异性。

辨别共线性和交互作用：共线性是指预测变量之间存在高度相关性，而交互作用是指一个预测变量对响应变量的影响取决于另一个预测变量的取值。从图像上来说，如果观察到某两个预测变量的散点图呈现线性关系，则存在共线性；而交互作用则在散点图上并不能体现，需要固定一个预测变量的值，观察另一个预测变量与响应变量的关系是否为线性变化。

有出现既存在共线性又存在交互作用的情况。

回归模型的其他注意事项#

3.1 定性预测变量#

定性预测变量#

引入 dummy variable（哑变量）来表示定性预测变量。用哑变量和某个变量的乘积项来表示定性预测变量的作用，该变量可以代表某种平均差异。具有 $k$ 个类别的定性变量需要引入 $k-1$ 个哑变量，即有一种情况是没有相对应的哑变量的水平的变量，此时成为基准水平（baseline）。本质上 $k - 1$ 是为了避免多重共线性问题。

3.2 线性模型的扩展#

前文提到线性模型的两个个最重要的假设是预测变量和响应变量的关系是可加的和线性的。

去除可加性假设#

引入交互项即可，例如对于两个预测变量 $X_1$ 和 $X_2$ ，引入交互项 $X_1 X_2$ ，则模型形式为：

Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 (X_1 X_2) + \epsilon

需要注意的是，交互项的引入会影响主效应的解释。例如，在上述模型中， $\beta_1$ 不再表示 $X_1$ 对 $Y$ 的独立影响，而是表示在 $X_2 = 0$ 时， $X_1$ 对 $Y$ 的影响。

实验分层原则：在引入交互项时，通常需要同时保留主效应项，以确保模型的完整性和解释性。

非线性关系#

对预测变量进行变换，例如多项式回归（polynomial regression），对某个预测变量 $X$ 引入其高次项 $X^2, X^3$ 等，模型形式为：

Y = \beta_0 + \beta_1 X + \beta_2 X^2 + \ldots + \beta_k X^k + \epsilon

需要注意的是，多项式回归虽然引入了非线性关系，但模型仍然是线性的，因为模型对参数 $\beta_j$ 是线性的。

3.3 潜在的问题#

问题1：数据的非线性#

以上已经提及，可以通过对预测变量进行变换（如多项式回归）来捕捉非线性关系。

问题2：误差项自相关#

误差项自相关指的是误差项 $\epsilon_i$ 之间存在相关性，违反了线性回归模型中误差项独立同分布的假设。常见于时间序列数据或空间数据中。

如果在时序序列出现：已经有很多方法解决，比如增加采样时间；
如果在非时序序列出现：良好的实验设计，随机化实验设计等。

问题3：误差项方差非恒定#

误差项方差非恒定（Heteroscedasticity）指的是误差项 $\epsilon_i$ 的方差随着预测变量的取值而变化，违反了线性回归模型中误差项具有恒定方差的假设。

解决方法：

对响应变量进行变换（如对数变换、平方根变换等），或者使用加权最小二乘法（Weighted Least Squares, WLS）来处理异方差性问题。这样可以使得误差项的方差趋于恒定，从而满足线性回归模型的假设。
估计每个响应值的方差，使用加权最小二乘模型（WLS），权重与方差的倒数成比例。本质上也是对响应变量进行变换。

WLS 模型形式为：

\frac{Y_i}{\sqrt{w_i}} = \beta_0 \frac{1}{\sqrt{w_i}} + \beta_1 \frac{X_{i1}}{\sqrt{w_i}} + \ldots + \beta_p \frac{X_{ip}}{\sqrt{w_i}} + \frac{\epsilon_i}{\sqrt{w_i}}

其中 $w_i$ 是第 $i$ 个观察值的权重，通常设为误差项方差的倒数，即 $w_i = \frac{1}{Var(\epsilon_i)}$ 。

问题4：离群点#

离群点（Outliers）是指对于某些观察值，其响应变量 $Y$ 的值与预测值 $\hat{Y}$ 相差较大，导致残差 $e_i = Y_i - \hat{Y}_i$ 绝对值较大。

离群点通常对最小二乘拟合影响不大。

残差图可以用来识别离群点。可以绘制学生化残差（Studentized Residuals）图，学生化残差即为由残差 $e_i$ 除以它的估计标准误得到。学生化残差绝对值大于 $3$ 的观测点可能是离群点。

这里引入杠杆统计量，用于衡量某个观察值在预测变量空间中的位置对回归模型拟合的影响力。杠杆值 $h_i$ 的计算公式为：

h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{j=1}^{n} (x_j - \bar{x})^2}

估计标准误即为：

SE(e_i) = RSE \sqrt{1 - h_i} = \sqrt{RSS/(n - p - 1)} \sqrt{1 - h_i} = \hat{\sigma} \sqrt{1 - h_i}

多变量线性回归此处按下不表。

问题5：高杠杆点#

高杠杆点（High Leverage Points）是指在预测变量空间中，某些观察值的预测变量 $X$ 的取值远离其他观察值的取值，导致这些观察值对回归模型的拟合有较大影响。

杠杆统计量 $h_i$ 的取值总是在 $\frac1n$ 和 $1$ 之间，且所有观测的平均杠杆值总是等于 $\frac{p+1}{n}$ 。因此，如果给定观测的杠杆统计量大大超过 $\frac{p+1}{n}$ ，那么我们可能会怀疑对应点有较高杠杆作用。

问题6：共线性#

共线性（Collinearity）是指在多元线性回归中，某些预测变量之间存在高度相关性，导致这些变量无法独立地解释响应变量的变异性。

如果存在共线性， $SE(\hat{\beta}_j)$ 变大，导致假设检验的 $t$ 值即 $\frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}$ 变小，导致 $p$ 值变大，进一步导致我们可能无法拒绝 $H_0: \beta_j = 0$ ，即假设检验正确地检测出非零系数的概率被共线性减小了。

检测共线性的一个简单方法是看预测变量的相关系数矩阵。但即使没有某对变量具有特别高的相关性，有可能三个或更多变量之间存在共线性 $(c=a+b)$ ，称为多重共线性。

另一种检测共线性的方法是计算方差膨胀因子（Variance Inflation Factor, VIF）：

VIF(\hat{\beta}_j) = \frac{1}{1 - R_j^2}

其中 $R_j^2$ 是将第 $j$ 个预测变量作为响应变量，其他所有预测变量作为预测变量进行线性回归时得到的 $R^2$ 。

如果 $VIF(\hat{\beta}_j)$ 较大（通常认为大于 $5$ 或 $10$ ），则说明存在严重的共线性问题。

共线性的存在意味着在其他变量存在的前提下，此变量提供的有关相应的信息是多余的。

解决方法：

删除某些预测变量，尤其是那些与其他变量高度相关的变量；
合并相关变量，例如通过主成分分析（PCA）将多个相关变量合并为一个综合变量；

线性回归与KNN的比较#

4.1 线性回归与K最近邻法的比较#

线性回归与K最近邻法的比较#

线性回归是参数方法的一个特例，而 K 最近邻法是非参数方法的一个特例。

非参数方法：不明确假设一个参数化的形式。

当真实关系为线性时，KNN 略逊于线性回归；当真实关系为非线性时，KNN 大大优于线性回归。

高维问题中，KNN的表现往往不如线性回归，因为高维空间中数据点之间的距离变得越来越相似，导致 KNN 难以有效区分近邻和远邻，从而影响预测性能。这种现象被称为“维度灾难”（Curse of Dimensionality）。

即使是在低维问题也更倾向于线性回归。虽然损失一些精度，但是模型简单， $p$ 值清晰，可解释性强。

高级统计方法 第一轮学习 Chapter 3 线性回归#

简单线性回归#

1.1 怎样估计系数#

估计系数——最小二乘估计#

1.2 估计系数的准确性#

怎么理解系数估计值的准确性#

1.3 评价模型的准确性#

评价模型准确性#

预测的不确定性：预测区间和置信区间#

1.4 统计量简单梳理#

多元线性回归#

2.0 多元线性回归#

多元线性回归#

2.1 估计回归系数#

估计回归系数#

2.2 多元线性回归的一些重要问题#

一些重要问题#

Q1：至少有一个预测变量是有用的么？#

Q2：判断重要的变量#

前向选择（Forward selection）#

后向选择（Backward selection）#

Q3：模型对数据的拟合程度#

回归模型的其他注意事项#

3.1 定性预测变量#

定性预测变量#

3.2 线性模型的扩展#

去除可加性假设#

非线性关系#

3.3 潜在的问题#

问题1：数据的非线性#

问题2：误差项自相关#

问题3：误差项方差非恒定#

问题4：离群点#

问题5：高杠杆点#

问题6：共线性#

线性回归与KNN的比较#

4.1 线性回归与K最近邻法的比较#

线性回归与K最近邻法的比较#

高级统计方法第一轮学习 Chapter 3 线性回归#