ols回归是什么意思?有什么特点?

如题所述

不知道下面的图能不能看清楚,是Andy Field 第三版教材 203 页解释回归/osl 的一个图。ols 全称ordinary least squares,是回归分析(regression analysis)最根本的一个形式(算是ordinary代表的意思),结合下面的图解释下lease 和 squares 这两个词。(抱歉我的统计是英文学的,所以有些地方可能中文对的不好)


最简单的回归模型(model,就是 IV,可以是一个或者多个)包括(1)一个自变量(independent variable,IV) (横轴)和(2)一个因变量 (dependent variable,DV) (纵轴)。下面散点图中的数据点是实际DV的值(observed value),图中的线就是预测模型。左图中的一条横线(表示IV和DV没有关系)是平均值模型,也是OSL/回归默认设定的零模型(zero model),也就是不含任何IV的情况下只用平均值可以如何预测DV。中间图中的斜线是IV模型,也就是需要验证的模型(图中的关系很明显是线性关系 linear relationship)。右图中的两条交叉线是IV模型和零模型的比较,看IV模型是否能够在统计上显著地比零模型更多预测DV。这就是osl的基本原理。




具体一点就要涉及上图下半部分的文字框和一点公式了。先说osl里的 “squares”。无论是左图零模型用平均值预测,还是中间图用IV预测,都是计算出每个数据点和那条线之间的距离,也就是预测值(predicted value)与实际值(observed value)的差距(即误差,error),运算上用减法表示。零模型里就是用每一个实际DV值减去平均值(左图标出的每一个点到平均线的距离),IV模型就是实际值减去IV预测的DV值。这样计算得出的差显然有正有负,如果直接加到一起就会互相抵消。所以,解决的方法就是把每一个差都平方后再加到一起,就是sum of squares(也叫variance,方差)。这就是osl里面 “square” 是的由来。左图下面文字框红色圈起来的“SSt” 表示全部可预测的方差(因为不含任何IV),total sum of squares,下标字母T是total的缩写。


下面说 osl 里的 “least”。中间图里的线是IV模型,这条线叫做 line of best fit,也就是所有线里面误差(residual,就是error)最小,即实际值和预测值距离最短的那条线。这就是”least“ 的由来。红色圈起来的“SSr”表示IV模型下最小的误差方差,residual sum of squares,下标字母R是residual(错误)的缩写。


把第三个散点图说完。两个预测模型的差( SSt - SSr)的结果就是SSm,也就是IV模型预测的方差,model sum of squares。换句话说,就是全部可预测的方差,减去IV模型的误差,剩下的就是IV模型预测的方差。前面说要看两个模型的差异是否在统计上显著,就用SSm / SSr,看到这里可能就眼熟了。对,这就是方差分析(ANOVA,analysis of variance)里 F ratio 的公式。所以统计软件里做回归的时候看IV模型是否显著是要找那个标了ANOVA 的表格,看里面的F值是否显著。F值越大越可能显著,也就是分子SSm (“好”方差)越大SSr(“坏”方差)越小。

温馨提示:答案为网友推荐,仅供参考
相似回答