您所在位置: 网站首页 / 自变量选择与逐步回归.doc / 文档详情
自变量选择与逐步回归.doc 立即下载
2024-08-19
约4.5千字
约5页
0
182KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

自变量选择与逐步回归.doc

自变量选择与逐步回归.doc

预览

在线预览结束,喜欢就下载吧,查找使用更方便

10 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

自变量选择与逐步回归
一、全模型和选模型
设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型称为全模型。
如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型称为选模型。
二、自变量选择对预测的影响
自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。
1、全模型正确而误用选模型的情况
性质1,在与的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即()
性质2,选模型的预测是有偏的。
性质3,选模型的参数估计有较小的方差。
性质4,选模型的预测残差有较小的方差。
性质5,选模型的均方误差比全模型预测的方差更小。
性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。
性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。
性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。
2、选模型正确而误用全模型的情况
全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。
一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。
三、所有子集回归
1、所有子集的数目
设在一个实际问题的回归建模中,有m个可供选择的变量,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有-1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有个。
从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方法共有线性组合个,因而所有选模型的数目为:。
2、关于自变量选择的几个准则
把选模型的残差平方和记为,当再增加一个新的自变量时,相应的残差平方和记为。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有,它们的负决定系数分别为:,,由于SST是因变量的离差平方和,与自变量无关,因而有,即当自变量子集在扩大时,残差平方和随之减少,而复决定系数随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。
准则一:自由度调整复决定系数达到最大。
当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设为自由度调整后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。则所有回归子集中最大者对应的回归方程就是最优方程。
从另外一个角度考虑回归的拟合效果,回归误差项的无偏估计为:
,此无偏估计式中也加入了惩罚因子n-p-1,实际上就是用自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,先是开始下降然后稳定下来,当自变量个数增加到一定数量后,又开始增加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而是趋于减小的。当自变量数目增加到一
查看更多
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

自变量选择与逐步回归

文档大小:182KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用