您所在位置: 网站首页 / Logistic-statistic-model0.doc / 文档详情
Logistic-statistic-model0.doc 立即下载
2024-11-19
约6.2千字
约15页
0
888KB
举报 版权申诉
预览加载中,请您耐心等待几秒...

Logistic-statistic-model0.doc

Logistic-statistic-model.doc

预览

免费试读已结束,剩余 10 页请下载文档后查看

8 金币

下载文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

LogisticStatisticModel

一、基本概念

什么是P-Value?

这是统计学中最重要的基本概念,所谓P-Value是指拒绝H0所犯的第一类错误,通常阈值是0.05.也就是说,不管是什么统计量(F统计量,T统计量,卡方统计量等等),在H0假设成立下都会有一个唯一对应的P-Value,如果算出来的P-Value小于阈值,则说拒绝H0,反之,不能拒绝H0,但是千万不要说接受H0!

什么是点估计和区间估计?

点估计:利用样本数据对未知参数进行估计得到的是一个具体的数据。区间估计:通过样本数据估计未知参数在置信度下的最可能的存在区间得到的结果是一个区间。

什么是置信区间?

在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。


什么是LSE(LeastSquaresEstimation)和MLS(MaximumLikelihoodEstimation)?

LSE是最小化误差的平方和估计分布中参数出现的值。MLS是估计分布中参数最大可能出现的值(注意:不是最大值,是最大可能性)。不管是LSE还是MLS,其样本背后所隐含的分布都是假设为已知分布。这一点请务必注意。考虑一个抛硬币的例子。假设这个硬币正面跟反面轻重不同。我们把这个硬币抛80次(即,我们获取一个采样并把正面的次数记下来,正面记为H,反面记为T)。并把抛出一个正面的概率记为p,抛出一个反面的概率记为1−p(因此,这里的p即相当于上边的θ)。假设我们抛出了41个正面,39个反面,即41次H,39次T。由于它背后隐含的是二项分布,使用最大似然估计,通过这些试验数据(即采样数据),我们可以计算出哪个硬币的可能性最大。这个可能性函数取以下三个值中的一个:

可以计算,当p=1/2时,可能性函数取得最大值。这就是P的最大似然估计.
选择预测模型时一定要考虑响应变量分布吗?
不一定:当我们只预测响应变量的点估计时,不需要考虑,此时点估计的值只和你假定的Y与X之间的关系有关,于Y是什么分布无关。可以通过LSE或者MLS来估计Y的值。但是如果我们要预测Y值的区间估计,或者要对预测系数进行显著性检验时,就需要考虑Y是什么分布了。
二、logistic回归模型

假设在自变量X1,X2,…,Xn作用下,某事件发生的概率为P,则该事件不发生的概率为1-P,P/1-P为发生概率和不发生概率之比,记做“优势”(Odds),若对Odds取自然对数,得到:


称为P的logit变换,则logistic回归模型为:

则概率计算公式为:


Logistic回归模型与一般线性回归模型的区别:
线性回归模型的结果变量(outcomevariable)或因变量(dependentvariable)或反应变量(responsevariable)与自变量之间的关系是线性的,而Logistic回归中因变量与自变量之间关系是非线性的。
在线性回归中通常假设,对应自变量X的某个值,因变量Y的观测值具有正态分布,但是在logistic回归中,因变量Y却是二项发布(0和1)或多项分布。
在logistic回归中,不存在线性回归中有的残差项。

三、Logistic回归模型估计方法论和假设条件

Logistic回归模型估计采用是MLS方法论来估计参数。其假设条件与LSE回归比较类似。
数据必须来自随机样本。
因变量Y被假定为K个自变量的函数。
自变量是确定性变量,不是随机变量。
正如LSE回归,logistic回归也对多元共线性(muliti-collinearity)敏感。自变量之间存在多元共线性也会导致标准误的膨胀。
但是还有一些与LSE不同的假设:
因变量Y是分类变量,研究的兴趣是在X发生时事件发生的条件概率。
自变量和因变量之间是非线性关系,可以通过Logit函数转换成线性关系。
在LSE回归中对残差要求独立同分布(IID),但在logistic中却不需要,因为logistic没有残差项。

四、logistic回归模型评价

在实际应用中,人们往往只对回归模型自身的“好坏”以及回归系数的显著性关注,评价回归模型“好坏”的主要指标有:

1.拟合优度(goodnessoffit)

拟合优度度量的是预测值和观测值之间的一致性。但是在评价模型时,实际上测量的是预测值和观测值之间的差别,也就是说,我们实际上检验的是模型预测的“劣度”,而不是“优度”,即拟合不佳检验(lackoffittest)。常用的两个指标:
Hosmer-Lemeshow指标和信息测量指标(InformationMeasures)。

HL指标是一种类似于皮尔逊卡方统计量的指标,其对应的H0是预测值概率和观测值之间无显著差异,所以,如果HL指标显示较大的P-Value,说明统计结果不显著,因此,我们不能拒绝
查看更多
赫赫****等你
实名认证
内容提供者
单篇购买
VIP会员(1亿+VIP文档免费下)

扫码即表示接受《下载须知》

Logistic-statistic-model0

文档大小:888KB

限时特价:扫码查看

• 请登录后再进行扫码购买
• 使用微信/支付宝扫码注册及付费下载,详阅 用户协议 隐私政策
• 如已在其他页面进行付款,请刷新当前页面重试
• 付费购买成功后,此文档可永久免费下载
全场最划算
12个月
199.0
¥360.0
限时特惠
3个月
69.9
¥90.0
新人专享
1个月
19.9
¥30.0
24个月
398.0
¥720.0
6个月会员
139.9
¥180.0

6亿VIP文档任选,共次下载特权。

已优惠

微信/支付宝扫码完成支付,可开具发票

VIP尽享专属权益

VIP文档免费下载

赠送VIP文档免费下载次数

阅读免打扰

去除文档详情页间广告

专属身份标识

尊贵的VIP专属身份标识

高级客服

一对一高级客服服务

多端互通

电脑端/手机端权益通用