admin 管理员组文章数量: 1086019
2024年4月15日发(作者:动态规划算法最优二叉搜索树)
使用STATA分析离散因变量模型
我们主要考察以下三个变量:
1) distress:“热动力损坏事故”的数量。
2) temp:“在发射时候的温度”,用华氏表示。
3) date:由1960年1月1日(一个任意的开始时间)以后的日期数量来表示。日期
由mdy来生成。
Generate date=mdy(month, day, year)
Label variable date “Date (day since 1/1/60)
这里的变量”distress” 是一个有标记的数值变量。
Tabulate distress
在一般的情况下,这个命令将显示出标签,但是我们同样可以使用nolabel来显示数字,以
0代表“none”,1代表“1或2”,以及2代表“3以上”。
Tabulate distress, nolabel
我们可以使用下列代码创建一个新的虚拟变量any,以0代表没有distress,1代表有一次或
多次危险事故。
Generate any=distress
Replace any=1 if distress==2
Label variable any “Any thermal distress”
为了看到这些命令的效果,键入:
Tabulate distress any
Logistic回归建立的模型是是一个{0,1}解释变量如何依赖于一个或多个x变量。Logit
命令的格式与regress类似,都是首先列出因变量。
Logit any date, coef
Logit 的递归估计过程最大化对数似然函数,这些都在输出内容的开始进行显示。在第
0次递归中,对数似然函数描述了模型只对一个常数项进行回归。最后的对数似然函数描述
了对于最终模型的拟合。
L=-18.13116+.0020907date
其中L的含义是:
L=ln(P(any=1)/P(any=0))
总体的检验的原假设是所有的除了常数项以外的系数都为0,它的定义为:
是最后一次递归的
其中的是初始递归(只有常数项的模型)的对数似然函数值,而
对数似然函数值,这里,
-2[-15.394543-(-12.991096)]=4.81
由回归结果可以看到这里的P值为0.0283,所以date变量具有比较显著的效果。
不太精确的,但是为了方便,在这里还给出了渐进的z(标准正态)统计量。在一个自
变量的情况下,z统计量与统计量有相同的含义。这与在简单OLS回归中所使用的t与F
统计量类似。但是,不像OLS的情况那样,logit的z近似与统计量有时并不相同(在这里
即是如此)。统计量有着更为一般的适用性。
像STATA的其他最大似然估计过程一样,logit同样显示了pseudo的
在我们的例子中,
1-(-12.991096)/(-15.394543)=.1561
,其定义如下:
虽然这提供了一个快速的方式来描述和比较模型的拟合情况,但是
OLS回归中的那样可以直接对方差进行解释。
在logit回归以后,我们使用predict命令(没有参数)来获得预测的概率:
做这个预测关于date的图,则我们可以得到S型的logistic曲线。
Predict Phat
Label variable Phat “Predicted P(distress>=1)”
并不像
Graph twoway connected Phat date, sort
由logit所给出的系数(.0020907)描述了date对于logit或危险会发生的对数率的作用。
每增加一天会增加预测的危险对数率为.0020907。等价的说,每增加一天将预测的危险发生
的概率增加了(以乘的方式)
为:
Display exp(_b[date])
Display exp(_b[date])^100
或者,我们可以在logit命令行中加入or(odds ratios)选项。另外一个可以选择的方式
是使用下节中所介绍的logistic命令。Logistic与logit会拟合相同的模型,但是其默认的输出
表格是显示概率而不是系数。
二、使用Logistic 回归
这里我们进行与刚才相同的回归,但在这里使用logistic命令而不是logit命令。
Logistic any date
我们可以注意到在这个回归中有着相同的对数似然值与统计量。不是报告回归系数(b),
,因此每100天就会以乘的方式增加其
.。STATA可以进行这些计算使用_b[varname]来保存估计的结果:
logistic将显示odds ratio().其代表的是当自变量增加一个单位的时候y=1的概率将增加
的单位数量(以乘的方式)。
在拟合了模型以后,我们可以使用下面的命令获得统计量表
Lstat
默认的,lstat以0.5的概率作为分界值(虽然我们可以通过cutoff()选项来改变它)。在
分类表中的符号有下面的含义:
D 所感兴趣的事件对于那个观测确实发生。在我们的例子中是危险确实发生。
~D 所感兴趣的事件对于那个观测不发生。在我们的例子中是不发生危险。
+ 模型所预测的概率大于或等于临界值。由于我们在这里使用的是默认的临界值,
所以这里的+代表着预测的危险发生概率大于或等于0.5。
- 预测的概率小于临界值。这里-号意味着预测的危险发生概率会低于0.5。
这样,有12个观测,分类是正确的,其中模型估计了至少0.5的概率危险发生,而危
险确实发生了。而有5个观测,模型预测了小于0.5的概率,危险并没有发生。所以总共的
23个观测中总“正确分类”比率为73.91%。表格同时还给出了一些条件概率,比如给定危
险发生时观测大于0.5的概率(12/14=85.71%)
那么,温度是否也会影响到危险发生的概率呢?我们加入temp作为第二个解释变量。
Logistic any date temp
下面的分类表显示包含温度作为解释变量会改进我们的正确分类比率为78.26%。
根据所拟合的模型,温度每增加一度乘以损坏率为.84。(也就是说,每增加一度会降低
损失的概率为16%),虽然这个结果看来是合理的,但是,渐进的z统计量却显示了它不是
显著的(z=-1.476,P=.140)一个更为确定的检验,包含对数似然比。Lrtest命令比较了由
最大似然估计所建立的模型。首先,估计一个“完全”的模型,其包含所有的感兴趣的变量,
就像上面的logistic any date temp命令。接着,键入estimate store命令,给一个名字来代替
版权声明:本文标题:使用STATA分析离散因变量模型(修复的) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1713180983a622798.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论