admin 管理员组文章数量: 1184232
2024年3月26日发(作者:strlen函数为什么永不了)
stata按产量汇总
统计数据汇总是数据发布和数据分析研究的基础,也是统计工作者必不可少的一项工
作技能。目前统计工作中数据汇总大体上有两种方式,一种是通过国家统计联网直报平台
或其他数据报送平台定制的数据汇总表对调查数据进行汇总,这种汇总方式操作简单,快
捷,但是汇总表是通过平台定制,汇总的分组和结构固定,灵活性不足。另一种途径是统
计工作者根据工作需要,选取数据汇总软件,对企业或者个人报送的统计数据进行汇总。
这种汇总方式灵活性大,时效性强,但是需要借助相应的数据汇总软件完成。
Stata 由美国计算机资源中心研制,是一套提供其使用者数据分析、数据管理以及绘
制专业图表的完整及整合性统计软件。Stata功能强大,相对简单易学,并且能够应对经济
普查、人口普查等上百方条样本数据的汇总工作。本文就如何运用Stata完成统计数据汇
总工作加以介绍。
合并数据文件
统计调查的原始数据经常存放在不同的数据文件里,比如,调查企业通过“调查单位
基本情况表”上报企业所在地、登记注册类型等情况,通过“财务状况表”上报财务相关
指标。在数据汇总前,需要将两个数据文件进行合并,才能实现对财务指标的分地区、分
行业等交又分组总。最常用的合并方式有两种:
1.数据文件的横向合并。横向合并是将两个数据文件的变量合并到一起,合并后数据
样本不变,但变量数目增加,也就是数据文件变宽了。Stata中只需指定合并序号变量,使
用“merge”命令即可实现两个数据文件的横向合并。实际工作中,常把企业的组织机构
代码(xzjgdm)作为序号变量。比如,将“调查单位基本情况(101-1表)”数据文件“”
和“财务状况表”数据文件“”按照合并的命令为:use jbqk,clear merge zzgjdm
using cwzk实际上,Stata不仅可以将两个dta文件合并,也可以直接读入csv、txt等格
式的文件,完成数据合并。两个数据文件合并过程中,Stata还自动生成了一个新的变量
“_merge”,merge赋值为1,2,3中的一个。上例中,merge值为1代表该样本在“”
数据文件中,为2代表样本在“”数据文件中,为3代表样本在“”和“”中同时存在。
这样,通过_merge变量,我们就可以方便完成两个数据文件的比对。
2.数据文件的纵向合并。纵向合并是把两个数据文件的样本加总在一起,合并后样本
变量数H不变,样本数增加,也就是数据文件变长了。最常见的纵向合并情况是对一项调
查在不同地区或者不同时间得来的数据进行合并。Stata纵向合并数据文件的命令为
“append”.天津市调查数据的数据文件“”纵向合并的命令为:
use bj,clear append usingtj需要注意的是,在纵问合并两个数文件前,两个文件
中相同变量的变量名要一致,否则将会被当成两个变量处理,并产生无用的缺失值。同时,
相同变年的变类型要致。
汇总问卷调查结果
问卷调查时效性较强,调查结果容易量化,便于统计处理与分析,是常用的统计调查
方法、问卷调查结果用进行汇总常方使,使用“tabulate”命令,可方便的1:成
列联表,根变量的频数分可以得到问卷回答情况的汇总结果。比如,对10000个样本企业
开展问卷测查,涉及10个问题,分别为:WT1,T2.……WT10
(每个问题的答案均为A、B、C、D四个远项)。总问题wT1的山爷情况时,只需
输入命令:labulatcWT1,即可得到WW1样本回答情况的频数(Tra)、百分比(Percn1)
及累计百分比(Cum)指标(Stata输出结果见表1),从Freg输出结果可见,样本企业
对WT1的回答情况为:选择答案A、B、C、D的企业数量分州为1000、3000、1000和
2000个。Percent结果给出了选择答案1、2、3、1的比重分州为10%,30%、40%和
20%同时,“tabulate”命令还可以生成艺维列联表,比如,需要对问题WT1做分省回
答结果的汇总时,只需对省代码(sr)和WT1执行“tabulate”总。Stata命令为:tabulate
sfTl,即可输出表2格式的汇总结米假设词查只涉及北京市(代码11)、天津市(代码12)、
河北省(代码13)类似的,可以对每一个问题的调查结果分行业、分记注类型、分控股情
况等做交叉分组总。汇总牛产经营情况调杏结果
现行的统计报表制度更多的是对调查单位的生产经吉情况井展华度、季度或者是月应
调查。口常的数据:总工作更多的是对生产经营指标做各种交义分组汇总。
与间卷调查结果不同,生产经营情况的调查结果需要对调查指标数摒加总或通过计算
生成新的指标,因此,我们首先要生成新的变量,来记求相应指标的总结果。Stata生成新
变量的命令为
“gnerat:“及其扩展命令“cgi”,“gieraL:”用来生成一般变量,“egen”可以生
成包含函数表达式的变量。比如.我们对规模以上服务业企业“财务状况(F103表)”中
“营业收入”指标的本年(yy*r1)和上牛同期(yysr2)数据进行汇总,并计算两年的同
比增速(d),用到的Stata语句为:
cgen a sur(yysr1)
egen b sur(yysr2)
gcnd=(a/b)*100-100共1:“sum()“为求和函数,变量a用来记录“营业收
入”本午的合计数,变量b月来记录“营业收入”l:午同期的合计数,变量d用来记录“营
业收入”的同比增速。
统计调查表中通常色含多个指标,我们可以使用SLala的循环语句“furvalues”同时
对多个指标总、比如,我们对规模以上服务业企业“财务状况(F103表)”涉及的31个
财务指标汇总。31个指标的年和上年可期数我们分别用ai和bi(i=l.2,…,31)表示。
总语句为:
furvalues i=1/31
cgen sumai'=sum(ai eweh sunb i'=sun(b i'
sen di'=(suma i'umb i >*100-10031个指标的本年和l:午同期:总数末分别记求
于sumai和sumbi变量,di为同比速(i=1,2…,31)我们还可以用“by+变量名”实
现各种交叉分组总。比如,分省汇总“营业收入”本年(yysr1)和上年同期数(yysr2)
指标的Stata 语句为:
by sf,surt:egen a=sum(yysrl)by sI,sart:cgen b sum(yysr2)
其巾:“sort”命令为排序命令,对省代码(sf)变量按照从小到大排序。在用“by”
命令对变进行分类总前,必须要对分类变审进行排产。运用“by+变量名”我们还可以进·步
实现分行业分指标、分登记注册类型分指标及分省分行业等父义汇总工作。比如,分省分
行业大类总“营业收入”指标的语句为:
surt sf hydl:egen suma=sum(yysrl)
#orl.s hydl:esen saumb-sum(yysr2)
综上可见,运用Stala话句,可以快速、灵活的完成统计数据的各种交叉总工作,为
数据的审核及后续的分析研究T.作带来便利。
同时,Stata的数据汇总结果既可以以文本格式直接粘贴进vard等文字编辑器,也可
以以表格的形式粘贴进Exce1等数据表格处班器,便下存储和使用。
版权声明:本文标题:stata按产量汇总 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1711445389a594481.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论