admin 管理员组

文章数量: 1184232


2024年3月26日发(作者:strlen函数为什么永不了)

stata按产量汇总

统计数据汇总是数据发布和数据分析研究的基础,也是统计工作者必不可少的一项工

作技能。目前统计工作中数据汇总大体上有两种方式,一种是通过国家统计联网直报平台

或其他数据报送平台定制的数据汇总表对调查数据进行汇总,这种汇总方式操作简单,快

捷,但是汇总表是通过平台定制,汇总的分组和结构固定,灵活性不足。另一种途径是统

计工作者根据工作需要,选取数据汇总软件,对企业或者个人报送的统计数据进行汇总。

这种汇总方式灵活性大,时效性强,但是需要借助相应的数据汇总软件完成。

Stata 由美国计算机资源中心研制,是一套提供其使用者数据分析、数据管理以及绘

制专业图表的完整及整合性统计软件。Stata功能强大,相对简单易学,并且能够应对经济

普查、人口普查等上百方条样本数据的汇总工作。本文就如何运用Stata完成统计数据汇

总工作加以介绍。

合并数据文件

统计调查的原始数据经常存放在不同的数据文件里,比如,调查企业通过“调查单位

基本情况表”上报企业所在地、登记注册类型等情况,通过“财务状况表”上报财务相关

指标。在数据汇总前,需要将两个数据文件进行合并,才能实现对财务指标的分地区、分

行业等交又分组总。最常用的合并方式有两种:

1.数据文件的横向合并。横向合并是将两个数据文件的变量合并到一起,合并后数据

样本不变,但变量数目增加,也就是数据文件变宽了。Stata中只需指定合并序号变量,使

用“merge”命令即可实现两个数据文件的横向合并。实际工作中,常把企业的组织机构

代码(xzjgdm)作为序号变量。比如,将“调查单位基本情况(101-1表)”数据文件“”

和“财务状况表”数据文件“”按照合并的命令为:use jbqk,clear merge zzgjdm

using cwzk实际上,Stata不仅可以将两个dta文件合并,也可以直接读入csv、txt等格

式的文件,完成数据合并。两个数据文件合并过程中,Stata还自动生成了一个新的变量

“_merge”,merge赋值为1,2,3中的一个。上例中,merge值为1代表该样本在“”

数据文件中,为2代表样本在“”数据文件中,为3代表样本在“”和“”中同时存在。

这样,通过_merge变量,我们就可以方便完成两个数据文件的比对。

2.数据文件的纵向合并。纵向合并是把两个数据文件的样本加总在一起,合并后样本

变量数H不变,样本数增加,也就是数据文件变长了。最常见的纵向合并情况是对一项调

查在不同地区或者不同时间得来的数据进行合并。Stata纵向合并数据文件的命令为

“append”.天津市调查数据的数据文件“”纵向合并的命令为:

use bj,clear append usingtj需要注意的是,在纵问合并两个数文件前,两个文件

中相同变量的变量名要一致,否则将会被当成两个变量处理,并产生无用的缺失值。同时,

相同变年的变类型要致。

汇总问卷调查结果

问卷调查时效性较强,调查结果容易量化,便于统计处理与分析,是常用的统计调查

方法、问卷调查结果用进行汇总常方使,使用“tabulate”命令,可方便的1:成

列联表,根变量的频数分可以得到问卷回答情况的汇总结果。比如,对10000个样本企业

开展问卷测查,涉及10个问题,分别为:WT1,T2.……WT10

(每个问题的答案均为A、B、C、D四个远项)。总问题wT1的山爷情况时,只需

输入命令:labulatcWT1,即可得到WW1样本回答情况的频数(Tra)、百分比(Percn1)

及累计百分比(Cum)指标(Stata输出结果见表1),从Freg输出结果可见,样本企业

对WT1的回答情况为:选择答案A、B、C、D的企业数量分州为1000、3000、1000和

2000个。Percent结果给出了选择答案1、2、3、1的比重分州为10%,30%、40%和

20%同时,“tabulate”命令还可以生成艺维列联表,比如,需要对问题WT1做分省回

答结果的汇总时,只需对省代码(sr)和WT1执行“tabulate”总。Stata命令为:tabulate

sfTl,即可输出表2格式的汇总结米假设词查只涉及北京市(代码11)、天津市(代码12)、

河北省(代码13)类似的,可以对每一个问题的调查结果分行业、分记注类型、分控股情

况等做交叉分组总。汇总牛产经营情况调杏结果

现行的统计报表制度更多的是对调查单位的生产经吉情况井展华度、季度或者是月应

调查。口常的数据:总工作更多的是对生产经营指标做各种交义分组汇总。

与间卷调查结果不同,生产经营情况的调查结果需要对调查指标数摒加总或通过计算

生成新的指标,因此,我们首先要生成新的变量,来记求相应指标的总结果。Stata生成新

变量的命令为

“gnerat:“及其扩展命令“cgi”,“gieraL:”用来生成一般变量,“egen”可以生

成包含函数表达式的变量。比如.我们对规模以上服务业企业“财务状况(F103表)”中

“营业收入”指标的本年(yy*r1)和上牛同期(yysr2)数据进行汇总,并计算两年的同

比增速(d),用到的Stata语句为:

cgen a sur(yysr1)

egen b sur(yysr2)

gcnd=(a/b)*100-100共1:“sum()“为求和函数,变量a用来记录“营业收

入”本午的合计数,变量b月来记录“营业收入”l:午同期的合计数,变量d用来记录“营

业收入”的同比增速。

统计调查表中通常色含多个指标,我们可以使用SLala的循环语句“furvalues”同时

对多个指标总、比如,我们对规模以上服务业企业“财务状况(F103表)”涉及的31个

财务指标汇总。31个指标的年和上年可期数我们分别用ai和bi(i=l.2,…,31)表示。

总语句为:

furvalues i=1/31

cgen sumai'=sum(ai eweh sunb i'=sun(b i'

sen di'=(suma i'umb i >*100-10031个指标的本年和l:午同期:总数末分别记求

于sumai和sumbi变量,di为同比速(i=1,2…,31)我们还可以用“by+变量名”实

现各种交叉分组总。比如,分省汇总“营业收入”本年(yysr1)和上年同期数(yysr2)

指标的Stata 语句为:

by sf,surt:egen a=sum(yysrl)by sI,sart:cgen b sum(yysr2)

其巾:“sort”命令为排序命令,对省代码(sf)变量按照从小到大排序。在用“by”

命令对变进行分类总前,必须要对分类变审进行排产。运用“by+变量名”我们还可以进·步

实现分行业分指标、分登记注册类型分指标及分省分行业等父义汇总工作。比如,分省分

行业大类总“营业收入”指标的语句为:

surt sf hydl:egen suma=sum(yysrl)

#orl.s hydl:esen saumb-sum(yysr2)

综上可见,运用Stala话句,可以快速、灵活的完成统计数据的各种交叉总工作,为

数据的审核及后续的分析研究T.作带来便利。

同时,Stata的数据汇总结果既可以以文本格式直接粘贴进vard等文字编辑器,也可

以以表格的形式粘贴进Exce1等数据表格处班器,便下存储和使用。


本文标签: 汇总 数据 合并 变量