admin 管理员组

文章数量: 1086019


2024年4月15日发(作者:官网下载的eclipse带jdk吗)

BOX-JENKINS预测法

适用于

平稳时序

的三种基本模型

(1)

AR(p)

模型(AutoregressionModel)——自回归模型

p

阶自回归模型:

式中,为时间序列第时刻的观察值,即为因变量或称被解释变量;,为

为待估的时序的滞后序列,这里作为自变量或称为解释变量;是随机误差项;,,,

自回归参数。

(2)

MA(q)

模型(MovingAverageModel)——移动平均模型

q

阶移动平均模型:

e

t

e

t1

,式中,但当

{y

t

}

序列在0上下变动时,显然

=0,可删除此项;

为时间序列的平均数,

e

t2

,…,

e

tq

为模型在第

t

期,第

t1

期,…,第

tq

期的误差;

1

2

,…,

q

为待估的移动平

均参数。

(3)

ARMA(p,q)

模型——自回归移动平均模型(AutoregressionMovingAverageModel)

模型的形式为:

显然,

ARMA(p,q)

模型为自回归模型和移动平均模型的混合模型。当

q

=0,时,退化为纯自回

归模型

AR(p)

;当

p

=0时,退化为移动平均模型

MA(q)

改进的

ARMA

模型

(1)

ARIMA(p,d,q)

模型

这里的

d

是对原时序进行逐期差分的阶数,差分的目的是为了让某些非平稳(具有一定趋势的)

序列变换为平稳的,通常来说

d

的取值一般为0,1,2。

对于具有趋势性非平稳时序,不能直接建立

ARMA

模型,只能对经过平稳化处理,而后对新的

平稳时序建立

ARMA(p,q)

模型。这里的平文化处理可以是差分处理,也可以是对数变换,也可以

是两者相结合,先对数变换再进行差分处理。

(2)

ARIMA(p,d,q)(P,D,Q)

s

模型

对于具有季节性的非平稳时序(如冰箱的销售量,羽绒服的销售量),也同样需要进行季节差

分,从而得到平稳时序。这里的

D

即为进行季节差分的阶数;

P,Q

分别是季节性自回归阶数和季

节性移动平均阶数;

S

为季节周期的长度,如时序为月度数据,则

S

=12,时序为季度数据,则

S

=4。

在SPSS19.0中的操作如下

 必须要先打开一个数据源,才可以定义日期

 数据

定义日期

选择日期的起始点,此时变量栏中会出现日期变量。

仅供个人学习参考

(3)

ARIMAX

模型

ARIMA(p,d,q)(P,D,Q)

s

模型中,再加入除自身滞后时序变量以外的解释变量

X

模型的识别

模型的识别的本质是确定

ARIMA(p,d,q)(P,D,Q)

s

中的

p,d,q

以及

P,D,Q

与S的取值。借助于

自相关函数(AutocorrelationFunction,ACF)以及自相关分析图和偏自相关函数

(PartialCorrelationFunction,PACF)以及偏自相关分析图来识别时序特性,并进一步确定

p

q

P

Q

自相关函数

自相关是时间序列

Y

1

,Y

2

,Y

t

诸项之间的简单相关。它的含义与相关分析中变量之间的简单相关

一样,只不过它所涉及的是同一序列自身,因而称作自相关。自相关程度的大小,用自相关系数

r

k

度量。

式中,

n

为样本数据的个数;

k

为滞后期;

y

为样本数据平均值。

自相关系数

r

k

,可看作自变量

k

的函数,即自相关函数。它表示时间序列滞后

k

个时间段的两

r

2

表示每隔一项的两个观察值得相关程度。项之间相关的程度。如

r

1

表示每相邻两项间的相关程度;

随机序列自相关系数的抽样分布,近似于以0为均值,

1

数的95%置信区间为

(1.96

,1.96

)

,此处

1

个区间,则认为该序列是纯随机序列。

将时间序列的自相关系数绘制成图,并标出一定的置信区间(通常采用

2

倍标准差作为置信

区间的两个端点),被称作自相关分析图。

SPSS19.0中的操作

1. 输入变量数据;定义时间序列日期(数据

定义日期)

2. 分析

预测

自相关(如下);将要分析的变量从左侧移入右侧变量框中

3. 勾选自相关、偏自相关,转换暂时不选(如果为非平稳序列,可勾选差分/

自然对数转换,其中差分的阶数需要根据自相关图形来确定,通常为0,1,2)

n

为标准差的正态分布。自相关系

n

。如果一个时间序列的自相关系数全部落入这

未进行差分处理,由图可知几乎一半的自相

关系数未进入置信区间,说明该序列非平稳,此时需要进行差分处理,即在重复

第2步时,差分选项选择1或2。

仅供个人学习参考

偏自相关函数

偏自相关函数是时间序列

Y

t

,在给定了

Y

t1

,Y

t2

,Y

tk1

的条件下,

Y

t

Y

tk

之间的条件相关。由

于它需要考虑排除其他滞后期的效应,因而被称为偏自相关。偏自相关系数

kk

计算公式如下。

偏自相关系数

kk

,可看作自变量k的函数,即偏自相关函数,

1

kk

1

。它用以测量当剔除

其他滞后期(

t1,2,3,,k1

)的干扰的条件下,

Y

t

Y

tk

之间相关的程度。与自相关系数类似,

同样可以采用偏自相关分析图来对模型进行识别。

ARIMA

模型的参数确定

Step1:判断时序是否平稳,若不平稳,经过若干次逐期差分或季节差分使其平稳,则可确定

d

D

。对于社会经济现状,一般

d

D

的数值取0,1或2。

若自相关系数ACF随着滞后期(一般设为16)增大,而迅速趋于0,则认为该时序是平稳的。

若自相关系数ACF随着滞后期增大,自相关系数ACF不趋于0,则认为该时序是非平稳的。更

具体地说,若随着时滞

k

的增大,自相关系数ACF缓慢减小,说明随着序列两项间隔的提前,相关

程度变弱,则序列具有趋势性;若对于季度数据或月度数据,当滞后期为4(或12),8(24)等时,

自相关系数ACF显着地部位0,即在随机区间之外,则意味着该时序具有季节性。如果时序具有趋

势性,那么需要进行逐期差分,由逐期差分的次数决定

d

的取值;如果序列具有季节性,那么要进

行季节差分,由季节差分次数决定

D

的值。

左侧图形为未经过差分处理的某城市农村居民收入的ACF图,可以看出自相关系数并未迅速趋

于0,说明该时序是非平稳的。右侧为该序列的线性图,也正说明了该时序是有明显的上升趋势的,

需要进行差分处理。

Step2:经差分平稳后,确定时序所适合的模型,其依据如下表所示。

ARMA(p,q)

序列特征表

模型

拖尾

拖尾

指数衰减和(或)

正弦衰减

自相关函数 指数衰减和(或) 截尾

正弦衰减

拖尾 拖尾

偏自相关函数 截尾(阶) 指数衰减和(或) 指数衰减和(或)

正弦衰减 正弦衰减

关于

p,q

的取值

当不包括时滞

k12

(或4),24(或8),

p

取落入随机区间之外的偏相关系数PACF的个数或

与0有显着差异的PACF的个数,

q

取落入随机区间之外的自相关系数ACF的个数或与0有显着差

异的ACF的个数。

仅供个人学习参考

当仅观察时滞

k12

(或4),24(或8),

p

取显着不为0的PACF的个数,

q

取显着不为0的

季节自相关数目。

案例分析

数据准备

某城市农村居民收入数据(1980-2015年)

单位:元

1980

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

261.00

274.00

291.00

312.00

344.00

362.00

382.00

421.00

504.00

557.00

659.00

685.71

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

792.18

938.45

1312.24

1655.00

1989.57

2218.89

2199.38

2840.10

2941.80

2981.78

3048.55

3208.84

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

4027.03

4465.99

4845.35

5623.24

6627.26

6627.00

7182.53

9104.00

8864.85

10013.03

11547.00

12736.00

对36年农村居民收入建立B-J模型,并预测2016年的收入情况。

时序分析

Step1:将数据输入到SPSS19.0中,并定义变量的精度为小数点后两位;

Step2:定义日期。数据——定义日期——输入“1980”

因为本次数据没有季节性,所以只需要选择年份为1980年,如下图。

Step3:绘制其时序图,观察其是否平稳。分析——预测——序列图

此时可以看出该曲线有明显上升趋势,为非平稳序列,需要进行差分平稳化。

同时,也可以绘制自相关图形(操作:分析——预测——自相关)来观察其趋势,如下图。

由上面自相关系数图可知,

随着延迟数目的增加,系数并没有显着的趋近于0,且许多数值较

大的系数落在了置信区间之外,

说明该时间序列并

非平稳

的。

差分平稳化

对时间序列进行差分平稳,并绘制相关系数图和偏自相关系数图如下。

操作为:分析——预测——自相关(勾选:1阶差分)

从右侧图形可以看出,在滞后期k=3之后,自相关函数衰减,并且均在置信区间范围之内,因

此可以认为该序列平稳了。

再观察变换后的序列的偏自相关函数图,如下图。

其中

33

=0.437较大,其他并没有明显趋于0,可以认为在K=3后拖尾,而自相关函数可以看

做是K=3后截尾,也可以看做为拖尾。

(自拖,偏拖)——ARIMA模型,(自截,偏拖)——MA模型,

因此,经过一阶差分变换后的农村居民收入所选定的模型为

ARIMA(3,1,3)

ARIMA(0,1,3)

。分别对

两个模型进行拟合和预测,比较其精度。

仅供个人学习参考

建立ARIMA模型

ARIMA(3,1,3)模型

Step1:菜单栏:分析——预测——创建模型

在变量栏中,将农村居民收入移入因变量框中;方法选择ARIMA模型,点击右侧“条件”,输

入自回归,差分和移动平均数的值。

Step2:确定输出的统计量和相关信息。

其中拟合值和置信区间可备选,根据需要选择。

如果需要预测下一年的数据值,必须要在变量栏中的时间变量下再加入一个年份值,否则不会

显示预测值,如下图。

模型结果分析

可以看到模型的R平方为0.990,平稳的R方为0.493,说明模型的拟合效果较好,预测值为

13387.9。将实际值和预测值画在同一个时序图中如下。

ARIMA(0,1,3)模型

步骤和上面基本一致,只是在创建模型的时候,把条件中的自回归p值改为0,运算结果如下。

上述统计量表明,该模型的R平方值为0.988,平稳的R方为0.365,sig值为0.421,与

三个统计量都小于

ARIMA(3,1,3)

模型,因此可以认为

ARIMA(3,1,3)

模型的结果

ARIMA(3,1,3)

相比,

更为可信和准确。则2016年农村收入为13387.9。

仅供个人学习参考


本文标签: 相关 模型 序列