我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 置信测度 >

如何用AR模型预测时间序列

归档日期:07-23       文本归类:置信测度      文章编辑:爱尚语录

  (1)一般概念:系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。它是系统中某一变量受其它各种因素影响的总结果。

  (2)研究实质:通过处理预测目标本身的时间序列数据,获得事物随时间过程的演变特性与规律,进而预测事物的未来发展。它不研究事物之间相互依存的因果关系。

  (3)假设基础:惯性原则。即在一定条件下,被预测事物的过去变化趋势会延续到未来。暗示着历史数据存在着某些信息,利用它们可以解释与预测时间序列的现在和未来。

  近大远小原理(时间越近的数据影响力越大)和无季节性、无趋势性、线)研究意义:许多经济、金融、商业等方面的数据都是时间序列数据。

  (1)趋势性:某个变量随着时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋向,但变动幅度可能不等。

  (2)周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。

  (4)综合性:实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤除去不规则变动,突出反映趋势性和周期性变动。

  (1)随机性:均匀分布、无规则分布,可能符合某统计分布。(用因变量的散点图和直方图及其包含的正态分布检验随机性,大多数服从正态分布。)

  (2)平稳性:样本序列的自相关函数在某一固定水平线附近摆动,即方差和数学期望稳定为常数。

  样本序列的自相关函数只是时间间隔的函数,与时间起点无关。其具有对称性,能反映平稳序列的周期性变化。

  平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋近于0,前者测度当前序列与先前序列之间简单和常规的相关程度,后者是在控制其它先前序列的影响后,测度当前序列与某一先前序列之间的相关程度。

  实际上,预测模型大都难以满足这些条件,现实的经济、金融、商业等序列都是非稳定的,但通过数据处理可以变换为平稳的。

  (1)点预测:确定唯一的最好预测数值,其给出了时间序列未来发展趋势的一个简单、直接的结果。但常产生一个非零的预测误差,其不确定程度为点预测值的置信区间。

  (2)区间预测:未来预测值的一个区间,即期望序列的实际值以某一概率落入该区间范围内。区间的长度传递了预测不确定性的程度,区间的中点为点预测值。

  (3)密度预测:序列未来预测值的一个完整的概率分布。根据密度预测,可建立任意置信水平的区间预测,但需要额外的假设和涉及复杂的计算方法。

  系统中某一因素变量的时间序列数据没有确定的变化形式,也不能用时间的确定函数描述,但可以用概率统计方法寻求比较合适的随机模型近似反映其变化规律。(自变量不直接含有时间变量,但隐含时间因素)

  (R:模型的名称 P:模型的参数)(自己影响自己,但可能存在误差,误差即没有考虑到的因素)

  (1)模型形式(εt越小越好,但不能为0:ε为0表示只受以前Y的历史的影响不受其他因素影响)

  yt当前预测值,与自身过去观测值yt-1、…、yt-p是同一序列不同时刻的随机变量,相互间有线性关系,也反映时间滞后关系;

  φ1、φ2、……、φp自回归系数,通过计算得出的权数,表达yt依赖于过去的程度,且这种依赖关系恒定不变;

  εt随机干扰误差项,是0均值、常方差σ2、独立的白噪声序列,通过估计指定的模型获得。

  当kp时,有φk=0或φk服从渐近正态分布N(0,1/n)且(φk2/n1/2)的个数≤4.5%,即平稳时间序列的偏相关系数φk为p步截尾,自相关系数rk逐步衰减而不截尾,则序列是AR(p)模型。

  实际中,一般AR过程的ACF函数呈单边递减或阻尼振荡,所以用PACF函数判别(从p阶开始的所有偏自相关系数均为0)。

  一阶:φ11。二阶:φ1+φ21、φ1-φ21、φ21。φ越大,自回归过程的波动影响越持久。

  仅通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用,不受模型变量相互独立的假设条件约束,所构成的模型可以消除普通回归预测方法中由于自变量选择、多重共线. 移动平均MA(q)模型

  总满足平稳条件,因其中参数θ取值对时间序列的影响没有AR模型中参数p的影响强烈,即这里较大的随机变化不会改变时间序列的方向。

  实际中,一般MA过程的PACF函数呈单边递减或阻尼振荡,所以用ACF函数判别(从q阶开始的所有自相关系数均为0)。

  使用两个多项式的比率近似一个较长的AR多项式,即其中p+q个数比AR(p)模型中阶数p小。前二种模型分别是该种模型的特例。

  一个ARMA过程可能是AR与MA过程、几个AR过程、AR与ARMA过程的迭加,也可能是测度误差较大的AR过程。

  平稳时间序列的偏相关系数φk和自相关系数rk均不截尾,但较快收敛到0,则该时间序列可能是ARMA(p,q)模型。实际问题中,多数要用此模型。因此建模解模的主要工作是求解p、q和φ、θ的值,检验εt和yt的值。

  AIC准则:最小信息准则,同时给出ARMA模型阶数和参数的最佳估计,适用于样本数据较少的问题。目的是判断预测目标的发展过程与哪一随机过程最为接近。因为只有当样本量足够大时,样本的自相关函数才非常接近母体的自相关函数。具体运用时,在规定范围内使模型阶数从低到高,分别计算AIC值,最后确定使其值最小的阶数是模型的合适阶数。

  平稳时间序列的偏相关系数φk和自相关系数rk均不截尾,且缓慢衰减收敛,则该时间序列可能是ARIMA(p,d,q)模型。

  模型形式类似ARMA(p,q)模型,但数据必须经过特殊处理。特别当线性时间序列非平稳时,不能直接利用ARMA(p,q)模型,但可以利用有限阶差分使非平稳时间序列平稳化,实际应用中d一般不超过2。

  若时间序列存在周期性波动,则可按时间周期进行差分,目的是将随机误差有长久影响的时间序列变成仅有暂时影响的时间序列。

  即差分处理后新序列符合ARMA(p,q)模型,原序列符合ARIMA(p,d,q)模型。

  检验时间序列样本的平稳性、正态性、周期性、零均值,进行必要的数据处理变换。

  将样本数据送入变量Variable框,选中显示正态曲线Display normal curve项,点击OK运行,输出带正态曲线

  因为一般要求时间序列样本数据n50,滞后周期kn/4,所以此处控制最大滞后数值Maximum Number of Lags设定为12。点击继续Continue返回自相关主对话框后,点击OK运行系统,输出自相关图如图3.19所示。

  从图中看出;样本序列数据的自相关系数在某一固定水平线附近摆动,且按周期性逐渐衰减,所以该时间序列基本是平稳的。

  若时间序列的正态性或平稳性不够好,则需进行数据变换。常用有差分变换(利用transform—Create Time Series)和对数变换(利用Transform—Compute)进行。一般需反复变换、比较,直到数据序列的正态性、平稳性等达到相对最佳。

  从图中看出:自相关系数和偏相关系数具有相似的衰减特点:衰减快,相邻二个值的相关系数约为0.42,滞后二个周期的值的相关系数接近0.1,滞后三个周期的值的相关系数接近0.03。所以,基本可以确定该时间序列为ARMA(p,q)模型形式,但还不能确定是ARMA(1,1)或是ARMA(2,2)模型。但若前四个自相关系数分别为0.40、0.16、0.064、0.0256,则可以考虑用AR(1) 模型。

  另外,值得说明的是:只是ARMA模型需要检验时间序列的平稳性,若该序列的偏自相关函数具有显著性,则可以直接选择使用AR模型。

  实际上,具体应用自相关图进行模型选择时,在观察ACF与PACF函数中,应注意的关键问题是:函数值衰减的是否快;是否所有ACF之和为-0.5,即进行了过度差分;是否ACF与PACF的某些滞后项显著和容易解释的峰值等。但是,仅依赖ACF图形进行时间序列的模型识别是比较困难的。

  从(m,m-1)开始试验,一般到m=p+q=1/n。实际应用中,往往从(1,1)、……、(2,2),逐个计算比较它们的AIC值(或SBC值),取其值最小的确定为模型。

  无论是哪种模型形式,时间序列总是受自身历史数据序列变化的影响,因此需将历史数据序列作为一个新的时间序列变量。

  非季节差分Differences: 计算时间序列连续值之间的非季节性差异。

  季节性差分Seasonal Differences: 计算时间序列跨距间隔恒定值之间的季节性差异,跨距根据定义的周期确定。

  领先移动平均Prior moving average:计算先前的时间序列数值的平均值。

  中心移动平均Centered moving average:计算围绕和包括当前值的时间序列数值的平均值。

  中位数Running medians:计算围绕和包括当前值的时间序列的中位数。

  累积和Cumulative sum:计算直到包括当前值的时间序列数值的累计总数。

  以上各项主要用在生成差分变量、滞后变量、平移变量,并且还要关注差分、滞后、平移的次数,以便在建立模型、进行参数估计时,使方程达到一致。

  另外,若需产生周期性时间序列的日期型变量,则按数据Data—定义日期Define Dates的顺序展开如图3.22所示对线

  在样本Cases Are栏中选择定义日期变量的时间间隔,在起始日期First Case Is栏中设定日期变量第一个观测量的值,单击OK完成定义。

  采用最大似然估计或最小二乘估计等方法估计φ、θ参数值,并进行显著性检验。

  根据模型识别结果和建立的新时间变量,选择一个或多个变量进入自变量框;暂时不进行因变量的数据转换;

  与自变量的选择对应,根据模型识别结果或实验的思路设定p、(d)、q的值;选择模型中包含常数项;

  在建立变量Create Variable栏选择新建变量结果暂存原数据文件Add to file项,也可选择用新建变量代替原数据文件中计算结果Replace existing项;

  常数项:认为是取值恒为1的常数变量,其系数就是自变量为0时因变量的最优预测值,也称为预测基准值。

  标准误:表明样本数据的可靠性。在(残差)参数近似服从正态分布条件下,系数加减两倍的标准误差近似等于总体参数95%的置信区间。其值越小,置信区间越窄;并且其对于系数的相对值越小,估计结果越精确。

  t统计量:估计系数与标准误差的比值,检验变量的不相关性。一般给定5%显著水平,则拒绝原假设的0值位于95%的置信区间外,其绝对值必大于2。

  t概率值:其值越小,则拒绝原假设不相关性的证据越充分。其值接近0.05与t统计量接近2相对应。

  准 则:信息准则AIC和SBC用于模型的选择,越小越好,但受自由度约束较为严重。

  R2校正:是模型中自变量对因变量变动的解释比例,度量方程预测因变量的成功程度,其是回归标准误差与因变量标准差比较的结果。另一个比较方法是回归标准误差不超过因变量均值的10%则为好的模型。

  检验新建模型的合理性。若检验不通过,则调整(p,q)值,重新估计参数和检验,反复进行直到接受为止。但模型识别、参数估计、检验修正三个过程之间相互作用、相互影响,有时需要交叉进行、反复实验,才能最终确定模型形式。

  因为白噪声过程是序列无关的,所以白噪声过程的自相关函数和偏自相关函数在自相关图中均为等于0的水平直线)散点图检验残差独立性:

  (5)均方差检验预测的效果:以预测误差的均方差最小为标准,注意预测误差仅与预测周期有关,而与起始时刻无关。

本文链接:http://incardex.com/zhixincedu/370.html