第一章时间序列分析概论

2020-02-21 13:00

第一章时间序列分析概论

人类为了探索周围的世界，常常按照时间顺序进行观测。这种观测数据有着比较独特的特点，即将来的数据通常以某种随机的方式依赖于当前得到的观测数据，而观测数据的这种相依性使得利用过去预测未来成为可能。时间序列是变量按时间间隔的顺序而形成的随机变量序列。大量自然界、社会经济等领域的统计指标都依年、季、月或日统计其指标值，随着时间的推移，形成了统计指标的时间序列。因此，时间序列是某一统计指标长期变动的数量表现。时间序列分析就是估算和研究某一时间序列在长期变动过程中所存在的统计规律性。本章将介绍时间序列分析的基本思想和一般概论。

§1.1 时间序列的定义和例子

在统计研究中，有大量的数据是按照时间顺序排列的，使用数学方法表述即用一组随机序列

?,X1,X2,?,Xt,?

(1.1)

表示随机事件的时间序列，简记为?Xt,t?T?或者?Xt?。

类似于样本与样本观测值的关系，我们可以使用

(1.2) x1,x2,?,xn

表示上述时间序列(1.1)的n个有序观测值，称其为序列长度为n的观测值序列。

在时间序列问题中，数据的时间顺序是重要的，时间序列的一个显著的特征就是记录的相依性。一般来说，关于时间序列?Xt?，对于任意的t，Xt是一个随机变量，且每个随机变量所服从的分布可以不同，对于任意的t，s，Xt与Xs不是相互独立的。时间序列的应用背景十分广泛，依照不同的需要，数据的收集可以按小时、天、周、月或者年等间隔进行，现在更有按照秒为时间间隔的所谓高频时间序列。下面我们介绍一些不同领域中的实际数据例子。例1. 1820年—1869年的太阳黑子数据（单位：个）：太阳黑子是太阳表面上的黑点，它反

映了太阳振动的全部演变，与太阳发电效应的行为有关。1820年—1869年的太阳黑子数依时间划在图1.1中，横轴是时间指标，纵轴表示在时间t的观测值Xt，这种图称为时间序列图。

图1.1 1820年—1869年间太阳黑子数据（单位：个）

例2. 1985年—2007年我国居民消费价格指数(CPI)：所谓CPI即为消费者物价指数(Consumer

Price Index)，英文缩写CPI，是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标，通常作为观察通货膨胀水平的重要指标。如果消费者物价指数升幅过大，

表明通胀已经成为经济不稳定因素。本例给出了我国1985年—2007年的年度数据，具体参见图1.2和附录。

图1.2 1985年—2007年我国居民消费价格指数(CPI)

例3. 1978年—2007年我国GDP数据（单位：亿元）：GDP也就是国内生产总值。它是对一

国（地区）经济在核算期内所有常住单位生产的最终产品总量的度量，常常被看成显示一个国家（地区）经济状况的一个重要指标。本例给出我国1978年—2007年GDP数据（单位：亿元），具体参见图1.3和附录。

图1.3 1978年—2007年我国GDP（单位：亿元）

例4. 北京在历史上也是自然灾害频发的地区，在各种自然灾害中，水旱灾害发生的次数最多，危害最大。表1.1列出了北京地区1949年—1964年的洪涝灾害面积数据（单位：万亩）

表1.1 北京地区1949年—1964年的洪涝灾害面积

年份受灾面积年份受灾面积 1949 331.12 1957 25.00 1950 380.44 1958 84.72 1951 59.63 1959 260.89 1952 37.89 1960 27.18 1953 103.66 1961 20.74 1954 316.67 1962 52.99 1955 208.72 1963 99.25 1956 288.78 1964 55.36 我们使用X1表示第一年（1949年）的受灾面积，X2表示第二年（1950年）的受灾面积等等，

X1,X2,?是一列按照时间顺序排列的随机序列，所以是时间序列。x1,x2,?,x16是北京地区1949

年—1964年的洪涝受灾面积，则

x1?331.12,x2?380.44,?,x16?55.36

是时间序列?Xt?的样本观测值，样本容量为16，它是时间序列?Xt?的一次实现的一部分。时间序列?Xt?的样本观测值x1,x2,?,x16可以由图1.4表示

400300200100019501952195419561958196019621964图1.4 北京地区1949年—1964年的洪涝灾害面积例5. 1992年第一季度至2008年第三季度我国GDP季度数据（单位：亿元）：图1.5是我国

1992年第一季度至2008年第三季度 GDP季度数据（单位：亿元），数据见附录。

图1.5 1992年第一季度至2008年第三季度我国GDP（单位：亿元）

例6. 1997年1月—2008年9月美元对人民币汇率的月度数据（单位：元）：2005年7月21日中国启动人民币汇率改革以来，不断完善汇率形成机制，人民币对美元汇率总体呈现小幅上扬态势。过去两年多，人民币累计升值近16%。2008年以来，人民币汇率升幅已接近4.5%。

图1.6 1997年1月—2008年9月美元对人民币汇率（单位：元）

例7. 1990年12月19日—2008年11月6日上证指数日数据：上证综合指数的样本股是全

部上市股票，包括A股和B股，从总体上反映了上海证券交易所上市股票价格的变动情况，自1991年7月15日起正式发布。

图1.7 1990年12月19日—2008年11月6日上证指数

例8. 1980年1月—1991年10月澳大利亚红酒的月度销量（单位：公升）：时间集T0：{1980.01，

1980.02，??，1991.10}，包括共142个时间点。

图1.8 1980年1月—1991年10月澳大利亚红酒的月度销量（单位：公升）

从图1.8中我们可以看到，澳大利亚红酒月度销量存在一个较为明显上升趋势，同时又有季节模式，在每年的1月有一个销售淡季而在每年的7月都有一个销售高峰。例9. 美国每年罢工总数（1951—1980）：1951年—1980年，美国每年发生的罢工次数数据

见图1.9，该图显示了这些数据一种不规律的上下波动。在这里我们从中看不出什么很明显的趋势，至于这一序列是否平稳，还有待于用后面的知识进行进一步的验证。

图1.9 1951年—1980年美国每年罢工总数

例10. 1994年1月1日—1995年12月31日香港环境数据序列：(a) 表示因循环和呼吸

问题前往医院就诊的人数；(b) 表示二氧化硫的日平均水平；(c) 表示二氧化氮的日平均水平；(d) 表示可吸入的悬浮颗粒物的日平均水平。

上述例子涉及到天文学、经济学、金融学、社会学和环境科学等领域，其实有关时间序列数据不仅仅只存在这些领域中，还存在于更多的其他领域之中，更多的实际例子我们将在后面的内容里陆续引入。时间序列分析突出发展从数据获得推断的有效方法，其的目的就是建立一个能很好描述数据的随机模型，使得观测到的时间序列可以看作是该随机模型的一个实现。这个模型应该能够反映内在的动态行为，并且只要模型是合适的，就能够用来预报和控制。

§1.2 时间序列分析方法简介

时间序列分析的目的是不同的，它依赖于应用背景。一般地，时间序列被看作是一个随机过程的实现。分析的基本任务是揭示支配观测到的时间序列的随机规律，通过所了解的这个随机规律，我们可以理解所要考虑的动态系统，预报未来的事件，并且通过干预来控制将来事件。上述即为时间序列分析的三个目的。Box and Jenkins (1970)的专著“Time Series Analysis: Forecasting and Control”是时间序列分析发展的里程碑，他们的工作为实际工作者提供了对时间序列进行分析、预测，以及对ARIMA模型识别、估计和诊断的系统方法。使ARIMA模型的建立有了一套完整、正规、结构化的建模方法，并且具有统计上的完善性和牢固的理论基础，这种对ARIMA模型识别、估计和诊断的系统方法简称B-J方法。对于通常的ARIMA的建模过程，B-J方法的具体步骤如下：

第一步、关于时间序列进行特性分析。一般地，从时间序列的随机性、平稳性和季节性三方面进行考虑。其中平稳性和季节性更为重要，对于一个非平稳时间序列，若要建模首先要将其平稳化，其方法通常有三种：（1）差分，一些序列通过差分可以使其平稳化。（2）季节差分，如果序列具有周期波动特点，为了消除周期波动的影响，通常引入季节差分。（3）函数变换与差分的结合运用，某些序列如果具有某类函数趋势，我们可以先引入某种函数变换将序列转化为线性趋势，然后再进行差分以消除线性趋势。

第二步、模型的识别与建立，这是ARMA模型的建模重要一步。首先需要计算时间序列的样本的自相关函数和偏自相关函数，利用自相关函数分析图进行模型识别和定阶。一般来说，

共4页:

第一章时间序列分析概论.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档