势,事实上并没有真正的联系。在这种情况下,将其中一个变量对另一个变量进行回归可能导致荒谬的结果,这种情况被称为“伪回归”。伪回归的拟合优度、显著性水平等指标有可能都很好,但是由于其残差序列是一个非平稳序列,因此这种回归关系不能够真实地反映因变量和解释变量之间的关系,仅仅是一种数字上的巧合而已。
为了避免伪回归的情况,需要对时间序列进行单位根检验。常用的单位根检验方法是由David Dickey和Wayne Fuller提出的DF法。考虑模型
Yt =ρYt-1+μt) (3-8) 其中μt即前面提到的零均值,恒定方差,非自相关的白噪音。 由上式可以得到
(3-9) (3-10) (3-11)
依次代入相邻的上式,整理可得
(3-12)
根据ρ取值的不同,可以分三种情况考虑:
若ρ 若p>l,则当T ?∞ 时,ρT?∞,即随着时间的推移对序列冲击的影响逐渐增大,此时序列不稳定。 若P = 1,则当T ?∞时, ρT = 1,即随着时间的推移对序列冲击的影响不变,此时序列也是不稳定的。 建立零假设H0:ρ = 1.如果拒绝零假设,则Yt没有单位根,此时是Yt平稳的;如果不能拒绝零假设,我们就认为Yt具有单位根,是不稳定的。 令ΔYt =Yt-Yt-1,方程(3-8)也可以写成: ΔYt = (ρ- l) Yt -1 +μt=δYt-1+μt (3-13) 此时的零假设为:H0: δ = 0.如果不能拒绝原假设,则认为ΔYt =μt是一个平稳序列,即Yt一阶差分后是一个平稳序列,称为一阶单整,记为I(1). I(1)过程在金融、经济时间序列数据中是最普遍的。 从理论和应用的角度,除(3-13)外,DF检验的模型还有以下两个: (3-14) (3-15) (3-14) (3-15)和(3-13)的差别在于是否包含截距和趋势项。如果误差是自相关的,就把(3-15)修改如下: (3-16) 像这样增加了ΔYt滞后项的DF检验又被称为ADF检验(augmented Dickey-Fuller test)。ADF检验的统计量和DF检验的统计量有同样的渐进分布,使用相同的临界值。 3.2.2协整检验 虽然一些经济金融变量是非平稳序列,但由于它们可能受某些共同因素的影响,导致他们的线性组合是一个平稳序列,可以解释为变量之间存在一种稳定关系,即协整关系。常用的检验方法有EG检验(Engle and Granger test)、CRDW检验(Cointegration regression Durbin-Watson test)和 Johansen 检验。本文用的是EG检验,因此这里只介绍EG检验。 假设有序列Xt和Yt,且Xt和Yt都是I(1).要检验它们是否存在协整关系,首先用OLS对协整回归方程, (3—17) 进行估计,然后检验残差et是否平稳。若Xt和Yt,不存在协整关系,那么它们的任一线性组合都是非平稳的,残差e t也将是非平稳的。 3.3.3误差修正模型 误差修正模型(Error Correction Model)是在 1978 年由 Davidson, Hendry,Srba和Yeo提出的,所以其基本形式又称DHSY模型。 假设两个变量的长期均衡关系为 (3-18) 由于在现实中常常有某种冲击导致两个变量在短期内偏离长期均衡,呈现短期的非均衡关系。假设变量X,Y都是I(1),可以写出具有动态特征的(1.1)阶分布滞后模型 (3-19) 将上式写成: (3-20) 将(3-20)简写成 (3-21) 其中 (3-21)和(3-19)是等价的,(3-21)说明变量Y的短期变化取决于变量X的短期变化和上一期偏离均衡的程度,Y的值对前期的非均衡程度做出了一定的修正。 最常用的ECM模型的估计方法是Engle和Granger (1987)提出的两步法。首先计算非均衡误差μt,然后对μt进行平稳性检验。如果μt,通过平稳性检验,则序列X和Y协整。 4.确定交易信号的方法 在套利的过程中,我们需要选定一个参数,当这个参数达到某个临界值时提示某种操作,这个临界值就是交易信号。在配对交易策略中,这个参数通常是两个股票收益率序列的残差。而确定这个临界值的方法多种多样,不同的方法获得的最终收益率不同。本文涉及到三种经典方法:常用参数法,GARCH法和基于O-U过程的统计套利法。 4.1交易原理 统计套利策略是建立在均值回复的理论基础之上的,这一理论认为残差序列总是会回归到均值。因此当残差序列偏离均值,就被视为套利机会,而当残差回归均值,则进行反向操作。交易信号被定义为残差标准差的某个倍数,当残差偏离均值达到这一倍数,就开始进行买卖操作,当残差回归均值,则进行反向操作获得收益。标准差某个更高的倍数被视为止损点,若残差达到这个点,则损失过大,此时的应该将套利组合平仓。 4.2交易规则制定方法 4.2.1常用参数法 John Wiley & Sons (2005)在著作 Pairs Trading; Quantitative Methods and Analysis中通过随机模拟得到如下结论:假设去中心化后价差波动是一个白噪声序列,那么最大收益的交易边界条件是标准差的±0.75倍,选取2倍标准差为上下止损位。这一结论被广泛应用于配对交易研究,国内的许多研究就直接使用了这个结论。但Vidyamurthy (2004)研究发现,当残差序列符合正态分布时,0.75倍标准差的触发条件才是最佳的交易型号值。但实际情况中残差序列不可能符合正态分布,因此采用0. 75倍标准差作为触发条件是不合适的。但本文仍会采用此种方法,一方面是验证这种方法的合理性,另一方与另外两种方法形成对比,观测此模型在中国A股市场上的适用情况。 4.2.2 GARCH 模型 Engle(1982)提出用 ARCH 模型(Autoregressive conditional heteroskedasticity model)分析时间序列的异方差性,此后波勒斯列夫T. Bollerslev(1986)又提出了 GARCH模型,GARCH模型称为广义ARCH模型,是ARCH模型的拓展。GARCH模型是一个专门处理金融数据回归模型,除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模,因此特别适用于波动性的分析和预测。这种分析能对投资者的决策起到非常重要的指导性作用,它的意义往往超过了对数值本身的分析和预测。 GARCH模型的基本形式如下: (4-1) (4-2) (4-3) 我们称序列yt服从GARCH (p,q)过程.其中 时刻及t-1时刻之前的信息集。vt独立同分布,且参数满足条件: , 是t-1 可以看成每一期残差的加权平均值,系数之和 序列波动的持续性, 反映了 越接近于1,序列在过去时刻有关波动的 特征就越持续,也就是说序列的波动性越大。 GARCH模型中, 可以通过 估计出来,操作时分别估计均值方程和方 差方程。(p,q)的值根据实际模型回归的效果来确定。 4.2.3 Ornstein-Uhlenbeck 过程 Ornstein-Uhlenbeck过程是随机过程的一种,可以很好地描述序列均值回复的特性,因此经常被用在市场中性策略的研究之中。在配对交易过程中,假设残差序列符合O-U过程,通过估计0-U过程的参数来寻找目标函数的最优解。本文的O-U过程方法借鉴了刘海燕(2011)的《基于O-U过程的统计套利研究》一文。 4.2.3.1 O-U过程的系数估计 假设两只股票在t时刻的价格分别为价差序列: (4-4) 对价差序列去中心化,得到残差序列: (4-5) 由于残差序列均值为0,假设残差序列符合以下O-U过程: , ,经过协整回归和误差修正得到 (4-6) 其中是维纳过程。 使用参数变换和伊藤定理可将上式转化为: (4-7) 将式(4-7)简写为: (4-8) 其中 式(4-8)可以看做et的自回归过程,我们对模型系数的估计可以用待定系数法,对e t做自回归获得模型参数: (4-9) 得到: 整理,得: (4-10) (4-11) 4.2. 3.2收益函数r(a,m,c)均值和方差的表达式 假设当et= a时进入交易, et= m时平仓,如果不考虑交易成本,则收益为: (4-12) 得到交易信号Δ的解为: Δ= (m - a)/Stspread (4-13) 已知et是一个随机变量,因此一个交易周期的时间间隔(从a到m再到a)t也是随机变量。假设a t=t1+t2 (4-14) t1表示持仓时间, t2表示空仓时间。由于t2符合Markov过程,因此时间间隔 t1, t2是相互独立的, t的均值和方差可以写成: E(t) = E(t1) + E(t2) (4-15) V(t) = V(t1) + V/( t2) (4-16) r (a. m. c)表示每个周期内的收益函数,r (a,m, c)=m-a-c,该收益函数的影响因素包括买入点a,卖出点m,以及交易成本C。收益函数的平均收益和方差可以写作: (4-17) (4-18) 其中E(Nt)表示ι时间内交易的次数,也就是交易周期个数。那么 (4-19) (4-20) 代入上述两式,得: μ(a,m,c,t) = r(a,m, c)/E(t) (4-21)