油价形成机制_油价问题的简单建模
1.数据挖掘核心算法之一--回归
2.实证研究方法
数据挖掘核心算法之一--回归
数据挖掘核心算法之一--回归
回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。
大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。
回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:
1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归
2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了
3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关
4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)
我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):
first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。
第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。
第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。
第四,检验和修改,我们用工具计算好的模型,都有各种设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。
第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。
回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。
实证研究方法
为了全面认识国际原油市场与美元汇率市场之间的互动关系,尤其是准确判断美元汇率变化对国际油价起伏的影响程度,进而为预测未来油价变化甚至宏观经济走势提供支持,本节将着重从价格长期变化、价格波动幅度及市场风险传递等3个角度,实证研究两个市场之间的密切关系。
4.5.1.1 石油市场与美元汇率市场之间的均值溢出效应检验
从经济含义上讲,两个市场之间的均值溢出效应指的是一个市场的价格不仅受到其前期价格的影响,还可能受到其他市场前期价格的影响。长期而言,美元汇率的变化对国际原油价格变化的影响是否显著,是否有助于预测其未来的走势,均值溢出效应检验可以较好地回答这种诉求。
均值溢出效应是从VaR模型的角度而言的,即条件一阶矩的Granger因果关系检验。因此,可以通过建立VaR模型,按照AIC值最小的原则,选择最佳的滞后阶数,然后通过普通线性Granger因果检验方法判断国际油价与美元汇率之间的均值溢出效应。具体方法是,若以X 表示美元汇率,Y表示国际油价,对双变量回归方程(式4.20)中的Sj=0(j=1,2,…,m)(原设)进行设检验。如果拒绝该原设,则认为美元汇率变化是国际油价起伏的Granger原因;同理,也可以判断国际油价起伏是否是美元汇率变化的Granger原因。其中m为最大滞后阶数。
国外油气与矿产利用风险评价与决策支持技术
4.5.1.2 石油市场与美元汇率市场之间的波动溢出效应检验
波动溢出效应指的是不同市场的价格波动之间可能存在相互影响,某一市场价格波动程度不但受自身前期波动程度的影响,而且还可能受其他市场价格波动程度的制约,即价格波动信息会从一个市场传递到另一个市场。市场瞬息万变,石油市场与金融市场之间的密切联系早已引起各界关注,而美元汇率交易价格的波动是否会传递到国际原油市场,这是波动溢出效应检验的目的所在。
我们用ARCH 类模型检验和度量波动溢出效应。GARCH模型是在Engle(1982)提出的ARCH模型基础上发展起来的,其基本形式为
国外油气与矿产利用风险评价与决策支持技术
式中:Yt为国际油价或美元汇率;Xt为由解释变量构成的列向量;θ为系数列向量;ht为残差的异方差。
同时,由于价格序列的波动通常存在杠杆效应,即价格上涨和下跌导致的序列波动程度不对称。为此,本节引入TGARCH模型来描述这种现象。TGARCH模型最先由Zakoian(1994)提出,其条件方差为
国外油气与矿产利用风险评价与决策支持技术
式中:dt-1为名义变量:εt-1﹤0,dt-1=1;否则,d1,t=0;其他参数的约束与GARCH模型相同。
由于引入了dt-1,因此价格上涨信息(εt-1﹥0)和下跌信息(εt-1﹤0)对条件方差的作用效果出现了差异。上涨时 其影响程度可用系数 表示;下跌时的影响程度为 。简言之,若Ψ≠0,则表示信息作用是非对称的。
按照AIC值最小的准则,我们发现分别用TGARCH(1,1)和GARCH(1,1)模型拟合国际油价和美元汇率是最佳选择。在这种情况下考虑波动溢出效应,根据Lin和Tamvakis(2001)和Hammoudeh等(2003)在研究不同石油市场之间的互动关系时提供的波动溢出效应检验方法,可构造出以下方程:
国外油气与矿产利用风险评价与决策支持技术
式中:hi,t表示第i个市场(国际石油市场与美元汇率市场)第t期的条件方差;αi,0,αi,1,Ψ和βi,1均为(T)GARCH(1,1)模型的系数。
在式4.24和式4.25中,一个市场的滞后条件方差项作为回归项加入另一个市场的条件方差方程中,而γi即为第i个市场溢出项的系数。若溢出项在统计上是显著的,则认为存在相应的波动溢出效应,即一个市场的波动会显著地传递到另一个市场;反之,则不存在显著的波动溢出效应。
4.5.1.3 石油市场与美元汇率市场之间的风险溢出效应检验
两个市场之间的风险溢出效应表示一个市场极端风险的历史信息有助于预测另一个市场现期和未来的极端风险。市场风险规避和控制是市场参与者不得不审慎考虑的问题,石油贸易这样的大宗商品贸易更是如此。由于石油与美元一直相伴而行,使得石油市场与美元汇率市场之间互相渗透,市场风险传递更值得关注。
风险度量对于国际石油市场和美元汇率市场都至关重要。本节引入简便而有效的VaR方法来度量市场风险。VaR 要回答这样的问题:在给定时期内,有x%的可能性,最大的损失是多少?从统计意义上讲,VaR表示序列分布函数的分位数。
VaR 风险值的计算方法很多,但概括起来可以归结为3种,即方差-协方差方法、历史模拟方法和方法。本节用方差-协方差方法计算国际石油市场和美元汇率市场的VaR风险。在用方差-协方差方法过程中,考虑到油价和美元汇率序列往往具有尖峰厚尾和非标准正态分布的特征,因此通常所用的标准正态分布设可能会低估实际市场风险。为此,本节引入Nelson提出的广义误差分布(GED)来估计GARCH类模型的残差项(Nelson,1990)。
为了考察国际石油市场和美元汇率市场的风险溢出效应,尤其是美元汇率价格风险对石油市场的影响,我们引入Hong(2003)提出的风险-Granger因果关系检验方法。其核心思想是通过VaR建模来刻画随时间变化的极端市场风险,然后运用风险-Granger因果检验的思想来检验一个市场的风险历史信息是否有助于预测另一个市场的风险的发生。
Hong(2003)借助样本互相关函数,提出了基于核权函数的单向和双向风险-Granger因果关系检验统计量。在实际操作中,先检验双向风险-Granger因果关系,如果拒绝原设(即至少存在一个方向的风险-Granger因果关系),则可以进一步检验单向风险-Granger关系。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。