时空加权回归对深圳房价的预测——基于新的权重矩阵

发布者:陆敏发布时间:2021-05-26浏览次数:14


一、摘要


近几年深圳房价的迅猛增长,引起了各方面的关注。面对房价的持续攀升,人们希望能够预测房价。但是要准确地预测房价很难,因为房价之间相互影响,具有相关性和异质性。本文将分析2001-2006年深圳市房价的598个数据,在时空加权回归(GTWR)和局部线性拟合方法(LLFM)的基础上,提出新的权重矩阵,既考虑时空距离,也考虑因素间的距离。分析结果表明,本文提出的方法是更有效的方法,这将对以后准确预测房价有很大的意义。


关键词:时空加权回归;局部线性拟合;相关性;异质性;房价


二、研究主要流程


      1.研究背景及文章结构

      2.GTWR方法

      3.局部线性拟合方法

      4.方法改进——新的权重方程

      5.深圳房价研究分析

      6.结论


三、分析及主要结论


(一)选题背景


人类的活动总是在时间与空间两个不同的维度中进行,经济活动也是一样,经济现象不仅仅表现出时间方向上的相关性,并且在空间方向上也表现出了某种程度上的相关。在经济计量学研究中,研究数据往往涉及到不同的时间和区域,几乎所有数据都存在着空间依赖或空间自相关特征。一个区域单元上的某种经济现象,或某一属性值总是和邻近区域单元上的同现象或属性值相关的。如经济发达地区总是连成一片,相关产业倾向于在同一地理空间聚集;在发达国家,富人居住区域与穷人居住区域在空间上也是各自聚集。空间经济计量学的重要分支——探索空间数据分析模型,就是解释和空间位置相关的空间依赖、空间关联、空间自相关现象。经典的计量经济学模型总是假定高斯——马尔科夫、解释变量固定等条件,但在区域经济分析过程中,空间相依的存在打破了多数古典统计与计量经济学分析中样本相互独立等的基本假设,因此,直接用古典计量经济学的方法处理与地理位置相关的数据时,通常不能取得这些数据的空间依赖性,以此而引发各种问题。所以,在处理空间数据时,就要引入一些合适的空间统计与空间经济计量分析的方法。


(二)数据背景


深圳是改革开放后的新兴的城市,城市规划条件好,经过30年的发展,深圳已经成为中国最具竞争力的城市。2007,深圳的国内生产总值6765.41亿元,商业住房建设面积3160.95万平方米,其中住宅面积为2185.53万平方米,增长了1.3%。每876.45万平方米面积的商品房中,就有630.46万平方米的住宅,增长了8.4%。深圳市2007年常住人口已经超过846,人口总数已超过1200万人。在常驻人口中,非永久性人口有649.9,占常住人口的6.7%,流动人口的占7%,在深圳人口流动是一个非常重要的特征,因为伴随产生的住房租赁市场非常发达。租赁市场也是本项研究的考虑因素。

深圳2007年各区平均房价



深圳关内关外平均房价


我们从研究区域获得598组数据,将近期的销售价格作为因变量,代表房屋价格。影响房价的因素考虑了有以下12个:楼盘年龄,房间数,标准化户均,地价,关内外,与交通干线,与学校的距离,与CBD的距离,与医院的距离,停车比例,建筑面积,容积率。在我们选取的解释变量中,房屋面积不是一个解释变量。针对一些离散变量,如房屋的数量,只会考虑一个房子房间数量;房屋结构中,复式和单一的公寓除外。


(三)方法改进——新的权重方程


考虑到GTWR模型只考虑了时空距离,因素间相关性被完全忽略了。而LLFM可能忽视了时空距离因而缺乏合理性。故我们建立了一个结合该两种方法的新方法。新的权重函数的权重矩阵可以写为:

此时,我们方法的估计量为  

其中,

这里我们使用乘法的原因如下:

(1)时,(因为)。

(2)当时,(因为)。

(3)我们想要在统计中仿照这种乘积核函数的方式。不仅仅考虑了邻近点的时空位置、距离以及因素间的距离。对于一个给定的,如果它的邻近点与之相似,那么被赋予一个大的权重值;如果靠近,那么被赋予一个大的权重值。这是合理的。


(四)深圳房价研究


      1. 模型和参数

由于解释变量比较多,先进行变量选择,采用逐步筛选法,利用R语言,结果如下:


                          Df  Sum of Sq RSS    AIC

 <none>                              40.953 -1581.3

 - mydata2$V3   1    0.2495 41.202 -1579.7

 - mydata2$V5   1    0.2727 41.225 -1579.4

 - mydata2$V2   1    0.2915 41.244 -1579.1

 - mydata2$V7   1    0.3012 41.254 -1579.0

 - mydata2$V4   1    0.3511 41.304 -1578.2

 - mydata2$V8   1    0.4069 41.360 -1577.4

 - mydata2$V9   1    1.2319 42.185 -1565.6

 - mydata2$V6   1    2.8820 43.835 -1542.7

 - mydata2$V1   1    8.3357 49.288 -1472.5

 - mydata2$V11  1   12.4459 53.399 -1424.7

 > reduced.model

 Call:

 lm(formula = mydata2$V12 ~ mydata2$V1 + mydata2$V2 + mydata2$V3 + mydata2$V4 + mydata2$V5 + mydata2$V6 + mydata2$V7 + mydata2$V8 +  mydata2$V9 + mydata2$V11, data = mydata2)


结果显示,除了被剔除,其余变量全部保留。我们比较GTWRLLFM和我们提出的方法。


为了做回归,我们需要选取最有宽度。克利夫兰1979年对局部回归使用交叉检验(CV)方法,该方法被用于选取宽度h。在这个案例中,CV被定义为:


其中,是回归中省略了观测值的拟合值。这里是一个的向量。我们不能直接描绘出CVh的关系,所以我们先固定使CV达到最小,得到;然后固定,,使CV达到最小,得到,如此往复,最终得到。结果见下表


      我们使用variogram方法,并用Matlab中的semivar_exp程序包来计算。从下图可以看出,我们选取

      2. 分析结果

这里使用(Pace et al, 2000)来衡量我们的方法、GTWR方法以及局部线性方法的结果。在这个案例中被定义为:

其中,是的样本均值。

显然,如果趋近于1,那么该方法的表现越好。GTWR方法的在第二栏中,LLFM方法的在第三栏中,我们的方法的在第四栏中。从表6-2可以看出,我们的方法在三种方法中表现最好,所以分析房价时既要考虑因素间相关性,也要考虑时空间相关性。

三种方法的



(五)结论


GTWR已经发展到在实际的房地产数据中同时处理的空间和时间的非平稳性,GTWR权重矩阵整合了空间和时间的信息来获取时间和空间相关性,然而聚点及其邻近点的影响因素被完全忽略了。LLFM在回归分析中常被用于时空异质性的建模,但是它的权重函数只考虑了因子空间距离,而忽略了邻近点的时空位置以及邻近点之间的相对时空距离。本文中,我们建立了一个结合了时空距离与因子空间距离的新的权重函数。对于一个给定的因子,如果它的邻近点与之相似,那么被赋予一个大的权重值;如果靠近,那么,也被赋予一个大的权重值,这都是合理的。以房价为例,一方面,地理位置和时间对房价有着重大的影响,两个观察点的距离越近,它们的价格越接近;另一方面,两个观察点的影响因素相同,它们的价格也越接近。案例分析展现了我们的方法比GTWR方法及LLFM方法表现更好。此外,我们可以证明,如果LLFM方法和GTWR方法的权重函数相同,例如都为,那么LLFM方法的估计量GTWR方法的估计量也相同。