摘" 要:二手房市场的发展变化对城市更新、城市规划决策非常重要。利用网络爬取软件获取贵阳市核心区2023年第一季度的二手房挂牌数据,通过数据整理和空间可视化,使用核密度分析方法、热点分析法、K均值聚类法,研究分析贵阳市核心区二手房市场交易的热点区域、空间分布情况,研究发现:贵阳老城区花果园二手房分布最为密集,并沿东北方向延伸,形成二手房售卖热点聚集区;贵阳观山湖区、大十字、喷水池、甲秀楼一带二手房房价明显高于其他区域;观山湖区的二手房均价要比老城区的二手房均价高1 000多元。
关键词:二手房;核密度分析;热点分析;K均值聚类
中图分类号:TP311.1" 文献标识码:A" 文章编号:2096-4706(2024)12-0134-05
Research on the Spatial Distribution of Second-hand House Based on
Kernel Density Estimation and Hot Spot Analysis
—Taking Guiyang City as an Example
YE Chun, MA Fujun
(School of Geography and Resources, Guizhou Education University, Guiyang" 550018, China)
Abstract: The development and changes of the second-hand housing market are very important for urban renewal and urban planning decision-making. It uses web crawling software to obtain second-hand housing listing data for the first quarter of 2023 in the core area of Guiyang City. Through data organization and spatial visualization, kernel density analysis, hotspot analysis, and K-means clustering methods are used to study and analyze the hot areas and spatial distribution of transactions in the second-hand housing market in the core area of Guiyang City. It is found that the distribution of second-hand housing in the flower and fruit gardens in the old urban area of Guiyang is the most dense, extending along the northeast direction, forming a cluster of second-hand housing sales hotspots. The second-hand housing prices in the areas of Guanshanhu District, Dashixi, fountain, and Jiaxiulou in Guiyang are significantly higher than those in other areas. The average price of second-hand houses in Guanshanhu District is more than 1 000 yuan higher than that in the old urban area.
Keywords: second-hand house; kernel density analysis; hot spot analysis; K-means clustering
0" 引" 言
城市是一个复杂的巨系统,二手房的供需信息可以一定程度上反映城市居住功能的情况。贵阳市作为山地城市,土地资源稀缺,近年来住宅市场上经历了逐渐由“增量扩张为主”过渡到“存量更新为主”的城市发展阶段,城市更新正逐渐成为满足居民提高、改善居住功能的重要途径。房地产业经过多年快速的发展,住宅供给市场上二手房数量占城市住宅供给总量的比重逐渐增高[1-3]。研究二手房的价格及其空间分布特征,对城市的可持续发展和功能优化具有重要的意义。
互联网上各大房地产平台有大量二手房挂牌交易,本文通过网络爬虫软件爬取了贝壳网上的贵阳市核心区2023年第一季度的二手房挂牌数据。以此作为数据基础,经过数据整理和空间可视化,使用核密度分析方法,热点分析法,K均值聚类法,研究分析贵阳市核心区(包括云岩区、南明区和观山湖区)二手房市场交易的热点区域、空间分布情况,从而对贵阳市城市更新、规划提供参考依据。
1" 数据获取与研究方法
1.1" 数据获取
二手房数据较为丰富的平台有安居客,贝壳找房等,经比较发现贝壳找房的数据较全并有挂牌时间,本文利用网络爬取软件采集了贝壳网上贵阳市核心区(指云岩区、南明区、观山湖区)2023年第一季度的二手房信息作为研究对象,原始采集数据中包含了网址链接、地址、标题、小区名称、均价、总价、户型面积等信息。经过Excel软件和ArcGIS可视化检查分析发现,获取到的数据存在一些重复、超出研究范围等情况,对数据进行清洗和整理,将明显不符合要求的数据进行补充、删除等处理,使数据规范标准。获取到2023年第一季度的云岩区二手房信息2 082条,南明区的二手房信息2 981条,观山湖区的二手房信息1 725条,并按照顺序进行编号。
根据清洗后的二手房地址文本信息,利用MapLocation-地名查询经纬度,对地址进行批量转换成经纬度(sjfkai.com),将二手房数据在ArcGIS软件上空间化、可视化。
1.2" 研究方法
1.2.1" 核密度分析
核密度分析是地理信息系统(ArcGIS)中的一种空间分析方法,该工具可以用于计算研究对象在指定地理空间上中分布的密度,该研究对象可以是点要素,也可以是线要素。核密度分析工具的工作原理是,假设每一个点要素上面都有一个平滑的曲面,在这个点所在的位置其值是最高的,然后以此点作为圆心,设定一个搜索半径,随着与圆心距离的增加,表面值越来越小,在等于设定的搜索半径的位置,表面值为零。该平滑曲面与其下面的平面共同围成了一个空间,该空间的体积就等于该点的Population字段值,如果此字段值为NONE其体积就等于1 [4]。如果Population设置其他的值,则设定的值就是该点被计数的次数,也就相当于被加权了。如果相同位置存在不同点要素的平滑曲面重叠在一起了,就将其表面值叠加累计。该方法基于空间中的点分布情况,通过计算每个点周围的邻域内点的数量关系来确定密度值。具体而言,ArcGIS核密度法使用了一种称为“核函数”的数学方法,核函数是一个衡量点对于某一点密度贡献的函数。
核密度分析法能帮助我们了解区域内点分布的集中程度,发现空间分布的模式和规律。它应用于聚集类要素的分析研究,通过分析点要素之间的关系和密度来估计数据聚集情况,以此来探索空间区域中的热点分布情况和变化特征[5]。其计算式为:
(1)
其中,x - xi表示两个点之间的距离,n表示点的总数;h表示带宽参数。
1.2.2" 热点分析
ArcGIS软件自带的空间统计方法主要有空间自相关法,高低聚类法,聚类和异常值分析法,热点分析法等。热点分析是构建在统计推断中的零假设检验的思想之上的,由于我们的眼睛和大脑无时无刻不在分析数据背后的模式,即使是统计学上随机分布的事件,在某些时候我们的直观感受,也会觉得这些事件在空间上表现出一定程度的集聚[6-8]。通过ArcGIS软件的热点分析工具,我们可以方便地识别出具有统计学意义上的集聚区域,这可以一定程度上说明这些事件可能受到某些特殊因素的影响,存在空间上的某种相关性。
该工具的工作原理是,通过扫描查看周围要素环境中的每一个要素,高值要素具有高值,且周围也有和他一样的高值要素环绕,其发生的频率达到了统计学意义上的集聚,并且这种局部的现象与所有要素的总和进行比较分析,会计算其z得分、p值和置信区间。识别出具有统计意义的高值区和低值区(又称为冷热点)的空间聚类[9]。
1.2.3" K均值聚类算法
K均值聚类算法(K-means Clustering Algorithm)是一种聚类分析算法,基本原理是,先将数据分为K个小组,然后随机选取K个点作为聚类中心,然后计算数据集中的每一个数据与各个中心点的距离,距离某中心点最近的数据相互关联起来聚成一类,把每个数据都分配给距离它最近的聚类中心[10]。聚类中心以及分配给它们的数据一起成为一个小组,每增加一个数据,该小组的平均值和中心都会被重新计算。这个过程不断重复、不断迭代,直到没有新的数据可以被重新分配给不同的小组,或者没有聚类中心再发生改变,局部的误差平方和最小。其原理简单,可解释性强,通过SPSS软件实现起来很方便,迭代收敛速度快,在数据挖掘、聚类分析上应用很广。
2" 结果分析
2.1" 二手房的空间核密度分析
将从贝壳找房网上爬取的二手房原始数据(如图1所示)中重复的、与研究范围不符合的数据进行补充、完善和删除整理并按顺序进行编号、定位(如图2所示)。然后导入ArcGIS软件,利用ArcMap的核密度分析工具对导入的贵阳市核心区(观山湖区、云岩区、南明区)的二手房空间数据进行分析。考虑到数据的特征,以及贵阳市3个核心区的空间形状和实际面积,选用高斯核函数(Gaussian kernel)进行分析。
搜索半径的选择是根据数据集的特点和感兴趣的区域来确定的,也会影响到核密度估计的精细程度。通过试验观察,系统默认的搜索半径(输出空间参考中输出范围的宽度或高度的最小值除以30)能较好地满足分析要求,故采用系统默认值,搜索半径为5.655 719 815 636 57×10-3。经ArcMap软件处理后结果如图3所示。
从图3的核密度分析图可以看出,老城区云岩区和南明区2023年第一季度的挂牌售卖二手房较多,形成集中分布中心,其中以南明区花果园分布最为密集,沿东北方向延伸,形成二手房售卖热点聚集区,可一定程度上反映老城区置换需求和部分多套房业主套现离场的现象较为明显,这与和房产中介访谈获取的信息相符合。观山湖区呈现出较均衡的分布,其中以世纪城和会展城一带较为密集,这与观山湖区是新城区,房龄普遍都不长,集中售卖的现象还不多有关。
2.2" 二手房的热点分析
热点分析也是ArcMap自带的分析工具,该工具可对输入的空间数据集进行评估,对其高值与低值在空间上是否发生聚类进行统计学分析。文章把贵阳市核心三区(观山湖区、云岩区、南明区)的二手房价格作为“分析字段”,使用创建渔网工具在点要素上方构建面格网,然后使用空间连接工具对落在每个格网面内的事件进行统计分析。在ArcMap软件中打开热点分析工具,步骤为ArcToolbox-空间统计工具-聚类分布制图-热点分析,导入图2所示的贵阳市二手房空间数据集,加权字段为二手房价格,系统自动输出结果(如图4所示)。
如图4所示,在不同的置信区间中显示出不同的冷热点。深红色点的表示在99%置信区间上属于价格加权的热点区域,表示是价格较高集中区域,次红色的点表示在95%置信区间上属于价格加权的热点区域,也表示是价格较高集中的区域,深蓝色点表示在99%置信区间上属于价格加权的冷点区域,表示是价格较低的集中区域,次蓝色点表示在95%置信区间上属于价格加权的冷点区域,表示是价格较低的集中区域。
从图4房屋均价加权的热力分析图可以看出,老城区东部的喷水池、大十字、甲秀楼一带的房价在99%置信区间偏高一些,西南部的花果园、太慈桥一带和东北部的未来方舟、大营坡一带的房价在99%置信区间偏低一些,这和实际调查的情况是相符合的,观山湖区虽然密度不高,也是属于99%置信区间的热点地区,其房价在整个区域是偏高的,这和实际情况也是相符合的。说明热力分析工具的应用可以较好地反映客观情况,在数据处理和可视化方面具有优势。
2.3" K均值聚类分析
为了更进一步的分析贵阳市核心三区(观山湖区、云岩区、南明区)二手房价格的分布情况,文章利用统计软件SPSS的聚类分析中的K-means聚类法,将贵阳市核心三区(观山湖区、云岩区、南明区)二手房价格数据进行聚类分析。将清洗整理过的核心三区二手房数据导入SPSS软件,选择分组时,分别尝试了分3~8组,最后通过人机交互分析,选择5组进行具体分析。软件分析过程为,随机选取5个对象作为初始的聚类中心,然后通过SPSS软件进行迭代分析,计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。最后聚类结果如表1所示。
从表1的K均值聚类分析表可知,南明区的第二类和第四类的房源最多,分别为1 583套和1 020套,第二类的中心价是6 826.68元,第四类的中心价是8 646.91元,均价8 253.29元。云岩区的第二类和第五类的房源最多,分别为738套和901套,第二类的中心价是9 105.86元,第五类的中心价是6 880.87元,均价8 811.60元。观山湖区的第一类和第二类的房源最多,分别为556套和674套,第一类的中心价是10 930.8元,第二类的中心价是8 487.2元,均价11 152.9元。
从表1可以发现,观山湖区的均价要比老城区的房价高1千多元,南明区的最低,中位数观山湖区的要比南明区的甚至高出接近3千元,一定程度上反映了消费者对南明区部分二手房的不那么认可。进一步分析发现,南明区有1 473套花果园的房源,占挂牌售卖的比例约50%,大部分房源价格在6 500~8 500元/平方的价格区间,通过实地调查可知,花果园虽然房龄也不高,但由于房屋密度过高,住户的居住体验并不太好,有很多置换的需求,这在未来的城市规划和城市更新中要引起重视。
3" 结" 论
本文以贵阳市主城区二手房市场为研究对象,通过探索性空间数据分析,了解贵阳市核心区二手房市场数据的空间分布情况,研究发现,核密度分析可以较好地反映研究区域二手房的集聚情况,在获取的二手房数据中,地址信息填写至小区某一栋或附近位置,并不是很精确,核密度分析是通过离散点数据进行内插,运用距离衰减函数测度局部密度的变化情况,其计算结果分布较平滑,能够较直观地反映研究区域数据的空间布局特征,弥补了数据不够精准的问题。研究结果和实地调查是相符合的。
ArcGIS 10.2软件中的热点分析工具价格字段加权后,可以较好反映价格低值区和高值区,与客观情况事项符合的。同时利用SPSS软件中K均值聚类分析工具可以更进一步的了解各区域价格分布情况,研究结果对贵阳市城市更新、规划具有一定的参考意义。之后的研究中,可以在其他房地产平台上获取更多的数据,与本文研究的结果进行比对,以达到更好的效果。
参考文献:
[1] 徐博雅.武汉市二手房价格影响因素空间分异研究——基于POI数据 [J].中国房地产,2022(26):30-37.
[2] 周湘,袁文,李汉青,等.北京市二手房价格时空演变特征 [J].地球信息科学学报,2017,19(8):1049-1059.
[3] 王梦玮,刘勇,刘秀华.多中心山地城市住房价格空间格局研究——以重庆主城区为例 [J].西南大学学报:自然科学版,2016,38(5):133-138.
[4] 张城铭,张子昂.中国三大城市群旅游景点空间分布与影响因素研究 [J].中国名城,2021,35(12):15-22.
[5] 朱寿佳,甄峰,秦萧,等.基于核密度估计的南京二手房活跃度特征及影响机制研究 [J].地球信息科学学报,2015,17(6):698-704.
[6] 朱陇强,杨宇宇,郭昆明,等.我国地学可视化研究的热点分析及演化路径 [J].测绘与空间地理信息,2022,45(7):123-126+130.
[7] 刘尧,王颖志,王立君,等.交通事故的时空热点分析 [J].浙江大学学报:理学版,2020,47(1):52-59.
[8] 惠倩.基于步行可达性的城市公园绿地布点研究 [D].西安:西安建筑科技大学,2020.
[9] 冯海霞,宁二伟,王琦,等.基于GIS的济南市交通事故成因分析 [J].重庆交通大学学报:自然科学版,2023,42(5):124-131.
[10] 王屹伟,路寅,寇艳红,等.基于K-means聚类的GPS同步式欺骗识别方法 [J].电子与信息学报,2023,45(11):4137-4149.
作者简介:叶春(1975—),女,汉族,贵州毕节人,副教授,硕士,研究方向:区域分析与规划。