中图分类号:TP311;TP309 文献标识码:
文章编号:2096-4706(2025)07-0192-07
Abstract:In order to solve the problems of urban traffccongestion,uneven population distribution,and unreasonable infrastructure planingcaused bytherapid growth of urban population,this paper takes multi-sourcespatio-temporal data as theresearchobject,andconstructsatrusteddatagovernanceplatformbasedonmulti-sourcespatio-temporaldata.Theplatform analyzes the distributionandaggregationofurban population from diferent timedimensions byprocessing multi-sourc spatiotemporal data.Meanwhile,inorder toensure thecredibilityofthedataspace,the platform integrates blockchaintechnology, synchronizes businessdataandanalysis resultsonthechain,andrealizes the synchronous updateof platformdataand chain data.Theresultsshowthatthe platform notonlyinheritsthehigh performanceofdata warehouse,but alsosolves theone-sided problemofsingledatasource.Atthesametime,itincreasesthecredibilityofdata govermanceplatformandprovidesanewidea forurbantrafficplanningand facilitiesconstruction.
Keywords:multi-source data; trusted data space; blockchain; spatio-temporal data
0 引言
近几年,随着经济的高速发展,农村人口逐步迁移到城市,这使得城市人口的增长速度非常快。在第七次人口普查中,城市人口占比达到 6 3 . 8 9 % 。城市人口的快速增长随之引发了一系列社会问题。为了适应城市人口的高速增长,城市的建设规划和战略决策缺少可靠的时空数据引导,导致城市道路规划不合理,交通拥堵,空气质量逐年下降等问题。造成这一系列问题的主要原因是城市的空间结构不能满足当下城市人群的移动时空规律。人群的移动和分布体现在地理空间的不同时间段的分布和聚集情况,因此,对人群不同时间段移动规律的分析有助于提升城市的空间利用率,并为未来城市道路规划提供重要参考。
能体现城市人群行为的时空数据种类丰富,例如出租车、公交车的轨迹数据,商铺的客流数据,餐饮的订单数据等。在已有的研究中,大多数是针对单个数据源进行分析,仅仅从单一数据源分析不能全面了解人群的行为特征,单一数据源只能反映人群行为特征的某一个侧面。以公交车数据为例,仅对公交车的班次数据分析,得出来的结果只能获取到城市中经常乘坐公交车的人群在大多数时间乘坐哪些班次的公交车以及这部分人群的移动轨迹,对城市所有人群的移动轨迹缺乏说服力。为了对城市人群在不同时间的分布与聚集情况有更加全面的研究,应该对多种数据源进行融合分析,进而得到更详细的城市空间使用规律,为未来的城市道路规划以及公共设施的建设提供有力的数据支持。本文以城市人群的移动轨迹以及城市交通和基础设施的规划为场景,研究并提出基于多源时空数据的人群移动可信数据的大数据平台设计,助力城市道路建设和空间部署。
1时空数据的研究现状
随着大数据的迅速发展,获取人群轨迹数据的途径多种多样,常见的有出租车、网约车轨迹数据,公交车和地铁客流量数据,手机定位数据,社交APP签到数据等。这些数据都记录了城市人群的时间和空间特征,对城市中不同人群的行为模式的挖掘有着重要的研究意义[1]。
例如,经常选择公交车、地铁等公共交通工具出行的用户,以及选择私家车出行的群体产生的轨迹数据,详细记录了用户出行的时间信息、位置信息、途经点、天气情况、交通状况等,同时体现了选择不同出行方式的人群在规划路线及时间安排上的不同特点。Gong等[2]从出租车数据中分析出乘客的活动模式,同时借助地理兴趣点数据和时空聚类进行关联分析,识别出每次出租车出发的活动目的,以及预测返程时间。
手机定位数据记录了用户使用手机的时间、使用的地理位置、用户的位移等信息。类似的,用户的消费时间、消费内容、消费金额以及消费地点等信息,都被支付APP记录在案。这些数据虽然不能直接反映出人群的移动轨迹,但是可以从侧面推断出不同人群的活动时间和活动空间,进一步了解用户的行为习惯。因此,在国内众多研究中,通过手机的位置信息来获取用户人群的时间和空间数据,并通过这些数据来获取城市人群的移动轨迹规律。田智慧等[通过研究主体的核心运动轨迹对应的速度与方向数据来提取特征点,并将该方法运用在不同的出租车载客活动位移中,以判断出租车载客的主要运动轨迹。陆浩[4]研究基于手机信令的街区人群行动轨迹,结合手机特征数据来推测街道人群的移动轨迹特征。
随着社交网络的广泛应用,用户在社交网络中发布带有位置标记的信息,这些信息记录了用户的上线时间、地理位置和在线时长等。通过分析用户连续签到的时间点以及位置的变化,可以分析线上用户的活动轨迹,同样能获取该部分人群的行为特征[5]。
虽然不同种类的数据来源各不相同,结构也有差异,但都包含了人群在时间维度和空间维度的行为变化。随着数据来源类型的增多,数据规模也变得更加庞大,治理、分析和统计数据的难度也在不断加大。如何对这些多源异构的时空数据进行有效分析,对分析城市人群移动行为规律有着决定性的作用。
2 平台设计
建立即时多源时空数据治理平台,通过数据供给模块采集不同业务数据,并对采集到的离线数据、实时数据进行高质量处理,提升企业治理水平,进一步提高城市空间规划的合理性[。该平台以微服务架构为基础,集成了分布式大数据集群以及Flink实时流处理框架[7。同时,为保证数据可信度,将重要数据和结果数据同步至区块链上,最终通过前端页面进行实时动态展示。
2.1 系统架构设计
系统的整体架构分为三个模块,分别是数据资源供给模块、数据产品开发模块、数据产品经营模块,如图1所示。

数据资源供给:接收来自不同数据源的时空数据。由于时空数据的数据格式不统一,包括实时数据、离线数据等,数据处理方式也有所不同。结构化数据通常会存储到关系型数据库中,通过Datax和Flink对数据进行接入。非结构化数据通常以文件形式或字段不统一的数据格式接入。由于HBase基于列存储,优先存放在内存,再存入磁盘,因此在处理非结构化数据时,其效率和空间利用率都得到了较好的提升。针对文件数据,我们采用分布式文件系统HDFS进行存储。对于实时数据,多以流数据形式接入,且不同时间段的数据量大小不一。Kafka和Flink在实时流数据接入方面具有高吞吐量、精准的状态管理以及良好的容错性等优点。Flume在数据接入过程中,可通过自定义拦截器来满足特定的数据处理需求。
数据产品开发:数据目录是数据产品开发模块中的一个重要组成部分,它为数据资产提供了结构化的管理和访问方式。数据目录是一个集中管理数据资产的系统,它记录了数据集、数据源、数据模型、数据质量和访问权限等元数据信息。为了确保数据的合规性,通过制定数据目录,其目标是提高数据的可发现性、可理解性和可用性。数据治理是自上而下进行的,首先对多源时空数据通过模型定义进行关系的抽象,通过对数据的组织方式以及业务逻辑进行描述,并对数据进行定期的质量评估,识别和记录数据中的问题数据,最后通过一系列规范,用于定义数据的格式、定义、质量要求和管理方式。用户也可以通过该平台构建数据开发任务,其中针对Kafka、Flink导入的实时数据流来创建在线实时开发任务,针对分布式文件系统HDFS、数据仓库Hive、基于列存储的HBase以及关系型数据库导入的离线数据,通常采用定期调度的方式来对离线数据进行批处理。最后,用户也可以根据实际需求通过编写脚本的方式清洗、转换和分析数据。
数据产品经营:该模块分别提供了数据查询、数据接出、数据结果展示功能。数据查询功能主要是针对预处理后和区块链上的数据进行查看,以便对清洗、转换、去重、标准化后的结果数据进行监控,同时确保数据能在区块链上同步更新。数据接出功能通过为不同权限的用户提供API接口,在数据接出前需要对重要数据进行脱敏,以保证信息的安全性。数据展示功能主要是将数据开发的结果通过动态图的方式进行展示,以便观察数据的动态变化。
区块链:由于区块链具有去中心化、不可篡改、数据可追溯性等特点,为了保证重要业务数据的安全性和可靠性[8],将业务数据库的数据同步到区块链上。
本系统集成的是JDchain,在JDchain上创建多个数据账本,每个账本对应不同的业务数据表,每条数据对应于数据账本下的一个数据账户,实现链上数据和业务数据库的数据新增、修改。每次修改数据,在数据账户里面记录版本信息,提供可追溯线索。
2.2 平台功能架构
2.2.1 数据资源供给模块功能架构
数据资源供给模块集成了多种技术和功能,旨在提供高效、可靠的数据资源供给和管理。该模块以微服务作为底层架构,对离线数据、实时数据、文件数据以及日志数据导入到内部数据库。内部数据分为原始库、主题库、应用库。其中,原始库主要用于存储来自各种数据源的原始时空数据,这些数据可能包括结构化数据(如数据库表中的数据)、半结构化数据(如JSON、XML格式的文件)以及非结构化数据(如文本、图片、视频等)。原始库的作用是确保所有采集到的数据都被完整记录,以便于后续的处理和分析。主题库是将原始库中的数据进行清洗、整理和分类,根据特定的主题或领域进行存储,数据的组织方式以主题为导向,方便业务分析以及针对一个或多个主题进行数据价值的探索。应用库存储经过分析、建模后的数据,主要用于实际的业务应用和决策支持,比如生成各种报告和可视化结果,帮助企业进行数据驱动的决策。
该模块同时集成了确权登记管理、数据资源管理、数据资源使用管理功能。确权登记主要是确保数据资源供给方和数据资源持有方的所有权以及用户的使用权得到明确登记,防止数据资源的滥用和侵权。数据资源管理负责对数据进行分类分级,同时识别哪些是重要数据,并对重要数据的使用权限及访问内容进行把控,确保其合理存储和高效检索。数据资源使用管理的主要功能是负责数据的申请和使用审批,保证数据的使用在合规范围内,并对数据的使用情况进行实时监控,同时记录数据的使用日志,为后续的审计和分析提供方便。
数据资源供给模块还提供了资源门户功能,对确权登记管理、数据资源目录、数据资源使用管理等进行整合,为用户提供便捷的数据访问和服务。详细的架构图如图2所示。
2.2.2数据产品开发模块功能架构
数据产品开发模块从数据资源管理拉取经过预处理后的数据,数据类型包括库表类型、API接口数据、分布式文件数据等。用户可以根据业务需求构建数据模型,并抽象和定义数据结构,然后通过拖拉拽的方式选中需要的数据开发工具组件,包括数据提取、转换和加载(ETL)、清洗工具等,帮助用户构建和维护数据管道,实现数据流转的自动化。用户也可以通过交互式开发工具来自定义分析和建模,同时支持
Python和SQL语言,允许用户从多个维度(如时间、地区、产品等)对数据进行深入分析,支持复杂的查询和数据切片。

数据开发的结果数据可以通过可视化分析工具以折线图、柱状图、饼图、热力图等形式进行展示,用户可以根据需要自定义视图,通过过滤和选择不同的数据维度进行分析。为方便外部系统和应用调用结果数据,平台提供RESTfuIAPI接口工具,将分析结果和数据产品化,便于共享和再利用。数据产品开发模块功能架构图如图3所示。

2.2.3数据产品经营模块功能架构
产品经营模块从开发模块接收结果数据,并封装成数据商品,包括对数据产品的登记、审查、评估、认证,最后才上架。商品/数商目录负责管理数据产品和服务的分类、描述、定价及可用性,追踪数据产品从开发到上市、维护及下架的整个生命周期。交易登记负责管理客户的订单,包括下单、支付、发货和退货等流程。在整个交易过程中,对用户采用多重身份验证机制,确保用户账户的安全,并根据用户角色和权限控制数据访问和操作权限。
用户可以通过数据超市选购数据商品。服务中心通过用户提交的订单信息,跟踪和处理用户的订单,同时支持订单查询、支付、发货等操作。服务中心也允许用户收藏感兴趣的数据产品和服务,方便用户快速访问自己收藏的内容。对于用户已经完成的订单,收集用户对数据产品和服务的评价,跟踪并分析用户反馈,优化服务质量。根据用户的订单管理信息,向用户推送订单状态、服务通知等信息,记录和管理与用户的沟通历史。数据产品经营模块功能架构图如图4所示。

3 平台应用
平台在北京可信数据空间项目中得以应用,主要用于解决交通拥堵和城市规划问题。平台以微服务作为基础架构,后端业务数据库除了集成常见的关系型数据库MySQL外,还集成了国产化数据库Kingbase。针对文件数据和实时流数据的处理,通过部署CDH大数据平台的分布式文件系统HDFS来存储海量异构的时空文件数据,同时在CDH大数据平台添加Flink组件。Flink提供统一的批处理和流处理模型,允许用户使用相同的API处理实时和离线数据。同时,Flink具有内置的容错机制,能够在节点故障时自动恢复,确保系统的高可用性。针对数据吞吐量不规律的情况,为了缓解服务器在数据高峰期的计算压力,通过消息队列Kafka对数据进行缓存,以保证消息数据的传输顺序,并且将消息持久化到磁盘,确保数据不会丢失,即使在系统故障的情况下也能恢复[。如果接入的数据为半结构化数据,将数据经过预处理后存放到HBase中。HBase采用列式存储结构,能够高效地进行数据压缩和快速检索,适合存储和管理PB级别的数据,能够处理大规模的数据集[10]。为了保证平台数据的可信度,数据治理平台集成了JDChain。JDChain旨在构建开放的区块链生态系统,具备良好的容错能力,能够在节点故障时保持系统的稳定运行,确保业务连续性。
在平台部署方面,三台服务器分别部署前端、后端和数据库。将每个微服务打包成Docker容器,使用服务注册中心Eureka来管理微服务的注册和发现,确保服务间可以动态地找到彼此。数据库服务器加装了磁盘阵列,通过磁盘阵列来提高数据存储性能和安全性。对于CDH大数据平台,分配了四台服务器,并部署高可用性(HA),以确保Hadoop生态系统(如HDFS和YARN)在出现故障时仍能可靠运行。最后,为JDChain单独分配一台服务器,用来存放需要上链的业务数据,这样能尽量排除其他服务对区块链平台运行的干扰。平台部分运行截图如图5、图6所示,分别表示数据登记和数据产品经营。图7表示JDChain平台运行截图。




4结论
本文研究了基于多源时空数据的人群移动可信数据处理平台,并在北京可信数据空间项自中得到应用,打破了传统的基于单一数据源来分析人群的分布与聚集情况,设计了一套多源时空数据的数据治理平台。首先,该平台可以针对传统关系型数据库、半结构化数据(如JSON、XML、YAML)以及实时流数据进行集成,适配了不同的存储方式。其次,结合了大数据平台的Flink、Kafka等组件,对实时流计算和数据分析提供了有力支持。最后,为了保证数据的可信度,使业务数据与区块链进行数据同步。总之,从时空数据分析的发展趋势来看,集成多个异构数据源进行集中关联分析必将在未来的城市轨道交通规划、基础设施建设中发挥重要的作用。
参考文献:
[1]贾伟楠.基于多数据源的人群移动聚集与分散模式发现方法研究[D].哈尔滨:哈尔滨理工大学,2022.
[2]GONGSH,CARTLIDGEJ,BAIRB,etal.Geographicaland TemporalHuffModel CalibrationUsingTaxiTrajectoryData[J].GeoInformatica,2020,25:485-512.
[3]田智慧,马占宇,魏海涛.基于密度核心的出租车载客轨迹聚类算法[J].计算机工程,2021,47(2):133-138
[4]陆浩.基于手机信令的街区人群移动特征分析与流量预测[D].北京:北京建筑大学,2021.
[5]STEIGERE,WESTERHOLTR,RESCHB,etal.Twitter as an Indicator for Whereabouts of People? CorrelatingTwitter with UK Census Data[J].Computers, Environment andUrban Systems,2015,54:255-265.
[6]中国城市轨道交通协会.城市轨道交通大数据平台技术规范:T/CAMET11003—2020[S].北京:中国标准出版社,2020.
[7]王玉真.基于Flink的实时计算平台的设计与实现[D].南昌:南昌大学,2020.
[8]WUGJ,ZHUBQ,LIJ.BMKS:ABlockchainBasedMulti-Keyword SearchScheme forMedicalDataSharing[C]//2022IEEE Symposium on Computers and Communications (ISCC).Rhodes:IEEE,2022:1-7.
[9]张华兵,陈华军,曹小明,等.一种基于Kafka及Netty框架的监控数据传输方法:CN112491965A[P].2021-03-12.
[10]平利强.基于云计算的海量时空数据存储及挖掘方法的研究和应用[D].杭州:杭州电子科技大学,2014.
作者简介:龚昱鸣(1993一),男,汉族,广西梧州人,工程师,硕士研究生,研究方向:数据治理、数据开发、数据实施。