基于BERTopic模型的政务开放平台用户需求主题识别与分析

known 发布于 2025-08-25 阅读(205)

摘" 要:研究旨在通过分析湖南省政府数据开放平台的用户反馈评论数据,识别公众在教育、职业资格认证、农村发展、养老保险基础设施建设等领域的关注点与需求,并提出相应的政策改进建议。采用文本挖掘技术,使用Python对评论数据进行采集和预处理,并通过BERTopic模型提取主题,揭示公众主要关注的领域。研究结果显示,公众在教育、农村发展、医疗、退役军人就业等方面有较高关注。基于此,提出了提升就业服务、加强政府沟通、完善养老保险制度、提供退役军人就业支持四项改进建议,以提高政府公共服务质量。

关键词:政府数据开放;BERTopic模型;主题分析

中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2025)04-0087-06

Identification and Analysis of User Demand Themes for Government Open Platforms Based on BERtopic Model

—A Case of the Hunan Provincial Government Open Platform

ZHENG Ang, PENG Jiyang

(Tourism College of Jishou University, Zhangjiajie" 427000, China)

Abstract: By analyzing the user feedback comment data from the Hunan provincial government open data platform, this research aims to identify the publics concerns and needs in education, professional qualification certification, rural development, pension insurance, infrastructure construction and other fields, and propose corresponding policy improvement suggestions. It uses text mining techniques, employs Python to collect and preprocess the comment data, and extracts topics through the BERTopic model, revealing the main fields of public concern. The research results indicate that the public shows significant attention to education, rural development, healthcare, and employment for veterans. Based on these findings, four recommendations for improvement are proposed, including enhancing employment services, improving government communication, refining the pension insurance system, and providing employment support for veterans, so as to improve the quality of government public services.

Keywords: government open data; BERTopic model; topic analysis

0" 引" 言

推动数据资源开放共享是建设网络强国和推进国家治理体系现代化的必要条件。这不仅是政府推进数字化转型和信息公开的重要抓手,也是实现政府职能转变和便民服务提升的关键路径。我国高度重视政府数据开放,积极推进相关平台的建设进程。2020年4月,国务院发布《关于建立更加完善的要素市场配置机制的意见》,要求完善政府数据管理,安全有序开放公共数据,推动建立国家数据平台,提升数据资源共享与利用效率,服务社会。

截至2023年8月,我国已建成了226个地级及以上的政府数据开放平台,公共数据的平台化服务取得了显著进展。湖南省在2020年上线了政府数据开放平台,上线时间相较于其他省市处于滞后状态。根据中国数林指数网的数据,湖南省的数林指数较低,在全国22个已建设政府数据开放平台的省份中排名第15位。随着社会的快速发展,公众尤其是潜在数据使用者,对政府开放数据的需求不断增加,且对数据的质量和数量提出了更高的要求。

为进一步提升数据开放水平,湖南省需要着力加强数据资源的质量控制和更新机制,保障数据的时效性、准确性和完整性,对平台用户的反馈进行深入研究尤为重要。通过对湖南省政府数据开放平台的用户反馈数据进行挖掘,并结合词云图进行可视化分析,不仅为提升政府数据开放平台的用户满意度提供了有益参考,也为提升政府数据开放平台的建设与服务水平提供了有力支持。

1" 相关研究综述

现有研究表明,我国学者从多重维度对不同国家和地区的开放数据平台进行深入分析,旨在揭示其实施效果与优化路径。王今等[1]基于数据开放和数据质量的特征,运用层次分析法构建了政府数据开放用户满意度评价体系,为政府数据开放数据的质量评价提供了用户视角的评价。黄如花等 [2]采用循证政策研究方法,从基础设施层、数据管理层和政府治理层三个维度构建了政府数据开放共享标准体系。

马仁杰等[3]学者着眼于开放水平、社会满意度和应用程度三个维度,构建了基于价值的政府数据利用状态模型。顾嘉琪等[4]基于公众需求建立了“质量屋”模型,并按照需求优先级进行排序,提出了提升政府数据开放服务质量的对策。范晨雪[5]通过梳理政府及交通类开放数据的发展现状,分析我国7个省级政府门户交通类数据的不足,借鉴英国经验,提出从机构、政策、数据质量和公众参与五方面改进的建议。邓胜利等[6]通过对中美8个城市政府开放数据平台的现状进行定量与定性结合的对比分析,提出了加强数据管理、优化用户体验、完善标准和立法保障等提升我国城市政府开放数据平台的对策。

尽管国内相关领域的学者对政府数据开放平台建设现状进行了广泛而深入的比较分析,并提出了多项针对性的建议和对策,但专注于提升政府开放数据平台服务质量以满足公众需求的研究仍较为不足。针对湖南省政府数据开放的现状,本文将在上述学者研究的基础上,从用户角度出发,采用网络爬虫收集用户的政务反馈数据,对采集到的非结构化文本数据进行处理,通过构建BERTopic主题模型探析用户所关注的热点主题,针对主题模型的结果识别问题并提出相应改进措施,以提升政府数据开放平台的服务质量。

2" 研究设计

2.1" BERTopic模型

BERTopic是基于BERT预训练模型的主题建模方法,通过结合BERT嵌入和c-TF-IDF创建密集的集群,易于解释主题的同时,也可在主题描述中保留关键词语[7]。与传统的主题建模方法相比[8],BERTopic利用了预训练的BERT模型的语义信息,能够更好地捕捉词语间的语义关系,自动识别潜在主题以便对文本进行有意义的分组和分类,并能够实时更新主题模型以反映新数据。该方法能够根据聚类结果生成可解释的主题标签,方便理解和分析聚类结果。

目前BERTopic已在文本主题提取领域得到广泛使用,部分学者将其应用于结构化文本文献的主题提取[9],用于识别学科领域的研究主题热点与演变的过程。因此,本文基于BERTopic模型对政府政务平台的用户评论进行研究,以便进行用户需求主题提取,并识别出各个需求主题下更细粒度的用户需求。

2.2" 研究思路

通过设置网络爬虫对湖南省政府数据开放平台用户反馈的文本数据进行采集,利用Python的Pandas、Jieba等库对非结构化文本数据进行清洗,包括过滤高频无意义词语、符号等;基于分词后的文本数据进行词频分析并制作词云图;最后利用BERTopic模型对数据进行主题可视化分析,生成词频数据和主题可视化图像。具体流程如图1所示。

2.3" 数据获取及处理

2.3.1" 数据采集

本研究以湖南省政府数据开放平台作为数据采集对象,选取其用户反馈的文本数据进行挖掘分析。首先,对该平台“阳光服务”子栏目中的公众反馈的文本数据进行整理,然后设置Python爬虫对湖南省政府数据开放平台用户反馈的文本数据进行采集。数据收集时间为2024年6月1日,共采集到500条用户需求信息,部分评论数据如表1所示。

2.3.2" 数据预处理

为便于文本数据分析,首要要对原始评论数据进行必要的预处理。具体操作包括删除空值或重复、无关的评论,以减少对后续处理结果所带来的干扰。最终,将处理后的500条文本数据作为样本以.csv文件格式进行存储。

在文本分类中,频繁出现但没有实际意义的词被称为“虚词”或停用词。删除这些停用词可以更准确地传达文本的主旨,避免不必要的词汇影响分析[10]。对于爬取到的500条用户反馈文本,首先使用中文停用词表过滤掉高频无意义词语和符号,然后对文本信息进行分词处理,提取出已分词的摘要文本信息。

接下来,应用HDBSCAN算法对文本进行聚类,并通过UMAP方法对文本数据进行降维处理,将文本信息嵌入到低维空间中。接着,使用c-TF-IDF方法提取文本的主题,并展示主题结果。最后,通过BERTopic模型进一步分析和处理文本主题,对整个分析过程进行总结归纳并得出结论。

3" 实例分析

3.1" 基于词云图的高频词分析

为更清晰地呈现用户关注的问题和需求,本研究采用TF-IDF算法对文本进行特征提取,TF-IDF算法算法依据单词在文本中的出现频率和在整个语料库中的使用频率来衡量其重要性。通过“词云图”对特征进行可视化展示,词云图中单词的大小反映了其在评论中的重要性,从而帮助揭示文本的主要含义。对数据进行预处理工作,将非结构化文本结构化。生成的词云图如图2、图3所示。

图2展示了湖南省政府数据开放平台用户反馈评论中的高频关键词。词云中“政策”“办理”“医保”“考试”“补贴”“标准”等词汇占据了显著位置,表明用户在评论中频繁讨论与政策、医保、考试、补贴、标准等相关的话题。这些关键词的大小和颜色直观反映它们在评论中出现的频率,字体较大的词汇代表更高的频率,体现了用户关注的热点问题。

图3展示了用户评论中频繁提到的湖南省各政府部门和机构名称。词云中,像“省人力资源社会保障厅”“省发展改革委”“省医保局”“省教育厅”等词汇占据了显著位置,表明这些部门在用户评论中提到的频率较高。较大的字体表示该部门被提及的次数较多,反映了公众对这些部门工作的关注和讨论热点。

3.2" BERTopic模型

运行BERTopic模型后,文档被划分为不同的主题集合,每个集合代表一个特定的主题。最终获得了公众需求的7个主题。每个主题集合中包含若干主题词,这些词语最能代表该主题的内容,如表2所示。

3.3" 主题分析

图4展示了七个主题(Topic)的关键词和对应的词频得分,每个主题都有一组关键字,反映了该主题的主要内容,清晰地展示了各主题的主要内容和关注点。

主题0为关键词为教师、资格证、考试、事业单位、毕业生,主要涉及教育相关的话题,如教师资格证考试和毕业生的就业问题;主题1关键词为农村、标准、养老保险、政策、农民,集中于农村发展和养老保险等政策相关内容;主题2关键词为高速公路、高速、规划、建设、湖南,与基础设施建设相关,特别是高速公路的规划和建设。主题3关键词为生育、产假、独生子女证、人口、计划生育,围绕生育政策和产假等内容展开,涉及人口和计划生育政策;主题4关键词为2019、药师、执业、医师、年度,主要讨论药师和医师的执业资格及相关年度评估。主题5关键词为退役军人、退伍军人、高职、院校、军人,与退役军人和高等职业教育相关的主题。主题6关键词为医保、门诊、报销、社保卡、肺炎,聚焦于医疗保险和门诊报销等医疗保障话题。

图5展示了不同主题的概率分布,每个条形代表一个主题及其相应的概率值。概率值越高,表示该主题在数据集中出现的频率越高,反映出该主题在用户反馈中的重要性和关注度。其中主题0:教师、资格证、考试、事业单位、毕业生以及主题6:医保、门诊、报销、社保卡、肺炎概率接近1,表示这两类主题在数据集中占据非常高的比例。

通过文本特征提取和词云图分析,能够直观地了解用户对政府数据开放平台所关注和重视的各类要素,但这些要素之间的关联性尚未显现。为此,需要采用可视化方法进一步直观分析特征词之间的联系,进一步探究用户反馈评论数据中存在的其他特征。

如图6所示,主题分布图谱展示了文档与主题的关系,不同聚类的点代表不同的主题。图中显示,教师资格证考试相关的文档集中在右下方,农村标准和养老保险相关的文档在左上方,高速公路和规划相关的文档在左下方,生育和产假相关的文档在右上方,药师执业相关的文档在右下方,退役军人和高职相关的文档在右上中位置,而医保和门诊报销相关的文档则集中在图的中间靠右。此图直观地展示了各主题的聚类情况及其在文档中的分布。

图7展示了层次聚类的结果,通过树状图显示了不同主题之间的相似性和层次结构。横轴表示相似度度量。数值越小,表示主题之间的相似度越高,距离越近;数值越大,表示主题之间的相似度越低,距离越远。纵轴列出了不同的主题及其关键词。图中上下两部分代表不同的聚类分支。每个分支连接的主题表示这些主题在一定相似度下被聚类在一起。

“主题4:2019、药师、执业”和“主题6:医保、门诊、报销”在较高的相似度下被聚类在一起,说明它们之间的内容相关性较高;主题3(生育、产假、独生子女证)与前两个主题有较高的相似度,说明这些主题在某些方面有共同点;主题5(退役军人、退伍军人、高职)与上述三个主题在较高相似度下聚类,说明它们之间也有一定的内容关联。

主题0(教师、资格证、考试)和主题1(农村、标准、养老保险)在较低相似度下聚类,表示它们之间的内容相关性较低;主题2(高速公路、高速、规划)与前两个主题在更低相似度下聚类,进一步表明其内容差异较大。

横轴上的数值表示主题之间的相似度(或距离)。数值越小,表示主题之间的相似度越高;数值越大,表示相似度越低。主题4和主题6之间的相似度最高,而主题0和主题2之间的相似度最低

通过这张层次聚类图,可以直观地观察各个主题之间的相似关系以及它们如何逐步聚类在一起。这种可视化方法有助于理解不同主题的关联性和层次结构。

4" 相关建议

本研究通过对湖南省政府数据开放平台用户反馈评论数据的文本挖掘和分析,揭示了公众在教育与职业资格认证、农村发展与养老保险、基础设施建设、生育政策、医疗与药师执业、退役军人就业与职业培训以及医保与门诊报销等多个领域的关注和需求。基于这些发现,本文针对提升毕业生就业指导服务、加强政府部门协调与公众沟通、完善农村养老保险制度以及提供退役军人就业支持,提出了一系列具体的改进措施。以下是各个重点领域的结论与建议。

4.1" 提升毕业生就业指导服务

研究结果显示,公众对毕业生就业问题高度关注,尤其是职业规划和就业培训的需求较为迫切。政府应加强职业规划指导,通过高校与政府部门联合开展职业规划讲座和工作坊,帮助毕业生明确职业目标,提升就业能力。同时,提供多样化就业培训,政府应与企业合作,提供实习机会和技能培训课程,确保毕业生具备市场所需的技能。建立就业信息平台,开发并推广便捷的就业信息平台,实时发布招聘信息和就业政策,为毕业生提供全面的就业支持。此外,加强校企合作,推动高校与企业建立长期合作关系,开展定向培训和校园招聘活动,提高毕业生的就业率和就业质量。

4.2" 政府部门协调与公众沟通

为了提高政府工作效率和公众满意度,必须加强各部门间的协调与公众沟通。政府应建立跨部门协作机制,定期召开跨部门会议,协调政策制定与实施,确保各项工作无缝衔接。提升信息公开透明度,及时在政府官方网站和社交媒体平台上发布政策信息和工作进展,增强政府工作的透明度和公信力。多渠道听取公众意见,通过热线电话、在线咨询、意见箱等多种渠道,广泛收集公众反馈,及时回应公众关切。加强宣传和教育,通过宣传手册、公开课和社区活动等形式,向公众普及政府政策和服务,提升公众对政府工作的理解和支持。

4.3" 完善农村养老保险制度

农村养老保险制度的完善对于保障老年农民的基本生活具有重要意义。政府应简化参保手续,减少办理流程和所需材料,方便老年人参保和享受养老保险待遇。增加财政补贴,政府应加大对农村养老保险的财政投入,确保养老金能够满足老年人的基本生活需求。定期开展政策宣传,通过村委会、广播、张贴公告等方式,向农村居民宣传养老保险政策,提高政策知晓率和参与率。提供多元化服务,在养老保险的基础上,开展老年人健康检查、心理疏导和文化娱乐活动,提高老年人的生活质量和幸福感。

4.4" 提供退役军人就业支持

退役军人的就业支持对其顺利融入社会至关重要。政府应建立专门的就业服务机构,在各地设立退役军人就业服务中心,提供职业咨询、技能培训和就业推荐等服务。加强职业技能培训,根据市场需求,为退役军人提供免费的职业技能培训课程,提升其就业竞争力。拓展就业渠道,政府应与企业、事业单位和社会组织合作,提供更多适合退役军人的就业岗位。保障退役军人权益,完善退役军人就业保障政策,确保其在就业过程中享有公平待遇和合法权益。

5" 结" 论

综上所述,通过系统的文本挖掘和分析,本研究不仅揭示了湖南省公众关注的热点问题,还为政府在提升公共服务质量和回应公众需求方面提供了具体的改进措施。未来,政府应继续加强数据分析和公众反馈的收集,不断优化政策和服务,提高行政效率,促进社会和谐发展。

参考文献:

[1] 王今,马海群.政府开放数据质量的用户满意度评价研究 [J].现代情报,2016,36(9):4-9.

[2] 黄如花,温芳芳,黄雯.我国政府数据开放共享政策体系构建 [J].图书情报工作,2018,62(9):5-13.

[3] 马仁杰,金一鼎.价值实现视角下政府数据利用路径研究 [J].图书馆学研究,2018(13):39-44+18.

[4] 顾嘉琪,袁莉.基于公众需求的政府数据开放服务质量提升研究 [J].情报杂志,2020,39(6):196-202.

[5] 范晨雪.基于交通类数据集的我国政府开放数据分析 [D].太原:山西大学,2019.

[6] 邓胜利,夏苏迪.中美城市政府开放数据平台对比研究 [J].图书馆杂志,2019,38(6):57-68+75.

[7] 左昊.基于技术创新政策的上海市技术创新路径选择研究 [D].上海:上海师范大学,2022.

[8] 徐振国,张琳,谢万里,等.融合BERTopic和KANO模型的在线课程用户需求挖掘研究——以Python在线课程为例 [J/OL].情报科学,2024:1-18(2024-05-07).http://kns.cnki.net/kcms/detail/22.1264.G2.20240506.1704.016.html.

[9] 胡凯茜,李欣,王龙腾.基于BERTopic模型的网络暴力事件衍生舆情探测 [J].情报杂志,2024,43(7):146-153.

[10] 王丽雅,庞晓楠.基于文本挖掘的政府数据开放平台在线评论内容特征分析 [J].图书馆研究与工作,2023(9):40-45.

作者简介:郑昂(2001—),女,汉族,湖南长沙人,硕士在读,研究方向:公共管理与图书馆智库建设;彭纪扬(2000—),男,汉族,湖南长沙人,硕士在读,研究方向:自然语言处理与文本挖掘。

收稿日期:2024-09-29

基金项目:吉首大学研究生校级科研项目(Jdy23214)

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor