基于在线健康平台评价数据的主题挖掘与情感分析

known 发布于 2025-08-25 阅读(319)

摘" 要:患者对医生的评价是获取医患关系信息的重要途径,分析在线健康平台上患者对医生的评价内容,可以了解患者对医疗质量和医生服务水平的认知。文章以丁香医生在线健康平台上患者对医生的评价数据作为研究对象,利用LDA主题模型进行主题聚类,并采用SnowNLP技术进行情感分析。结果显示,评价数据涉及表达感谢、服务态度、线上咨询和术后反馈四个主题。同时,共现分析和词云图显示了高频词汇之间的联系。最终,针对医生、患者和平台三者提出相关建议,旨在促进医疗质量的提升和医患关系的改善。

关键词:在线健康平台;医患关系;患者评价;LDA主题模型;情感分析

中图分类号:TP391" " 文献标识码:A" 文章编号:2096-4706(2024)19-0124-06

Topic Mining and Sentiment Analysis Based on Online Health Platform Evaluation Data

WANG Wenpeng, LI Haichen

(School of Information Management, Heilongjiang University, Harbin" 150080, China)

Abstract: Patient evaluation of doctor is an important way to obtain information about the doctor-patient relationship. Analyzing the content of patient evaluation of doctor on online health platform can understand the patients perception of the medical quality and the level of doctor service. This paper takes the data of patient evaluation of doctor on the online health platform of Dingxiang Doctor as the research object, uses the LDA topic model for topic clustering, and uses SnowNLP technology for sentiment analysis. The results show that the evaluation data involves four topics of expression of gratitude, service attitude, online consultation and post-operative feedback. Meanwhile, the co-occurrence analysis and word cloud diagram demonstrate the connection between high-frequency words. Eventually, relevant suggestions are made for doctor, patient and platform, aiming to promote the improvement of medical quality and doctor-patient relationship.

Keywords: online health platform; doctor-patient relationship; patient evaluation; LDA topic model; sentiment analysis

0" 引" 言

2018年,国务院办公厅就如何推动“互联网+医疗健康”这一问题,在全国范围内提出《关于促进“互联网+医疗健康”发展的意见》,围绕“互联网医疗、公共卫生服务创新、家庭医生签约、药品供应保障、医保结算”等内容开展了深入研究。推动和规范“互联网+医疗健康”的发展,并在此基础上提出了“互联网+医疗健康”的新要求[1]。在此背景下,在线健康平台因其方便快捷的特点而获得了巨大的发展空间。

近年来,互联网技术的快速发展对医疗行业产生了巨大影响。在线健康平台成为患者获取医疗信息、预约挂号、在线咨询医生、获取专业意见和评价医疗服务的重要渠道。比如好大夫、丁香医生、甜蜜家园、春雨医生等典型代表,帮助用户应对健康问题,提供健康信息、健康服务和情感支持,更好地解决疾病的困扰[2]。在当前的趋势下,这些在线健康平台逐渐受到大众关注,并迎来蓬勃发展。同时,在线健康平台汇集了大量的患者评价数据,这些评价包含了对医生服务质量和医疗经验的直接反馈。患者对医生的评价在在线健康平台上具有广泛的影响力,对医疗服务质量的改进和医患关系的建立起着重要作用。

本文旨在通过引入LDA(Latent Dirichlet alloca-tion)主题模型和情感分析技术,针对丁香医生在线健康平台患者对医生评价的研究,客观地了解患者对医疗服务的满意度和需求,探索在线健康平台上患者对医生的评价中隐藏的主题结构和情感倾向,为在线健康平台提供改进医疗服务的方向和策略。帮助平台管理者了解医生表现和患者反馈,从而改进服务质量和患者体验。同时,为医生提供反馈和改进建议,了解患者的需求和关注点,提高医生与患者的沟通和交流效果,更好地理解医患沟通和医患关系的问题。并为患者提供参考和指导,帮助他们选择合适的医生和医疗服务,提高医疗决策的准确性和满意度。

1" 文献回顾

1.1" 在线健康平台相关研究

随着信息技术的不断发展,在线健康平台逐渐成了人们获取医学信息的一个重要渠道,在线健康平台主要是以在线社区为载体,通过汇集医疗和健康相关信息,为患者提供一个信息或信息交流的平台[3]。目前,在线健康平台的迅速发展,为研究者们提供了良好的研究环境和数据支撑。成为当下研究的热点之一。主要研究如下:金燕等人从政府、平台和患者三个主体视角展开调研,分析在线健康平台健康信息质量治理现状,并提出改进治理效果的策略[4]。司广森等人基于多样性理论,从多层面的视角探究在线健康平台场景下个人、科室和医生团队多样性对服务绩效的影响[5]。Lu从社会信息加工的角度建立研究模型。对我国在线健康平台的患者进行匿名问卷调查以收集数据。以此为患者、医生、在线健康平台(OHCs)提供建议[6]。钱明辉等人基于我国在线健康平台的基本特征,从九个维度建立起我国在线健康平台信息质量评估的指标体系,为我国在线健康平台的品牌化建设提供参考[7]。

1.2" 医患关系相关研究

医患关系是医疗服务中一个至关重要的方面,对于医疗质量和患者满意度具有重要影响。Luo等人系统考察在线健康信息(OHI)寻求行为对医患关系的影响。对4个数据库共53篇文献进行情感分析,旨在提高患者的依从性,改善医患关系[8]。罗晓兰等人将医患关系转变成“患者-互联网-医生”的三元关系,以健康信息沟通为切入点,发挥在线健康平台信息服务的优势,促进医患关系和谐发展[9]。Petrič等人对斯洛文尼亚最受欢迎的在线健康平台的患者进行网上调查,进行层次回归分析,用定量的方法为患者赋权,使医患交流更加平等、健康有效的发展[10]。

1.3" 相关研究综述

综上所述,以往的研究主要集中在对在线健康平台的现状和发展进行分析,并通过问卷调查的方式评估医患关系。然而,对于在线健康平台上患者对医生服务后评价的研究相对较少。因此,本研究的目标是利用在线健康平台上患者对医生的评价数据,并通过对评价内容的分析,了解患者对医疗质量、医生专业能力和服务水平等方面的认知和评判。为实现这一目标,本研究将采用LDA主题模型和情感分析方法,从评价内容中挖掘出主题信息和情感倾向。通过对患者对医生评价特点的揭示,旨在加强患者需求与医生表现之间的关系,推动在线健康平台的健康有序发展。并为提高医疗质量和改善医患关系提供有价值的参考。

2" "数据搜集与研究方法

2.1" 数据搜集与预处理

丁香医生是国内最大的在线健康平台之一,致力于提供便捷、高效的医疗健康服务。通过融合互联网和医疗资源,丁香医生为患者提供在线问诊、互联网医院和健康管理等多种服务。同时,丁香医生的在线问诊服务允许患者通过手机或电脑与医生进行远程咨询和诊断,患者可以随时随地通过APP平台或网页提交病情、病历资料,并获得医生的指导和建议。为患者提供了方便、高效、专业的医疗和健康服务,使患者能够更好地管理自己的健康,解决就医难题。

本研究采用了丁香医生在线健康平台的评价数据作为数据来源,为了获取完整的数据集,通过网页爬取平台患者对医生的评价数据,为保证数据客观真实有效,随机选取丁香医生平台不同科室的不同医生的评价数据。并保留了评价内容、评价时间和评价用户名等信息。进行了无效评价和重复评价数据的剔除,同时对缺失值进行了处理。评论数据的时间跨度为2019年6月—2023年7月,最终爬取共计12 280条评价数据。初始数据如表1所示。最后,利用Python语言中jieba分词工具和哈工大停用词表为基础,对搜集的数据组成的文本进行分词、去停用词等数据预处理和清洗操作[11]。

2.2" 研究方法

2.2.1" "LDA主题模型

本文使用LDA主题模型方法,LDA是一种概率图模型,可对大量文本主题信息特征进行三层贝叶斯模型构建,用于发现文本数据中的潜在主题结构[12]。LDA模型在患者评价数据中的应用可以帮助揭示评价内容的隐藏主题结构,进而了解患者对医生的评价特点、患者需求和医生表现之间的关系。通过LDA模型,可以从大量的患者评价数据中提取出一些共同的主题,每个主题包含一组相关的词语。这些主题可以代表不同的评价内容或情感倾向,例如患者对医生的专业能力、服务态度、表达感谢等主题。并了解这些主题在医生服务中的重要性和分布情况。

具体而言,LDA模型的生成过程如下:

1)首先,假设有K个主题,每个主题都由一个固定的词语分布表示。

2)对于每篇文档,先从主题分布中随机选择一个主题。

3)根据选定的主题,再从该主题的词语分布中随机选择一个词语。

4)重复上述过程,为文档中的每个词语生成对应的主题和词语。

通过LDA模型的推断方法,可以根据观测到的文本数据,估计每个文档的主题分布和每个主题的词语分布。

2.2.2" 情感分析方法

随着自然语言处理技术的发展,运用情感分析方法量化患者评价,进而评估患者情感已成为当下研究的主流形式。情感分析是通过挖掘并分析文本中所表达的情感内容,帮助识别和提取文本中情感信息的一种分析方法[13]。情感分析方法主要包括基于机器学习算法和基于情感词典等分析方法。本文通过对丁香医生平台患者对医生评价数据的结果分析,机器学习算法无法依据患者评价的数据进行针对性地解释,因此,本文采用基于情感词典的语义分析方法探究患者评价数据的情感。

情感词库是文本情感分析的基础,主要包括情感词典、修饰词典和否定词典。

常见的中文情感词典有知网HowNet词典和大连理工大学词典等[14],本文采用的中文情感词典主要以HowNet词典为基础,HowNet词典是一个以语义为基础的词典系统。通过计算机化的方式,将词语的语义知识形式化,为自然语言处理和知识处理提供支持。它不仅包含了词语的基本词义和词性,还提供了丰富的语义信息,包括词语之间的关系、上下位关系、组成关系、领域关系等。

根据本研究特点,构建好情感词典后,利用Python语言中SnowNLP文本分析库,将患者评价数据分为两类:积极和消极。得分越接近“1”为积极,越接近“0”为消极,如图1所示。

3" 实证研究

3.1" 主题模型数目确定

LDA主题困惑度(perplexity)常被用于通过比较模型在训练过程中生成的文本和实际观察到的文本之间的拟合程度来衡量模型的质量。若困惑度处于较低的水平,表示模型生成的文本越符合实际观察到的文本,也即表示模型估计的主题分布与真实分布更接近,其预期误差值也会相对较小。需要注意的是,主题困惑度是一个相对指标,并不能单独用于评估模型的优劣。在应用中,还需要结合其他评估指标和实际需求进行综合考量。主题困惑度的计算公式如下:

其中,W/M为第i篇文档的单词数目,代表了文档的长度,N为文档数量,P(Wi /M )为第i篇文档中词出现的概率值[15]。

本文将每个患者对医生的评价数据视为一个文档,利用Python的pyLDAvis和sklearn库对处理的评价数据进行LDA模型训练。采用困惑度指标,同时与LDA主题分析可视化相结合,确定最终分类时的主题数量[16]。依据困惑度公式计算LDA模型主题数为1到9的困惑度,得到困惑度-主题数曲线如图2所示。当主题数为K=4时,LDA主题模型的困惑度较低,并且LDA主题可视化如图3所示,结果显示主题之间没有重合,表明分类效果较好。因此本文选取LDA模型的最有主题数目为4,即K=4。

3.2" 主题结果分析

通过将12 280条患者对医生评价数据进行LDA主题分析,我们得到了4个主题下高频词汇词云图,如图4所示。词云图词汇越大,表明评价数据占比越大,其中,感谢、谢谢、解答、专业、耐心、细致等词汇占比量最大,因此,本文将所得的4个主题根据高频率词汇词云特点和表2的患者评价数据主题内容中高频率主题词进行结合,将4个主题分别定义为线上咨询、服务态度、术后反馈和表达感谢。

其中主题1:线上咨询。患者通过在线健康平台向医生咨询他们的病情,并详细讲述自己的情况。医生通过在线渠道为患者提供便捷、高效和专业的医疗和健康服务,解决患者在就医过程中遇到的难题和困扰。这种线上咨询的方式方便了患者,提升了医疗服务的效率,并为患者提供了便利的医疗资源。

主题2:服务态度。患者通过在线平台与医生进行交流,医生的沟通方式和技巧能够反映出他们的服务态度。患者对医生服务态度的评价数据主要有专业、耐心、爱心、负责、敬业等积极词汇。表达了患者对医生服务态度的肯定和满意度。同时,这些评价词汇也间接反映出医生是否愿意倾听患者的问题和关注点,是否能够提供足够的时间给患者表达自己的疑虑和问题,并且以友善和耐心的方式回应患者的需求。

主题3:术后反馈。患者通过在线健康平台与医生交流自己术后的恢复情况。他们向医生反馈自己术后的状态,让医生了解患者的术后进展。医生根据患者的反馈,给予相应的建议和注意事项,帮助患者更好地管理自己的健康,了解自己的术后康复情况。这种术后反馈使医生能够及时了解患者的情况,为患者提供个性化的术后护理指导。

主题4:表达感谢。根据表2的数据,可以观察到主题4在整个评价数据中占比最大,共计5 335条评价,约占评价数据的43.44%。患者在评价中使用了诸如全面、热心、专业、责任心、医德等积极的词汇。患者通过在线健康平台向那些曾经帮助过他们的医生表达真挚的感激之情,对医生表示尊重。这些评价也提高了医生的评价等级,使他们更容易被平台推荐给其他患者咨询[17]。

3.3" 主题词间关系分析

通过图5共现网络分析,块状越大代表词语出现的频率越高,不同的颜色代表着不同的主题,其中感谢、专业、手术、态度、耐心、细心、咨询、仁心、解答等词汇出现的频率特别的高。共现矩阵展示了各个高频词之间的共现关系,例如,“感谢”与“解答”的共现次数为785次,“专业”与“耐心”的共现次数为729次等,正是因为有了这些核心特征词的共现,才使得整个语义网络能够互相联系起来,使不同的用户评价内容,不同的评价对象之间实现了紧密的连接[18]。综合共现网络,这些词汇关联的相关维度,对其进行追踪,可以得到更加详细的可视化主题图[19]。同时,可以将不同的评价数据主题通过不同类型的主题词进行连接,实现主题彼此之间的组织和聚合,使整个评价数据形成更丰富的评价体系[20]。

3.4" 主题情感分析

构建情感词库,主要包括情感词词典,修饰词词典和否定词词典。利用Python语言中SnowNLP文本分析库,对评价数据的情感分值进行逐个计算,根据本研究的实际情况,将患者对医生的评价数据分为积极和消极两种情感。根据图6所示,积极情感在服务态度、术后反馈和表达感谢三个主题的分布占比最大,分别高达91.49%、93.25%和98.67%。这表明患者通过在线健康平台与医生交流,并获得了良好的反馈。他们通过平台向医生表达了积极的情感,并感谢医生对自己的治疗和帮助。通过情感分析,我们可以更好地了解患者对医生服务的情感倾向。这有助于评估医疗平台的效果,了解患者对医疗服务的满意度,并提供有针对性的改进措施。

同时,对消极情感的分析也能帮助医疗平台和医生们及时发现问题,并采取相应的改进措施,提升医患关系和医疗服务质量。根据图6的数据,可以观察到消极情感在在线咨询主题中占比最大,约为25.51%。在这个主题中,患者对医生的评价包含了一些消极词汇,如“不满”“不耐烦”“自以为是”“迷茫”“不予答复”“敷衍了事”等。这反映出患者在通过丁香医生健康平台向医生进行在线咨询时,可能遇到了一些问题。一方面,医生可能表现出不耐烦的应付心理[21],导致患者在咨询过程中感到不满。另一方面,患者由于专业知识不够,可能无法清晰地表达自己的问题或病情,使医生在回答时可能提供了片面的解答,导致双方的沟通不顺畅。这使得患者没有真正解决实际问题,仍然被病痛困扰,从而产生消极情感,并对医生的服务进行消极评价。

4" 研究建议

综合本文研究,为了提升医疗服务的质量和效率,提出以下建议:

首先,医生应致力于提升自身的专业能力。这包括通过参与职业发展培训、继续教育以及持续学习来不断更新自身的专业知识和技能,以便掌握医学领域的最新进展。这样做旨在满足患者对高质量医疗服务的期望。

其次,强化医患之间的沟通被认为是改善医患关系的关键。有效的沟通技巧,如倾听患者需求、清晰解释医疗信息、耐心解答患者疑问及保持良好的服务态度等,对于建立患者对医生的信任感和满意度至关重要[22]。此外,医生的自我反思和自我提升也不可或缺。医生应积极分析和学习患者评价内容,通过患者的反馈来识别和改进自身的不足,从而不断提升医疗服务水平和医患关系的质量

最后,从在线健康平台的视角,优化用户体验和加强医患沟通是提升服务质量的关键[23]。平台应提供易用、友好的界面和功能,加强用户隐私保护,同时通过多样化的沟通方式(如文字聊天、视频咨询等)促进医患间的直接沟通。此外,加强对平台医生服务的监管和评估,完善用户评价系统,也是确保服务质量和提升用户满意度的重要措施。

5" 结" 论

本文通过分析丁香医生平台上患者对医生的评价数据,揭示了医生评价中的主题结构和情感倾向。基于研究结果,为健康平台的发展提供了建设性建议,旨在提高医患信任和患者满意度,促进在线健康平台持续发展。未来的研究希望可以进一步拓展数据来源和采用更多的方法,深入挖掘患者对医生评价的特点和影响医患关系的因素,以提供更全面的研究支持,进一步优化医疗服务。通过本文的研究,希望可以从患者对医生的评价数据中挖掘出有价值的信息和见解,为医疗行业提供更深入的分析和洞察,进一步推动在线健康平台的发展和优化,改善医患关系。

参考文献:

[1] 国务院办公厅.关于促进“互联网 医疗健康”发展的意见 [EB/OL].(2018-04-28).https://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm.

[2] 袁静,郭玲玉.在线健康社区用户非持续使用行为影响因素分析 [J].现代情报,2022,42(2):81-93.

[3] 陈曦.互联网医疗研究现状及未来展望 [J].人民论坛·学术前沿,2017(24):40-47+95.

[4] 金燕,胡香,杨瑞仙,等.在线健康平台的信息质量治理现状及提升策略研究 [J].现代情报,2023,43(8):79-90.

[5] 司广森,刘汕,吴依珂.在线健康平台医生团队多样性对服务绩效的影响研究 [J].管理学报,2023,20(3):422-431.

[6] LU X Y. The Effects of Patient Health Information Seeking in Online Health Communities on Patient Compliance in China: Social Perspective [J/OL].Journal of Medical Internet Research,2023,25:e38848(2023-09-01).https://www.jmir.org/2023/1/e38848.

[7] 钱明辉,徐志轩,连漪.在线健康咨询平台信息质量评价及其品牌化启示 [J].情报资料工作,2018(3):57-63.

[8] LUO A J,QIN L,YUAN Y F. The Effect of Online Health Information Seeking on Physician-Patient Relationships: Systematic Review [J/OL].Journal of Medical Internet Research,2022,24(2):e23354(2022-02-10).https://www.jmir.org/2022/2/e23354.

[9] 罗晓兰,丁华,韩景倜.医患网络健康信息沟通与医患关系促进 [J].医学与哲学,2022,43(4):45-49.

[10] PETRIČ G,SARA A,TANJA K. Impact of Social Processes in Online Health Communities on Patient Empowerment in Relationship With the Physician:Emergence of Functional and Dysfunctional Empowerment [J/OL].Journal of Medical Internet Research,2017,19(3):e74(2017-03-13).https://www.jmir.org/2017/3/e74.

[11] 谷莹,李贺,李叶叶,等.基于在线评论的企业竞争情报需求挖掘研究 [J].现代情报,2021,41(1):24-31.

[12] MORENO A,IGLESIAS C A. Understanding Customers Transport Services with Topic Clustering and Sentiment Analysis [J/OL].Applied Sciences,2021,11(21):10169(2021-10-19).https://doi.org/10.3390/app112110169.

[13] 王克勤,高智姣,乔亚楠,等.在线评论中的用户需求识别及其演化趋势挖掘 [J].机械科学与技术,2023,42(7):1070-1080.

[14] 孙宝生,敖长林,王菁霞,等.基于网络文本挖掘的生态旅游满意度评价研究 [J].运筹与管理,2022,31(12):165-172.

[15] 邱均平,沈超.基于LDA模型的国内大数据研究热点主题分析 [J].现代情报,2021,41(9):22-31.

[16] 李倩,王帅.LDA模型下我国公共图书馆微信平台阅读推广内容主题研究 [J].图书情报工作,2022,66(8):72-83.

[17] 邰杨芳.健康教育类在线课程的用户需求及评价挖掘分析 [J].中国大学教学,2023(Z1):100-113.

[18] 张公让,鲍超,王晓玉,等.基于评论数据的文本语义挖掘与情感分析 [J].情报科学,2021,39(5):53-61.

[19] 占泚,熊回香,蒋武轩,等.基于主题图的在线健康信息标签语义挖掘研究 [J].情报科学,2022,40(1):121-129.

[20] 钱宇星,周华阳,周利琴,等.老年在线社区用户健康信息需求挖掘研究 [J].现代情报,2019,39(6):59-69.

[21] TAN S S L,NADEE G. Internet Health Information Seeking and the Patient-Physician Relationship: A Systematic Review [J/OL].Journal of Medical Internet Research,2017,19(1):e9(2017-01-19).https://www.jmir.org/2017/1/e9.

[22] 张帅,王文韬,李晶,等.国外用户在线健康信息行为研究进展 [J].图书馆论坛,2018,38(9):138-147.

[23] 周涛,王盈颖,邓胜利.在线健康社区用户知识分享行为研究 [J].情报科学,2019,37(4):72-78.

作者简介:王文鹏(1998—),男,汉族,黑龙江富锦人,硕士研究生在读,研究方向:文本挖掘、数据分析;李海晨(1971—),男,汉族,辽宁辽阳人,副教授,硕士生导师,博士,研究方向:健康信息学、文本挖掘。

标签:  在线 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor