基于专利数据挖掘的我国智慧健康服务发展趋势研判

known 发布于 2025-08-25 阅读(345)

摘 要:为响应“健康中国”建设号召,文章以专利数据为依据揭示我国智慧健康服务领域当前的研究热点,探索智慧健康服务领域发展趋势。以Innojoy专利数据库中的智慧健康相关数据为数据来源,通过LDA模型对原始语料进行主题识别提取,运用主题强度计算公式得出热点主题进行分析。智慧健康服务处于发展的平稳时期,并向着多技术融合、多部门联合的方向发展,现阶段共有智慧医疗大数据服务平台、智慧健康信息服务平台、智慧医疗设备、智慧医疗文本处理系统四大研究热点。今后智慧健康服务的发展应以用户为中心,提供供需适配的服务,且需不断完善相关法律法规以创造一个规范有序的发展环境。

关键词:专利数据;数据挖掘;LDA主题模型;智慧健康服务

中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2024)08-0161-06

DOI:10.19850/j.cnki.2096-4706.2024.08.035

0 引 言

自《“健康中国2030”规划纲要》发布,至党的十九大对“健康中国战略”作出全面部署,以习近平同志为中心的党中央坚持把保障人民健康放在优先发展的战略位置,从源头维护人民群众的生命健康。《“健康中国2030”规划纲要》中指出“要推动互联网+健康医疗服务、加强健康医疗大数据应用体系建设从而推进医疗健康大数据开放共享、深度挖掘和广泛应用”[1]。随着人工智能技术、大数据分析技术、机器学习等技术的不断发展进步,中国迎来了数智化转型的新路径、新挑战。充分融合当前5G、大数据、区块链等技术,建立集成共享、业务协同的健康信息服务平台,实现从医疗健康服务到智慧健康服务的转型,为国民带来便利的同时满足国民个性化的健康服务需求。新兴技术的应用给予了智慧健康服务更丰富的服务场景,与此同时也给智慧健康服务提出了更高的要求,如何在快速更新迭代的技术中找寻关键技术以及创新技术是当前智慧健康服务面临的一个重点难题。专利是技术情报较有效的载体和来源之一,通过对专利信息的计量,能够识别技术领域发展状况,探查竞争对手及其技术创新活动和能力,并判断技术竞争态势[2]。因此本文将基于专利数据库中的专利数据,应用LDA主题模型对其中智慧健康服务专利进行主题识别并分析当前的技术热点,了解智慧健康服务发展现状,结合当前政策信息提出建议供参考。

1 相关研究

1.1 专利数据挖掘

专利挖掘是在技术研发中,对所取得的技术成果从技术和法律层面进行剖析、整理、分析和筛选,从而确定用以申请专利的技术创新点和技术方案[3]。当前专利挖掘的应用主要分为5个方面,即专利知识表示、专利相似度计算、专利聚类、技术主题识别以及链路预测[4]。在专利知识表示方面,学者通常采用自然语言处理技术对专利文本内的知识进行编码识别,如Word2Vec [5]、Sentence-BERT [6]、Context-LDA [7]算法等。专利相似度的计算则主要通过余弦相似度计算,如向姝璇通过结合专利IPC分类相似度计算以及对独立权利要求相似度计算对我国5G领域企业现有或潜在的竞争对手进行挖掘发现[8],李家全等人利用知识图谱的方法计算专利文本之间的相似度来判断专利是否侵权[9]。专利聚类以及专利主题识别则分别帮我们解决了如何识别关键技术集群、如何识别热门核心技术主题的问题,以辅助我们掌握专利技术发展的态势。专利聚类以及专利主题识别常用的方法有LDA算法[10]、深度文本聚类模型[11]、决策树[12]等。专利链路预测则通过当前技术的关联关系来预测网络中尚未连接的两个技术节点之间产生链接的可能性[13]。

1.2 智慧健康服务

智慧健康服务从传统的健康服务演变而来,其强调的是数智时代中物联网技术、人工智能技术、云计算技术等新兴技术在健康服务中的应用。马费成教授指出智慧健康是一门交叉学科,涵盖较多领域,包括“互联网医疗”“移动健康”“智慧医疗”等概念,其核心都是利用现代化信息技术和智能技术,对传统医疗健康管理模式进行改进[14]。目前国内学者对于智慧健康服务的研究主要集中于健康大数据研究、智慧健康服务平台的建设、智慧健康服务影响因素研究。随着在线健康社区、电子健康档案、远程服务等方式被人们所接受,个人健康数据的存储和分析成为研究的热点之一,如利用医疗大数据构建人机协同医疗案例库[15]、利用大数据对高血压症候进行分析[16]。智慧健康服务平台的建设则是以健康大数据为基础建立智能服务平台为服务对象提供一个便利的应用平台,如夏思洋等学者以多源数据融合技术为基础构建了面向老年人的智慧健康信息服务系统[17],初佃辉等学者研发开放式智能服务平台架构实现医疗健康与养老服务的深度融合[18]。智慧健康服务影响因素研究以被服务对象的需求为导向探究影响智慧健康服务能否被接受的主要因素。

通过上述梳理可发现,当前国内学者将专利挖掘应用于多领域的技术主题识别中,但是仅有较少的学者以专利挖掘为基础研究智慧健康服务领域的相关技术。因此本文将以专利数据库中的专利文本数据为基础,运用LDA主题模型识别专利数据中的技术主题并提取该领域的热点研究主题进行分析,以掌握当前智慧健康服务领域的研究热点、发展现状,探寻未来研究导向。

2 研究思路及研究方法

2.1 研究思路

本文拟从Innojoy专利数据库检索得到相关智慧健康服务相关专利发明数据,导出专利所对应的分类号、摘要、时间等信息,对所得的相关专利文本进行切分词、去除停用词等文本与处理得到原始语料。通过LDA模型对原始语料进行主题识别提取,并运用困惑度指标来确定最优主题数,根据提取的主题词对各主题进行标识,最后对主题强度进行计算得到智慧健康服务领域热点主题进行分析。

2.2 LDA主题模型

LDA模型是一种无监督学习技术,通过吉布斯采样算法识别分析非结构化文本数据中的词语信息对一系列文档中的主题进行抽象和聚类,是当前文本主题挖掘最常用的方法。LDA模型主要包含特征词、主题、文档三层结构,模型假设每一文档均由一定数量的隐含主题构成,每一主题又由一定数量的特征词构成,并根据主题对文档的支持权重、特征词对主题的选择概率来判断三者之间的关联程度。LDA模型示例图如图1所示,其中D是文档集合。首先从狄利克雷分布α中选取生成文档d的主题分布θ,再从主题分布θ中选取生成文档d第n个词的主题Z,接着从狄利克雷分布β中选取生成主题Z的词语分布φ,再从词语分布φ中生成词语W。重复以上过程至得到文档D中每一个特征词为止。

LDA模型主题的最佳个数本文将采用困惑度(Perplexity)来进行确定。困惑度通常用于衡量主题模型在新文本数据上的拟合程度,是当前公认判断最优主题数的重要指标,其计算式如下:

其中D是测试文档集合,N是测试文档数量,Nd是第d个文档中单词的数量,Wd是第d个文档中的单词序列,p(Wd)是模型对文档Wd的似然概率。困惑度越小则代表模型对样本文档集的分类效果越好,反之困惑度越大则模型效果越差。

主题强度通常情况下由一定时间范围内与主题相关的文档数量来表示,主题强度越大则代表当前对于该主题的关注度越高,其热度也越高,因此通过对主题强度的计算可得出在特定时间内的热点主题,其计算式如下:

其中θ是第d个文档中第z个主题的比例,Dt是时间段t内的文档数目,主题阈值计算式如下:

3 实证研究

3.1 数据来源

本文以Innojoy专利数据库中的专利数据作为数据来源,Innojoy专利数据库是集专利文献技术信息、法律信息和市场分布信息为一体的专利综合应用平台。平台中收录一百多个国家地区的专利数据,具有多字段检索、同组追踪、数据分析等优势。综合参考其他学者的检索关键词得到智慧健康服务领域专利检索式:TS =智慧健康or智慧医疗or移动健康,检索范围为中国,共得到3 892条专利数据,经过同族合并以及无关专利筛除后导出3 872条数据。

基于检索到专利技术年度公开的数量绘制如图2所示的专利年度公开量分布图。从图中可发现智慧健康服务领域专利技术的发展可分为三个阶段。首先,自2007年智慧健康服务专利出现以来至2012年为专利发展的初期;2013年至2020年为智慧健康服务专利发展的上升阶段,随着各类健康政策的提出与实施,国家对国民健康状况的重视程度逐渐提升,结合IBM公司提出的“智慧地球”理念,更多学者、技术人员将目光转向智慧健康领域,使得智慧健康成为研究热点,相关成果井喷式产出;2021年至2023年为智慧健康服务专利发展的平稳时期,国民健康状况依旧是当前国家、人民关注的热点,因此智慧健康领域的专利数量仍较大,但是相比于上升阶段其专利年度公开量较平均,发展较平稳。

3.2 模型识别结果

本文采用困惑度指标来确定最优主题数,利用Python对实验数据进行困惑度计算并得到如图3所示的不同主题数量下困惑度的变化情况。从图中可看出当主题数目达到8以后模型困惑度下降幅度明显减小且趋于稳定,初步确定LDA模型的最优主题数为8。选取主题数目8,利用pyLDAvis对词与主题关系进行可视化展示,如图4所示,可以看出主题数目为8时,各主题之间重合较少,区分度明显,因此确定最优主题数目为8。

确定主题数目为8后利用LDA主题模型方法得到如表1所示的8大类主题,并提取了各主题下前25的高频关键词。结合高频关键词与智慧健康服务专利文本将八大类主题归纳为:智慧医疗调度技术、智慧药品管理技术、智慧医疗大数据服务平台、智慧监测技术、智慧检测技术、智慧健康信息服务平台、智慧医疗设备、智慧医疗文本处理系统。

基于LDA模型运行所得的文档-主题分布概率可获得每个样本文档属于八个不同主题的概率,结合主题强度计算公式得到各个主题的强度,将其与主题阈值进行比较得到如图5所示的主题强度图。

3.3 热点主题分析

主题强度大于主题阈值即为热点主题,由此从图5可得到四个智慧健康服务专利领域热点主题,分别为主题2智慧医疗大数据服务平台、主题5智慧健康信息服务平台、主题6智慧医疗设备、主题7智慧医疗文本处理系统。结合热点主题下的专利文献以及相关参考文献,对热点主题进行分析。

3.3.1 智慧医疗大数据服务平台

医疗大数据是涉及与自然人医疗健康相关的多种数据,在数智化的大背景下包含互联网+医疗健康、物联网+医疗健康和人工智能+医疗健康等新兴领域所产生的与健康领域相关的数据[19]。智慧医疗数据大平台的建立对于用户、健康服务提供相关机构均有利。首先,用户可以通过可佩戴的便携装置,如心率环、计步器等,快速直接地从自身健康数据中知晓当前健康状况,并以此为依据合理调整饮食作息以保护自己身体健康,维持一个良好的身体状况。其次,对于如医疗机构、研发机构等相关服务提供者,通过大数据服务平台中共享的多样化健康数据了解当前特定区域内甚至国家范围内居民的健康状况,以此来做出及时、精准的决策,从而为国民健康保驾护航。然而医疗大数据除了具有海量、异构性、多源性等大数据所具有的特点之外,还有隐私性、专业性的特点,这都对医疗大数据平台的构建提出了较高的要求。智慧医疗大数据平台的建设需要多部门联合,需要信息技术机构来构建平台并维护平台的运行,需要医疗机构提供相关专业知识的指导,需要平台用户共享健康数据。如何联合多部门综合利用新兴技术、法律、政策文本加强对智慧医疗大数据平台的宣传以及建设完善,使健康大数据真正成为保护国民健康的资源是今后医疗大数据平台发展的方向与重点。

3.3.2 智慧健康信息服务平台

随着国民对自身健康状况重视度的不断提升,其对健康信息的需求也逐渐加强,为满足国民需求,健康信息服务平台随之产生。健康信息服务平台是一个集健康管理、疾病预防、健康教育、医疗服务功能为一体的综合性服务平台,智慧健康信息服务平台则是在健康信息平台的基础上融入前沿技术,如云计算、人工智能、5G等,致力于为国民提供个性化、专业的健康服务,其中在线健康服务平台,如好大夫在线、丁香园等,是当前人们常用的具有代表性的智慧健康信息服务平台之一。融合多种新兴技术构建一个真正智慧的健康信息服务平台是当前研究的热点。夏思洋等学者融合利用区块链、云计算等智能技术构建了基于多源数据的智慧健康信息服务系统框架,旨在为老年人提供更加智慧化的健康服务[17];高靖超等学者结合用户画像、聚类分析、情感分析等多种深度学习算法,探究在线医疗社区健康焦虑用户情感及其他特征表现,为健康服务平台提供较全面的用户画像标签类型解释,为其管理提供指导意见[20]。然而信息真伪难辨、服务质量参差不齐是当前平台中仍存在并将长期存在的问题,如何融合多元技术构建一个高质量、可靠的智慧健康信息服务平台、推进线上线下服务共同发展是其今后发展的重点。

3.3.3 智慧医疗设备

智慧医疗设备是将智能传感器、大数据、云计算等新兴技术与传统医疗设备相结合,主要用于监测、诊断、分析患者病情的设备,如可穿戴康复设备、细胞形态学识别装置、远程手术机器人等。智慧医疗设备突破了时空限制能为患者提供更加精准、全面的服务,如AI智能机器人的出现能帮助医生对患者病况进行更加准确、高效的判断。通过智能手环等可佩戴设备监测用户心率、血压、血氧等指标,及时发现其存在的健康问题进而来预防疾病的发生。与此同时智慧医疗设备产生收集的健康数据能够为医疗大数据平台提供其所需数据,不仅能监测分析设备数据、优化设备使用效果,还能监测分析用户健康数据为其提供个性化的服务。顺应国家“十四五规划”中构建基于5G的应用场景和产业生态,在智慧医疗领域展开试点示范的要求,赋能智慧医疗设备建立从预防到筛查到诊断再到护理的全过程医疗生态系统是当前发展的重要方向。然而医疗设备资源在地区间分布不均衡仍是当前存在的问题,如何真正做到医疗设备资源下沉,使不同地区人民都能平等享受智慧医疗设备是当前急需解决的问题之一。

3.3.4 智慧医疗文本处理系统

医疗文本包括患者电子病历、诊断报告等,不同于其他类型的文本,医疗文本中包含大量具有特殊含义的医疗命名实体(例如疾病、症状、身体部位等),且医疗文本通常以非结构化的形式出现[21],对其进行识别处理产生了一定的困难。然而医疗文本作为医疗大数据平台的数据来源,在较多领域中都起着不可或缺的作用,如通过对同一患者不同时间段病历的识别分析可以知晓其既往病史、家族病史等为医生提供决策支持、对特定时间段内患者病因识别可以判断传染病暴发迹象,提前进行防控。医疗领域的命名实体识别方法经历了从基于规则的方法到基于传统机器学习的方法再到现在基于深度学习的方法的转变[22]。机器深度学习技术的不断发展完善从一定程度上解决了医疗文本识别困难的问题,成为当前学术界研究的热点。许浪等学者利用BERT训练词向量结合CNN和BiLSTM构建了医学文本分类模型,完善了传统分析忽略上下文关系的不足,提高了医疗文本分类的准确率[23]。林令德等学者提出预训练模型多层动态融合方法对医疗文本中的医疗实体进行准确识别,并从中获取有价值的信息,为健康服务相关人员提供决策支持[24]。

4 结 论

本研究利用LDA主题识别模型对智慧健康服务领域专利数据进行挖掘识别,探究了智慧健康服务领域当前的研究热点及其发展趋势。研究得出智慧医疗大数据服务平台、智慧健康信息服务平台、智慧医疗设备、智慧医疗文本处理系统四大类主题为当前该领域研究热点,且正在向着多技术融合、多部门联合的方向发展。但是当前较多智慧健康服务领域的发展仍局限于相关机构本身,存在忽视用户真正需求的问题,相关法律法规依然存在欠缺。未来的发展需深入用户群体,以用户为中心,综合利用当前前沿技术深入挖掘用户需求以提供与其需求相适配的健康服务。此外,参考国内外相关案例结合国内智慧健康领域背景构建完善的法律框架体系,为智慧健康服务的发展提供规范有序的环境。

参考文献:

[1] 中国政府网.“健康中国2030”规划纲要 [EB/OL].(2016-10-28)[2023-11-24].https://www.sport.gov.cn/n10503/c772727/content.html.

[2] 崔遵康,李丹阳,徐小婷,等.粮食作物生物育种技术全球创新布局与竞争态势研究——基于核心专利数据挖掘的视角 [J].中国农业科技导报,2022,24(5):1-14.

[3] 陈亮,陈利利,许海云,等.国内外专利挖掘研究进展与前瞻 [J].图书情报工作,2024,68(2):110-133.

[4] 韦婷婷,冯丹钰,宋世领,等.技术机会发现领域专利挖掘方法研究述评 [J].情报学报,2023,42(10):1238-1250.

[5] 张钰玲,彭丽徽,张艳丰,等.基于专利数据挖掘的我国智慧应急关联技术识别与发展趋势研究 [J].情报科学,2023,41(8):139-146.

[6] 阮光册,周萌葳.基于Sentence-BERT的专利技术主题聚类研究——以人工智能领域为例 [J].情报杂志,2024,43(2):110-117.

[7] 伊惠芳,刘细文.一种专利技术主题分析的IPC语境增强Context-LDA模型研究 [J].数据分析与知识发现,2021,5(4):25-36.

[8] 向姝璇,李睿.基于专利文献整体相似度计算的竞争对手发现——以5G领域为例 [J].情报理论与实践,2021,44(5):100-105.

[9] 李家全,李宝安,游新冬,等.基于专利知识图谱的专利术语相似度计算研究 [J].数据分析与知识发现,2020,4(10):104-112.

[10] 孙瑞英,陈宜泓.基于LDA主题模型的国内智慧阅读研究热点及发展导向研判 [J].图书馆建设,2023(3):82-93+103.

[11] 谢士尧,王小梅.基于深度文本聚类的论文与专利数据融合方法研究 [J/OL].数据分析与知识发现:1-17(2023-09-28).http://kns.cnki.net/kcms/detail/10.1478.g2.20230927.0845.002.html.

[12] 陈浩,张梦毅,程秀峰.融合主题模型与决策树的跨地区专利合作关系发现与推荐——以广东省和武汉市高校专利库为例 [J].数据分析与知识发现,2021,5(10):37-50.

[13] YOON B ,MAGEE C L. Exploring Technology Opportunities by Visualizing Patent Information Based on Generative Topographic Mapping and Link Prediction [J].Technological Forecasting and Social Change,2018,132(7):105-117.

[14] 马费成,周利琴.面向智慧健康的知识管理与服务 [J].中国图书馆学报,2018,44(5):4-19.

[15] 顾天阳,赵旺,曹林.跨组织医疗健康大数据聚合与案例知识推理方法研究 [J].情报科学,2022,40(3):40-44.

[16] 马金辉,王志飞,谢雁鸣,等.基于大型电子医疗数据的高血压中医证候分析 [J].中国中医基础医学杂志,2014,20(9):1236-1238.

[17] 夏思洋,朱学芳.面向老年人的智慧健康信息服务系统研究——基于多源数据融合技术 [J/OL].情报科学,2023:1-14(2023-09-18).http://kns.cnki.net/kcms/detail/22.1264.G2.20230915.1530.027.html.

[18] 初佃辉,吴军,刘志中,等.智能化医养融合服务平台关键技术及应用研究 [J].智能系统学报,2021,16(5):972-988.

[19] 李岳峰,胡建平,张学高.中国健康医疗大数据资源目录体系与技术架构研究 [J].中国卫生信息管理杂志,2019,16(3):249-256.

[20] 高靖超,彭丽徽,张艳丰,等.在线医疗社区健康焦虑用户画像模型构建及实证研究 [J].图书情报工作,2023,67(16):124-134.

[21] 闫璟辉,宗成庆,徐金安.中文医疗文本中的嵌套实体识别方法 [J/OL].软件学报,2023:1-13(2023-08-28).https://doi.org/10.13328/j.cnki.jos.006927.

[22] 杨波,孙晓虎,党佳怡,等.面向医疗问答系统的大语言模型命名实体识别方法 [J].计算机科学与探索,2023,17(10):2389-2402.

[23] 许浪,李代伟,张海清,等.基于神经网络的医疗文本分类研究 [J].计算机工程与科学,2023,45(6):1116-1122.

[24] 林令德,刘纳,徐贞顺,等.基于多层动态融合的中文医疗命名实体识别 [J/OL].计算机工程与应用,2023:1-13(2023-08-25).http://kns.cnki.net/kcms/detail/11.2127.TP.20230825.1143.006.html.

作者简介:陈天怡(1998—),女,汉族,浙江宁波人,硕士研究生在读,研究方向:健康信息。

收稿日期:2024-01-26

Research on the Development Trend of Chinese Intelligent Health Services

Based on Patent Data Mining

CHEN Tianyi

(School of Public Administration, Xiangtan University, Xiangtan 411105, China)

Abstract: In order to respond to the call for the construction of “Healthy China”, this paper reveals the current research hotspots in the field of intelligent health services in China based on patent data, and explores the development trend of intelligent health services field. The intelligent health related data in Innojoy patent database is taken as the data source, and the original corpus is extracted for topic recognition by LDA model. It applies the topic intensity formula to derive hot topics and analyzes them. The intelligent health services is at a plateau of development, and is moving towards multi-technology convergence and multi-sectoral integration. The intelligent medical Big Data service platform, intelligent health information service platform, intelligent medical equipment, and intelligent medical text processing system are the four research hotspots at present. The development of intelligent health services should be user-centered, providing services that match supply and demand, and it also need to continuously improve relevant laws and regulations to create a standardized and orderly development environment.

Keywords: patent data; data mining; LDA topic model; intelligent health services

标签:  健康 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor