摘 要:文章对基于ECharts的医疗数据交互式可视化进行了深入研究。首先,报告了使用ECharts在高效医疗数据可视化分析领域的应用现状。研究对两个案例进行了详细调查:第一个案例探讨在不同学习率(0.001和0.000 01)下,ECharts如何有效生成准确率和损失率曲线,以及这些曲线如何清晰展示深度学习模型在训练过程中的动态变化;第二个案例则针对睡眠健康和生活方式数据集,展示不同职业群体中失眠、无障碍和睡眠呼吸暂停的分布比例。通过这两个案例,不仅加深了对ECharts在医疗数据可视化中的应用理解,还为未来医疗数据分析和深度学习领域的研究提供了新视角和有力的实践指导,突显了ECharts在数据科学与可视化领域的关键作用。
关键词:ECharts;可视化;交互式;医疗数据
中图分类号:TP311 文献标识码:A 文章编号:2096-4706(2024)14-0076-05
Research on Interactive Visualisation of Medical Data Based on ECharts
CHEN Sinan, CHEN Jiping, HUANG Hongqian, PAN Weiquan
(School of Mathematics and Statistics, Yulin Normal University, Yulin 537000, China)
Abstract: This paper presents an in-depth study of interactive visualisation of medical data based on ECharts. Firstly, the current application status of using ECharts in the field of efficient medical data visualisation and analysis is reported. The study investigates two cases in detail. The first case explores how ECharts can efficiently generate accuracy and loss rate curves at different learning rates (0.001 and 0.000 01) and how these curves can clearly demonstrate the dynamic change of a Deep Learning model during the training process. The second case targets the sleep health and lifestyle dataset to show the distribution ratio of insomnia, accessibility and sleep apnoea in different occupational groups. Through the two cases, this paper not only deepens the application understanding of ECharts in medical data visualisation, but also provides new perspectives and strong practical guidance for future research on the fields of medical data analysis and Deep Learning, highlighting the key role of ECharts in the fields of data science and visualisation.
Keywords: ECharts; visualization; interactive; medical data
DOI:10.19850/j.cnki.2096-4706.2024.14.015
收稿日期:2023-12-14
基金项目:大学生创新创业训练计划项目(202110606020)
0 引 言
随着信息技术的迅猛发展,数据可视化技术在各个领域都得到了广泛关注和应用。近年来的研究涵盖了多个领域,呈现出丰富多彩的发展景观。其中一些重要的研究方向包括基于R语言Shiny包的文本可视化系统、概率统计交互可视化教学、机器学习交互式可视化平台,以及以Vue+Flask为基础的圆极化天馈系统数据可视化和基于Flask框架的疫情数据可视化分析[1-6]。这些研究成果不仅为各个领域提供了强大的数据可视化工具,还推动了数据可视化技术的不断创新。通过基于R语言Shiny包的文本可视化系统,研究人员能够以更直观的方式呈现文本信息,使其更易理解和分析。概率统计交互可视化教学为教育领域带来了新的可能性,通过可视化手段提高学生对统计概念的理解。机器学习交互式可视化平台为研究人员和数据科学家提供了直观而灵活的工具,以探索和理解机器学习模型的性能和行为。而以Vue+Flask为基础的圆极化天馈系统数据可视化和基于Flask框架的疫情数据可视化分析,则在工程和公共卫生领域取得了显著的成果。
未来,我们有望进一步探索数据可视化技术的创新和跨学科应用。这包括更加智能化的可视化系统、更广泛的领域应用,以及更加直观的用户交互方式。通过不断推动数据可视化技术的前沿,我们将更好地满足不同领域对于可视化工具的不断增长的需求,推动信息传递和决策制定的更高水平。
特别值得一提的是,ECharts [7]是一款功能强大的JavaScript图表库,因其简便易用和丰富的图表类型而备受关注。作为一项基于JavaScript的开源工具,ECharts为用户提供了便捷的方式来创建多样化且交互式的图表。ECharts被广泛认可为全球领先的可视化开发工具,尤其在中国的Web前端行业,其识别率高达90%,使用率更是达到惊人的74% [8]。这不仅证明了ECharts在全球范围内的卓越地位,也突显了它在中国的独特地位,成为最受欢迎的可视化工具包之一。在百度内部,高达90%的软件产品选择采用ECharts,在外部机构,包括中国外交部、中国国家统计局、中国国家专利局、阿里巴巴、腾讯、华为、联想等知名公司中,ECharts同样得到了广泛的应用[9]。
本文的主要目标是利用ECharts图表应用程序对经过TensorFlow [10]深度学习处理的医疗数据结果以及睡眠健康和生活方式数据进行可视化呈现。数据可视化[11]是一种通过图解方式将抽象数据呈现出来的方法,以使信息更加清晰和明确,从而实现对数据的深入观察和分析。在数据库中,复杂的数据可以通过数据可视化技术进行分解,将其表示为单个图元元素。同时,通过多维数据的形式,不同的属性值得以以多个维度展现,使观察者能够从不同的角度和维度全面审视数据。这种方法提供了一种直观而有效的手段,有助于更好地理解和解释数据。
随着医疗大数据的广泛应用,对医疗数据进行可视化分析显得愈发重要。然而,随着医疗数据规模的不断扩大,医学诊疗方法的不断升级,以及信息化水平的提高,未来医疗数据的数量将持续增加,从中快速提取有效数据信息成为当前迫切需要解决的问题。基于ECharts的数据可视化分析技术的出现为解决这一难题提供了有效途径和改进方法。ECharts技术的运用使得医疗专业人士能够更直观、更有效地理解和分析复杂的医疗数据,为提升医疗数据分析的效率和精度提供了崭新的可能性。
本研究的数据主要来源于互联网上公开的网页数据。我们在收集数据的过程中,严格遵守相关的规范,并尽最大努力确保数据的可信度和准确性。我们对数据来源的网页进行了充分的筛选和验证,确保所使用的数据来自权威和可靠的来源。
1 案例一
以下是对学生CGPA数据集在心理健康方面的统计研究。该数据集通过由Google Forms发起的调查收集,调查对象为大学生。调查的目的在于深入了解他们目前的学业状况以及心理健康状况,以进一步分析二者之间的关联。
在此案例中,我们采用了深度学习方法[12],利用TensorFlow框架的Keras接口构建了一个基线(baseline)模型。为了优化训练过程,我们引入了Adam优化器,这是一种广泛应用于神经网络训练的优化算法。接下来,我们使用Keras的Sequential API定义了一个顺序模型。该模型包括多个密集层,涵盖了一个输入层(9个节点)、两个使用ReLU激活函数的隐藏层(分别有18和9个节点),以及一个使用Sigmoid激活函数的输出层。这种架构通常用于解决二元分类问题。
在模型构建之后,我们创建了Adam优化器的实例,并通过设置不同的学习率,以研究学习率对模型性能的影响。具体而言,我们分别采用了学习率为0.001和0.000 01的情况。
随后,我们使用二元交叉熵损失函数(通常用于处理二元分类任务),并以之前定义的Adam优化器和准确率作为评估指标对模型进行编译。编译的目的是最小化训练过程中的损失,从而提高模型的性能。我们选择了准确度作为模型性能的评估指标。
然后,我们调用“fit”函数来训练模型。该方法接受训练数据和验证数据,并将训练的时期数设定为50。一旦训练过程完成,我们记录了准确率和损失率的变化,以备后续分析或可视化之用。
我们通过ECharts工具进行数据可视化,绘制了不同学习率下模型在训练集和测试集上的准确率和损失率曲线,如图1所示。
(a)在学习率为0.001下Epoch8的结果图
(b)在学习率为0.001下Epoch40的结果图
(c)在学习率为0.000 01下Epoch12的结果图
(d)在学习率为0.000 01下Epoch49的结果图
通过ECharts动态折线图,我们生动地展示了在学习率为0.001的情况下,模型在训练过程中的性能变化。此图表不仅提供了直观的数据可视化,而且支持用户交互,使得在鼠标移动时,y轴数据能够相应变化。如图1所示,我们特别关注了两个关键的数据点,以更深入地理解模型的训练进展。
首先,我们聚焦于Epoch8这一时间点。通过点击x轴上的该数据点,我们详细观察到模型在学习率为0.001时的性能表现。在训练集上,准确率达到约0.600,而在验证集上为 0.500;相应地,训练集和验证集的损失分别约为0.684和0.712。这一数据揭示,在模型经过8个周期的训练后,学习率为0.001的情况下,模型取得了相应的性能进展。
其次,我们深入研究了Epoch40这一关键时刻。点击x轴上的该数据点,我们观测到在学习率为0.001的情况下,模型在训练至第40个周期时的性能指标。在这个时间点,训练集的准确率达到约0.688,验证集上为0.600;同时,训练集和验证集的损失分别约为0.589和0.647。这进一步表明,随着训练的进行,模型在学习率为0.001的情况下取得了显著的性能提升。
除此之外,我们将目光转向学习率为0.000 01的情况,并关注了Epoch12这一具有代表性的时间点。通过点击x轴上的Epoch12,我们发现在学习率为0.000 01的情况下,模型在经过12个周期的训练后,表现出准确率为0.625和0.75(训练集和验证集),损失分别约为1.305和0.562。这意味着即便在较低的学习率下,模型在一定程度上依然能够取得令人满意的性能。
最后,我们再次聚焦于学习率为0.000 01的情况,并关注Epoch49。通过点击x轴上的该数据点,我们观察到在训练至第49个周期时,模型在训练集和验证集上的准确率分别为0.625和0.75,损失分别约为1.231和0.546。这再次印证了在学习率为0.000 01的情况下,模型在经过49个周期的训练后,取得了令人满意的性能进展。这一系列的数据点和观察为我们提供了深入理解模型训练过程的关键信息。
图清晰展示了学习率对模型性能的影响,为后续优化提供有价值的参考。在图1中,我们观察到不同学习率下模型的收敛速度、稳定性等性能差异,为进一步优化模型的学习过程提供了重要线索。这一分析为我们深入理解模型行为提供有力支持,为模型调优和改进提供指导方向。
2 案例二
以下是对睡眠健康和生活方式数据集在不同职业领域中睡眠障碍分布的统计研究。该数据集包括了400行13列的详细信息,涵盖了与睡眠和日常习惯相关的广泛变量。研究的目的是深入了解不同职业领域中个体的睡眠状况,特别关注失眠、无障碍和睡眠呼吸暂停三种睡眠障碍的分布情况。
在此案例中,我们通过使用Python中的pandas库对数据进行交叉表分析,得到了不同职业领域和睡眠障碍之间的关系。并通过使用ECharts可视化工具,创建了堆叠条形图,展示了失眠、无障碍和睡眠呼吸暂停在各个职业中的分布比例,如图2所示,这让我们能够直观地比较不同职业中这些睡眠障碍的发生率。
(a)不同职业与不同睡眠质量的关系
(b)不同职业与无障碍(None)睡眠质量的关系
(c)不同职业与睡眠呼吸暂停(Sleep Apnea)睡眠质量的关系
(d)不同职业与失眠(Insomnia)睡眠质量的关系
通过ECharts堆叠条形图的详细分析,我们深入研究了不同职业领域在无障碍(None)、睡眠呼吸暂停(Sleep Apnea)、失眠(Insomnia)三种睡眠状况下的分布情况,如图2所示。
2.1 无障碍(None)分布
在无睡眠障碍方面,医生(Doctor)、工程师(Engineer)、护士(Nurse)和教育工作者(Teacher)表现卓越,分别达到64、57、61和9。这可能反映了这些职业具有相对规律的工作生活和较好的工作环境,为维护良好睡眠创造了有利条件。医生和护士可能因为其专业背景,对于睡眠健康相关知识有较为深刻的了解,从而能够更好地维护自己的睡眠质量。他们可能具备有效的应对工作压力和规律的工作时间表,有助于保持良好的生物钟和睡眠习惯。工程师可能在创造性的工作中找到了一种平衡,创造性的工作既能够满足其职业需求,又有助于提高工作满足度,可能减轻了工作压力对睡眠的负面影响。教育工作者可能因为其相对固定的教学时间表而表现出相对较低的无睡眠障碍比例。教学工作通常遵循固定的课程表,相较于其他职业,他们可能更容易维持规律的作息时间,有助于维持良好的睡眠模式。
2.2 睡眠呼吸暂停(Sleep Apnea)分布
在睡眠呼吸暂停方面,护士呈现最高比例,达到61。这可能与护士在工作中需要应对复杂的患者情况以及常常参与轮班工作的工作模式相关。护士的工作特性可能导致他们更容易受到睡眠呼吸暂停的影响,因为这些工作条件可能与正常的生物钟和睡眠模式产生冲突。相比之下,销售代表和销售人员的睡眠呼吸暂停比例相对较低,分别为2和1。这可能是因为这两个职业相对较少涉及与睡眠呼吸暂停相关的工作场景。销售工作通常涉及规律性的办公室工作,较为规律的工作时间可能减少了睡眠呼吸暂停的发生概率。此外,与护士相比,销售代表和销售人员可能更少涉及与患者生理状况直接相关的医疗工作,因此其工作性质可能不太容易导致睡眠呼吸暂停的发生。
2.3 失眠(Insomnia)分布
在失眠方面,销售人员(Salesperson)和教育工作者(Teacher)显示出显著的高比例,分别占29和27。这引发了对这两个职业群体的工作压力和生活方式的关注,突显了他们可能面临的心理健康挑战。销售人员通常需要不断应对市场竞争、达成销售目标和应对激烈的销售压力,这可能导致工作生活的紧张和高度的工作压力。这种高度的竞争和目标导向性的工作环境可能使得销售人员更容易经历失眠问题。教育工作者可能在面对学生需求、教学压力以及教育系统的变革等方面感到压力重重。教育领域的工作压力可能与学术要求、学生管理和教学负担等相关,这些因素都可能对教育工作者的睡眠产生负面影响。此外,会计师和软件工程师也呈现相对较高的失眠比例,分别为7和1。这可能与高强度的工作和需求紧迫的项目有关。会计师可能因季度末工作压力、报表制定等任务而感到压力,而软件工程师可能受到项目交付时间的压力和不断变化的技术要求的影响,这可能导致他们经历失眠问题。
通过可视化分析[13],我们可以更全面地了解不同职业领域在不同睡眠状况下的表现,为改善职业生活和睡眠健康提供有益的参考。通过ECharts的可视化工具,我们不仅仅得知不同职业群体在不同睡眠状况下的分布情况,而且也深入了解这些分布背后的潜在原因。这些发现对于制定未来的健康管理和工作生活平衡策略提供有力的指导。例如,对于销售人员和教育工作者,可以考虑实施更有针对性的压力管理和睡眠促进措施。对于护士这一高比例的睡眠呼吸暂停,可能需要关注其工作环境和工作时间的调整,以促进更好的睡眠质量。
这些深入的分析结果为未来更深入的研究提供了坚实的基础,也为相关领域的决策者提供指导,帮助他们制定更有效的工作生活平衡和健康管理策略。
3 结 论
在本研究中,我们深入利用了ECharts工具进行医疗数据可视化。ECharts作为一款开源、基于Web的跨平台框架,具备构建交互式可视化的便捷能力。其独特之处在于提供了一套声明性的可视化设计语言,使用户能够轻松自定义各类内置图表。通过底层的流文件结构,并结合基于HTML5 canvas的高性能图形渲染器,ECharts展现出卓越的可扩展性和出色的性能表现。通过使用ECharts,用户无须深入研究JavaScript、R语言或Python语法,就能够创建出直观而富有信息量的图表。这种可视化方法为深度学习结果以及睡眠健康和生活方式数据提供了更加生动、易懂的展示方式,使医疗数据深度学习结果和睡眠健康数据的解读变得更加直观和可交互。同时该图表应用程序有助于激发学生对医疗数据分析的兴趣,并促使他们更主动地探索数据背后的信息。
总体而言,通过充分发挥ECharts在医疗数据结果可视化方面的优势,我们成功构建了一套直观、交互式的可视化界面。这项研究为医疗数据可视化领域的发展提供了有力的支持。我们对未来的研究和应用充满信心,相信ECharts将继续在数据科学和可视化领域发挥关键作用,为该领域的进步贡献力量。
参考文献:
[1] 淦亚婷,安建业,苗漉欣.基于R-Shiny的中文文本可视化系统设计研究 [J].现代信息科技,2023,7(7):24-27.
[2] 荣民希,黄士国,曲双红.基于R语言Shiny包的概率统计交互可视化教学研究与实践 [J].数学学习与研究,2021(6):146-147.
[3] 潘伟权,李丽洁,罗小青.基于Shiny的统计学交互式可视化教学研究 [J].中阿科技论坛:中英阿文,2020(7):164-166.
[4] 任鹏,王廷伟,GRECOS C.基于Shiny框架的海洋浮标大数据处理实验平台[J].实验室研究与探索,2018,37(8):46-49.
[5] 沃叶红.基于Vue+Flask的圆极化天馈系统数据可视化与预警软件的设计 [J].数字技术与应用,2023,41(2):207-209+233.
[6] 李相霏,韩珂.基于Flask框架的疫情数据可视化分析 [J].计算机时代,2021(12):60-63+68.
[7] 张文肖.基于改进CANN算法的入侵检测系统设计与实现 [D].西安:西安电子科技大学,2019.
[8] LI D Q,MEI H H,SHEN Y,et al.Echarts: A Declarative Framework for Rapid Construction of Web-Based Visualization [J].Visual Informatics,2018,2(2):136-146.
[9] 张伦裕.医疗检测大数据分析及其可视化 [D].北京:北京邮电大学,2020.
[10] ABADI M,AGARWAL A,BARHAM P,et al. TensorFlow: Largescale Machine Learning on Heterogeneous Systems [J/OL].arXiv:1603.04467 [cs.DC].(2016-04-14).https://arxiv.org/abs/1603.04467.
[11] 李鑫.永川区医疗大数据可视化系统的设计与实现 [D].重庆:重庆大学,2018.
[12] 李强,王彬彬.基于Echarts的神经网络教学系统设计与实现 [J].无线互联科技,2023,20(13):87-90.
[13] 连晓丹,黄坤平,刘林.基于数据挖掘的医疗大数据可视化分析系统设计 [J].自动化与仪器仪表,2023(6):170-174.
作者简介:陈思楠(2001—),女,汉族,广西浦北人,本科在读,研究方向:统计学;陈吉平(2002—),女,汉族,广西南宁人,本科在读,研究方向:统计学;黄红倩(2002—),女,汉族,广西南宁人,本科在读,研究方向:统计学;潘伟权(1980—),男,汉族,广西平南人,副教授,博士,研究方向:统计学。