摘 要:借助CiteSpace可视化分析软件,文章对中国知网学术期刊库收录的国内2000—2023年616篇有关Python数据分析课程的相关研究文献进行计量分析,掌握Python数据分析课程研究的发展脉络、演化路径、研究热点与研究趋势等内容,根据分析结果,结合教学日常发现Python数据分析课程目前存在以下问题:教学内容繁杂,学生对知识的应用能力不强;教学方法单一,未能有效调动学生积极性;教学实例与职业需求存在脱节,未能充分培养学生的实际操作能力等。针对问题从Python数据分析课程的教学内容、教学方法及教学实例三个方面提出建设意见。
关键词:CiteSpace;数据分析课程;Python数据分析;可视化分析
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2024)20-0140-05
Research on the Teaching Mode of Python Data Analysis Course Based on CiteSpace
LI Jingjing
(Business School of Changchun Guanghua University, Changchun 130033, China)
Abstract: With the help of CiteSpace visual analysis software, this paper carries out measurement analysis of 616 pieces of research literature related to Python data analysis course from 2000 to 2023 in CNKI Academic Journal Database, and masters the development lineage, evolution path, research hotspot and research trend of Python data analysis course and so on. According to the analysis results, combined with the teaching routine, it is found that there are some problems in the Python data analysis course. For example, the teaching content is complicated, and the ability to apply knowledge of students is not strong. The teaching methods are single, failing to effectively mobilize students enthusiasm. There is a disconnection between the teaching examples and occupational needs, failing to fully cultivate the students actual operation ability. In view of the problems, this paper puts forward the construction opinions from the teaching content, teaching methods and teaching examples of Python data analysis course.
Keywords: CiteSpace; data analysis course; Python data analysis; visual analysis
0 引 言
信息可视化方法是近年来兴起的文献计量学与科学计量学领域的一种重要研究方法,通过构建科学知识图谱,实现对文献数据信息的视觉呈现,进而促进学科知识的直观理解。国内学者在知识图谱与信息可视化领域的研究活跃,已处于科学计量学和文献计量学研究前沿。基于现有信息可视化技术,不断探索创新方法,为信息可视化领域做出了积极贡献。陈超美教授自20世纪90年代起专注于开发信息可视化应用软件,其研发的CiteSpace软件创新性地融合信息可视化与科学计量学,推动了知识计量和知识管理研究,成为信息可视化研究领域的开拓者之一。
但基于CiteSpace的数据分析课程的研究稍显逊色,本文立足于此,利用CiteSpace软件分析数据分析课程研究主体、发展轨迹、研究热点、前沿主题和发展趋势,为数据分析课程教学模式的有效构建提供基础。通过CiteSpace绘制出相关图谱,有助于了解数据分析教学的发展脉络、研究热点与发展趋势,结合日常教学进行归纳总结,为后期研究提供一定的思路借鉴,为促进我国应用型高校数据分析课程更好发展提供一定的理论参考。
1 研究内容
1.1 研究设计
1.1.1 研究样本
为确保可视化分析结果的准确性,数据来源于中国知网学术期刊库,采用高级检索形式,输入检索主题词“Python数据分析课程”并含“数据分析课程”,检索截止时间为2023年9月30日,因第一篇中文期刊论文的发表时间为2000年,故选取研究文献的时间范围为2000—2023年,最终检索到中文文献616篇,这些文献数据涵盖了篇名、作者、机构等关键指标。
1.1.2 研究方法
本文运用CiteSpace软件对检索到的有效文献进行了可视化计量研究。所采用的CiteSpace软件版本为5.7.5R3,文献以RefWorks格式导入该软件。时间范围模块选择了2000—2023年,最小时间切片设定为1年,未进行网络裁剪,其他模块均选择了默认设置。
1.2 研究结果与分析
1.2.1 年发表量
发文数量的多少直接体现了特定研究领域的发展态势及其趋势。在国内,对数据分析课程的研究始于吕进与蒋盛益两人在2000年发表的数据分析成果。如图1所示,2000—2010年间,数据分析课程相关研究出现,但数量有限,属于该领域的初步探索阶段。从2011—2023年,相关研究的数量持续增长,研究范围逐步拓宽,内容也日趋深入,表明这一领域已经引起了广大研究者的广泛关注。
2021年虽有所下降,但总体趋势始终呈现上升,2022年达到研究顶峰106篇,2023年63篇,是因文本检索时间截至2023年9月,并非2023全年数量。总体来讲学术文献的增长态势总体平稳,这表明Python数据分析课程在学术界持续受到关注和重视,目前正处于稳定的深化阶段。
1.2.2 合作图谱分析
在某一研究领域,发文作者是该领域研究实力的关键要素。通过作者共现分析,可以确定领域内的核心作者及作者间的合作关系。节点大小表示发文量多少,连接线的粗细表示合作紧密程度,而发文的时间先后则通过颜色的深浅来反映[1]。如图2所示,从作者合作图谱可以看出,2000—2023年间,数据分析课程的发文机构共现网络图谱显示,共有节点316位,连线104条,网络密度为0.002 1。所有节点中,可以看到6个比较大的节点,分别是刘天舒、张晓东、房建东、贾丽英、王莉莉、郭应彪,并且刘天舒、张晓东、房建东、王莉莉构成一个作者群,刘天舒以发文量24篇位列第一,张晓东20篇,房建东19篇,王莉莉15篇,此四位学者形成较紧密的合作关系。郭应彪、王莉莉发文15篇,两者有一条连线,其网络并没有展开。审视全图,网络节点之间的联系较为分散,这表明在所研究的领域内,尚未形成广泛的、联系紧密的学术合作网络。大部分研究者仍在独立进行科研工作,而只有极少数学者之间建立了合作关系,这种合作仅限于两人之间的直接连接,没有进一步扩展成更广泛的网络。
1.2.3 关键词共现图谱
关键词是对论文研究内容的精确概括。如图3所示,通过构建特定领域的关键词共现网络,分析其中的高频关键词和具有高中介中心的关键词,可以有效识别出该领域的研究热点。
依据多诺霍提出的高频词边界公式T=(-1+V(1+8 I ))/ 2统计计算检索文献的高频关键词。其中T表示高频关键词阈值,I表示关键词个数。通过CiteSpace的Netwok Summary Table功能分析得到I为398,计算T值为27.70,即关键词出现频次高于27.70次时可以确定为高频关键词[2]。统计显示,目前该领域的高频关键词有数据分析(103次)、大数据(102次)、教学改革(67次)、Python(27次)、信息技术(27次)等。此外,中介中心性是衡量关键词在共现网络中作为“媒介”的重要性指标。一个关键词的中介中心性越高,其在共现网络中的位置越核心,对网络的影响力也越大。若关键词的中介中心性达到或超过0.1,这意味着在一定时期内,该关键词受到了广泛研究者的高度重视。本文经CiteSpace的Compute Node Centrality功能分析得到中介中心性≥0.1的关键词有数据分析(0.57)大数据(0.26)教学改革(0.24)数据挖掘(0.17),如表1所示。
具体内容如下:
1)高频关键词“数据分析”。“数据分析”关键词在2020年呈现爆发状态,教育界各大研究者成果丰富。杭州电子科技大学薛洁基于前程无忧平台招聘信息,分析数据分析类岗位社招和校招的区别,为科学设置该课程提供理论参考和数据支撑[3]。西北师范大学岳彦龙基于人工智能案例驱动的编程教学理念,在分析计算思维、Python、人工智能案例三者关系的基础上提出培养学生计算思维的教学模型[4]。
2)高频关键词“大数据”。根据大数据时代特点,中国矿业大学杜锋基于Python的机器学习,以煤岩瓦斯复合动力灾害预测为背景,设计安全大数据教学实验案例,有效培养学生运用现代化分析工具的能力[5]。中国人民大学朝乐门通过对多所国内外大学开设的数据科学导论课程进行调查研究,探讨课程的教学目的、教学内容、实验操作、特色与创新等设计内容[6]。
3)高频关键词“教学改革”。教育研究者根据人才特点,从不同角度提出改革方案。北京大学张久珍以北京大学信息管理系为例,基于Python案例,探讨图书情报与档案管理学科“思政育人”建设的思路和实践[7]。广东东软学院刘满兰,基于学习产出的教育理念,以产出为导向,分析Python课程教学设计和方法,探讨混合式教学方法[8]。
4)高频关键词“数据挖掘”。数据挖掘是指在海量数据中挖掘有用信息。北京交通大学孔令波提出通过整合数据分析课程与商务专题的教学方案,以商务思维为核心,优化理论为框架,结合案例教学,使学生能够深入理解并掌握数据分析的基本算法[9]。南京审计大学李慧选取了179所高校作为研究样本,采用多种研究方法深入分析智能会计相关课程,旨在为智能会计人才的培养方案修订和全面推广提供决策参考[10]。
关键词突发性图谱能有效揭示文献引用频次的显著变化,从而映射出研究领域的关键转变。为追踪Python数据分析领域的转折点,本研究采用CiteSpace软件中的Burstness分析工具,以识别关键词的突发模式。关键词突发性图谱如图4所示,共有11个突发性关键词。结合关键词的频次、中心性以及突发性,我们可以得出以下结论:数据分析的研究热点从最初的应用电子技术创新实验、历史学虚拟仿真实验课程、实验教学、仿真实验、共享平台、全程考核数据、学情分析、信息技术转向了大数据、课程思政、教学设计,且课程思政、教学设计持续至今。
1.2.4 研究前沿-关键词聚类图谱
研究前沿的确定对于明确研究方向至关重要,关键词聚类图谱通过总结关键词节点间的相似性,依据数据运算将关系紧密的节点聚集,从而精确勾勒出研究前沿的核心内容[11]。如图5所示,通过数据分析与研究关键词聚类图谱可知,CiteSpace关键词图谱一共聚成了7类,分别是数据分析、大数据、教学改革、教学设计、数据挖掘、数据结构、信息技术、教学模式。在评估聚类网络时,需关注两个关键数值:Q值和S值。Q值表示聚类模块度,通常Q值大于0.3表示聚类结构具有显著性。S值则表示聚类的平均轮廓值,一般认为S值大于0.5表示聚类是合理的,而当S值超过0.7时,聚类的可信度被视为较高。从分析得出Silhouette值为0.873 7,超过了0.7的标准,这表明聚类结果是令人信服的。同时,Modularity Q值为0.640 3,高于0.3的阈值,进一步证实了聚类的可靠性。
具体内容有:
1)#0数据分析,包括的关键词有Python教学、Jupyer Notebook、新工科、教学实践、云交互PBL、会计行动学习、计算思维、SPOC课程可视化、互联网思维、多元统计分析、分析方法、情景认知、合作型学习管理建模。
2)#1大数据,包括的关键词有Spark、CiteSpace、Python生态环境、《统计分析软件应用》、SAS软件、在线课程、数据科学、学习分析、hadoop、图书情报教育。
3)#2教学改革,包括的关键词有空间数据分析、岗课赛互联网+三线融通、Python程序设计、OBE中职计量经济学、统计分析与处理、数据分析技术、Excel数据分析。
4)#3教学设计,包括的关键词拍摄数据分析、OBE教育理念、Boppps教学方法、大数据分析技术、教学效果、大数据技术、在线教学、教学设计、翻转课堂、在线平台数据分析。
5)#4数据挖掘,包括的关键词有个性化发展、信息内容安全、Apriori算法、成绩分析、课程相关性分析、交互论坛学习过程、计算机数学能力培养。
6)#5数据结构,包括的关键词有Springboot框架人工智能优化论、互联网加、教学实验、数据类型、存储结构、教学现状。
7)#6信息技术,包括的关键词有SWOT分析、Excel数据管理与分析、网络协议分析。
2 Python数据分析课程改革建议
通过对CiteSpace分析结果的研究并结合日常教学实际情况,发现Python数据分析课程目前存在以下问题,包括:教学内容繁杂,缺乏针对性,学生对知识应用能力不足;教学方法单一,依赖教师讲解,未能有效调动学生积极性;教学实例与职业需求存在脱节,未能充分培养学生的实际操作能力。针对出现的问题,对Python数据分析课程的改革和优化提出以下建议,以期更好8+PE7vU1FzZLxZjM6gY/dQ==地满足学生的学习需求和未来职业发展的要求。
2.1 教学内容
初步将Python数据分析课程划分为三个主要模块:第一个模块是Python导论,在这个模块中,将引入各行业数据分析的应用实例,通过实例,学生将能够更好地理解数据分析的重要性和实际应用价值,激发他们对数据分析的兴趣和热情;第二个模块是Python语法,通过学习基础语法,学生能够打下坚实的基础,为后续的数据分析工作做好准备;第三个模块是Python扩展模块,在这个模块中,将重点培养学生的数据分析能力。通过三大模块的学习,学生能够全面掌握Python数据分析的核心知识和技能,为职业生涯打下坚实的基础。随着数据分析技术的迅速发展,新的库和工具不断涌现,因此,课程应当包含对这些新工具的介绍和实践,以便学生掌握最前沿的技能。
2.2 教学方法
以项目化教学为主导,通过教学案例引入、学习目标明确、学习内容前测、参与式学习、学习内容后测、学习过程总结阶段所共建的教学模型,设计该课程的教学过程与方法。具体内容如下:
1)教学案例引入。引入与学科相关的实际案例,激发学生的学习兴趣和好奇心,帮助学生了解实际应用中的挑战。
2)学习目标明确。学习目标具体、可衡量,并与课程内容紧密相关。学生应清楚需要掌握的知识和技能,以及如何评估自己的学习成果。
3)学习内容前测。通过前置测试,了解学生对已学知识的掌握情况,以便根据具体情况调整教学方法和进度。
4)参与式学习。鼓励学生积极参与讨论和互动,教师积极引导学生思考。
5)学习内容后测。后测覆盖整个课程的内容,可以评估学生对所学知识和技能的掌握程度。
6)学习过程总结阶段。组织学生分享在学习中的经验和收获,教师对学生的表现进行评价和反馈,并提出改进建议。
2.3 教学实例
学生掌握了Python基础语法之后,引入一些实用的工具库,如Jieba中文分析库和Wordcloud词云展示库等。学生不仅可以将所学知识应用到实际项目中,也可以体验到Python语言的魅力。其次,教师在教学过程中,更多地引入校企合作单位的真实项目和教师的教科研项目,让学生有机会接触和参与到这些项目中来。这样不仅可以提升学生的实际应用能力,也可以让他们更好地理解和掌握数据分析的工作流程和方法。同时,教师们也应该更加关注学生的个性化需求,为他们提供更加灵活的学习路径。
3 结 论
通过对近20年来中国知网学术期刊数据库关于Python数据分析课程相关文献进行可视化研究,基本明确了Python数据分析课程的研究热点、作者合作图谱、关键词共现图谱以及研究前沿,这些研究成果对Python数据分析课程的进一步发展具有参考价值。然而,研究过程存在一些局限性,CiteSpace可视化分析工具主要依赖于已发表的期刊论文作为数据源,而未涵盖论著、书籍、报告等其他类型的文献,其覆盖面并不全面。且CiteSpace工具中的参数设置,如阈值、时间范围、时间切片以及排除的关键词等,都可能对研究结果产生一定的影响。在后续的研究中,会扩大样本数据库,持续关注Python数据分析课程发展。
参考文献:
[1] 吴悦,李朝旭.中国空间隐喻研究现状与发展趋势——基于CiteSpace的知识图谱分析 [J].心理学探新,2020,40(4):302-308+384.
[2] 王立柱,何云峰.基于CiteSpace的我国课程思政研究可视化分析 [J].教育理论与实践,2022,42(24):27-31.
[3] 薛洁,王娴,籍艳丽.大数据时代数据类岗位人才需求特征分析 [J].黑龙江高教研究,2022,40(10):119-124.
[4] 岳彦龙,张学军,梁屿藩.人工智能教学如何培养高中生的计算思维?——基于人工智能案例驱动的Python编程教学的实证研究 [J].基础教育,2022,19(1):74-84.
[5] 杜锋,汪博威,汪奥杰,等.基于机器学习的安全大数据技术课程实验教学设计 [J].实验技术与管理,2023,40(4):181-186.
[6] 朝乐门.数据科学导论的课程设计及教学改革 [J].计算机科学,2020,47(7):1-7.
[7] 张久珍,步一,李世娟,等.图书情报与档案管理学科课程思政实践——以北京大学为例 [J].图书情报工作,2022,66(1):4-10.
[8] 刘满兰,李建辉,关成斌.基于OBE理念的《Python程序设计语言》课程混合式教学方法探索 [J].计算机工程与科学,2019,41(S1):203-206.
[9] 孔令波.面向本科生商务思维能力培养的数据分析课程建设 [J].计算机教育,2019(2):131-135+139.
[10] 李慧,温素彬.比物连类:智能会计人才培养方案的比较 [J].财会月刊,2023,44(4):45-50.
[11] 李菁菁,李茜燕.基于CiteSpace的文科综合实验教学中心可视化研究 [J].现代信息科技,2023,7(7):124-126+130.
作者简介:李菁菁(1980—),女,汉族,山东郓城人,副教授,硕士,研究方向:电子商务、计算机应用。