耿峤峙 徐菲 淦亚婷 安心然 张湑行
摘要:文章以天津商业大学理学院数学系学生为研究对象,提出了一种主要依据学生社交网络平台数据的社会适应力预测模型:基于因子分析一灰色关联法的随机森林模型,分类准确率达到78.43%。结果显示学生的学习行为以及线上发布与评论行为具有较强的类型识别度,为高校开展就业创业教育工作、实现高等教育“依数治理”提供参考依据。
关键词:高校学生;社会适应力;因子分析;灰色关联分析;随机森林
中图分类号:TP183;G449.5 文献标识码:A 文章编号:2096-4706(2020)06-0021-04
0 引 言
20世纪80年代到20世纪末,数据挖掘技术开始应用到教育领域[1],起初运用的研究方法比较简单,研究成果较少。而本世纪初至今,随着互联网技术的发展,教育研究技术得到了进一步发展,采用的数据挖掘技术也变得更丰富。
如今大学生毕业率逐年上涨,根据人力资源和社会保障部数据,2019年我国高校毕业生总数为843万,相较于上一年增长23万。因此对于学生来说,建立清晰的自我认知,逐步提高社会适应力以面对日益严峻的就业形势也就尤为重要;对于高校来说,如何获取并合理评估学生的多方面信息,并据此对学生进入社会进行干预引导,仍需要探索有效路径。
1 相关研究综述
社会适应力是根据生活或职业角色变化而助推个体发展的能力,是个体交互的结果[2]。本文是指高校学生从学校进入社会所需要具备的融入社会的能力。
在相关研究上,崔秋月[3]从体育运动入手,通过文献资料法、访谈法、问卷调查法研究高校学生社会适应力,得出学生参与体育项目有利于提升学生的社会适应力,且在各类运动中,集体性运动效果更好。胡志伟[4]通过文献研究法、辩证分析法、问卷调查法、个案分析法研究高校学生网络人际关系来探究高校学生的社会适应力,得出好的网络人际关系有利于提升学生的社会适应力。
综上所述,以往对学生社会适应力的研究大多从心理学、经济学、教育学等角度出发,在方法上常使用问卷调查法、文献研究法,较少关注学生的客观行为数据,尤其是在互联网平台留下的信息。因此,本文立足于学生的社交网络平台数据,运用机器学习算法对学生个性化的社会适应特征进行预判。研究结果对高校学生毕业后职业发展以及高校制定培养方案具有重要意义。
2 数据来源及预处理
本文以本校2017级数学系学生为研究对象,在征得学生本人的同意下利用Python爬虫技术获取102名学生的社交网络平台(腾讯QQ)记录;同时,在学生教务管理平台以及发放的问卷中获取学生的成绩数据、行为数据等;以教育部编制的《中国大学生适应量表》[5]的部分题项为基础,对学生的社会适应力进行测量并打分。
对采集的数据进行初步处理,首先删除重复值和异常值,其次运用平均值法填补缺失数据,各部分字段以学号作为主键连接,进一步提取学生属性以及筛选有效变量。
3 研究过程
建立基于因子分析-灰色关联法的随机森林分类器:首先运用因子分析对经过预处理的数据进行属性提取,然后在各属性内运用灰色关联分析筛选有效变量以降低维度,最后建立随机森林模型并对其预测性能进行评价。
3.1 学生属性提取
为去除原始变量存在的复杂内部关系,首先进行因子分析,提取出几个公共因子用于后续的模型建立。其中KMO值大于0.5,且Bartlett检验显著,保留特征值大于1的公因子,如表1所示。
根据因子旋转后的成分矩阵,提取出6个属性,对其分别命名为:线上发布属性、线上评论属性、学习行为属性、消费属性、校内表现属性、线下社交属性,之后我们将在这6个属性下对高校学生社会适应力进行研究。
3.2 有效变量筛选
对提取的6个属性中的19个指标,进一步作降维处理。鉴于学生的行为数据与社会适应力并非简单的线性相关关系,故采用灰色关联分析法。我们通过计算社会适应序列和行为特征序列之间的关联系数和关联度,实现对有效变量的筛选。同时为保证后续模型中对学生刻画的完整性和多样性,我们只在相同属性中排序比较关联度,具体如下:
(1)参考序列:社会适应力得分{x01,x02,…,x0n}
比较序列:各属性的指标 (k=1,2,…,6)
(2)对于非时间序列数据的处理,区间值化:
(3)计算关联系数:
(4)计算关联度:
经查阅文献,灰度关联分析的ρ值为分辨系数,一般取值为0.5,因此本文ρ取值为0.5,计算得出各指标与社会适应力的关联度并进行排序,结果如表2~表4所示。
分别选取6个属性中排序在前两位的变量,并且依据属性内关联度的接近程度进行适当的添加、去除,最终有10个变量作为输入变量进入后续模型,分别为:评论回复比例、不同设备数、图片数、总说说数、表情数、课堂专心时长、每周自习时长、每月餐饮消费、第二学年加权成绩、每周兼职时长。
3.3 随机森林模型建立
3.3.1 模型建立
本研究选用随机森林(Random Forest)算法构建学生社会适应力分类模型,这是一种基于决策树的集成学习分类算法。算法流程如下:
Step1.对训练集采用自助法抽取n个训练样本子集,建立ntree=n棵决策树。
Step2.在训练一棵决策树的过程中,考虑一个分裂节点,随机在全部m个变量中选择mtry=m个变量作为候选分裂变量。
Step3.对生成的n棵决策树分类结果进行投票,输出最终预测类别。
读取全体数据集,首先以社会适应力得分(score)的下侧0.4分位数为界,构建二分类变量,如式(1),对学生的社会适应力类型进行标记。然后按照1:1进行随机抽样,划分训练集与测试集,抽取的两样本中分别有37.25%、43.14%被标记为1,代表社会适应力相对较弱的学生群体。
其中q0.4为score的下侧0.4分位数。
根据筛选后的10个有效变量,用R软件对训练集D建立随机森林模型。该模型需要调整两个参数:决策树个数(ntree)、分裂点选择变量个数[6](mtry)。采用网格搜索选取最优参数为:ntree=10 000,mtry=6。
3.3.2 模型评价与检验
(1)查全率、查准率与F1指标。运用上述模型对测试集中51名学生的社会适应力类型进行识别,得到混淆矩阵如表5所示。
表5 测试集混淆矩阵
模型的整体正确率为78.43%,进一步由式(2)~式(4)计算得到其他准确性度量指标,查全率、查准率与F1值分别为:77.27%,73.91%,75.56%。
(2)ROC曲线与PR曲线。考虑到模型在两类学生预测准确率上的差异性,以及我们更关注对正例(即社会适应力较弱)学生的识别能力,故引入ROC曲线与PR曲线对模型性能进行可视化的综合评价,如图1所示。
ROC曲线靠近图形的左上角区域,同时曲线下方面积即AUC指标值为0.855 799,接近完美分类器的理想值1;PR曲线在平衡点时模型的查全率与查准率相等,且位于0.7上方,可认为模型能够在误报率处于低水平时尽可能多的将正例识别出来。综上,模型在测试集中表现的性能良好。
(3)十折交叉验证。本文采用十折交叉验证对模型进行检验,该方法在训练时用到了大部分的原始数据:将全部学生数据平均划分为10折,在前9折拟合模型,用第10折测试,重复此步骤10次并求得平均正确率为76.67%,表明模型在未知数据中具有一定的泛化能力。
3.4 模型结果
进一步分析变量对学生社会适应力的影响程度,以影响最大的变量为基准计算各变量相对重要性如图2所示。由图可得到位于前五的变量,其中,每周自习时长和第二学年加权成绩隶属于学习行为属性和校内表现属性,处于第一梯队,是关键分类因素;其次,总说说数与图片数、评论回复比例隶属于线上发布属性与评论属性,作为补充因素。可以推断,不同社会适应水平的学生群体,可能在社交平台中表现出不同的行为特点。
4 结 论
社交网络平台中记录了丰富的学生数据,这些数据建立在学生本人与平台以及他人的交互过程之上,区别于传统的数据风格。本文运用爬虫技术采集这类数据,并结合其他行为数据,尝试挖掘其中潜藏的规律,将其作为预测变量放入模型。研究结果显示学生的学习行为、校内表现属性以及线上发布、评论属性具有较强的类型识别度,表明这类行为特征与学生的社会适应力存在一定程度的关联性。
根据本文的研究思路,我们可以将学生的评价结论反馈至学生与高校双方,进一步应用到高校就业创业教育决策中,促进个性化、信息化的教学发展,完善教育体系。并且,在今后的研究中,可以考虑获得更多源的学生数据,如家庭背景数据、图书馆借阅数据、微博点赞数据等;或者对比选择不同的机器学习算法,优化模型性能。
参考文献:
[1] 周庆,牟超,杨丹.教育数据挖掘研究进展综述 [J].软件学报,2015,26(11):3026-3042.
[2] 孙丽璐,曾飞扬,汪韶源.大学生社会适应力模型研究——以“95后”大学生为例 [J].四川理工学院学报(社会科学版),2016,31(1):20-29.
[3] 崔秋月.体育运动对大学生社会适应能力影响的研究 [D].苏州:苏州大学,2013.
[4] 胡志伟.大学生网络人际关系对其社会适应力影响研究 [D].哈尔滨:哈尔滨理工大学,2017.
[5] 教育部《大学生心理健康测评系统》课题组,方晓义,沃建中,等.《中国大学生适应量表》的编制 [J].心理与行为研究,2005(2):95-101.
[6] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述 [J].统计与信息论坛,2011,26(3):32-38.
作者简介:耿峤峙(1983-),男,汉族,河南新乡人,讲师,博士研究生,研究方向:大数据分析,教育大数据;徐菲(1998-),女,汉族,山西大同人,本科在读,研究方向:应用统计;淦亚婷(1997-),女,汉族,江西九江人,本科在读,研究方向:统计学;安心然(1998-),女,汉族,河南焦作人,本科在读,研究方向:数学与应用数学;张湑行(1999-),男,汉族,河南郑州人,本科在读,研究方向:信息与计算科学。