袁莉
(北京邮电大学,北京 100876)
0 引 言2021 届高校毕业生规模909 万,同比增加35 万,2022 届高校毕业生规模预计1 076 万,首次超过1 000 万人,我国高校毕业生将创下“毕业生人数最多”“毕业生人数增长幅度最大”的双高历史。受新冠肺炎疫情影响,在相当长的一段时间里,世界经济都将处于调控和恢复之中,就业市场用人需求仍然存在着很大的不确定性。自2022年3月起,全国疫情再次反复,给就业市场带来又一波的冲击,百度、快手、腾讯、字节跳动等多家互联网大厂相继传来裁员消息。新冠疫情之下,一方面是求职基本盘扩大,竞争人数增长,另一方面是市场需求收紧,企业缩减成本批量裁员,就业形式将更加紧张。
根据猎聘大数据研究院发布的《2022 春节后开工一周中高端人才就业数据报告》,IT/互联网、生产制造、企业服务成为今年春节后开工一周新发职位最多的前三个领域,其中IT/互联网招聘平均年薪位居第三,为28.14 万元,IT/互联网也是开工一周求职者投递简历最多的领域,占比达到17.85%。拉勾招聘发布的《2022年互联网行业春招薪酬报告》显示,2022年以来,互联网行业平均薪资为18 500 元,较去年同期增长7.5%,比2021年6.9%的增幅还高出了0.6 个百分点。互联网大厂的高水平薪资不仅对高校毕业生有极大的吸引力,对于想跳槽的职场老人的吸引力也是可想而知的。猎聘大数据研究院的报告显示,仅有8.4%的受访者表示对跳槽互联网大厂毫无兴趣。高薪资、优福利成为求职者挤破头也要进大厂的重要因素。
2021年政府工作报告明确指出,强化稳岗扩就业政策落实,扎实做好高校毕业生等重要群体的就业工作。要推进高校毕业生高质量充分就业,不仅需要政府出台一系列政策措施,完善保障制度,提供全方位的就业服务,高校完善系列人才培养制度,丰富实践平台,提供精准就业指导,还需要毕业生强化自身就业能力,增强个人在就业市场中的竞争力。互联网就业日益严峻,对想进入互联网企业就业的高校毕业生或者希望跳槽到互联网大厂的求职者来说,关注并深刻了解互联网行业不同岗位的职责要求和技能要求,从而有针对性地提高其个人就业竞争力至关重要。本文运用爬虫技术,抓取互联网企业的人才招聘广告数据作为数据来源,借助文本挖掘算法进行数据分析,识别互联网企业不同职位的职责要求,揭示不同职位与任职要求的内在联系,为互联网企业求职者提供决策指导。
1 数据来源与研究方法1.1 数据来源本研究选取互联网行业的典型企业,通过Python 爬虫的方式获取了字节跳动、阿里巴巴这两家公司在第三方招聘网站上发布的招聘信息,从字节跳动官网爬取7 226 条信息,从阿里巴巴招聘官网爬取9 111 条信息,从第三方网站爬取655 条信息,对数据进行去空值、去除无关变量等处理,最终保留岗位名称、工作地点、学历要求、工作年限、工作薪资、职位描述、职位要求等字段数据,最终获得约17 000 条有效数据。对两家企业提供的岗位名称进行对比和统计分析,将工作重点聚焦于研发、运营、产品和市场四类岗位。
1.2 研究方法获取互联网企业的招聘信息后,本研究将针对职位描述和职位要求这两个字段的内容进行文本挖掘,具体研究过程如图1所示。
图1 研究方法和过程设计
在预处理环节,首先利用Python 对数据进行清洗,去除所分析字段中的空值,以保证后续文本分析的质量;然后利用jieba 对文本进行分词和去停用词处理,并结合本次研究问题的具体特征,分别创建针对职位描述和职位要求文本的专用分词字典和停用词表,将特定于任务的停用词添加到原始的中文停用词表中,得到比较干净的分词数据。
在构建词向量的环节,对所得到的分词语料进行汇总,将完整的数据分词结果输入到Word2vec 模型中进行训练,得到每个词的词向量模型(词向量是后续生成聚类模型的主要依据)。运用K-means 算法对职位描述和职位要求的关键词进行聚类。
聚类将得到每个类别所对应的关键词,为了比较不同岗位类型在聚类中所获得不同维度的侧重程度,对不同岗位类型下出现的聚类关键词进行计数。即某一维度关键词在某一类型的职位描述或职位要求中出现的次数刻画了该类型职位对这一维度的侧重程度。根据得到的结果通过雷达图的方式可视化能力画像,做进一步的对比分析。
2 数据分析与结果2.1 词向量的二维展示将不同类型职位所对应的职位描述和职位要求分别存储在txt 文件中,并基于得到的分词结果利用TF-IDF 特征工程得到关键词,将完整的数据分词结果输入到Word2vec 模型中进行训练,得到每个分词的词向量模型。将TF-IDF 得到的前100 个关键词所对应的词向量降维到二维空间中进行可视化处理,经可视化处理后可以观察到100 个关键词的大体分布情况,如图2所示。
图2 TF-IDF 得到的前100 个关键词所对应词向量的二维展示
由图2可知,TF-IDF 得到的关键词在空间中分布均匀,底部主要是有关计算机技能要求的关键词,左下角是有关算法和编程的关键词,右下角则是与信息系统设计及搭建有关的关键词。中间部分的关键词与产品密切相关,上面的关键词则与用户紧密相关。从下到上反映了产品从设计研发,到落地实施,再到走向市场吸收用户的完整过程;从上到下反映了根据市场分析发现用户需求,籍此进行产品设计与研发的过程。
2.2 聚类效果对比K-Means 算法是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差平方和函数达到最小。其核心思想是根据距离的不同将样本聚成个簇,使得簇内样本的相似度高,簇间样本的相似度低。
数据预处理得到职位描述和职位要求的完整分词结果,进行词向量训练后,得到每个词的词向量,计算词向量之间的欧氏距离作为词向量样本间的相似性度量值。具体的运算步骤为:
(1)从所有词向量中选择个词向量作为初始聚类中心。
(2)计算各个词向量到每个聚类中心的距离,并将各个词向量划分到距离最近的聚类中心的类别中。
(3)根据各个词向量所属的类别重新计算每个聚类中心。
(4)当新的聚类中心与之前的聚类中心相重合或计算结果小于阈值时,运算结束;否则重复步骤(2)和(3)。
K-means 算法的关键是确定分类数,本文采用轮廓系数(Silhouette Coefficient)和误差平方和相结合的方法来确定最佳分类数。
轮廓系数适用于实际类别信息未知的情况,用K-means算法将待分类的文本数据分成个簇,对于簇中的每个向量,分别计算它们的轮廓系数。
对于其中的一个点来说,分别计算:
得到向量的轮廓系数:
由(3)式可知,轮廓系数的取值范围为[-1,1],越靠近1,说明聚类效果越好。对所有点的轮廓系数求平均值,得到总的轮廓系数。
误差平方和(sum of the squared errors, SSE)是所有样本的聚类误差,用于衡量聚类效果的好坏。误差平方和越小,聚类效果越好。
对得到的词向量计算欧氏距离,进行K-means 聚类,对聚类参数分别取2 ~9,输出聚类结果和对应的轮廓系数、误差平方和SSE。发现当=7 时轮廓系数、误差平方和SSE 发生较大变化,出现“拐点”,得到职位描述和职位要求的误差平方和与分类数的关系图,分别如图3、图4所示。另外,此时得到的类别关键词更合理,故选择=7作为聚类数,得到每个聚类所对应的关键词。
图3 不同聚类数下职位描述的聚类效果
图4 不同聚类数下职位要求的聚类效果
2.3 聚类结果分析在职位描述和职位要求的文本聚类结果中均含有英文文本类,这是因为所获取的数据中含有少量的英文职位描述和职位要求,但出现次数较少,故将此文本类略去,最终分别获得职位描述和职位要求的六个聚类。根据这六个职位的关键词,本研究总结出六类岗位特征和职位所要求的能力维度,如表1、表2所示。在互联网企业招聘信息的职位描述中,六类岗位特征分别是市场推广、行业布局、组织统筹、产品分析、技术研发和新媒体运营,职位要求方面,招聘信息反映的六个能力维度分别是:学历及能力要求、行业经验要求、市场运作能力要求、组织统筹能力要求、技术能力要求和个人品质要求。
表1 职位描述聚类得到的六个岗位特征维度
表2 职位要求聚类得到的六个能力维度
2.4 雷达图对比展示雷达图便于对比同一种招聘类型下不同职位的职位描述差异,本研究考虑高校毕业生通过校招进入互联网和求职者通过社招途径进入互联网两种不同情况,因此将招聘类型作为补充内容,对比互联网企业在社招和校招中,针对同一职位招聘信息的职位描述和职位要求是否有所区别。
具体计算时,按照招聘类型的不同,对某一岗位的职位描述或职位要求中出现的六个维度的分词进行计数,分别得到社招和校招的岗位-岗位特征/岗位-能力要求计数结果。分析某一类岗位下校招和社招对职位描述的影响,可以采用卡方检验的方法来判断社招和校招之间是否存在差异。但由于目前样本量较大,卡方检验的效果欠佳。根据列联表分析,可以对比不同维度关键词出现的期望频率与实际频率。因此本研究将不同维度关键词出现的实际频率作为输入值,制作成雷达图进行对比。
对比图5和图6的校招和社招职位描述雷达图,可以看出,对于市场岗位来说,校招时对行业了解、组织统筹等职位内容的描述更多一些,而在社招时更强调市场推广,说明社招时企业可能会在职位描述中直截了当地表现出盈利目的。对于研发岗位来说,校招时对技术研发的描述相对较多,有很强的针对性。但在社招时,除了技术研发的工作描述外,产品、推广等方面的描述也颇多,体现出综合性和拓展性。对于产品岗位来说,校招时的职位描述没有很强的指向性,没有设立很高的职业门槛。相反,社招岗位对产品分析、市场推广等工作内容的描述更具针对性。对于运营岗位来说,校招和社招的职位描述差异在于,社招时对市场推广的描述更多。
图5 互联网公司校招职位描述雷达图
图6 互联网公司社招职位描述雷达图
对比图7和图8的校招和社招职位要求雷达图,可以发现,对于市场岗位来说,无论是校招还是社招,对个人品质的要求都是头等重要的,但社招还会对市场运作能力提出要求,相对而言,校招对学历的要求更加明确。对于研发岗位来说,校招和社招最显著的差异是,社招时对学历的要求放宽,但对个人品质的要求相对提高。对于产品岗位来说,社招时对学历的要求相对宽松一些,但对个人品质的要求较高。对于运营岗位来说,同样出现社招时学历要求放宽、个人品质要求提高的现象。
图7 互联网公司校招职位要求雷达图
图8 互联网公司社招职位要求雷达图
3 结 论通过对互联网企业发布的招聘信息进行文本分析,研究了互联网企业针对不同招聘类型、不同职位类型的人才需求特点。结果显示:互联网企业的招聘职位描述可以分为市场推广、行业了解、组织统筹、产品分析、技术研发和新媒体运营六大维度;招聘职位要求可以分为学历要求、行业经验要求、市场运作能力要求、组织统筹能力要求、技术能力要求和个人品质要求六个维度。
在职位能力要求方面,互联网企业进行校招时,无论是市场、研发、产品还是运营岗位,都特别注重个人品质(如工作主动性和沟通能力),其中市场岗位最看重个人品质,研发岗位对个人品质的要求最弱,也是四类职位中对技术能力要求最高的岗位,运营岗位则是四类职位中最看重学历的岗位,产品岗位在六个维度中要求中等。在进行社招时,四类职位仍然关注个人品质,但从整体上来说对学历的要求有所降低,而是更加关注求职者的组织统筹能力、市场运作能力和行业经验。相形之下,市场岗位在市场运作能力和个人品质两个维度的要求较高,产品岗位对行业经验和组织统筹能力要求较高。