基于贝叶斯优化-XGBoost的电商用户流失预测模型

known 发布于 2025-08-25 阅读(406)

摘" 要:针对电商公司发展过程中存在的电商用户流失预测问题,提出一种结合极限梯度提升回归树(XGBoost)、贝叶斯优化方法(BO)的电商用户流失预测模型BO-XGBoost。通过将模型与常用的随机搜索、网格搜索方法优化的XGBoost模型进行对比,验证了所提模型的F1分数更高,效率更好。为进一步评价预测模型,将BO-XGBoost模型与BO-LR、BO-SVM、BO-RF、未优化前的XGBoost模型进行对比,结果表明BO-XGBoost模型在准确率、精确率、召回率和F1分数上均表现最佳,同时在电商流失预测领域更看重的查全率达到了95.26%,大幅领先其他模型,表明BO-XGBoost模型在电商用户流失预测方面取得了较好的效果。

关键词:用户流失预测;贝叶斯优化;高斯过程;XGBoost;机器学习

中图分类号:TP39;TP18 文献标识码:A 文章编号:2096-4706(2024)09-0126-05

E-commerce Customer Churn Prediction Model Based on Bayesian Optimization-XGBoost

LI Hongming, ZHUANG Weiqing

(School of Internet Economics and Business, Fujian University of Technology, Fuzhou" 350014, China)

Abstract: In response to the problem of predicting E-commerce customer churn faced by E-commerce companies during their development process, an E-commerce customer churn prediction model BO-XGBoost is proposed, which combines Extreme Gradient Enhancement Regression Tree (XGBoost) and Bayesian Optimization method (BO). By comparing the model with the XGBoost model optimized by commonly used random search and grid search methods, it is verified that the proposed model has a higher F1 score and better efficiency. To further evaluate the prediction model, the BO-XGBoost model is compared with BO-LR, BO-SVM, BO-RF, and the unoptimized XGBoost model. The results show that the BO-XGBoost model perform the best in accuracy, accuracy, recall, and F1 score. At the same time, the recall rate, which is more important in the field of E-commerce customer churn prediction, reaches 95.26%, significantly leading other models, which indicates that the BO-XGBoost model has achieved good results in predicting E-commerce customer churn.

Keywords: customer churn prediction; Bayesian Optimization; Gaussian process; XGBoost; Machine Learning

0" 引" 言

随着移动互联技术的快速发展和电商平台的不断涌现,老牌电商霸主淘宝和京东面临拼多多、小红书、抖音等电商平台崛起的挑战。用户可选择的网购平台越来越多,用户流量成为各大电商企业的必争红利。其中,用户流失是各大企业共同面临的难题,因为获得新客户比留住老客户的成本更高,而预防客户流失、维持现有客户资源有助于提升企业在市场上的竞争优势。因此,创建高效、准确的电商用户流失预测模型,形成用户流失预警机制,有针对性地制订营销策略来维系和挽留具有潜在流失倾向的客户,对电商企业的发展具有极其重要的意义。

机器学习作为人工智能的基石与核心,其各种算法已广泛应用于用户流失预测的研究当中。国内外学者对于用户流失预测的研究主要集中在电信、银行金融等领域,如Caigny等[1]提出一种基于决策树和逻辑回归的融合模型LLM,在维度较低的用户流失数据集中取得了显著的效果。Yu等[2]提出一种基于粒子分类优化的BP网络模型PBCCP,显著提升了电信公司用户流失预测的精度。Ahmad等[3]使用决策树、随机森林、梯度提升树GBDT和极端梯度提升树XGBoost构建电信用户流失预测模型,发现XGBoost算法的表现最好。刘松[4]认为相较于传统机器学习,选用深度学习算法来对银行客户流失的可能性进行预测,能够更加准确地预测出更多潜在的流失客户。薛冰[5]提出以多种机器学习算法构建融合模型,可以显著提升电信用户流失预测的准确性。钟文鑫[6]研究陌生人社交APP客户流失预测问题,通过对比多种机器学习模型的预测性能,发现XGBoost模型的表现最好。

XGBoost是Chen等[7]于2016年提出的一种基于GBDT改进的可扩展极限梯度提升模型,采用并行化架构,运行效率较高。相较于GBDT,它嵌入了缺失值处理策略。此外,XGBoost的基分类器是树模型,具有良好的可解释性。同时,电商用户流失问题具有数据不平衡(流失样本远少于未流失样本)、数据缺失多、数据特征多且特征之间关系复杂等特点。因此,XGBoost适用于电商用户流失预测。然而,XGBoost模型参数复杂,必须经过精确的参数调整才能在特定领域发挥出良好的性能。目前采用较多的调参方法有人工手动调参、随机搜索(Random Search, RS)、网格搜索(Grid Search, GS)、贝叶斯优化等。其中,人工调参在超参数多的场景下因工作量过大而不适用。RS尽管能够在有限的时间内快速找到较好的超参数组合,但由于其搜索不具有连续性,在非凸目标函数上很难给出全局最优解。GS在参数较多的情况下,搜索空间急剧增大,计算代价较大,搜索效率低下。

基于此,为了实现高效的电商用户流失预测,提高电商用户流失预测的查全率与综合性能,本文构建一种基于贝叶斯优化-XGBoost的电商用户流失预测模型。

1" XGBoost算法与贝叶斯优化

1.1" XGBoost算法

XGBoost算法是一种以贪心法为基本思想,由梯度提升树(GBDT)改进而来的Boosting类集成学习算法。它使用决策树作为弱学习器,在训练过程中构造多个弱学习器,第1棵决策树拟合样本数据,将拟合的误差作为第2棵决策树的目标继续拟合,依此类推通过不断加入新的决策树逐步迭代直至符合停止条件,最终将多棵决策树的拟合结果加权求和,得到最终的预测结果[8-10]。

XGBoost迭代第t次的目标函数如式(1)所示:

其中, 为损失函数,用来计算预测值与真实值之间的偏差;Ω( ft )为正则项,用来剪枝控制模型复杂度,防止过拟合;yi为真实值; 为迭代第t-1次的预测值;xi为输入的第i个样本;f为树函数;ft (xi)为当前第t棵树的预测结果;n为输入值个数。

正则项如式(2)所示:

其中,γ和λ为正则项的超参数;γ为收缩系数;λ为L2范数系数;T为叶子节点的个数;ω为叶子节点的列向量;ωj为叶子节点j的权重。

相较于GBDT选择梯度下降法对目标函数进行优化,XGBoost采用二阶泰勒展开式对目标函数进行优化:

其中, 为误差函数的一阶导数; 为误差函数的二阶导数。

由于前t-1棵树是确定的,前t-1棵树产生的残差" 已知,可以将其视为常数不做考虑,式(3)优化各常数项后表示为:

将正则项进一步展开并合并,且从n个样本遍历改为从叶子节点j遍历,可由式(5)表示:

其中,Ij为第j次迭代时输入值的编号集合。根据上式,令Objt = 0即可求得叶子节点j的最优值 :

因此,目标函数最小值表示为:

其中,Gj为第j轮迭代计算得到的gj的和,;Hj为第j轮迭代计算得到的hj的和,。

1.2" 贝叶斯优化算法

机器学习中,对超参数进行优化是一种较为高效的提高模型预测能力的方法。相较于常规的随机搜索和网格搜索等超参数优化方法,贝叶斯优化利用已经搜索过的点的信息在较短的迭代时间内就可以获得优秀的超参数组合。

贝叶斯优化本质上是一种基于概率分布的全局优化算法[11]。贝叶斯优化假设需要优化的目标函数和超参数之间存在一种“黑盒函数”关系f,不能通过梯度下降法取得最优解。但是贝叶斯优化可以通过假设先验概率分布,使用贝叶斯公式将其转换为后验概率分布,修改原分布置信度,找到下一个评估位置,从而不断逼近最优解[12]。

贝叶斯优化算法包含两个核心部分:概率代理模型和采集函数。常见的概率代理模型有高斯过程(GP)和树形Parzen估计器(TPE)。高斯过程是一种非参数模型,相比非参数模型具有更高的扩展性,因此本文使用高斯过程作为概率代理模型。常见的采集函数分为基于置信区间的函数、基于信息增益策略的函数、基于提升策略的函数[13]。本文使用的采集函数是基于提升策略的期望改善函数(Expected Improvement, EI),操作简单且容易获得全局最优解。

高斯过程可以由均值函数" 和协方差函数" 来定义,表示为:

随机变量X在观测数据作用后的后验概率分布的均值μs和方差" 如式(10)和(11)所示:

其中,s为评估次数;y为观测值。采集函数就是从输入空间、观测空间和超参数空间映射到实数空间的函数,该函数由已观测数据集D得到的后验分布构造,并通过对其进行最大化来选择下一个评估点。

EI策略的采集函数如式(12)所示:

其中, 为最优函数值; 为标准正态分布累积密度函数;σs为标准差。此外,我们在EI策略采集函数中引入平衡参数" 来平衡局部搜索和全局搜索之间的关系,这在一定程度上解决了陷入局部最优的问题。

2" 基于BO-XGBoost的电商用户流失预测模型

2.1" 数据来源与数据预处理

模型采用的数据集是2020年Kaggle上公开发表的在线电商用户数据集,共包含5 630条样本数据,每条数据具有20个特征,部分特征字段如表1所示。其中,流失样本数据为948条,非流失样本数据为4 682条,属于非平衡小样本数据集。

首先对数据特征值进行缺失值处理,由于XGBoost自带的缺失值处理策略相较于传统的缺失值处理方法在树模型上具有更优异的表现,事先对对比模型做以下缺失值处理:数值型数据使用平均值补全,类别数据使用众数补全。然后对类别型特征数据进行独热编码,以提高算法预测的准确性。尽管树模型受特征量纲的影响极小,但数据标准化可在一定程度上提升模型的迭代收敛速度和分类准确率,所以有必要对数据进行标准化处理:

其中, 为特征数据的平均值;σx为特征数据的标准差。

2.2" 建立预测模型

基于BO-XGBoost的电商用户流失预测模型流程图如图1所示。具体流程为:首先对数据集进行数据预处理,之后以4:1的比例将数据集划分为训练集和测试集,在训练集上使用5折交叉验证,设置5折交叉验证的F1分数为目标函数,初始化迭代次数,使用贝叶斯优化算法对XGBoost中的7个超参数进行寻优,得到最优超参数组合并部署到XGBoost模型上得到基于BO-XGBoost的电商用户流失预测模型,如表2所示,最后利用测试集对模型效果进行评估。

3" 实验测试

3.1" 评价指标

采用二分类中常用的准确率、精确率、召回率和F1分数作为模型评价指标。这些指标都是基于如表3所示的混淆矩阵。

准确率(Accuracy):预测正确的样本占所有样本的比例。

精确率(Precision):正确预测为流失样本占所有预测为流失样本的比例。

召回率(Recall):正确预测为流失样本占所有流失样本的比例,同时也是用于衡量模型的查全率。对于电商用户流失预测而言,召回率是一个极其重要的衡量指标。

F1分数(F1-score):模型准确率和召回率的一种加权平均,数值越大模型性能越好。

3.2" 优化算法对比分析

使用随机搜索优化和网格搜索优化的XGBoost模型与BO-XGBoost模型在F1分数和寻优速度上进行对比,验证贝叶斯优化算法的有效性。为确保对比结果的可靠性,尽量使随机搜索和网格搜索的超参数寻优范围和参数组合与贝叶斯优化算法保持一致,最终参数如表4所示。

优化算法性能对比结果如表5所示,原始XGBoost模型在测试集上的F1分数为92.59%,在使用优化算法后各模型的F1分数都得到了不同程度的提高,其中随机搜索和网格搜索分别提升0.57%和1.65%,而贝叶斯优化方法的提升幅度最大,提升了1.93%。从寻优速度来看,最快的是随机搜索仅用时63.45 s,最慢的是网格搜索耗时2 339.11 s,贝尔斯优化方法用时也较短仅为166.93 s。综合二者可知,随机搜索速度快但寻优效果较差,网格搜索虽然可以达到较好的寻优效果但是计算耗时长,而贝叶斯优化方法可以在较短的时间内找到最优的参数组合,大幅提升了模型性能,寻优效率最高,优于传统的随机搜索优化方法和网格搜索优化方法。

3.3" 多模型比较

为了验证本文提出的BO-XGBoost模型在电商用户流失预测方面的性能,选取3种在客户流失预测领域使用较广且效果较好的机器学习算法(包括单学习器模型逻辑回归(LR)、支持向量机(SVM)和集成学习模型随机森林(RF))与XGBoost模型进行对比。以上3种模型均采用贝叶斯优化方法进行超参数寻优,最终在测试集上对五种模型进行测试,进行对比分析。其中逻辑回归模型的最优参数组合为penalty = L2、C = 1 000、solver = sag;支持向量机的最优参数组合为kernel = poly、gamma = 0.029、C = 82;随机森林的最优参数组合为max_depth = 15、max_features = 0.322、min_samples_split = 2、n_estimators = 250;未优化前的XGBoost模型使用默认参数。

各预测模型的性能对比结果如图2所示。基于贝叶斯优化的XGBoost模型在四项指标评分上较未优化前均有明显提升,而在基于贝叶斯优化的四种预测模型当中,优化后XGBoost的四个评价指标均为最高,都达到了93.7%以上。作为用户流失预测模型,我们更看重的是能否预测到全部的潜在流失用户,也就是查全率。各模型的查全率排序为:BO-XGBoost>XGBoost>BO-SVM>BO-RF>BO-LR,其中,BO-XGBoost的查全率达到了95.26%。而对体系模型综合性能的F1分数而言,BO-XGBoost达到了94.52%,相较于前四种模型分别提高了29.55%、6.83%、4.30%、1.93%。

4" 结" 论

针对电商公司在发展过程中面临的电商用户流失问题,提出一种结合贝叶斯优化算法和XGBoost的电商用户流失预测模型,并与基于随机搜索优化、网格搜索优化的XGBoost模型和未优化前的XGBoost模型进行对比,结果表明使用贝叶斯算法优化的XGBoost模型的F1分值最高,同时超参数寻优时所消耗的时间相对较少,综合效率最高。将所建立的BO-XGBoost模型与BO-LR、BO-SVM、BO-RF和未优化前的XGBoost模型的分类结果进行对比,从结果可以看出,BO-XGBoost在准确率、精确率、召回率和F1分数四项评价指标上都是最优的,尤其是在电商用户流失预测领域最为看重的查全率上大幅领先其他四种模型,表明BO-XGBoost模型在电商用户流失预测方面取得了很好的效果。

参考文献:

[1] CAIGNY A D,COUSSEMENT K,BOCK K W D. A New Hybrid Classification Algorithm for Customer Churn Prediction Based on Logistic Regression and Decision Trees [J].European Journal of Operational Research,2018,269(2):760-772.

[2] YU R Y,AN X M,JIN B,et al. Particle Classification Optimization-based BP Network for Telecommunication Customer Churn Prediction [J].Neural Computing and Applications,2018,29(3):707-720.

[3] AHMAD A K,JAFAR A,ALJOUMAA K. Customer Churn Prediction in Telecom Using Machine Learning in Big Data Platform [J].Journal of Big Data,2019,6(1):1-24.

[4] 刘松.基于深度学习的银行客户流失预测问题研究 [D].贵阳:贵州大学,2023.

[5] 薛冰.基于多模型融合的电信运营商客户流失预测研究 [D].大连:东北财经大学,2023.

[6] 钟文鑫.基于数据挖掘的陌生人社交APP用户流失预测模型研究 [D].北京:首都经济贸易大学,2018.

[7] CHEN T Q,GUESTRIN C. XGBoost: A Scalable Tree Boosting System [C]//KDD 16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Francisco:Association for Computing Machinery,785–794.

[8] 宋建,陈广森,陈敬福,等.基于特征选择和贝叶斯优化LightGBM的注塑制品尺寸预测 [J].工程塑料应用,2021,49(8):54-60.

[9] ANJU P,JYOTI Y,ASHA R,et al. Design of Intelligent Diabetes Mellitus Detection System Using Hybrid Feature Selection Based Xgboost Classifier [J/OL].Computers in Biology and Medicine,2021,136:104664[2023-07-29].https://doi.org/10.1016/j.compbiomed.2021.104664.

[10] 张微薇,刘盾,贾修一.基于XGBoost的三分类优惠券预测方法 [J].南京航空航天大学学报,2019,51(5):643-651.

[11] 崔佳旭,杨博.贝叶斯优化方法和应用综述 [J].软件学报,2018,29(10):3068-3090.

[12] BOBAK S,KEVIN S,WANG Z Y,et al. Taking the Human Out of the Loop: A Review of Bayesian Optimization [J].Proceedings of the IEEE,2016,104(1):148-175.

[13] 张梦蝶,覃华,苏一丹.进化贝叶斯优化的核极限学习机分类器 [J].计算机工程与设计,2022,43(2):399-405.

作者简介:李宏明(1995—),男,汉族,福建泉州人,硕士研究生在读,研究方向:机器学习、用户画像;庄伟卿(1981—),男,汉族,福建惠安人,副教授,博士,研究方向:数据挖掘电子商务

标签:  模型 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor