摘 要:当前,快节奏的生活方式使消费者对预制菜的需求不断上升。在线评论中蕴含着消费者的真实需求,已成为电商企业提升服务质量与增加消费者黏性的重要参考。本文对京东商城预制菜在线评论文本信息进行数据挖掘,通过SnowNLP对在线评论数据进行情感分析,并对得到的正负情感文本分别进行LDA主题分析,得出预制菜的质量、价格、物流、口味和售后为影响消费者满意度的关键因素。基于此,本文从提升预制菜质量、加大促销力度、完善冷链物流服务、改善预制菜口味、加强售后沟通五个方面对预制菜电商提出对策建议,以供参考。
关键词:在线评论;预制菜;情感分析;LDA模型;预制菜评价
中图分类号:F126.1 文献标识码:A 文章编号:2096-0298(2024)11(a)--05
2023年中央一号文件首次提出要“培育发展预制菜产业”。2023年《轻工业稳增长工作方案(2023—2024年)》指出要“实施推动食品工业预制化发展行动方案,顺应方便快捷、营养健康食品消费需求,大力发展方便食品、自热食品、米面制品、预加工菜肴等产品形态。”我国预制菜产业发展迅速,其产业链涉及农业生产、加工流通、餐饮服务、市场消费等多环节。
《2023年中国预制菜产业发展白皮书》指出,2020年我国平均每个家庭人口为2.62人,二人家庭和单身家庭数量明显增加。小型家庭的劳动成本较高,推动了一日三餐简单化和便捷化需求的增长,进而带动了预制菜消费的热潮。同时,经济的快速发展在提升人均可支配收入的同时,也挤压了职场人的休闲时间。快节奏的生活方式使职场人缺乏足够的时间和精力准备三餐,预制菜因此成为其重要选择。
在线评论是消费者购物体验的真实反馈,挖掘其中的消费者满意度,对推动预制菜电商的发展具有重要意义。在此背景下,本文挖掘消费者在线评论数据,将SnowNLP情感分析与LDA主题模型相结合,从而识别影响消费者对预制菜满意度的关键因素,为预制菜电商提出改进建议,从而提高消费者满意度,帮助预制菜电商产业发展。
1 相关文献评述
预制菜是指以农、畜、禽、水产品为主要原料,配以各类辅料,用现代化标准集中生产,经预加工或预烹调制成,并进行预包装的成品或半成品菜肴,消费者无需烹饪或只需简单烹饪即可食用[1]。按照其食用方便性和深加工程度可将预制菜分为即热、即烹、即配、即食四大类[2]。国内早期对预制菜的研究大多集中在预制菜的保鲜技术[3]和菜肴的工业化[4]。此后,大部分学者对预制菜的研究大多集中在对预制菜行业的现状及发展趋势[5]。
Feldman等(1995)最早提出文本挖掘概念,并将其用于研究非结构化数据[6]。此后,学者尝试将文本挖掘技术运用在满意度研究中。Lyu等(2020)对有机农产品的在线评论文本进行LDA主题分析,研究发现有机农产品的包装设计、营养信息、食品质量、配送风险、新鲜度是消费者线上购买有机农产品的重要因素,产品的价格折扣和评论数量会影响消费者满意度[7]。Uatay等(2020)通过分析Naver博客文章的评论数据,通过从评论文本中提取出的产品、购买、交付、使用和价格等关键词预测客户情绪和满意度,结果发现这些关键词对客户满意度均有正向影响[8]。
文本情感分析又称意见挖掘,是指对带有情感色彩的主观性文本进行分析,挖掘其中蕴含的情感倾向,对情感态度进行划分[9]。目前,文本情感分析大多被学者们应用于分析在线评论。马凤才等(2020)通过爬取京东商城水果、蔬菜、海鲜和肉类四类生鲜产品的在线评论,运用word2vec构建特征词表,并结合TF-IDF方法计算特征权重,结果表明,消费者对上述四类生鲜产品的服务和价格满意度较高,对包装的满意度相对较低[10]。Wang等(2018)使用SnowNLP对洗衣机的在线评论进行情感倾向识别,并建立回归模型分析影响消费者满意度的商品属性[11]。邱冬阳等(2023)将SnowNLP情感分析和LDA主题模型结合,对双十一期间天猫商城个护美妆商品的在线评论进行挖掘,从而探究“双十一”活动及活动前后的消费者满意度[12]。
综上所述,虽然利用在线评论研究消费者满意度是当下研究的热点,近年来对预制菜的研究也不断增多,但是研究大多集中在对预制菜行业的现状及发展趋势,对预制菜商品的满意度研究较少。因此,本文通过文本挖掘技术、SnowNLP情感分析结合LDA主题模型对京东商城的预制菜商品评论数据进行分析,探究消费者对预制菜商品的满意度情况,并为预制菜电商企业提供改进建议。
2 理论基础
2.1 消费者满意度相关理论
Cardozo等(1965)最早提出“消费者满意度”概念,该概念指出消费者在购买产品前会形成一定的期望水平,购买后会通过他们的实际经验来评价产品或服务的质量和性能[13]。消费者的满意度是他们通过比较期望与实际经验来形成的。如果实际经验与期望相符或超过期望,消费者就会感到满意,并且可能产生回购行为成为忠实顾客。反之,如果实际经验低于期望,消费者可能会感到失望和不满意,甚至发表负面评价,对品牌造成损害。此后,Oliver等(1980)指出消费者对产品或服务的满意度是由其期望和感知之间进行主观比较的结果,即当消费者对产品或服务的期望与自身感知一致时,消费者就会感知到满意,反之则不满意[14]。刘子寒等(2023)将消费者满意度视为消费者对其购买产品或服务体验的主观评价,综合考虑了认知和情感两方面,高满意度能够促使消费者增加对特定网络零售商的忠诚度和黏性,降低转向其他网络零售商的可能性[15]。
2.2 LDA模型
Blei等(2003)提出了LDA(Latent Dirichlet Allocation)模型,该模型是一种基于Dirichlet分布的非监督机器学习算法[16]。LDA模型是一种文档主题生成模型,又被称为三层贝叶斯概率模型,包含词、主题和文档三个层次。LDA将每篇文档视为多个主题的组合,而每个主题又由多个词构成。其目标是通过观察文档集合,推断出每个文档中的主题分布以及每个主题中词的分布,从而了解文档集合中主题的分布情况以及每个主题所代表的意义。
LDA模型常被用于评论文本、新闻文本等数据挖掘研究,从而探究消费者满意度,研究领域十分广泛,包括生鲜农产品[17]、旅游景区[18]、电子产品[19]等。
3 研究设计
3.1 数据的预处理
3.1.1 数据的采集
京东商城作为中国最大的综合电商平台,拥有数量可观的评论数据,并且允许一定程度的数据爬取。本文选择京东商城正大CP、海文铭、知味观等预制菜店铺的在线评论作为研究对象,并对店铺中小酥肉、佛跳墙、宫保鸡丁、鱼香肉丝等预制菜商品使用八爪鱼采集器进行评论数据采集,爬取2021年9月28日至2024年2月8日的评论数据,共计25936条。
3.1.2 数据的清洗
在对文本数据进行预处理时,需要把以下几种情况的数据剔除:
(1)剔除重复评论。将评论文本内容相同的评论数据剔除,只保留一条。
(2)剔除系统默认评论。如果消费者长时间没有评论,系统默认会正面评论,如“此用户未填写评价内容”和“该用户觉得商品不错”等类似评论。
(3)剔除过短评论。评论数据过短含有的信息较少,所以本文去除了字符长度小于5的数据。
(4)剔除无效评论。整条评论内容全部为数字、字母或者符号的评论,例如“1”“aaa”“!!!”等。
经过筛选后共获得了20802条有效评论数据,这些数据将用于后续的分析研究。
3.1.3 文本分词处理
中文分词是文本处理中的基础工作,本文采用jieba模块对文本进行分词处理。在分词的同时进行去停用词的步骤,这一步可以去除无实际意义的常见词汇,提高分词效率,本文采用哈工大停用词库,并通过迭代不断优化分词结果。分词过程中出现的高频新词,需要加入自定义词库以提高分词效果。本文针对预制菜商品评论,添加了品牌名称和口语化词汇到自定义词库中。经过多次迭代和词库更新,最终得到了准确的分词结果,部分分词结果如表1所示。
3.2 情感分析
3.2.1 SnowNLP情感分析
机器学习的情感分析有多种方法,本文采用的是SnowNLP模型,其依托的底层模型为朴素贝叶斯。在实际使用SnowNLP模型的过程中,需要根据研究情况,重新训练模型。首先将采集到的部分评论数据人工进行情感倾向标注,对该模型进行学习训练。然后对训练好的模型进行准确率的测试。在模型通过学习测试后,再进行整体文本数据的情感分析。
本文将小于0.5的情感得分设定为消极情感、大于等于0.5的情感得分设定为积极情感。然后将预处理好的文本数据放入SnowNLP模型中进行分析打分,最终得到16035条积极文本、4767条消极文本。
3.2.2 文本词频分析
本文对情感分析后的积极和消极评论文本分别进行词频统计,并按照词语出现频率从高到低排序。选取频率最高的前20个词进行分析,并制作词云图,以更直观地展示数据分析结果。如图1所示,其中左侧为积极评论文本词云图,右侧为消极评论文本词云图。词云图中词语的字体大小与其词频成正比,词频越高,字体越大;词频越低,字体越小。
由图1可以看出,积极和消极词云图中都出现了“味道”,以及一些对于预制菜味道的描述,比如“好吃”“难吃”“口味”“口感”等,说明消费者对预制菜的味道关注度较高。“物流”“快递”等词说明消费者对预制菜的物流较为关注,由于预制菜属于生鲜农产品,消费者对预制菜冷链物流要求较高。“包装”和“质量”在两个词云图中同时出现,说明预制菜包装标准不一致,部分消费者对预制菜的包装感到不满,预制菜商品质量也参差不齐。“服务态度”“商家”说明消费者对预制菜的售后服务也较为关注。“价格”“便宜”“不值”等与价格有关的词汇也在两个词云图中同时出现,说明消费者对预制菜的定价看法各不相同。
3.3 消费者满意度影响因素分析
3.3.1 确定LDA模型主题数量
本文利用LDA模型对情感分析后的积极评论文本和消极评论文本分别进行主题分析。目前常见确定主题的方式是基于困惑度或一致性[20],由于困惑度过于依赖概率和词频,没有考虑到词汇在评论文本中上下文的联系,所以本文选择一致性来确定用户评论集的最佳主题数量[21]。一致性评分是由词汇的共现频率来计算的,评分越高说明获取的主题数量更合适。本文基于gensim框架搭建主题模型,获得在当前主题数量下的一致性评分。结果显示积极评论文本的最佳主题数量为5;消极评论文本的最佳主题数量为4时会取得较好的结果。
3.3.2 LDA主题分析
为了使最终的聚类效果可以更加直观的展示出来,本文需要对主题聚类结果进行可视化分析。主要利用pyLDAvis模块,然后结合gensim库,对提取主题后的结果进行可视化,图2为积极评论文本的可视化结果。
图2左边的圆圈表示不同的主题,圆心间的距离代表主题间的相似程度,圆圈的大小代表该主题在整个文本中所占的比例,越大代表整个主题在整个文本中的核心程度越高。图2右边的直方图表示每个主题所对应的文本数据中的关键词。
LDA模型在抽取文档中的主题及其对应的关键词方面具有高效的能力。但由于LDA是一种无监督的机器学习算法,在建模后会出现一些主题中提取的关键词没有实际含义的情况,这些词语对研究结果造成干扰。此外,针对电商消费者评论文本的相似度高和部分主题关键词划分不明确的问题,需要进一步的数据处理。为了解决以上问题,对每个主题的主题词进行分析,过滤掉那些没有准确含义的词语。提取每个主题中10个具有具体内容分类的关键词,这样的处理有助于提高主题识别的准确性和可解释性。
通过表2可以发现:主题1中出现的词语有“快递”“物流”“冷链”等,说明消费者对物流的运输方式比较关注。预制菜具有易变质的特点,高效的物流服务和冷链运输环境可以保持其新鲜度和品质。主题2中“客服”“商家”“服务态度”等词说明消费者对预制菜的售后服务比较在意。专业的售后可以为消费者提供商品信息、解答疑问,从而辅助消费者做出购买决策。主题3中“品质”“质量”“新鲜”等词说明消费者对预制菜的质量有着很高的要求,且大部分消费者收到的预制菜都能保证其新鲜度。主题4中“味道”“好吃”“口感”等词都属于消费者的主观感受,说明消费者对预制菜的味道比较关注,并且大部分消费者给出的评价都是“美味”。主题5中“价格”“便宜”“划算”等词可以看出消费者对预制菜的价格比较满意,“活动”一词的出现表明折扣、促销等方式可以吸引到消费者的注意力,促使消费者完成购买行为。综上所述,预制菜的物流、售后、质量、口味和价格这五个因素都是影响消费者满意度的关键。
通过表3可以发现:主题1中“客服”“商家”“解决”等词说明消费者对于预制菜的售后服务方面不是十分满意,部分消费者的问题没有被商家妥善解决。主题2中“难吃”“味道”“不好吃”等词说明部分消费者对预制菜的味道不满意,“价格”“上当”等词说明消费者认为预制菜的定价不合理。主题3中“臭味”“变质”“拉肚子”等词说明部分消费者对预制菜的质量不满意,“快递”一词说明预制菜的质量问题与物流配送有关。主题4中“包装”“冰袋”“快递”说明预制菜的商品包装标准参差不齐,且部分消费者认为预制菜的冷链物流差劲。
4 结语
本文对京东商城预制菜的在线评论进行情感和主题分析,结果表明质量、价格、物流、口味和售后影响消费者的满意度,并提出如下建议:
(1)提升预制菜质量,加强生产过程管控。建立严格的原材料采购标准,加强对生产过程的管控和监督,确保生产操作符合卫生标准和食品安全规定。建立完善的质量检验和抽检制度,对生产过程中的关键环节和成品进行全面检测和抽样检验,减少不合格的预制菜商品流入市场。
(2)引入优惠政策,加大促销力度。电商企业一方面可以通过促销活动、推广优惠等,吸引消费者购买,同时可以考虑与支付平台合作,提供特定支付方式的优惠。另一方面,可以通过宣传预制菜产品的优势和附加值,从而降低消费者对于预制菜价格偏高的认知,使其更加愿意接受预制菜产品的价格。
(3)完善冷链物流服务、强化包装保护功能。对冷链物流设定严格的温度控制标准,确保整个运输过程中预制菜的温度保持在安全的范围内。使用具有良好保护功能的包装,能够有效隔绝外界环境对预制菜的影响,如保持温度稳定、防止挤压和碰撞等。
(4)改进预制菜口味,提升消费者体验。不断优化配方和加工工艺,改进预制菜的口味,使其更符合消费者的口味偏好。此外,可以借鉴消费者反馈和市场需求,不断改进口味,推出符合市场趋势和消费者口味的新品种新口味。
(5)加强售后沟通,积极收集消费者反馈。提供全天候的客户服务,确保消费者可以随时联系到客服,以便及时处理消费者的咨询、投诉和售后问题。积极收集消费者的意见和反馈,包括商品质量、物流服务和售后等方面。
参考文献
赵超凡,陈树俊,李文兵,等.预制菜产业发展问题分析[J].现代食品科技,2023,39(2):104-109.
曾耀锐,邹玉洁,卢贤钿.供应链视角下“宅经济”预制菜发展现状及前景分析[J].中国储运,2022(11):189-190.
刘琳,张德权,贺稚非.调理肉制品保鲜技术研究进展[J].肉类研究,2008(5):3-9.
李满雄,李水红,熊巍,等.淡水鱼预制菜加工技术研究进展[J].食品安全导刊,2021(34):128-130.
安俊文,方梓蓥,高希西,等.我国预制菜产业的发展现状、影响因素及发展趋势[J].食品与发酵工业,2024,50(5):388-394.
Feldman R., Dagan I. Knowledge Discovery in Textual Databases (KDT)[C]//KDD. 1995, 95: 112-117.
Lyu F, Choi J. The forecasting sales volume and satisfaction of organic products through text mining on web customer reviews[J].Sustainability, 2020, 12(11): 4383.
Uatay G., Cho D. S., Lee H. Y. Gaging customer response to dawn delivery service using social big data[J].Culinary Science & Hospitality Research, 2020, 26(2): 1-9.
王婷,杨文忠.文本情感分析方法研究综述[J].计算机工程与应用,2021,57(12):11-24.
马凤才,李春月.消费者对电子商务平台销售生鲜产品满意度测算研究: 基于京东生鲜在线评论的分析[J].价格理论与实践,2020(5):117-120.
Wang Y., Lu X., Tan Y. Impact of product attributes on customer satisfaction: An analysis of online reviews for washing machines[J].Electronic Commerce Research and Applications, 2018, 29: 1-11.
邱冬阳,绘娴.双十一活动消费者满意度研究: 基于天猫个护美妆类产品文本挖掘[J].重庆邮电大学学报(社会科学版),2023,35(2):131-145.
Cardozo R. N. An experimental study of customer effort, expectation, and satisfaction[J].Journal of marketing research, 1965, 2(3): 244-249.
Oliver R. L. A cognitive model of the antecedents and consequences of satisfaction decisions[J].Journal of marketing research, 1980, 17(4): 460-469.
刘子寒,符少玲.消费者满意度综述[J].商业经济研究,2023(23):61-64.
Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation[J].Journal of machine Learning research, 2003, 3(1): 993-1022.
冯坤,杨强,常馨怡,等.基于在线评论和随机占优准则的生鲜电商顾客满意度测评[J].中国管理科学,2021,29(2):205-216.
张怡,裘鸿菲.基于LDA主题模型的湖泊公园生态系统文化服务公众感知研究[J].中国园林,2023,39(7):121-126.
吴江,周露莎,刘冠君,等.基于LDA的可穿戴设备在线评论主题挖掘研究[J].信息资源管理学报,2017,7(3):24-33.
Mimno D., Wallach H., Talley E., et al. Optimizing semantic coherence in topic models[C]//Proceedings of the 2011 conference on empirical methods in natural language processing. 2011: 262-272.
Xie T., Qin P., Zhu L. Study on the topic mining and dynamic visualization in view of LDA model[J].Modern Applied Science, 2018, 13(1): 204.