摘" 要:为给有声书平台的用户分类提供参考,文章首先基于AISAS模型进行用户标签的构建与提取,并根据所提取的用户标签设计、发放调查问卷,收集数据;其次利用RapidMiner数据挖掘软件进行K-means聚类分析,以实现对有声书平台不同用户群体的分类,并进行描述分析。最后总结出五类用户群体,分别是A类活跃型用户、B类社交型用户、C类沉默型用户、D类创作型用户、E类实用型用户。
关键词:AISAS;有声书;用户画像
中图分类号:TP391.1;G252" 文献标识码:A" 文章编号:2096-4706(2024)19-0168-07
Research on User Portraits of “Cloud” Listening Audiobook Platform Based on AISAS
ZU Suwan
(School of Management, Anhui University, Hefei" 230601, China)
Abstract: In order to provide a reference for the classification of audiobook platform users, this paper constructs and extracts user tags according to the AISAS model firstly, and then designs and issues the questionnaires to collect data according to the extracted user tags. Secondly, RapidMiner data mining software is used to perform K-means clustering analysis to construct the classification of different user groups of the audiobook platform and perform descriptive analysis. Finally, five types of user groups are summarized, namely Class A active users, Class B social users, Class C silent users, Class D creative users, and Class E practical users.
Keywords: AISAS; audiobook; user portrait
0" 引" 言
十九届五中全会指出要将文化强国的建设、国家文化软实力的提升、国民素质的增强作为2035年远景目标。而阅读可以对延续传统文化、提高国民综合素质起到重要的推动作用。积极推动全民阅读,有益于书香型社会的建设,更有益于国民文化自信和文化自觉的增强[1-2]。随着国民阅读平台的转变,数字化阅读早已悄然代替原有的纸质阅读成为新的阅读习惯,有声阅读也随之悄然兴起[3]。据iiMedia Research(艾媒咨询)数据表明,中国在线音频的用户总人数于2020年已达5.7亿人次,预计到2022年用户规模将达6.9亿人[4]。
然而,我国有声书发展前景虽然良好,但爆发式增长的用户需求与发展尚不成熟形成了鲜明对比,供需不平衡给有声书产业带来了诸多问题。比如版权侵权、盈利模式单一、“去图书化”[3]所带来的有声书内容低劣且同质化严重等众多问题,不仅影响了有声书产业的发展,也极大降低了有声书用户的使用体验感。目前相关学者的研究重点主要聚焦于有声书发展现状、困境及对策、未来发展方向等方面,也有图书情报领域的学者从用户的角度出发,为有声书平台的服务与推广提出建议。因此,如何打造“专精深”的有声书平台以更好地为用户服务是亟待解决的问题。
1" 文献回顾
1.1" AISAS理论模型
AIDAM模型是指消费者从一开始了解产品信息到最终产生购买行为会经历5个阶段:引起注意、激发兴趣、唤醒欲望、强化记忆、发生购买行动[5]。而AISAS是在AIDAM的基础上且基于互联网的影响产生的新营销模式,其对AIDAM的后3个阶段进行了改进,即引起注意、激发兴趣、主动搜索、购买行动、产生分享这5个阶段[6]。具体是指消费者在对某产品的包装设计、舆论主题、促销活动等因素吸引后会产生兴趣,然后会在社交网络平台主动搜索该产品的相关话题、评论、折扣活动等评价,具有购买意向后就会产生购买行为,并主动在社交网络上分享该产品或消费体验[7]。这5个阶段环环相扣,并且任一阶段都可能对其他环节产生影响。目前图情领域对于AISAS模型的应用主要集中于图书馆阅读推广方面,如李贵云基于AISAS模型的5个环节并结合少儿电子阅读的不同需求,提出了少儿分级阅读的推广路径[8]。
1.2" 用户画像
用户画像起源于交互设计之父Cooper提出的“User Persona”这一概念,他认为设计师在设计软件时应围绕用户角色、用户满意度,而不是软件本身,用户画像就是根据用户需求从而抽象出的虚拟用户原型[9]。除此之外,国外对用户画像的描述还有“User Profile”和“User Portrait”。“User Profile”是指每个用户都拥有自己的虚拟信息实体,该信息实体汇集了用户的各方面属性,以提取用户标签,为用户提供个性化服务[10-11]。“User Portrait”是指在用户的原始数据基础上进一步挖掘其他属性特征,从而绘制用户肖像[12]。目前,国内学者对“User Persona”和“User Profile”的区分并不明显,常将其视为同一概念进行研究[13]。
用户画像的构建过程包括数据收集、数据挖掘、数据可视化。数据收集时,要先根据用户属性确定构建维度。国外学者从不同的应用领域出发构建用户属性,国内学者则在此基础上进一步扩展,并验证其合理性[14]。Krasnov等从社会人口统计学、行为学、心理和地理这4个维度构建了消费者的数字肖像[15]。Aneja等从用户动态兴趣和地理位置维度描述用户画像[16]。Schfer等分别从情感限制[17]和场景应用[18]维度描述用户属性。国内学者许鹏程、程秀峰、刘速等提出从自然维度、兴趣维度、社交维度[19]、偏好维度[20]、资源属性、时间、数据维度[21]、场景和情境维度[22]、会话维度[23]、目标、行为、态度维度[24]来构建图书馆用户属性。目前常用的数据采集方法有调查问卷法、访谈法、日志挖掘、网络爬虫等。在数据挖掘方面,高广尚从本体或概念、主题或话题、兴趣或偏好、行为或日志、多维或融合方面进行探讨[25],具体的挖掘方法分为人工提取和技术提取两类。人工提取是指根据相关理论、前人经验、专家建议等自主描绘用户特点,具有主观性、小数据量的特点[26]。技术提取包括贝叶斯网络[27]、LDA主题模型[28]、聚类分析[29]、规则定义[30]等数据挖掘方法,适用于针对海量数据的研究。在数据可视化方面,常用的方法有标签云、统计图、人像结合的方法。
2" 数据准备
2.1" 用户画像的标签提取
本文基于AISAS模型并结合用户的基本个人特征,从用户的基本属性、心理属性和行动属性三个维度共提取了40个标签,如图1所示。用户的基本属性包括用户的使用等级、性别、年龄、学历、城市、行业、收入水平7个标签;用户的心理属性包括用户的知晓途径、使用诉求、浏览关注、口碑关注、线下关注、话题吸引力、价值观吸引力、平台页面建设、主播魅力、主播粉、作者作品粉、有声书的类型和时长;用户的行动属性包括用户的参考依据、搜索评论、搜索活动、搜索对比、舆论影响力、使用场景、使用频率、收听渠道、线下消费频率、包月频率、购买频率、购买价格、性价比、主播信任度、分享频率、持续分享、发布动态频率、评论打分频率、用户创作频率、用户创作原因。
2.2" 用户画像的数据获取
本研究借助李克特五级量表,以有声书平台用户画像标签体系为准在问卷星平台制作,共包含单选、多选40道问题,其中变量测量部分共22道。基于反馈建议对问卷中表述不合理等问题进行相应的修改,在微信群、各有声书QQ群(喜马拉雅、樊登读书、番茄、懒人听书、蜻蜓FM)、喜马拉雅官方平台发放问卷,并设置一元红包奖励模式以激励用户填写。问卷发放时间为2022年4月26号到2022年6月9号,共回收538份,剔除其中重复填写、非有声书用户、填写时间低于40秒或高于800秒、答案唯一的问卷,剩余有效问卷390份。
3" 数据分析和挖掘
3.1" 数据预处理
数据预处理可以使被挖掘的数据结果更加精准,本文选用RapidMiner软件对所收集的数据进行处理。RapidMiner具有诸多数据分析和数据算法功能,通过图形拖拽进行分析流程的设计,不用编程就可进行数据挖掘。数据预处理阶段包含了数据的清洗、处理缺失数据以及数据的集成、变换和规约。将收集到的390份数据导入到RapidMiner,并通过Normalize功能进行标准化处理。本文部分清洗后的数据如图2所示。
3.2" 模型建立
数据处理完毕后进入数据建模环节,并选用合适的算法。本文研究的是有声书平台的用户画像,因此选用聚类算法。聚类分析是指将研究对象根据其不同的特性分为多个组内具有相似特征的分类过程。K-means聚类算法可以将研究数据进行两两聚类,是目前用户画像聚类算法中常见的方法。K-means聚类算法的操作原理是先随机决定k个聚类中心,再将样本数据按顺序划分至距离其最近的聚类中心所在的类族中,并计算各类族的均值向量以将其作为新的聚类中心,依次迭代至收敛[31]。本文在RapidMiner软件中运用K-means算法构建模型图,如图3所示。
在模型构建过程中,先将本文所需数据集拖入操作界面中,并调用操作符Set Role将其与输出端连接;其后进行K-means算法,将K-means拖入模型中,并将Cluster Model Visualizer一并放入模型中,以对K-means聚类的结果进行分析,最后运用Set Role操作符将其相互连接。
3.3" 聚类分析
通过RapidMiner数据挖掘软件,经过上述建模后,进入聚类结果分析阶段。在Cluster Model(Clustering)界面中的Graph中即可得到本文的K-means分析结果。从图4中可以看出,本文中有声书用户的聚类分析共得到五类用户。
图4中的五类不同用户分别用Cluster0、Cluster1、Cluster2、Cluster3、Cluster4表示,各组用户数分别是45、180、66、62、37。通过图5可知,各组数据在不同测量维度的均值情况。其中,购买频率是各类间均值相差最大的选项,而使用评率可作为划分依据。对有声书用户每月使用频率与购买评率进行交叉分析,则可得出各类型有声书用户每月在有声书平台上购买情况与使用次数的关系以及各组间差异。各类型用户购买频率与使用评率的散点图如图6所示。
如图7所示,可得知五类有声书用户类内突出值及其较平均值的大小情况。其中,Cluster0的使用频率较平均值多62.80%,说明A类用户每日较其他类型的用户使用有声书次数更多,说明A类用户比其他类型的用户每日更为频繁的登录使用有声书软件,使用行为较为活跃。Cluster1的评论打分频率、分享频率和线下消费频率都比平均值高,说明B类用户在使用和购买上都比其他类型的用户更为活跃,社交需求可能是该类用户使用有声书的重要原因。Cluster2的评论打分频率、分享频率、用户创作频率都比平均值低很多,说明C类用户的社交需求不强,没有太多存在感。Cluster3的用户创作频率、发布动态频率、包月频率都远高于平均值,说明D类用户有较强的创作需求,喜欢自我创作和分享作品。Cluster4的分享频率、购买频率、线下消费频率都远低于平均值,说明E类用户较其他用户节俭,分享意愿也较低,使用有声书可能只是用来听书或读书,无其他需求,较看重有声书软件的实用性。
4" 有声书平台用户画像的类型描述
根据上文的分析,将有声书平台用户画像的五类用户分别命名为:A类活跃型用户、B类社交型用户、C类沉默型用户、D类创作型用户、E类实用型用户。
4.1" A类活跃型用户
A类活跃型用户的主要特点就是在有声书平台的使用频率很高,并且其使用频率影响着其购买频率。
A类用户普遍为20岁以下的高中生,可支配收入较少,因此购买有声书的价格、频率较低。该类用户多是通过微博公众号、朋友安利得知有声书,单次使用时长多为30分钟以上,更热爱穿越历史和人文国学频道。在使用有声书时更倾向于将主播、原著作者作为参考依据,主播的个人风格和专业度则是该类用户更看重的因素。使用和发布有声书更多是为了舒缓压力、分享生活。
使用频率是影响该类用户购买频率的一个主要因素。A类用户中学生占大多数,他们使用有声书的目的主要是为了学习知识以提升自我,因此会利用空余休息时间使用有声书,比如深夜、吃饭休息时是该类用户最常用的使用场景。该类用户对有声书的口碑也极其关注,会被有声书内具有良好价值观的作品或标题所吸引,因此使用有声书时最在意作品的内容质量,同时也会搜索作品的评论评分,并且也有较强的持续分享意愿。可以说,A类用户极其关注有声书的评论、口碑、作品、主播、自我创作、分享等各个维度,虽然自身可支配收入较少,但由于使用较为频繁也会增加该类用户的购买频率。
综上,影响A类活跃型用户购买频率的主要因素是该类用户的使用频率即用户的活跃度,平台口碑以及作品的内容质量对其购买频率也具有一定影响。
4.2" B类社交型用户
B类社交型用户的主要特点就是其评论打分频率、分享频率、线下购买频率都很高,其社交需求更为明显。
B类用户中30岁及以上的男性居多,VIP用户占据一半左右,大多为一线城市的服务销售行业。该类用户的使用诉求主要是学习知识以提升自我,相比于主播的名气,主播风格更吸引该类用户。B类用户常在通勤旅行、吃饭休息时使用手机或车载终端收听有声书,有声书的评论评分和种类风格是其选择的主要参考依据。该类用户单次购买有声书的价格多居于200~500元,是五类用户中单次购买价格最多的用户。
B类用户相比于其他类型的用户,其社交需求尤为突出。B类用户的评论打分频率和分享频率都较高,这可能与其性格和工作性质有关。B类用户大多为服务销售行业,相比于其他行业该类用户更为活泼,并且其自我创作原因主要为结交朋友,可以看出B类用户在有声书平台中更倾向于交友,其次,B类用户的线下购买频率也相对较高,喜欢去实体店感受氛围,因此社交需求极大影响其购买频率。除此之外,B类用户也很容易被具有较强话题吸引力的有声书吸引,并且很看重有声书的舆论影响力。该类用户了解有声书的途径主要为微博,因此会更多浏览有声书相关的舆论话题,这也会对其购买频率产生影响。
综上,影响B类社交型用户购买频率的主要因素是该类用户的社交需求,话题吸引力以及舆论影响力也会对该类用户的购买频率具有一定的影响。
4.3" C类沉默型用户
C类沉默型用户的主要特点是在使用有声书平台时沉浸于听书体验中,只将有声书平台作为听书工具而不进行评论打分、分享等互动行为。
C类沉默型用户多为女性硕士研究生,普通用户居多。该类用户最主要的特点就是使用目的性强,主要以听书为主,仅仅把有声书作为听书工具,因此其使用时长不会过长,每集收听时长为10~20分钟。由于学生居多,其单次购买价格不会过高,多为100元以内,且更喜欢深夜收听。C类用户使用有声书最主要的目的是为了舒缓压力放松心情,更喜欢收听相声评书、音乐情感类频道以放松身心,其自我创作也是为了消遣娱乐。
C类用户由于更看重听书阅读功能,因此有声书的口碑是其购买频率的主要影响因素。C类用户在使用有声书时最在意的就是有声书的内容质量,其次是有声书种类风格,因此其在选择有声书平台及有声书作品时会更倾向于搜索相关评论。其次,C类用户大多也是作者作品粉。由于更看重有声书的质量和风格,因此该类用户在选择有声书平台时更关注是否有自己喜欢的作者或作品入驻,选择有声书的参考依据也主要是主播、原著作者,主播方面更看重主播的音色和专业度。所以当有自己喜爱的主播、作者、作品入驻时,该类用户也更容易发生购买行为。
综上,影响C类沉默型用户购买频率的主要因素是口碑,包括有声书内容质量和种类风格;其次是对作者、作品、主播等的喜爱度。
4.4" D类创作型用户
D类创作型用户的创作意愿和创作频率最强,其使用有声书主要是为了自我创作。
D类用户多为男性初级VIP用户,30~40岁居多,涉及各行各业。多居于一线城市,收入水平较高。D类用户使用有声书主要是为了自我创作,因此其选择有声书的参考依据更看重有声书的种类风格,以满足自身的风格喜好去学习和寻找创作灵感。该类用户希望寻找适合自身风格的主播去学习创作技巧,因此D类用户在使用时最在意主播的风格,对主播的信任度也要求较高,其使用诉求也是为了学习创作知识以提升自我。为创作作品,该类用户每集收听时长都较长,多为30分钟以上,且愿意为了学习知识花费,其包月频率在五类用户中较高,单次购买有声书价格也较高,多为200~500元。
综上,影响D类创作型用户购买频率的主要因素是其创作频率,其次是主播的风格和信任度。
4.5" E类实用型用户
E类实用型用户是指该类用户在选择有声书时更看重有声书的性价比。
E类用户多为20岁以下的一线城市男性用户,通过朋友安利了解到有声书平台,使用有声书主要是为了放松心情、舒缓压力。该类用户以学生居多,因此其大多在深夜、吃饭休息或工作学习之余使用有声书,使用时长也不会过长,多为10~20分钟。由于没有太多经济来源,因此其包月频率较低,单次购买价格也在100元之内。因为可支配收入较低,所以E类用户在选择有声书时更看重有声书的性价比,对具有高性价比的作品购买意愿更高。其次有声书的口碑,比如有声书的内容质量、主播风格、主播或原著作者也是其购买频率的影响因素之一。因为当高内容质量、著名主播或作者以及风格对口的主播入驻平台时,E类用户会被其高价值所吸引,认为该类作品具有较高的性价比和购买价值,所以其购买意愿和频率也会随之升高。
综上,影响E类实用型用户购买频率的主要因素是有声书的性价比,其次是有声书的口碑,包括有声书的内容质量、主播风格、作者。
5" 结" 论
为了解有声书平台用户群体的特征,本文利用AISAS模型从关注、兴趣、搜索、行动、分享5个方面构建用户标签,并利用K-means聚类将用户群体分为五类,分别是:A类活跃型用户、B类社交型用户、C类沉默型用户、D类创作型用户、E类实用型用户。影响A类活跃型用户购买频率的主要因素是使用频率,包括平台口碑、作品的内容质量;影响B类社交型用户购买频率的主要因素是社交需求,包括话题吸引力和舆论影响力;影响C类沉默型用户购买频率的主要因素是口碑,包括有声书的种类和内容质量、作者作品主播,影响D类创作型用户购买频率的主要因素创作频率,其次是主播;影响E类实用型用户购买频率的主要因素是有声书的性价比,其次是口碑。
参考文献:
[1] 郝振省,宋嘉庚.从文化强国的远景目标看“十四五”时期出版业的发展指向 [J].现代出版,2021(5):5-10.
[2] 李林容,修伊湄.推动全民阅读:有声阅读的具身认知与意义建构 [J].出版发行研究,2021(8):21-27.
[3] 吴申伦.适应平台经济:我国有声书产业现状与发展研究 [J].编辑之友,2022(1):17-24.
[4] 艾媒咨询.2020—2021年中国在线音频行业研究报告 [EB/OL].(2021-03-31)[2023-06-21].http://www.iimedia.cn/c460/77771.html.
[5] 刘素敏,王健.基于“消费者兴趣”的电影社交媒体营销模式的构建 [J].电影文学,2021(24):30-34.
[6] WU J,SHI L,YU Y Z,et al. Evaluation of Precision Marketing Effectiveness of Community E-Commerce-an AISAS based Model [J].Sustainable Operations and Computers,2021,2:200-205.
[7] 张靖,陈明亮.在线消费者行为研究中神经科学方法的应用——以在线消费者行为模式为框架的综述 [J].外国经济与管理,2022,44(2):84-101.
[8] 李贵云.基于AISAS模型的公共图书馆少儿分级数字阅读推广路径研究 [J].图书馆工作与研究,2021(12):112-120.
[9] COOPER A. The Inmates Are Running the Asylum: Why High Tech Products Drive Us Crazy and How to Restore the Sanity:2nd Edition [M].New York:Sams,2004:176-193.
[10] TEIXEIRA C,PINTO J S,MARTINS J A. User Profiles in Organizational Environments [J].Campus-Wide Information Systems,2015,25(3):128-144.
[11] ATOTE B S,SAINI T S,BEDEKAR M,et al. Inferring Emotional State of a User by User Profiling [C]//2016 2nd International Conference on Contemporary Computing and Informatics (IC3I).Noida:IEEE,2016:530-535.
[12] YANG Y,WANG F F. Author Topic Model for Co-occurring Normal Documents and Short Texts to Explore Individual User Preferences [J].Information Sciences,2021(570):185-199.
[13] 赵雅慧,刘芳霖,罗琳.大数据背景下的用户画像研究综述:知识体系与研究展望 [J].图书馆学研究,2019(24):13-24.
[14] 宋雪雁,张梦笛.晋江文学城原创文学网站用户画像研究 [J].图书情报工作,2020,64(23):63-74.
[15] KRASNOV A,CHARGAZIYA G,GRIFFITH R,et al. Dynamic and Static Elements of a Consumers Digital Portrait and Methods of Their Studying [C]//International Scientific Conference of Digital Transformation on Manufacturing, Infrastructure and Service.Saint-Petersburg:IOP,2019(497):1-6.
[16] ANEJA N,GAMBHIR S. Geo-Social Semantic Profile Matching Algorithm for Dynamic Interests in Ad-hoc Social Network [C]//2015 IEEE International Conference on Computational Intelligence amp; Communication Technology.Ghaziabad:IEEE,2014:354-358.
[17] SCHFER C,ZINKE R,KÜNZER L,et al. Applying Persona Method for Describing Users of Escape Routes [J].Transportation Research Procedia,2014,2:636-641.
[18] IM D U,YOON H R, LEE J O. A Semiotic Narratological Approach to the Facilitation of Persona Method for Enhancing User Experience [J].International Journal of Smart Home,2014, 8(4):97-104.
[19] 许鹏程,毕强,张晗,等.数据驱动下数字图书馆用户画像模型构建 [J].图书情报工作,2019,63(3):30-37.
[20] 程秀峰,周玮珽,张小龙,等.基于用户画像的图书馆智慧参考咨询服务模式研究 [J].图书馆学研究,2021(2):86-93+101.
[21] 刘速.浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例 [J].图书馆理论与实践,2017(6):103-106.
[22] 毕达天,王福,许鹏程.基于VSM的移动图书馆用户画像及场景推荐 [J].数据分析与知识发现,2018,2(9):100-108.
[23] 刘海鸥,姚苏梅,黄文娜,等.基于用户画像的图书馆大数据知识服务情境化推荐 [J].图书馆学研究,2018(24):57-63+32.
[24] 王毅,吴睿青.公共图书馆数字文化资源服务用户画像研究 [J].图书情报工作,2021,65(16):42-55.
[25] 高广尚.用户画像构建方法研究综述 [J].数据分析与知识发现,2019,3(3):25-35.
[26] 宋美琦,陈烨,张瑞.用户画像研究述评 [J].情报科学,2019,37(4):171-177.
[27] 单伟力,张晗,李丹.智能画像技术和服务推荐技术在电子税务局中的应用场景探讨 [J].税务研究,2022(4):62-68.
[28] 王志刚,邱长波.基于主题的政务微博评论用户画像研究 [J].情报杂志,2022,41(3):159-165.
[29] 钱旦敏,曾婷婷,常侍艺.突发公共卫生事件下基于在线健康社区用户画像的用户角色研究 [J].数据分析与知识发现,2022,6(Z1):93-104.
[30] 王凌霄,沈卓,李艳.社会化问答社区用户画像构建 [J].情报理论与实践,2018,41(1):129-134.
[31] 张喜梅,解滨,徐童童,等.基于反向K近邻和密度峰值初始化的加权Kmeans聚类入侵检测算法 [J].南京理工大学学报,2023,47(1):56-65.
作者简介:祖苏皖(1999—),女,汉族,江苏无锡人,硕士研究生在读,研究方向:用户行为。