摘 要: 本文针对直播带货中频频出现的主播“翻车”问题,从“政府-平台”双重监管视角,构建政府监管部门、平台企业和带货主播三方参与的演化博弈模型,并对静态奖惩和三种动态奖惩机制下三方主体的策略选择与系统稳定性进行比较分析。研究结果表明:动态奖励和动态惩罚机制下的监管效果最佳;动态奖惩机制下,提高惩罚力度比提高奖励力度更有效;政府预算有限的情形下,优先补贴平台比补贴主播的效果更好;持续推进政府和平台联合惩戒,实现奖惩机制与声誉机制的复合牵引,能有效提高主播合规带货意愿,促进直播电商规范可持续发展,仅供参考。
关键词:直播带货;双重监管;演化博弈;动态奖惩;电商
中图分类号:F724.6;F713.36 文献标识码:A 文章编号:2096-0298(2025)04(b)--05
1 引言
目前,直播电商迅猛发展,在带动居民消费、促进灵活就业、助力脱贫攻坚等方面发挥了重要作用。星图数据显示,2024年“双十一”购物期间,直播电商平台销售额高达3325亿元,同比增长54.6。鉴于直播过程具有即兴、随机的特点,以及带货主播和消费者之间存在严重的信息不对称,以次充好、虚假宣传、数据造假等问题凸出[1],知名网红“翻车”事件频发。截止到9月25日,2024年黑猫投诉平台已累计收到直播带货投诉4万件,同比增长34%。因此,在发挥直播电商对经济发展的优势的同时,构建合理高效的直播带货监管机制,成为亟须解决的问题。
已有直播带货“翻车”治理研究主要集中在两个方面。一方面,直播带货“翻车”的表现及治理模式。Wu等(2023)[2]以淘宝和Tiktok为例,系统分析了带货主播的16种恶意营销策略。Gu(2021)[3]研究了中国政府在2016—2018年对低俗直播行为的监管实践。另一方面,直播带货“翻车”的影响因素及监管策略。直播带货监管本质是大群体反复配对的博弈问题[4],已有文献主要采用演化博弈分析主体行为动机和影响因素。刘建刚等(2023)[5]基于演化博弈理论,研究发现平台的惩罚和激励力度会影响带货“翻车”发生。胡春华等(2023)[6]和何鹏等(2023)[7]研究发现,声誉机制有助于提升主播诚信水平。
从上述研究可知,演化博弈是厘清复杂博弈关系及策略演化路径的有效工具,适用于直播带货治理研究。然而,已有研究大多基于平台治理视角。事实上,平台通常存在包庇卖家的行为。汪旭晖等(2020)[4]和王勇等(2020)[8]提出“政府-平台”双重监管范式并论证其有效性。但政府对平台的监管激励和对主播的诚信带货激励,以及政府和平台的惩罚机制如何影响主播带货行为,在现有文献中鲜有涉及。此外,已有研究通常假定平台的奖惩力度是固定的。而在实践中,动态奖惩机制已逐步引起重视,平台(如淘宝直播)通常根据主播违规频次或程度动态调整保证金缴存比例,《深圳市推进直播电商高质量发展行动方案(2023—2025年)》亦强调根据主播信用水平进行分类分级监管。但目前只有少数学者在其他领域,如港航系统减排[9]、疫情防控[10]等方面研究了动态奖惩机制。
基于以上分析,本文将“政府+平台”双重监管模式引入直播带货“翻车”治理,构建政府监管部门、平台企业和带货主播三方参与的演化博弈模型。创新性地引入动态奖惩机制,对比分析不同奖惩组合策略下的演化稳定性,为设置合理的奖惩机制以激励带货主播诚信行为提供参考和建议。
2 直播带货“翻车”治理的演化博弈模型构建
2.1 问题描述和模型假设
政府通过政策手段约束平台和主播行为 [4],策略选择有强监管和弱监管,概率分别为x和1-x(x[0,1])。平台向主播收取保证金和佣金,对主播带货行为进行监管,同时需配合政府监管和公众监督,策略选择有积极监管和消极监管,概率分别为y和1-y(y[0,1])。主播带货时需对产品门类和质量进行选择,在利益的驱使下可能存在以次充好、虚假宣传等行为[5],策略选择有诚信带货和违规带货,概率分别为z和1-z(z[0,1])。
政府实施强监管策略时,投入更多监管成本Cg(如增加抽检频次的成本),能够以更高概率β发现主播违规行为,φ表示弱监管时发现主播违规的概率,βgt;φ;相应地,强监管也带来更高的社会效益Rg(如市场秩序规范等),弱监管的社会效益为Rt,则Rggt;Rt;强监管时政府对违规主播处以罚款Fg,同时通过激励机制(包括资金、场地扶持等)对诚信带货主播和积极监管的平台进行补贴,记为I1和I2。
平台积极监管时投入成本CP,和政府形成共治监管格局,以α(政府强监管时)或γ(政府弱监管时)的概率发现主播违规行为,并扣除违规主播保证金Fp,给予诚信带货主播技术支持P(如流量支持),获得声誉收益Rp。当平台消极监管时,纵容主播违规行为,以获取更多超额收益分成,但也因为主播违规行为承担连带责任,被政府处以罚金kFg(kgt;1),遭受声誉损失Lp。
对主播而言,选择违规带货策略(以次充好、虚假宣传)时,获得超额收益W,其中向平台支付佣金(1-θ)W;违规行为使得主播口碑下降,带来消费者流失损失Ls;违规行为若被政府和平台发现时,还将受到相应处罚。主播诚信带货时,更严格地把控产品质量,核对宣传文案,相应地投入成本更多,记为Cs;在平台和政府的监管下,主播诚信带货获得政府补贴I1和平台支持P。
2.2 收益支付矩阵
基于上述问题描述和模型假设,政府、平台和主播的博弈策略组合和收益支付矩阵,如表1所示。
2.3 复制动态方程
政府强监管和弱监管的期望收益分别用U11和U12表示。
政府强监管的复制动态方程地F(x)为:
同理,可得平台积极监管的复制动态方程F(y)和主播诚信带货的复制动态方程F(z):
3 模型分析
3.1 静态奖惩下的演化稳定性分析
令复制动态方程式(3)、(4)和(5)的三个方程,,,可以得到政府、平台和主播的演化博弈均衡点。对于非对称博弈模型,只需分析纯策略均衡点即可,即E1(0,0,0),E2(1,0,0),E3(0,1,0),E4(0,0,1),E5(0,1,1),E6(1,0,1),E7(1,1,0),E8(1,1,1)。对于这8个纯策略均衡点,根据李雅普诺夫第一法,满足雅可比矩阵所有特征值实部非正的均衡点为系统的渐进稳定点[7]。因此,构建雅克比矩阵。
将均衡点代入雅克比矩阵中,可得到均衡点对应的矩阵特征值,如表2所示。
根据汪旭晖和任晓雪(2020)[4]的研究,政府强监管时平台积极监管收益大于消极监管,即满足I2+Rpgt;Cp和αFp+I2+Rp-Cpgt;kβFg-Lp,根据特征值为负这一条件可知,E2、E6不是演化稳定点。此外,本文主要研究政府和平台如何采取合理的奖惩机制使主播采取诚信带货策略,E1、E4不是本文分析的重点,因此,参考李晓东等(2023)[9]的研究,选取均衡点E3(0,1,0),E5(0,1,1),E7(1,1,0),E8(1,1,1)进行讨论。
对于主播,诚信带货收益(取决于I1、P)是否大于违规带货收益(取决于W、Fg、Fp、Ls)是决定主播策略选择的关键。可见,提高奖惩力度、完善声誉机制能够促进主播选择诚信带货策略,且同时影响政府和平台的策略选择。根据表2可知,奖励力度过高会导致政府奖励支出过大,监管意愿降低,因此有必要进一步分析并优化奖惩措施。
3.2 不同奖惩机制下的演化稳定性分析
动态奖励(惩罚)机制是指政府和平台所设定的奖励(惩罚)上限值与平台、主播策略选择相关[10]。在动态奖惩机制下,政府部门给予诚信带货主播奖励I1(z)=(1-z)I*1,给予积极监管平台奖励I2(y)=(1-y)I*2,I*1和I*2表示奖励上限值。动态惩罚机制下,政府部门对违规带货主播的惩罚为Fg(z)=(1-z)F*g,平台对于违规带货的主播扣除保证金为Fp(z)=(1-z)F*p,F*g和F*p分别表示政府和平台罚金的上限值。当平台消极监管的概率或主播违规带货的概率增加时,奖惩力度增加,以发挥更强的激励与震慑作用;反之,奖惩力度减小,避免因奖惩政策灵活性不够所导致的奖惩失效或支出消耗等情况[9]。
此时,系统复制动态方程为:
进一步,将动态奖惩组合政策分为动态奖励(静态惩罚)、动态惩罚(静态奖励)、动态奖励与动态惩罚三种情况。与上文类似,依然重点考虑均衡点E3(0,1,0),E5(0,1,1),E7(1,1,0)和E8(1,1,1),不同奖惩组合政策下的均衡点稳定性分析如表3所示。
动态奖励机制下,随着主播诚信带货概率上升,政府下调奖励力度控制奖励支出,即政府因为奖励支出降低而更倾向于选择强监管策略。动态惩罚机制下,主播违规成本增加,政府和主播更倾向于采取强监管和诚信带货策略。可见平衡点E3(0,1,0)和E7(1,1,0)在三种动态奖惩组合政策下均难以成为演化稳定点。而对于均衡点E8(1,1,1),条件Rg-Cggt;Rt相比Rg-I*1-I*2-Cggt;Rt显然更容易实现,即E8(1,1,1)在动态奖惩下稳定性增强。
4 数值分析
由上文可知,通过雅可比矩阵可判断演化系统在均衡点的稳定性,但难以详细刻画不同奖惩政策下各参数对演化系统的影响程度。因此,本文将采用数值分析方法对理论分析结果进行进一步验证与讨论。参数取值依据如下:(1)根据汪旭辉等[4]对声誉的设定,假定平台和主播存在声誉共享,令Rp=10,Lp=10,Ls=10。王勇等(2020)[8]认为平台的连带责任强度为kgt;1,设定k=1.2。结合胡春华等(2023)[6]和何鹏等(2023)[7]的参数设置,设定θ=0.7,W=60,Fg=25,Fp=25,设定x、y、z的初始概率分别为0.5、0.4和0.3。(2)结合现实情形来看,强监管下和共治监管下的监管成功概率显然更高,设定α=0.7,β=0.4,φ=0.1,γ=0.5。政府强监管时的社会效益和平台积极监管收益均大于弱监管,设定Rg=80,Rt=30,Cg=30,I1=10,I2=10,P=8。
4.1 不同奖惩政策下的系统演化路径
不同奖惩组合政策下的系统演化如图1所示,从图1(a)可以看出,和静态奖惩机制相比,动态奖励和动态奖惩机制下政府强监管概率x的收敛速度加快,说明动态奖励能够促进政府的强监管策略选择。主要原因是,动态奖励机制在激励平台和主播的同时减轻了政府监管补贴压力,提高了政府的强监管积极性
从图1(b)和图1(c)可以看出,静态奖惩机制下,平台积极监管概率y和主播诚信带货概率z均呈规律性的上下震荡,不存在收敛趋势。动态奖励机制下,波动频率降低,但波动幅度变大,说明静态奖惩和动态奖励机制均难以实现有效监管。动态惩罚机制和动态奖惩机制下,平台积极监管概率y和主播诚信带货概率z在经过短暂波动后均呈现明显的收敛趋势,且动态奖惩机制下的稳定性更好,平台的收敛概率也更高。实验结果说明,动态惩罚机制的引入对平台和主播有显著正向影响。主要原因是,动态惩罚机制能够增加主播违规带货成本,同时间接增加平台消极监管成本。
综上,动态奖励有利于政府的强监管策略选择,动态惩罚则对平台和主播的正向影响更显著,而动态奖励和动态惩罚的联合使用使得系统更稳定,平台积极监管意愿和主播诚信带货意愿更高。在现实中,地方政府和平台在推动直播经济高质量发展的实践中,尝试采用更灵活的奖惩机制,如临沂对直播带货实施分级分类监管,对于信用风险不同的企业采用不同的监管方式;淘宝直播平台根据主播违规程度的不同,采取限播、罚扣保证金等差异化惩罚策略。
4.2 动态奖惩机制的参数敏感度分析
为进一步探究奖励机制、惩罚机制和声誉效应的影响,在动态(最优)奖惩机制下,保持其他参数不变,仿真分析参数I*1、I*2、F*g、F*p、Rp和Ls取值改变对系统演化路径的影响。
(1)奖励力度的影响:优先补贴平台VS优先补贴主播
图2是奖励力度变化时系统的演化曲线,可以看出,I*1增加时系统演化曲线变化不明显,但随着I*2增加,系统演化速度明显加快,主播诚信带货策略收敛概率更高。这说明政府加大对平台的补贴力度更有利于实现有效监管。究其原因,通过补贴提高平台积极监管意愿,和政府形成监管合力,监管效率更高。此外,当I*1和I*2都取值20时,政府强监管概率下降,说明过高的奖励力度会增加政府的监管压力,而政府监管强度的降低使主播诚信带货概率随之减小,说明应在合理范围内增加奖励力度,预算有限时可通过优先补贴平台提升监管效果。
(2)惩罚力度的影响:政府惩罚为主VS平台惩罚为主
图3是惩罚力度变化时的系统演化曲线,可以看出,随着政府或平台惩罚力度加大,主播诚信带货意愿逐渐增加,验证了惩罚机制的有效性。F*g和F*p单独增加时,主播诚信带货概率z的增加幅度相似。此外,F*g和F*p同时增加时主播收敛速度变化最明显,说明政府和平台的惩罚对主播影响相近,两者共同实施时监管效果最好。究其原因,政府因为信息劣势,监管成功率相对平台较低,但政府能够同时对主播的违规行为和平台的失职行为(消极监管)进行监管,因此依然能够取得较好的监管效果,而两者共同监督时可形成监管合力,监管成功率更高,监管效果更好。
(3)监管方式的影响:奖励为主VS惩罚为主
根据前文,提高惩罚力度或奖励力度均能提高主播诚信带货意愿,为进一步对比分析奖励机制和惩罚机制的影响程度,考虑低奖励低惩罚(I*1,I*2=10,F*g,F*p=10)、高奖励低惩罚(I*1,I*2=20,F*g,F*p=10)、低奖励高惩罚(I*1,I*2=10,F*g,F*p=20)、高奖励高惩罚(I*1,I*2=20,F*g,F*p=20)四种情形,如图4所示。可以发现,高奖励与低惩罚机制的监管效果不如低奖励与高惩罚的组合,惩罚力度较小时,增加奖励力度难以取得较好的监管效果,实验结果表明惩罚机制的监管效果相对更好,是实现有效监管的关键。究其原因,政府通过奖励机制提高平台积极监管意愿和主播诚信带货意愿,但政府监管成本也随之增加,最终影响政府强监管政策的稳定性。而惩罚机制可同时增加监管主体监管收益和被监管对象违规成本,有利于实现监管目标。
(4)奖惩机制和声誉机制复合牵引的影响
根据前文,声誉机制,尤其是平台声誉收益Rp和主播消费者流失损失Ls,影响博弈主体策略选择和系统稳定性。考虑到平台和主播存在一定程度的声誉共享,假定Rp和Ls同步变化,考虑奖惩力度较低(I*1,I*2=5,F*g,F*p=15)和奖惩力度较高(I*1,I*2=12,F*g,F*p=30)两种情形,不同奖惩力度下Rp和Ls变化对系统演化的影响如图5所示,可以看出,当奖惩力度较低时,随着Rp和Ls的增加,主播诚信带货意愿虽然逐渐增加,但增加程度有限。当奖惩力度较高时,Rp和Ls增加影响更显著。这说明声誉机制的完善虽然有利于对主播的监管,但仅通过声誉机制依然难以实现监管目标,需通过声誉机制和动态奖惩机制的复合牵引实现对直播带货的有效治理。
5 结语
本文采用演化博弈方法对“政府-平台”双重监管下带货主播的行为策略进行研究,并且对静态和三种动态奖惩机制下博弈主体的演化策略进行分析。研究发现:(1)政府和平台实施动态奖惩机制效果更佳。实际监管中应采取分类分级治理策略,根据平台和主播行为动态调整奖惩上限,以更充分地发挥奖惩机制的激励和约束作用。(2)政府在一定范围内加大奖励力度,可有效提高平台积极监管概率和主播诚信带货概率,奖励平台比奖励主播效果更有效。(3)惩罚机制是实现有效监管的关键,提高惩罚力度比提高奖励力度更有效,且政府和平台联合惩戒时效果最好。(4)完善的信用评价体系是动态奖惩机制的重要依据和补充,通过建立健全的信用评价体系,可以增强系统稳定性,提升监管效果。
参考文献
郭延禄, 罗公利, 侯贵生, 等.“种草”与“翻车”:网红直播带货的产品质量问题与治理研究[J].中国管理科学,2023,31(10):162-174.
Wu Q, Sang Y, Wang D, etal. Malicious Selling Strategies in Livestream E-commerce:. Case Study of Alibabas Taobao and ByteDances TikTok[J]. ACM Transactions on Computer-Human Interaction, 2023,30(3): 1-29. doi:10.1145/3577199
Gu J. Regulating Obscenity in Chinese Livestreaming: An Ongoing Mediation between the Private and the Public, the Nation and the Market. Asiascape: Digital Asia, 2021(8):70-91.
汪旭晖, 任晓雪. 基于演化博弈的平台电商信用监管机制研究[J].系统工程理论与实践,2020,40(10):2617-2630.
刘建刚, 吴倩, 张美娟. 直播带货平台生态体系价值共毁的演化博弈[J].中国管理科学,2023,31(3):143-154.
胡春华, 陈皖, 周艳菊, 等. 基于演化博弈的直播电商监管机制研究[J].管理科学学报,2023,26(6):126-141.
何鹏, 尚琦, 王先甲, 等.“直播+”背景下考虑平台监管的电商供应链演化博弈分析[J].系统工程理论与实践,2023,43(8):2366-2379.
王勇, 刘航, 冯骅. 平台市场的公共监管、私人监管与协同监管:一个对比研究[J]. 经济研究, 2020(3):148-162
李晓东, 匡海波, 何鸿宇. 政府环境规制下港航系统减排演化博弈研究[J].交通运输系统工程与信息,2023,23(1):17-29.
梁喜, 陈清卿. 政府动态奖惩机制下重大疫情防控演化博弈研究[J].中国管理科学,2023,31(3):277-286.