近年来,短视频和社交媒体平台不断快速发展。以微博、抖音为代表的平台,不仅成为内容消费的主要渠道,还推动了信息的高速传播[1]。微博以文本为主要形式,涵盖了多种多样的内容。抖音平台依靠短视频为核心的轻量化内容,以短时高效的方式弥补了人们视觉化碎片化娱乐的需求,吸引了大量的用户,为跨平台协助奠定了良好的用户基础,而同时爆发性增长也使得社交媒体成为短视频内容传播的重要媒介,也带来了传播学的研究需求[2。参考国外同类型软件Twitter和YouTube,Twitter作为重要的社交媒体平台,为跨平台短视频传播提供了支持,YouTube凭借算法推荐和高质量用户生成内容吸引了大量用户[3],进而导致病毒式传播现象的诞生。而这种病毒式传播在国内软件微博、抖音也具有显着影响。病毒式传播在微博、抖音的跨平台协作具备传播速度快和涉及范围广的特点,作为一种具有强大影响力的传播现象,其背后蕴含的内容特性、传播机制和预测方法,不仅在社会媒体领域引发广泛讨论,也成为学术界研究的热点课题。
现有病毒式传播的研究重点,在于研究传播影响因素,例如内容情感、用户影响以及算法推荐的作用[4。然而,大多数研究只关注一个平台,对跨平台传播的动态研究存在较大的局限性,使用机器学习来准确预测传播仍然是一个棘手的课题[5]。基于上述问题,本文提出了一种基于LightGBM(LightGradientBoostingMachine)模型的病毒式传播预测框架,重点对抖音、微博以及跨平台病毒式传播预测进行研究。
一、设计数据集
为深人研究社交媒体跨平台的病毒式传播预测,病毒式传播具有及时性和快速性特征,我们以2024年为时间点进行数据选取,选择一组短视频作为研究对象,方法是对微博流数据进行采样,搜索包含指向抖音视频链接的微博帖子。通过使用微博公开数据接口(API),设置关键词实现在流量中过滤指向抖音视频链接(如域名douyincom和短链接t.cn/douyin)。
我们使用此采集方式收集了大量包含抖音视频链接的微博帖子。从这些帖子中,随机选择1万个抖音视频作为数据集的种子集(如图1所示),在为期两周的时间内,持续收集种子集中每个视频数据,具体包括:每日从抖音平台获取视频元数据(如观看量、点赞和评论数等),同时跟踪这些视频在微博平台上相关互动数据(如转发数、评论和点赞数)和提及情况(包括发布时间和传播路径)。通过这种采集方式,即能获得跨平台的数据,同时量化视频在抖音上的热度和在微博上的传播行为。

二、病毒性传播预测方法
(一)机器学习模型
本研究中,分析目标是设计一个分类任务,用于根据输人特征将每个视频分类为“病毒性传播”和“非病毒性传播”两类。为此,借助LightGBM模型训练了一个二元分类器来进行分类预测。
(二)特征提取
为有效利用分类器实现分类任务,需要从数据集中提取高效的特征[。表1展示了从抖音平台提取的部分短视频特征示例。抖音作为热门的、日活跃度较高的短视频平台,拥有大量受众,因此在抖音平台的特征提取中,聚焦于视频的基础元数据和上传者属性,基础元数据包括每日新增的观看次数、评论次数、点赞次数和收藏次数,以及视频的上传时间戳和所属类别。上传者属性则包括已发布的视频总数和粉丝数量。抖音API提供的是视频从上传到查询时间点的累积统计数据,因此可以根据累计数据导出任意给定日期或时间段的特征值。

表2展示了从微博帖子中提取的部分特征示例。微博作为互联网早期社区式网络中心,以文字和互动着称,因此微博平台的特征提取主要围绕帖子本体数据和用户特性展开,帖子本体数据涵盖每日发布的博客数量、转发量、浏览次数、评论次数和点赞次数以及博客类别。用户特性包括发布者的粉丝数量,此外,还考虑了跨平台特征,例如从微博分享至抖音的视频传播路径和传播延迟。

除了上述基本特征之外,为进一步捕捉传播的动态变化,本文还定义了3种衍生特征,以下是特征构造的主要方法:
1.比率特征
用于将特征值与其累计大小关联。例如,views_ratio_n表示第n天的观看次数与总观看次数之比。
2.加速度特征
表示特征值的变化速率。例如,views_acc_n表示第n天的观看次数与第 n-1 天的观看次数之比。
3.差值特征
表示特征在某时间段的累积变化值。例如,views_diff为某段时间内浏览次数的变化量。这些特征被用于训练分类器,以预测视频的病毒传播性和流行度的二元标签。
(三)模型训练
为了有效捕捉传播的动态变化并提高模型的预测能力,本文将窗口机制引入到LightGBM模型的训练和预测过程中。训练窗口用于提供模型所需的历史数据,帮助捕捉传播的趋势和模式,通过设置不同长度的训练窗口,可以在数据丰富性与计算复杂度之间找到平衡[8]
当训练窗口长度超过24h时,可提取生成更多衍生特征,例如比率、加速度等,这些衍生特征是基于长时间的深度挖掘,具有较为可靠的真实性,往往可以更全面地反映传播规律[9。训练窗口结束后的时间段被定义为标注窗口,用于确定视频的真实传播结果。
为了评估预测模型的准确性,我们采用10倍交叉验证方法。具体步骤如下:
1.将数据集随机划分为10个子集,每次选择其中的 90% 用于训练, 10% 用于测试。
2.在训练集上构建分类模型,并预测测试集在标注窗口内的视频病毒传播性和非病毒性传播标签。
3.对于测试集,比较预测标签与真实标签计算以下指标:
(1)精度(Precision):正确预测的正样本占所有预测正样本的比例。
(2)召回率(RecaII):正确预测的正样本占所有真实正样本的比例。
(3)AUC(ROC曲线下面积):评估分类器的综合性能。
在研究中,重复上述过程10次,并对所有实验的结果进行平均,以消除随机划分带来的偏差
三、预测结果
我们基于微博、抖音平台及其跨系统的病毒性传播样本,利用LightGBM模型进行模型训练,并深人分析与预测实验,以探索不同媒体平台上的传播规律。
(一)微博平台病毒性传播预测
在微博特征预测抖音视频流行度研究里,我们发现当下的微博推文率,比如次日原创推文数量,极具预测力。在信息传播生态中,近期活跃用户作为“传播节点”,他们高频互动行为,能直接助推视频流行。传播范围的衡量指标,如推文覆盖的用户数量,则突显出微博用户社交圈影响力对于视频传播的重要性,对于发布时间较长的视频,用户发布原创推文的倾向则展现活跃用户在视频长期流转中的核心地位,不断提升讨论热度与关注度。
在实验中,基于微博数据集特征抽取,输入LightGBM模型进行分类预测,其Precision-Recall曲线如图2所示,实验结果表明,使用全部特征时模型在较长时间跨度( gt;7 天)下表现最佳,AUC达到0.89,显示出对微博病毒传播现象具备较高预测能力;而在较短时间跨度( ⩽7 天)下,全部特征的AUC降至0.77,说明短时间内预测性能受限。相比之下,基本特征(不包含比率等衍生特征)在较长时间跨度下的AUC为0.87,与全部特征接近,但在短时间内的AUC降至0.69,预测能力显着下降。此外,全部特征在不同时间跨度下的曲线更为平滑,表现出更强的稳定性,而基本特征的曲线波动较大,下降更快。总体来看,丰富的特征组合对于短时间内病毒传播的预测尤为重要,而较长时间跨度下,即使仅使用基本特征,模型依然具备较高的稳定性和预测性能。

(二)抖音平台病毒性传播预测
对于抖音单独数据集输入模型进行分类预测,实验结果如图3所示,使用全部特征时,模型在较长时间范围( gt;7 天)内表现最佳,曲线下降趋势平稳,AUC为0.69,显示出较高的预测能力;而在短时间范围( ⩽7 天)内,AUC降至0.47,反映出短时间传播预测的复杂性。相比之下,使用基本特征的模型性能较低,在较长时间范围内( gt; 7天),曲线波动明显但整体下降较平缓,AUC为0.49;而在短时间范围内( ⩽7 天)AUC仅为0.31,预测性能较差。整体来看,丰富的特征组合对病毒传播预测具有显着优势,而短时间范围内的传播预测对特征和模型提出了更高要求。
在抖音平台视频传播过程中,观察到点赞和评论的增长率是预测视频病毒传播的关键指标,揭示了用户即时互动在传播过程中的核心作用。用户点赞和评论不仅反映了对视频内容的共鸣,还能迅速吸引其他用户注意,推动传播路径扩展。此外,我们以传播学的“扩散模型”和“累积优势”为思路,证明了观看次数与视频生命周期的比率是衡量传播效率的重要指标,能准确捕捉视频在其生命周期中的传播潜力,强调信息在时间维度上的传播速度和广度。对于久远的视频,点赞数和观看次数依然是病毒传播的主要预测特征,表明累积的用户行为对视频持续性起到了决定性作用。上传者的上传历史也对视频的病毒传播产生了显着影响,尤其是高频上传者,通常拥有庞大粉丝群体,形成了在一定领域内的意见发布者,能在视频发布后迅速产生初始传播效应,揭示了抖音平台内容传播的核心动力机制。

(三)跨系统病毒性传播预测
在跨系统病毒传播预测中,不同特征组合和时间跨度对模型性能同样产生了显着影响。如图4所示使用全部特征( gt;7 天)时,模型表现最佳,其曲线呈现平稳下降趋势,AUC达到0.72;而在较短时间范围( ⩽7 天)内,虽然使用全部特征的AUC降至0.51,但其曲线在召回率较低时仍保持一定的预测能力,表明时间跨度的缩短对模型性能有一定影响。
相比之下,使用基本特征的模型性能略逊一筹。在较长时间范围( gt;7 天)内,基本特征的AUC为0.56,Precision-Recall曲线下降较快但仍具有一定的预测能力,这表明核心特征在长期传播中的作用不可忽视。然而,在较短时间范围( ⩽7 天)内,基本特征的模型性能明显下降,AUC仅为0.45,曲线快速下滑,这反映出在短时间范围内,缺乏多样化特征的模型难以准确捕捉跨平台传播的复杂规律。
本次实验融合了传播学的“时间滞后效应”“传播复杂性”“跨平台传播协同”与“用户互动驱动”思维,针对社交媒体的病毒式传播展开研究,收获了一系列有价值的成果。
实验结果明确揭示出三个关键要点。
其一,时间跨度在模型性能方面发挥着至关重要的作用。研究发现,较长的时间范围更有助于提升模型的稳定性。以微博、抖音平台数据为依据,在长时间跨度下,模型对视频病毒式传播的预测更为精准,因为其能捕捉到传播过程中更多的关键信息与趋势,从而做出更可靠的判断。
其二,特征组合的丰富程度对模型效果影响显着,丰富特征组合在各方面都明显优于基本特征。丰富特征涵盖了多种维度的信息,不仅包含基础数据,还融人了如比率、加速度、差值等衍生特征。这些特征能从多个角度全方位地捕捉传播动态,更精准地描绘传播过程中的变化细节,相比基本特征,能为模型提供更全面、深入的信息支持。
其三,在跨平台传播预测中,呈现出多样化行为特征。聚焦多样化行为特征,能够有效提升模型的预测能力与适用性。
此外,研究还剖析了微博、抖音之间的跨平台传播规律。微博的传播效率,在抖音视频传播的初期发挥着关键作用,它能迅速提升视频热度,为后续在其他平台的传播搭建良好基础。而抖音的优势则体现在用户互动上,用户之间频繁的互动行为,与病毒传播性预测紧密相关。这种互动极大地影响了视频的传播范围和速度,有力推动了病毒式传播的发生。微博、抖音在传播机制上的互补性,为内容的跨平台扩散提供了强大动力,也为机器学习模型提供了丰富且全面的数据,进而优化模型性能,使预测更加准确、高效。

结语
在当前媒体传播生态格局中,微博、抖音凭借庞天的用户基数和强天的传播效能,成为塑造信息传播版图的关键力量。二者数据跨平台的病毒性传播现象,因其蕴含的复杂传播机制和巨大影响力,成为传播学领域备受瞩目的研究焦点。其中微博具有“大众传播”的典型特征,其广泛的覆盖范围赋予了信息快速扩散的能力。微博类似于传统大众传播媒介中的广播,能将信息尽可能多地触达潜在受众,打破时间和空间的限制,实现信息的广泛传播。这种传播模式基于微博开放的社交网络结构,用户之间的弱连接关系使得信息可以在短时间内跨越不同的社交圈层,像涟漪一样迅速向外扩散,传播范围呈指数级增长。
而抖音则以高互动性展现出“人际传播”与“群体传播”融合的特色。用户在平台上的点赞、评论、分享等互动行为,形成了强大的传播动力。这种互动行为类似于人际传播中的口碑传播,基于用户之间的信任和兴趣共鸣,信息得以在小群体内深人传播。同时,抖音的算法推荐机制又将具有相似兴趣爱好的用户聚集在一起,形成一个个虚拟的群体,信息在这些群体中传播时,会引发群体成员的互动和反馈,进一步推动信息的扩散,从而引发更多的互动和传播。
本研究创新运用LightGBM模型,构建了一套针对社交媒体病毒式传播的有效预测方法。这一方法从传播学的“传播要素”理论出发,通过提取视频的基本元数据、上传者特征、微博帖子特征以及跨平台特征等多维度信息,对传播过程中的关键要素进行量化分析。通过训练二元分类器,将视频分类为“病毒性传播”和“非病毒性传播”两类,从而实现对病毒式传播现象的预测,将复杂的传播现象转化为可量化的数据指标,为深入研究传播机制提供可行性的方法。
本研究揭示了此类传播背后的关键因素,进一步丰富了传播学理论。微博的传播效率,如推文率、传播范围衡量指标等,对抖音视频的初期热度有着显着影响,为后续传播奠定基础,这体现了传播过程中“议程设置”的作用,微博的传播行为在一定程度上引导了受众对抖音视频的关注。而抖音用户的互动特性,如点赞和评论的增长率,对病毒传播性预测表现出极高的相关性,强调了“受众参与”在传播过程中的核心地位。用户的互动行为不仅是对传播内容的反馈,更是推动传播的关键动力。
随着新媒体技术的不断发展,后续研究可进一步探索更多平台的融合,且不同平台在传播过程中的协同效应和互补机制。同时,引人实时反馈机制,通过实时收集和分析传播过程中的数据,及时调整预测模型和传播策略,以更好地适应复杂多变的传播环境,提升预测能力与实际应用价值,为信息传播的理论研究和实践应用开辟新的路径。
参考文献:
[1]侯天一,邓富民,王晓妍,等消费者品牌内容分享行为:基于社会化媒体的研究[J].软科学,2020(5):94-100.
[2]龙小华,李辉,燕春培.新媒体视域下科技伦理的传播策略研究:以字节跳动为例[J].江西科学,2024(6):1367-1372.
[3]詹恂,李慧杰.涉藏地区自媒体在YouTube平台上的跨文化传播:以“TibetTravel”为例[J].民族学刊,2023(9):126-134;166.
[4]符冰,强月新.自媒体平台图像传播中的异化及伦理风险[J].新闻爱好者,2023(3):65-67.
[5]陈红松,赵秀锋.微博重大舆情网络暴力角色标注规则及处置语言合规建议[J].北京航空航天大学学报,2025(1):1-12.
[6]梁怡萍,肖路巍,王琳琳.基于标签感知增强的社交媒体心理亚健康归因方法[J].华东师范大学学报(自然科学版),2025(1):124-137.
[7]安璐,张思宇.支持或反对:社交媒体用户观点的形成机理[J].图书馆论坛,2024(3):199-210.
[8]吴煜播.新媒体背景下抖音短视频平台品牌营销策略分析[J].经济研究导刊,2024(11):47-50
[9]李贺,杨心苗,沈旺.启发式图结构增强的 社交媒体短文本谣言检测研究[J].情报理论与实 践,2025(3):151-159.