基于网络拓扑结构的虚假信息传播路径研究

known 发布于 2025-08-25 阅读(421)

摘" 要:针对微博评论中虚假信息传播路径及其影响因素,采用Dijkstra算法进行可视化分析,通过分析网络拓扑结构、节点特性、信息传播速度及社交关系强度等因素,研究虚假信息的传播机制。通过收集和预处理微博评论数据,构建网络拓扑结构。文章应用Dijkstra算法计算并可视化虚假信息传播路径,结合时间序列分析研究路径动态变化,得出社交网络的拓扑结构、节点特性和社交关系强度显著影响虚假信息的传播路径和速度的结论,识别关键节点和传播路径有助于遏制虚假信息扩散。为理解虚假信息传播机制提供了新视角,为防范虚假信息传播提供了理论支持。

关键词:社交网络;虚假信息;网络拓扑结构;信息传播路径;Dijkstra算法

中图分类号:TP391.1" 文献标识码:A" 文章编号:2096-4706(2024)23-0063-06

Research on False Information Propagation Path Based on Network Topology Structure

ZHANG Fangqi, WANG Ting, ZHU Yulin, DAI Fugui, HUANG Jian

(Guizhou University of Commerce, Guiyang" 550014, China)

Abstract: This paper aims at the propagation path and influencing factors of 1 information in Weibo comments. The Dijkstra algorithm is used for visual analysis, and the propagation mechanism of 1 information is studied by analyzing the factors of network topology structure, node characteristics, information propagation speed and the strength of social relationship. By collecting and preprocessing Weibo comment data, the network topology structure is constructed. This paper applies the Dijkstra algorithm to calculate and visualize the propagation path of 1 information, combines with time series analysis to study the dynamic changes of the path, and concludes that the topology structure, node characteristics, and social relationship strength of social networks significantly affect the propagation path and speed of 1 information. And identifying the key nodes and propagation path helps to curb the spread of 1 information. It provides a new perspective for understanding the mechanism of 1 information propagation and theoretical support for preventing 1 information propagation.

Keywords: social network; 1 information; network topology structure; information propagation path; Dijkstra algorithm

0" 引" 言

社交网络已成为人们获取信息、分享观点和与他人互动的主要平台。然而,这也为虚假信息的传播提供了便捷的途径。虚假信息的传播不仅可能误导公众,还可能对社会稳定和信息可信度造成负面影响。因此,研究虚假信息在社交网络中的传播路径变得至关重要。研究的主要目标是分析社交网络中虚假信息的传播路径,特别关注网络的拓扑结构如何影响信息传播。采用了网络分析工具,构建了虚假信息传播的模型,并研究出信息从源节点到其他节点的路径。

1" 研究方法与实验设计

1.1" 虚假信息传播路径问题描述

在社交网络中,虚假信息的传播路径是指虚假信息从源节点(即初始发布者)开始,通过网络中的多个节点(如用户)传播,最终到达各个目标节点的路径。该过程受到网络拓扑结构、节点特性、信息传播速度[1-2]及社交关系强度等多种因素的影响,决定了虚假信息的传播范围和速度,并涉及关键节点的识别。为全面了解虚假信息的传播机制,研究通过微博爬取的数据和已有数据,采用Dijkstra算法对虚假信息[3-4]的传播路径进行可视化分析。具体过程包括数据收集和预处理,通过网络爬虫技术从微博平台获取相关数据并进行整合和清洗;构建社交网络的拓扑结构,确定网络中节点和边的关系;应用Dijkstra算法计算虚假信息从源节点到各目标节点的最短路径,并通过可视化工具展示这些路径;结合时间序列分析研究虚假信息传播路径的动态变化,探讨网络拓扑结构、节点特性、信息传播速度和社交关系强度对传播路径的影响。

1.2" 数据收集与预处理

数据收集主要包括:

1)网页分析:通过浏览微博网页并使用“查看页面源代码”和开发者工具的“元素”栏,分析评论区的内容加载方式。通过抓包技术,找到JSON格式的评论内容。

2)创建Scrapy项目:初始化Scrapy项目,并指定目标网址以获取网页内容。编写代码发送HTTP请求,获取页面的HTML响应。

3)解析JSON数据:确认响应内容为JSON格式后,使用在线JSON解析工具对数据结构进行分析。编写解析代码提取需要的评论内容,包括用户信息、评论时间、评论文本等。

4)数据存储:将提取的数据保存为CSV文件,方便后续处理和分析。

数据预处理方法如下:

1)导入数据:使用Pandas库读取所爬取的数据文件。通过pd.read_excel函数读取Excel文件,指定文件路径并处理可能包含的特殊字符,确保正确读取中文字符。

2)处理缺失值和重复值:data = pd.read_excel(rrumors.xlsx,encoding=gbk)

统计并处理缺失值和重复值,便于后续数据分析。

3)计算缺失值占比://统计缺失值missing_values = data.is1().sum()

//删除缺失值" data = data.dropna()

//删除重复值" data = data.drop_duplicates())

计算每列缺失值占总行数的比例,评估数据的完整性。

missing_ratio = data.is1().sum() / len(data)

1.3" 社交网络拓扑结构分析与模型构建

社交网络拓扑结构[5]是指网络中节点(如用户)之间连接关系的一种抽象表示,它描述了信息在网络中传播的潜在路径和模式,包括节点的分布、连接方式以及节点之间的相互关系等,拓扑结构分析结合 Dijkstra 算法适用于,任何类型的带权重有向图或带权无向图,然而,在微博用户节点与关系特定的拓扑结构下,研究利用Dijkstra算法使用无标度网络拓扑结构来进行研究,有利于关于Dijkstra算法在路径上研究,相较于其他拓扑结构,Dijkstra算法在各种类型的拓扑结构下都具有一定的适用性,但在无标度网络拓扑结构下表现更加优越。

根据数据标准化和归一化处理使用统计检验[6]来确定时间序列数据的平稳性,如表1所示。若不平稳可以进行差分操作直到数据平稳,后面利用迪杰斯特拉算法分析虚假信息网络拓扑结构,获取相关节点之间的距离信息,选择的模型更加准确。

根据数据显示利用标准化和归一化处理描述,平均值接近零,中位数也非常接近零,这表明数据的总体趋势大致平稳。偏度为正值,表示右偏,但偏度值相对较小。范围较小,且百分位数的变化较为平稳,支持数据的稳定性,通过上面描述数据,可以初步判定数据是稳定的,利用虚假信息时间序列进行分析,如图1所示,可以进行模型建立选择。

数据显示出明显的时间段模式,主要出现在下午,数据量最多,可以在网络拓扑结构结合迪杰斯特拉算法找到最短路径与该时间关系,由此需要使用季节性ARIMA模型来进行预测发生时间段的数据,并且在最短路径上能够精确发现虚假信息的传播。

1.4" Dijkstra算法在虚假信息传播路径分析中的应用

本研究使用GNetworkX的single_source_dijkstra_path进行最短路径查找,把用户名当作节点进行计算,如图2所示,源节点一般包括该用户与虚假信息文本相近与发布者情况。

使用Dijkstra算法计算从源节点到其他节点的最短路径。将这些用户作为起点,探索虚假信息的传播路径。发现虚假信息的传播路径通常呈现出“中心-外围”的结构。即核心用户(发布者)传播给相似用户,如图3所示,显示传播给更广泛的用户群体。这一结构对于虚假信息的快速传播至关重要,同时,虚假信息的标题、情感倾向和社交互动也影响了流量数据。

随着利用Dijkstra算法找出路径长度为1、2、3相同内容中存在紧急方面事件,该事件大概多次有情感趋向以及点动社会风气的内容,可针对该情况进行制定相关检测系统,更有利遏制虚假性,可见出现虚假信息传播数量多时,会出现社会偏向性,通过词频统计词出现的次数来进行判断,最短路径单字出现的次数如图4所示。

研究发现,除正常符号外,单个字中“个”“人”“转”出现次数较多。当这三个字同时出现时,可针对该信息进行检测,以提高检测效率,根据检测模型当中检测信息的真实性,有助于人民群众看到真实事件,不是虚假信息在扩大传播。

2" 分析与讨论

2.1" 虚假信息传播路径的可视化分析

通过对微博已经被辟谣评论中虚假信息的统计情况,例如寻人启事类等文章,采用Dijkstra算法对其传播路径进行了可视化分析。通过算法的应用,能够直观地观察到虚假信息在微博网络中的传播过程[7]以及预测结果,以及不同网络拓扑结构对传播路径的影响。核心用户(发布者)首先传播给相似用户,逐渐扩散到更广泛的用户群体,如图5所示。观察到在微博网络中,群体结构的存在可能会加速虚假信息的传播,尤其是在群体内部存在高度互动的情况下。

拓扑结构显示中心较大的绿色节点代表具有传播效应核心用户,这些用户是虚假信息的初始发布者与主要传播者。连线表示信息的传播路径联系情况,展示了信息如何从核心用户逐渐传递到外围用户。多条分支和交织的连线显示了信息在群体中的传播情况。次要节点的传播特别活跃,从微博评论案例中发现节点用户的活跃时间和行为有关。

2.2" 拓扑结构对信息传播的影响

微博社交网络的拓扑结构对虚假信息的传播具有显著影响。网络中的节点特性、连接模式和群体结构等因素共同作用,决定了信息的流动和扩散。具体来说,网络中的中心节点和影响力节点在虚假信息传播中起着关键作用。从上面已经得出不同时间段的影响效果,可以用时间与访问次数进行生成可视化3D网络拓扑结构,拓扑结构构建图如图6所示。

微虚假信息在微博网络中的传播路径及其拓扑结构。红色、深蓝色、浅绿色、橙色和浅蓝色节点分别代表不同传播范围的用户,节点大小表示用户在传播过程中的重要性。中心较大的绿色节点是核心用户(即为发布者),显示信息如何从核心用户逐渐传递到外围用户。图中的多条分支和连线体现了信息在群体中的传播情况。

2.3" 虚假信息传播模型的构建与优化

在研究过程中,通过引入优化路径[8]方法和考虑时间因素对基于Dijkstra算法的虚假信息传播模型进行了优化。优化后的模型更准确地模拟虚假信息在社交网络中的传播过程,并为制定有效的防范措施提供了理论依据。

表2为ARIMA模型拟合虚假信息传播数据的统计指标,用于评估模型性能。结果表明,ARIMA模型对虚假信息传播数据具有较高的解释力,平稳R2和R2平均值为0.785,最小值0.570,最大值1.000,说明模型对数据的变化能较好地解释。低RMSE(平均0.037)和MAE(平均0.028)值表明预测误差小,模型精度较高。尽管平均MAPE(9.340)和MaxAPE(177.310)较高,但这些值的高标准误差显示个别样本存在较大误差,可能由异常数据点引起。负值的正态化BIC(平均-44.850)显示模型在平衡复杂度和拟合度方面表现良好。

2.4" 模型信息流动的影响分析

Dijkstra算法计算平均路径长度[9]对比构建网络拓扑结构各个路径情况,由3D弹簧图7显示,用户之间是相互联系并且联系越多他们的访问量越高,在最短路径下表现出共同字,是能够明显区分虚假信息情况,数据访问量和网络密度是相互具有强连通性,在网络拓扑结构当中,强连通性明显可以通过关键文字以及视频内容特征很快找出虚假信息所具有的特点。

弹簧图8中X轴表达出标准化访问量的数据分布,Y轴表达出虚假信息长度标准化数据分布,Z轴是他们之间结果导致的访问量,显示虚假信息流动是与长度中长并且超过标准访问量流动情况是影响最大的,网络拓扑结构对虚假信息流动的影响受到虚假信息长度和访问量的共同影响,长度较长且访问量较高的虚假信息具有最大的影响力。这一发现为识别和干预虚假信息传播提供了重要线索,可以通过限制虚假信息的长度和降低其访问量来有效遏制虚假信息的传播[10]。

其中X和Y轴的范围都是从-1.5到1.5,表现出访问量与信息长度的归一化数据,Z轴的值由颜色表示,从蓝色(低)到红色(高),曲面有着类似波浪的模式,有峰值和谷值,其中最大值曲面上的最高点似乎位于中心,颜色为红色,表示Z轴的最大值,最小值是沿着Y轴对称位置有两个最低点,颜色为蓝色,表示Z轴的最小值。

分析可以利用K-means算法进行将共同字进行无监督聚类分析网络拓扑结构中对虚假信息流动影响,数据被划分为了三个聚类。这表明K-means算法在这个数据集上找到根据算法计算出最短路径长度三个不同的“类别”或“群体”。

伪代码: max_iterations = 100

def calculate_distance(point, center):

\"\"\"计算欧氏距离\"\"\"

return math.sqrt((point[0] - center[0]) ** 2 + (point[1] - center[1]) ** 2)

def calculate_mean(cluster):

\"\"\"计算簇的平均值\"\"\"

sum_x = sum(point[0] for point in cluster)

sum_y = sum(point[1] for point in cluster)

mean_x = sum_x / len(cluster)

mean_y = sum_y / len(cluster)

return [mean_x, mean_y]

centers = random.sample(data, K)

for _ in range(max_iterations):

# 创建 K 个空簇

clusters = [[] for _ in range(K)]

# 将每个点分配到最近的聚类中心

for point in data:

min_distance = float(inf)

closest_center = None

for i, center in enumerate(centers):

distance = calculate_distance(point, center)

if distance lt; min_distance:

min_distance = distance

closest_center = i

clusters[closest_center].append(point)

# 更新聚类中心为每个簇的平均值

for i, cluster in enumerate(clusters):

if cluster:

centers[i] = calculate_mean(cluster)

图9中颜色有深灰色、浅灰色,深灰色代表虚假信息长度标准的低于0.4,浅灰色代表虚假信息长度标准化大于0.4,并且访问数据量和虚假长度标准化较多分布在稳定的状态,体现出最短路径长度的多少虚假信息流动的稳定性较强,说明特征节点具有很大影响力。

3" 结" 论

1)结论与主要发现。本研究以深入探讨了基于网络拓扑结构的虚假信息传播路径并了解信息中心特征。研究采用了Dijkstra算法,并结合社交网络拓扑结构的特点,对虚假信息在社交网络中的传播路径进行了可视化分析。研究发现,虚假信息在社交网络中的传播并非简单的直线传递,而是受到网络结构和节点特性的影响,呈现出复杂的路径和模式。具有高度连接性的节点更容易成为虚假信息的传播中心,而网络中的群体结构则可能促进虚假信息的快速传播。此外,节点的影响力、社交关系强度以及信息传播速度等因素也对虚假信息的传播路径和规模产生了影响。

2)未来研究方向。未来,可以探索更多的算法和技术手段,以更准确地模拟和分析虚假信息在社交网络中的传播过程,关注不同社交网络平台的虚假信息传播特点,以便更全面地了解虚假信息的传播规律。结合用户行为和心理特征,研究如何更有效地识别和干预虚假信息的传播,有望为社交网络中的虚假信息治理提供更为有效的策略和方法。

参考文献:

[1] 晁晓峰.面向溯源的虚假危机信息传播主体识别与动机叙事方法研究 [J].情报理论与实践,2024,47(4)114-125+113.

[2] 张志勇,荆军昌,李斐,等.人工智能视角下的在线社交网络虚假信息检测、传播与控制研究综述 [J].计算机学报,2021,44(11):2261-2282.

[3] 刘知远,张乐,涂存超,等.中文社交媒体谣言统计语义分析 [J].中国科学:信息科学,2015,45(12):1536-1546.

[4] SONG C H,YANG C,CHEN H M,et al. CED: Credible Early Detection of Social Media Rumors [J].IEEE" Transactions on Knowledge and Data Engineering,2019,33(8):1-1.

[5] 邵成成.在线社会网络中虚假信息传播的研究 [D].长沙:国防科技大学,2018.

[6] 张卫东,栾碧雅,李松涛.基于信息风险感知的网络虚假信息传播行为影响因素研究[J].情报理论与实践,2019,42(9):93-98+110.

[7] 刘英杰,刘士虎,徐伟华.基于有效路径拓扑稳定性的链路预测方法 [J].计算机应用研究,2022,39(1):90-95.

[8]郑好,冯虢靓雯,蒲文杰,等.基于Dijkstra算法的封闭环境全局路径规划 [J].汽车实用技术,2023,48(16):7-11.

[9] 王栋.基于改进Dijkstra算法的共享停车系统设计 [D].南京:南京信息工程大学,2023.

[10] CHO J H,RAGER S,DONOVAN J,et al. Uncertainty-based False Information Propagation in Social Networks [J].ACM Transactions on Social Computing,2019,2(2):1-34.

作者简介:张邡淇(2001—),男,汉族,贵州安顺人,本科在读,主要研究方向:大数据;王婷(2003—),女,汉族,湖南常德人,本科在读,主要研究方向:金融工程;朱芋霖(2003—),女,汉族,贵州贵阳人,本科在读,主要研究方向:投资学;代富贵(2002—),男,汉族,贵州遵义人,本科在读,主要研究方向:大数据;黄健(1999—),男,汉族,贵州织金人,本科在读,主要研究方向:大数据。

标签:  虚假 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor