现代电子技术
Modern Electronics Technique
Nov.  2023Vol. 46  No. 22
2023年11月15日第46卷第22期
0  引  言
二十大报告指出:我国人民对于信息获取途径的多样化需求正在逐渐加强,互联网媒体的内容与形式也更加多元化。微博作为一种社交网络,不同于传统媒体,具有扩散快、信息量大等特点,受到了广泛的关注。然而,微博信息的传播效率却受到网络拓扑结构等多种因素的影响[1],故提高微博信息的传播效率具有重要的现实意义。因此,探索微博信息在不同网络结构中的传播效率并预测其传播趋势,对于深入理解网络拓扑结构对信息传播效率的影响、提高微博信息的传播效率等具有重要的意义。
微博信息在不同网络结构中的传播效率及预测机
制是微博研究的重要方向之一。已有研究主要围绕行为动力学模型、网络拓扑结构、机器学习和深度学习等方面展开。行为动力学模型是研究微博信息传播机制的重要方法之一,如SI 模型、SIS 模型、SIR
模型等[2]。这些模型能够预测微博信息传播的速度和范围,并分析节点的传播能力。同时,网络拓扑结构对于信息传播的影响也受到了广泛关注,如无标度网络、小世界网络、星形网络[3⁃5]。基于这些特殊的网络结构,研究者探索了微博信息的传播机制及传播效率。其中,机器学习是一个主要方法,用于预测微博信息在不同网络结构中的传播趋势[6⁃7]。研究者提出了很多基于机器学习的微博传播预测模型,如基于神经网络的模型、基于分类器的模型、基于深度学习的模型等[8⁃10]。这些模型利用微博网络中的
DOI :10.16652/j.issn.1004⁃373x.2023.22.013
引用格式:冯楠,曹弘毅.基于IEA⁃ARIMA 模型的微博信息传播效率研究[J].现代电子技术,2023,46(22):68⁃74.
基于IEA⁃ARIMA 模型的微博信息传播效率研究
冯  楠, 曹弘毅
(西安医学院, 陕西 西安  710021)
摘  要: 构建一种基于改进欧拉算法的时序模型(IEA⁃ARIMA ),从复杂网络理论和路径两方面选取多个指标,对网络静态拓扑结构进行分析,探索不同网络结构下的微博信息传播效率。得出在球型网
络、随机网络和微博网络三种不同结构中,球型网络是最优的传播环境,可显著提升微博信息的传播效率。文中深入探讨网络拓扑结构对信息传播效率的影响,并提供新的预测方法,对提高微博信息的传播效率具有重要意义。
关键词: 微博; 信息传播; 改进欧拉算法的时序分析模型(IEA⁃ARIMA ); 复杂网络理论; 网络拓扑结构; 效率预测中图分类号: TN919.72⁃34; TP391.1            文献标识码: A                      文章编号: 1004⁃373X (2023)22⁃0068⁃07
Research on Weibo information transmission efficiency based on IEA⁃ARIMA model
FENG Nan, CAO Hongyi
(Xi ’an Medical University, Xi ’an 710021, China)
Abstract : An improved Euler algorithm time based series model (IEA ⁃ARIMA) is constructed, multiple indicators are selected from both complex network theory and path, the static topology structure of the network is analyzed, and the efficiency of Weibo information dissemination under different network structures is explored. Among the three different structures of spherical network, random network, and Weibo network, spherical network is the optimal communication environment,
which can significantly improve the dissemination efficiency of Weibo information. The impact of network topology on information dissemination efficiency is deeply explored, and new prediction methods are provided, which is of great significance for
improving the dissemination efficiency of Weibo information.Keywords : Weibo; information communication; improved Euler algorithm based time series model; complex network theory;
network topology structure; efficiency prediction
收稿日期:2023⁃06⁃05          修回日期:2023⁃07⁃10
基金项目:国家社科基金项目:“互联网+”环境下微博社会网络的网络结构模型和信息传播研究(18XXW011)
68
第22期
各种特征,如用户行为、内容、情感等,采用监督学习和非监督学习等机器学习算法进行建模和预测分析,从而实现微博传播效率的提升。此外,还有一些基于图卷积神经网络(Graph Convolutional Ne
twork, GCN)的微博传播预测模型[11⁃12]。这些模型基于大规模有标签的微博数据集,利用GCN对节点特征进行表示和聚合,预测微博的传播路径和概率,并对算法的性能进行评估和对比。相对于传统的机器学习模型,GCN模型具有更好的性能和可解释性,可以更精确地预测微博传播效率。
尽管研究者们在微博传播效率和预测机制方面取得了一系列重要的研究进展,但仍存在以下待解决的问题。首先,大多数研究停留在传统的行为动力学模型和网络拓扑结构分析,缺乏对于微博传播机制的深入研究和探索;其次,微博传播效率和预测模型的可解释性和实用价值仍有待挖掘。而时序预测模型的优势恰好可以应对这些问题,能够基于历史数据并结合时间序列的特征对未来的事件进行预测。这种方法可以更加精准地对微博传播效率等各种指标进行预测,而不是简单地基于节点度数和其他传统拓扑信息进行预测[13]。本文提出一种基于时序预测的微博传播效率模型,可以为微博传播研究提供更加全面、新颖的分析方法和预测模型。
1 文献综述
微博信息传播效率是当前社交媒体研究的热点之一,涉及到社交网络、信息传播、影响力评估等多个领域。近年来,以IEA⁃ARIMA模型为基础的微博信息传播效率研究也得到了广泛关注。
在国际上,相关研究主要集中在微博信息传播效率评估算法的探讨和应用。例如,D. Varshney等提出了一种基于人工神经网络的信息传播效率预测方法,该方法可以对微博信息传播效率进行准确预测,
并且可以根据预测结果进行相关决策[14]。另外,A. Hernandez等提出了一种基于深度学习的微博信息传播效率预测模型,该模型利用长短时记忆网络(LSTM)对微博文本进行建模,可以提高预测精度[15]。
在国内,IEA⁃ARIMA模型在微博信息传播效率方面的应用也已经有了一定的研究。例如,张帅等人提出了一种基于IEA⁃ARIMA模型的微博情感分析方法,该方法可以对微博的情感进行分析,并且可以预测微博的转发量[16]。此外,韩连金等也提出了一种基于IEA⁃
ARIMA模型的微博影响力评估方法,该方法可以对微博用户的影响力进行评估,并且可以帮助企业和个人进行推广和营销[17]。
虽然目前已有许多研究将IEA⁃ARIMA模型应用于微博信息传播效率的评估和预测,但是仍然存在一些不足之处。目前的研究主要集中在微博信息传播效率的预测和评估,而如何提高微博信息传播效率的问题仍然亟待解决。此外,部分研究还存在数据集样本不足、算法复杂度高等问题。
本文构建了一种基于改进欧拉算法的时序模型,并从复杂网络理论的角度探索了不同拓扑结构下的微博信息传播效率。研究结果表明,在球型网络、随机网络和微博网络三种不同结构中,球型网络是最优的传播环境,可显著提升微博信息的传播效率。本文中深入探讨了网络拓扑结构对微博信息传播效率的影响,并提出了新的预测方法,对提高微博信息的传播效率具有重要意义。
2 研究方法
2.1 数据收集
本论文的数据收集是通过新浪微博API接口进行的。API接口提供了获取用户信息和用户关注度数据的服务,具体步骤如下:
步骤1:获取Access Token。在使用API前需要先获取Access Token,用于API的授权验证。本研究中使用OAuth2.0认证方式获取Access Token。首先,需要在新浪微博开放平台上注册并创建应用程序,获得应用程序的App Key和App Secret,用于认证;接着,使用Python中的requests库进行请求,请求https://api.weibo. com/oauth2/access_token接口,传递App Key、App Secret、授权码和回调地址等参数,从而获取Access Token。
步骤2:获取用户信息。通过新浪微博API接口可以获取用户的基本信息,如用户ID、用户名等。本文需要获取一组样本用户的信息,具体方法为:首先,定义样本用户列表,从该列表中逐一获取每个用户的ID号;然后使用API接口的https://api.weibo/2/users/show. json接口,传递用户ID和Access Token等参数,获取每个用户的信息;最后,将用户信息存储到数据库中以进行后续的分析。
步骤3:获取用户关注度列表。用户关注度指的是该用户关注的其他用户数量。通过新浪微博API接口
可以获取一个用户的关注度列表。本文需要获取一组样本用户的关注度列表,具体流程为:首先,定义样本用户列表,从该列表中逐一获取每个用户的ID号;然后使用API接口的https://api.weibo/2/friendships/follow ers.json接口,传递用户ID和Access Token等参数,获取
冯楠,等:基于IEA⁃ARIMA模型的微博信息传播效率研究69
现代电子技术2023年第46卷
每个用户的关注度列表;最后,将用户的关注度数据存储到数据库中进行后续的分析。
本文通过新浪微博API接口获取数据,包括获取Access Token、获取用户信息和获取用户关注度列表等步骤。详细方法如下:
1)数据收集代码
import requests
# OAuth2.0认证方式获取Access Token
def get_access_token(client_id, client_secret, username, password):
url = 'api.weibo/oauth2/access_token' payload = {
'client_id': client_id,
'client_secret': client_secret,
'grant_type': 'password',
'username': username,
'password': password,
}
response = requests.post(url, data=payload)
return response.json( )['access_token']
2)获取用户ID代码
import requests张小娴微博
# 使用API获取用户信息
def get_user_info(access_token, uid):
url = f'api.weibo/2/users/show.json?access_token= {access_token}&uid={uid}'
response = (url)
return response.json( )
其中,access_token是上一步获取的Access Token,uid是用户的ID。
3)获取用户关注度列表代码
import requests
import json
# 获取用户关注者列表
def get_followers(access_token, uid):
url = f'api.weibo/2/friendships/followers.json? access_token={access_token}&uid={uid}'
response = (url)
followers = json.)['users']
return followers
2.2 不同拓扑结构的网络构建
本文研究了新浪微博中“意见领袖”用户的关注关系,并采集了相关数据。本文获取了包含N个用户信息及其关注度的数据集,其中N=2×105,这些用户构成了一个200 000×20 000的信息传播网络。由于网络节点数量庞大,难以呈现完整的网络结构,因此选择了60个固定的节点,通过确定每个节点的ID,绘制了球型网络、随机网络和微博网络的用户关注度图,将关注列表中的用户记为AID。如果该用户的某个AID在ID集合中,就会画出一条ID到AID的有向边。用户之间的关注关系表示为a ij,其中0表示不关注,1表示关注。通过比较这三种网络结构对出入度的影响,绘制出如图1
所示的三种网络结构。
图1  微博用户的关注度网络结构
2.3 复杂网络理论指标的计算
已有文献针对复杂网络的结构和特征进行研究并提出了许多指标。在对网络静态拓扑结构进行分析时,选取合适的指标对研究结果有着至关重要的作用。本文借鉴了徐建民等学者的方法[18],并从度和路径两方面选取多个指标进行分析。在度方面,选用了网络中度分布的一些基本参数,包括出入度、聚类系数、最短路径、介数中心度、中心化程度等指标。
1)网络的聚类系数c b,公式如下:
c
b=
2l i
k
i(k i-1)
(1)式中:l i为与节点相邻节点之间的边数;k i为与节点相邻节点的个数。
2)最短路径,即节点间边数最少的连接方式,而网络的直径则是最短路径中最大距离的值。平均距离的计算公式如下:
l=1
n(n-1)
i,j
d
i,j
(2)
式中:n为网络节点数;d i,j为节点间的最短距离。3)介数中心度。中心度是用来描述节点在网络中
70
第22期
所占中心地位的指标。介数中心度可以通过计算节点间最短距离数与网络总边数的比值来得到,计算公式为:
c b (a )=
2∑j <k
g jk (a )
(n -1)(n -2)g jk
(3)式中:
g jk 表示节点j 和节点k 之间的最短距离;g jk (a )表示节点j 和节点k 之间经过节点a 的最短距离数。
4) 中心化程度。网络的中心化程度可以通过计算
所有节点的中心度与最大中心度之差的比值来得到,计算公式为:
c 9
n
=
∑x ∈N
(C
N
-C Na )
(n -1)max (C N -C Na )
(4)
2.4  微博信息传播网络的IEA⁃ARIMA 建立
1) 传播模型的构建
微博信息的传播网络受到多种因素的影响,包括体成员互动、体成员心理、时间推移和偶然事件等。在线用户人数在不同时间段存在较大波动,同时用户对微博信息的传播选择也会有所改变。信息转发数量呈S 曲线发展趋势,最初信息传递速度较慢,随着市场的兴起,信息开始指数增长,但随着潜在用户数量的不断减少,信息增长速度会变得更为缓慢。借鉴SIR 模型,可将信息在网络中的传递情况分为易感(Susceptible )、潜伏(Latent )、感染(Infectious )和免疫(Recovered )四种状态[19]。根据上述模型,信息在网络中的传递情况如图2
所示。
图2  微博信息在用户间的传递情况
2) 算法的改进
欧拉算法是一种常用的信息传播模型,用于预测信息在网络中的传播情况。然而,标准欧拉算法没有考虑到节点的入度和出度,导致预测结果不够准确。为了解决这一问题,对欧拉算法进行改进,提出改进欧拉算法。改进欧拉算法考虑了节点的入度和出度,并将其纳入传播过程的预测中,从而更准确地预测信息的传播过程。运用改进欧拉算法的信息传播时序预测模型,能够更好地模拟微博信息在网络中的传播过程,更加精准地预测未来某一时刻节点的状态。具体改进思路为:首先,在
标准欧拉算法的基础上,增加节点入度和出度的计算;其次,根据节点的入度和出度对传播率进行调整;最后,在预测过程中实时监测节点的状态变化,并将其反馈到传播模型中,进一步调整传播率。改进欧拉算法的信息
传播时序预测模型代码如下:
import numpy as np import matplotlib.pyplot as plt class SIR:
def __init__(self, beta, gamma, y0):self.beta = beta self.gamma = gamma self.y0 = y0def solve(self, t, method):y = np.zeros((len(t), 3))y[0] = self.y0dt = t[1] ⁃ t[0]
if method == 'T':                                #改进的欧拉算法for i in range(1, len(t)):S, I, R = y[i⁃1]dSdt = ⁃self.beta * S * I dIdt = self.beta * S * I ⁃ self.gamma * I dRdt = self.gamma * I
y[i] = y[i⁃1] + dt * (dSdt, dIdt, dRdt)else:                                                #默认的欧拉算法for i in range(1, len(t)):S, I, R = y[i⁃1]
dSdt = ⁃self.beta * S * I dIdt = self.beta * S * I ⁃ self.gamma * I dRdt = self.gamma * I y[i] = y[i⁃1] + dt * (dSdt, dIdt, dRdt)
return y
N = 1000                                    #假设节点度值:1 000 beta = 1.0 / N                  #1个节点单次链接N 个节点数gamma = 1 / 25                        #假设信息传播周期15天y0=[N⁃1, 1, 0]    #单次转发1人,其他人不接受 [S0, I0, R0]t = np.arange(0, 15, 1)
#模拟15天的发展情况,单位时间为1天
simulation = SIR(beta=beta, gamma=gamma, y0=y0)  y = simulation.solve(t, 'T')      #使用改进的欧拉法进行求解#绘图
plt.plot(t, y[:, 0], 'p', label='传播')  plt.plot(t, y[:, 1], 'q', label='不确定传播')  plt.plot(t, y[:, 2], 'r', label='拒绝传播')plt.legend(loc=0)
T = [1.0e6, 5.0e6] + [i * 1.e7 for i in range(11)]
3  分析与讨论
3.1  拓扑网络特征分析
雷达图常用于多组指标的综合分析,具有完整、直
冯  楠,等:基于IEA⁃ARIMA 模型的微博信息传播效率研究71
现代电子技术
2023年第46卷
观的优势。将三种网络结构下节点出入度的最大值、均
值、中位数绘制成雷达图,如图3
所示。
图3  不同网络结构的出入度雷达图
根据图3可以观察到,雷达坐标轴覆盖了0~6 000的范围。在三种网络结构中,出入度均值都大于中位数,这种“互惠”型在线网络结构对于信息的传播非常有利。值得注意的是,球形网络的出入度最大值分别为5 786和1 542,高于微博网络和随机网络,这表明微博网络在信息传播方面具有很大的优势。此外还可以观察到,在微博用户关注度网络中出度的最大值为1 542,但是它通常难以直接反映用户的实际价值,因为过多的冗余信息会干扰其有价值的信息。入度的最大
值为5 786,意味着近13的用户都关注了这些微博“意见领袖”。这些人通常拥有较高的关注度,并且往往是知名人士,但是不能简单地依赖粉丝数来衡量用户的影响力,因为用户对信息的贡献还跟结构度中心性有关。此外,可以从节点度值的大小中观察到,信息流入流出方向存在较大差异,具有较大出度的节点可以快速将信息传播到大量其他节点;而具有较大入度的节点能够吸引大量信息流入。综上所述,微博传播与网络结构密切相关,需要考虑网络结构和节点度值等因素才能更准确地预测信息传播结果。
3.2  不同网络节点的微博传播效率预测结果
传播效率是微博网络中重要的指标,而网络节点的度值对传播效率有着直接的影响[20]。本文将以最大度、平均度和中位数度作为节点属性,通过时间序列预测模型探索不同节点在微博网络中的传播效率
差异。通过比较不同属性节点之间的传播效率,可以更好地了解微博网络传播过程中复杂的节点关系和信息流动规律,为网络建设和信息传播策略提供科学参考。不同网络节点的微博信息传播预测结果如图4
所示。
图4  不同网络节点的微博信息传播预测结果
根据图4对微博网络中不同度值节点在信息传播效率方面的表现进行了比较。结果显示,当最大度节点作为信息源节点时,其传播速度最快,且在第5天时传播效率达到74%,明显高于度均值节点和度中位数节点。然而,在第5~10天的时间段里,三种节点的传播速度都变缓,微博信息网络的传播效率趋向于平稳。通过预测11~15天时间段的传播效率,发现三种信息源在微博网络中的传播效率变化趋势与前5天相似,传播效率趋于稳定,且度最大值模型的传播效率为85%,高于度均值和度中位数的预测值。这表明在微博网络中节点的度值大小能够显著影响信息的传播速度和广度,从而影响微博信息的传播效率。度值大的节点能够促进信息的传播,具有更高的传播效率。微博网络演化受到多种机制的协调作用,除了宏观特性,用户行为属性也发挥着重要作用。
3.3  不同网络结构的微博传播效率预测
在不同的网络结构中,不同类型的节点会对信息传
播效率产生影响。对于不同度值的节点作为信息源输入,进行信息传播效率的比较,是目前信息传播研究领域的重点之一。通过对节点的度值和网络结构之间的关系深入分析,可以更加全面地探究不同类型节点在不同网络结构中的传播效率。本文以度最大值、度均值、度中位数三种不同度值的节点作为信息源输入,以时序模型分别预测不同网络结构的信息传播效率。不同网
72