半监督学习的微博谣言检测分析
网络谣言的危害陈耿,黄取治
(福建师范大学协和学院,福建福州350117)
摘要:谣言检测是社交网络谣言研究、监测及整治的基础,其实施情况得到社会的广泛关注,相伴随的是微博谣言辨识的研究工作不断增多。该文把微博谣言作为研究对象,搭建了微博谣言的检测框架,其主要是由获取数据、处理数据及谣言检测三大步骤构成,基于实验研究过程,对比了差异化数据已标注比例时不同半监督学习的性能和ImCo-Forest算法之间的差异,发现ImCo-Forest在谣言检测方面更占优势。希望能和同行共同分享方法与经验,以期进一步完善微博谣言检测工作。
关键词:微博谣言;半监督学习;ImCo-Forest算法;谣言检测系统
中图分类号:TP311文献标识码:A
文章编号:1009-3044(2021)15-0012-02
开放科学(资源服务)标识码(OSID):
1背景
微博凭借自身在即时性、匿名性、广泛性等方面占据的优势,从根本上扭转了传统媒介下信息传播的样态,塑造了去中心化的传播局势,成为传播社会舆论的新载体。
微博平台上每次只能发布长度为140字符的文字信息,其不具有完整阐述事实的功能,外加微博用户的草根性,使微博逐渐成为聚集、散播谣言的载体,频繁转播、评论虚假信息,不断拓展负面影响的范围,使用用户主观上生成强烈的“信任危机感”,不利于社会的和谐、平稳发展。谣言检测隶属于网络信息可信度研究的范围,微博谣言检测能净化微博平台环境,引导平台健康运作发展,创造出更大的效益。
2背景分析
微博是现代生活中的一种常用社交网络平台,广大用户可以利用浏览器、智能手机及他类智能联网的客户端传送信息,进而达到分享即时信息的目的。谣言是作为一种特别的语言现象,长期以来是人们关注与研究的热点之一。伴随新媒体网络的蓬勃发展,网络谣言随之产生与流传,在社会上形成较大的影响。近些年中,因微博谣言泛滥引起的危害,使各级政府及学术领域对此给予高度重视,为对虚假话题
传播过程形成抑制,我国政府颁发了相应的惩处法规,针对网络谣言制造及传播者,公安机关加大了打击力度。以上这些治理措施的实施,对维持微博传播秩序有很大助益,明显减少了微博谣言。通过观察谣言数据,不难发现微博内的谣言数目明显少于非谣言,精准辨识谣言具有很大现实意义。3ImCo-Forest算法
Co-Forest是聚集了集成学习算法的一种算法类型,其不仅能处理协同训练算法中噪声数据引进相关问题,还通过加强不同分类器之间的合作,对那些价值较高且无标记数据的预测工作发出了挑战,强化了集成学习算法的分类功能。
半监督学习算法ImCo-Forest就是以Co-Forest算法为基础提出的,应用该算法的目的需要是通过优化集中训练中少数类的分布状态,将偏高的误分类代价赋予部分感兴趣的少数类,进而强化分类器的辨识能力。假定用L= {(x1,y1),……(x l,y c)}去表示已标注的数据,y l∈{1,……c},U={(x1,y u),……(x j,y u)}表示没有标注数据,且有l<j,算法执行的主要目的是给出那些无类别数据对应的类标号y u[1]。ImCo-Forest算法通过SMOTE与分层抽样去增加了少数类的数目,使数据分布更具平衡性,此时随机森林算法更充分地发挥自身优势;还能采用增加少数类的误分类代价的形式,使分类器给予少数类更大的关注度。
该算法应用阶段,针对添加的新标记数据的数据集,应用了以正负类为基础形成的分层抽样法进行抽样
操作,借此方式使类别平衡性得到更大保障,规避了由于样本选择不恰当而引起的分类性能逐渐恶化的问题。
4检测框架
从宏观层面上,可以将微博谣言检测细化为数据获得、数据处置及谣言检测三步骤,本文搭建的微博谣言检测框架见图1所示[2]。
收稿日期:2021-02-05
基金项目:2019年福建省中青年教师教育科研项目:基于半监督词袋模型的谣言检测(项目编号:JAT191111)
作者简介:陈耿(1981—),男,福建福安人,讲师,学士,研究方向为数字媒体技术;黄取治(1982—),女,福建南安人,副教授,学士,研究方向为数据挖掘。
图1微博谣言检测框架结构图
4.1数据获得
参照新浪微博官方对外发布的数据,到2017年年末时,新浪微博月活跃、日活跃用户分别是3.92亿、1.65亿,为现阶段国内应用用户数目最多、社会影响力最大的微博平台类型。本课题选择新浪微博作为研究对象去分析谣言检测相关问题。通过观察新浪微博的信息结构,不难发现用户个人信息、微博文案及传播信息是一条微博的主要构成。获得数据是谣言检测的基础,以新浪API为基础的数据获取方法是
常用手段之一,流程可以做出如下概述:首先,创建账号与运用获得研发者身份,能获取专属型的App Key与App Secret;其次,开发者将授权请求传送到授权地址,基于OAuth2.0认证过程诱导Request To⁃
ken授权返回过程,在确认授权成功以后,开发者再获得Access Token;最后,调取使用接口,便能顺利地获取到JOSN数据流或XML文件,系统化分析后便预示着微博数据采集工作结束。利用该种方法采集数据有研发代价偏低、便于达成等优点,但官方设定的数据获取频次与方式会对其形成一定约束,很难保证谣言数据获取的有效性、整体性。而相比之下,基于微博爬虫获取数据的方法在应用阶段,能基于网络抓包工具能构建数据请求过程与各请求URL之间的关系,获得kie并建立session,实现模拟登陆,利用HTTP协议、GET方法去采集与分析数据。4.2数据处置
谣言检测的宗旨在于从批量化的微博消息内,基于分类算法对其作出合理判断。处理数据是计算机“理解”数据的前提,这样方能精准辨别出微博谣言。本文把微博文本表示为向量这些适用于机器学习算法处理的数据[3]。1)过滤噪声:去噪的目的以解除无用数据为主,这是提升后期检测工效的基础,具体是当微博用户的粉丝数目在给定阈值之下时,就将其微博数据删除。2)分词:从本质上分析,对微博文本进行分类就是细化短文本的所属类型,对文本进行分词操作这是预处理阶段需落实的第一要务,当下可供选择的分词方法较多,比如由统计学习形成的,或者以人工智能为基础形成的分词法等,合理使用如上方法,能将连贯的字符串序列转变成组合式的成词序列,并化繁为简,获得简单容易处理、向量化的文本数据。3)表示向量:即参照一定的特征项,把微博文案信息转变成特征性向量的方法,当前在
该环节中多采用空间向量模型(VSM),其应用思想可以做出如下表述:将文本视为无序词与其相对应权重的集合体,统一映射至高维空间内,具体操作是把文案内的各词项作为唯一属性用t1表示,测算出文档内各词项的重要程度进而获取到权重W1,那么便可以将一个文档表示成例如(t1,W1;t2,W2;……t n,W n)的向量形式,而后通过测算文本相似度去对不同内容之间的相关性作出科学判断。
4.3选择微博特征
这是谣言检测过程中的关键一环,影响着检测效果,当下国内外针对微博谣言检测的研究主要聚集在选择分类特征方面。也有人员通过系统分析与科学实验过程获取到文本的基本特征,即内容特征、用户属性信息与传播特征,希望据此能提升微博谣言检测效率,本文以此为基础,从多个维度分析微博谣言的特点,构建出用于检测微博谣言的特征向量集合[4]。1)内容特征:是微博消息内的统计特征,可以将其看成是微博内容的延展信息或不同用户交流中形成的信息,影响着文本的可信度。2)用户特征:由是否认证、注册时间、微博数等构成,其呈现出的是广大微博用户自身的权威性与影响力。3)传播特征:看中的主要是用户上传的文本信息的转发及评论数,这种特征主要是能表现出该用户对其他网络用户产生的影响力。5实证检验
5.1实验步骤
1)获取和标注数据:把官方的辟谣信息及网络材料作为凭据,选择5895条微博并进行人工标注处理。
2)提获特征:在该操作之前需要对获得的微博数据进行预处理,宗旨在于尽量解除噪声数据,将无用数据对后续检测工作形成的负面影响降至最低。具体是删减到粉丝数<5的用户信息。预处理后参照特征去提获数据,构建出微博文本数据的特征向量[5]。
3)鉴于ImCo-Forest算法在微博谣言检测领域中表现出的有效性,拟定于WEKA平台上开展谣言检测的实验研究。针对各个数据集,通过十折交叉验证进行测评,把已标注及未标注集作为检测算法的输入项,对分类器进行规范训练后于测试集上进行检测,获得真正例、假负例、假正例及真负例。
5.2实验结果
比较了不同数据已标注比例时不同半监督学习的性能和ImCo-Forest算法。对比分析后发现,和其他半监督学习算法相比较,在已标注比例下ImCo-Forest算法的F-measure值和G-mean值更高,这表明ImCo-Forest算法在检测微博谣言方面优越性更大。并且通过读图发现,在已标注数据占比达到40%时Co-Forest算法的性能最优,当数据占比为60%、80%时算法的性能却有降低趋势,这主要是由Co-Forest算法自身的特点决定的,与既往很多研究形成的结论一致。
为了能进一步证实本文所设计的ImCo-Forest算法和现有研究所应用的监督学习算法更占据优势,本文基于L⋃U,在μ= 0%状态对应的数据集上对SVM、Bayes和J48分类器进行系统化训练,将他们和已经标注数据比例为10%情景下的ImCo-Forest算法持有的性能进行对比分析,选择了“少女遭毁容”语料,统
计了评价指标,实验结果见表1[6]。
表1已标注数据比例10%算法性能对比
算法/性能
SVM
Bayes
J48
Co-Forest
ImCo-Forest
Acc
90.04
86.02
89.24
89.04
87.91
Precision
0.502
0.251
0.142
0.329
0.621
G-mean
0.131
0.421
0.108
0.346
0.649
F-measure
0.501
0.215
0.024
0.178
0.873
(下转第19页)
统计、最小统计)。如果要获取平台目标数据源文件,就需要用户先提交计算作业,其实现方法为runJob()。除了数据源文件之外,您还需要以Jar格式呈现JarReduce源代码文件。它的实现方法是runJobFromJar()。
3.4统一验证身份的实现
在服务器上进行统一身份验证的过程中,跳过操作过程就要使用Spring Web Flow进行操作。如果是,将就登录视图的重定向仅需要跳转到Bean并在配置文件中查看处理类的视图
URL。对服务器的所有验证身份的请求将路由到FlowCon⁃troller,接下来将根据相应的顺序处理该请求。同时,验证票据、操作过程的查看基本上是一样的,操作类型和方法就是唯一的区别。当用户第一次登录Web应用程序时,将进行对用户信息必须绑定和身份验证。用户填写要绑定的表格中的信息,并为用户生成特殊的信息凭证。接下来就要使用路由到Au⁃thenticateLogInOut登录。然后再到登陆类的login()方法登陆,在登陆的过程中,就会对系统进行调用身份的信息认证,假如认证通过,将操作过程则跳至转到sendTGT的操作,否则,将再次显示登录信息。用于确定下一步的流程标识是“成功”写入浏览器,将错误返回到登录尝试,然后对浏览器重定向。平台身份验证服务界面中的TGT票证和ST票证是通过生成固定长度的字符串随机生成的,并且两个票证都是唯一的。
当用户拿到ST票证并再次访问Web时,Web会取出ST票证并向服务器提交本地身份验证请求。对与/stV
alidate对应的票证执行验证。判断票证是否有效就是验证过程的重点工作。怎样与用户提交身份验证的参数进行对比,是向服务器查询票据信息的属性来确定认证。最后的结果是否通过,系统都将会销毁票据,以保障安全性的登录。
3.5wsap服务平台访问的实现
服务注册与更新:当以验证信息是不是有访问权限,需要用户将信息提交给系统信息模块,对提交的信息将使用Servi⁃ceUtil检查信息服务地址和服务名称是否存在等。验证之后,将信息提交给数据库注册服务。服务的更新是通过持久层数据库的操作实现的,但服务注册的实现方法和服务更新的实现方法相同。
服务发现和发现:基于大数据智慧校园的云资源不断完善,对功能的需求更加全面,服务的数量和类型也在逐渐增加。WSAP为服务提供分类搜索和关键字搜索,需要在最短的时间内准确定位在用户所需的服务。
4结束语
在大数据、云计算等新技术的运用的背景下,在智慧校园服务平台中的应用实现了快捷、高效、性能强的功能。并将大数据应用在学校的实际管理中,在对大数据进行更深度地分析过程中,可以获得用户对
服务平台的实际需求,然后给出智慧校园服务平台的设计框架的详细的论述,最后给出智慧校园平台实现的核心技术路径。通过对决策的优化,给用户操作提供了服务平台的智能化、人性化的服务,同时为在大数据背景下高校智慧校园发展提供了理论意义与参考价值。
参考文献:
[1]陈冰.基于云计算的智慧校园支撑服务平台的设计与实现研
究[J].信息通信,2019,32(10):199-200.
[2]拜亚萌,张燕玲.虚拟化技术在智慧校园云服务平台IaaS层
中的应用[J].焦作大学学报,2018,32(1):90-92,103. [3]李素娟.基于大数据背景下的智慧校园的设计与实现[J].电
脑知识与技术,2019,15(27):238-240.
[4]高新成,王莉利.基于Hadoop的校园云存储系统的研究[J].陕
西理工学院学报(自然科学版),2012,28(4):30-35. [5]王蕊.基于云计算的智慧校园服务平台架构的设计和实现[J].无线互联科技,2016(12):71-72.
【通联编辑:梁书】
(上接第13页)
对表1内的数据进行比较分析,不难发现在"少女遭毁容"语料上,ImCo-Forest算法的与F-measure指标都较好,提示该种算法在处理非平衡数据问题方面和其他算法相比较表现出较好效能。在这里需另外关注的问题是,SVM算法尽管在整体准确率指标上相对较高,达到了90.04%,但其G-mean和F-measure 指标数值均处于较低的水平,提示该算法对少数类的辨识性能偏差,说明其不能精准辨识出微博谣言[7]。
还需要关注的内容是,本次实验中对选用的三种监督学习算法均采用了100%完全性标注的理想化数据集进行训练,统计结果后发现,在整体准确率指标上,只有SVM、J48算法比Im⁃
Co-Forest更优秀,提示为了获得相对较高的总体准确率,和Im⁃Co-Forest算法相比较,其他算法需要数目更庞大的标注数据,这在很大程度上削弱了其在现实运用领域中的可执行性。
6结束语
综合分析以上实验过程产出的结果,可以认定ImCo-For⁃est算法能在标注数据少量的情景下,较好的检测出谣言,这样便能在微博谣言辨识阶段明显减少数据标注过程中付出的代价。但是回顾研究历程,笔
者自知还存在着一定不足,比如没有考虑到微博文本语义等因素形成的影响,故而后续工作中应重视专研分析语义特征、传播过程中用户主体行为对信息可信度形成的影响,参照语义技术拓展对微博文本特征挖掘的深度性,借此方式进一步提升半监督学习算法在检测微博谣言方面的精准度,将自身价值发挥到最大化。
参考文献:
[1]刘彤,魏静,倪维健,等.基于半监督学习与CRF的应急预案命
名实体识别[J].软件导刊,2020,19(3):35-38.
[2]冯雨庭,张锦,肖斌.基于半监督SVM的交通方式特征分析和
识别[J].综合运输,2019,41(9):57-63.
[3]金志刚,杨洋.基于用户关联度的半监督情感分析模型[J].哈
尔滨工业大学学报,2019,51(5):50-56.
[4]董哲瑾,王健,钱凌飞,等.一种用户成长性画像的建模方法[J].
山东大学学报(理学版),2019,54(3):38-45.
[5]陈珂,黎树俊,谢博.基于半监督学习的微博情感分析[J].计算
机与数字工程,2018,46(9):1850-1855.
[6]李泽魁,李雪婷,赵妍妍.中文微博热点事件情感分布的原因
分析[J].中文信息学报,2018,32(1):131-138.
[7]刘桂锋,汪满容,刘海军.基于概率超图半监督学习的专利文
本分类方法研究[J].情报杂志,2016,35(9):187-191,173.
【通联编辑:谢媛媛】