第 22卷第 10期2023年 10月
Vol.22 No.10
Oct.2023软件导刊
Software Guide
基于抑郁症患者微博平台数据的文本语义挖掘
范文蓉,刘峰
(南京邮电大学教育科学与技术学院,江苏南京 210023)
摘要:基于抑郁症患者倾向于在社交平台表达情感的特性,提出在当前社交媒体上搜寻、分析和讨论抑郁症患者
的主要特征。首先对抑郁症患者的微博数据进行高频词分析,使用LDA主题模型构建映射关系;然后基于时间序列
分析该类人正负向情感表达的变化情况,细致分析5类消极情绪的强度占比;最后在现有理论成果的基础上对抑
郁症患者的平台形象、认知特征、行为特征及情感特征进行总结。在微博平台中利用文本特征与情感关键影响因素
识别潜在的抑郁症患者具有非常重要的实际意义。
关键词:抑郁症;社交媒体;文本语义挖掘;情感分析
DOI:10.11907/rjdk.222099开放科学(资源服务)标识码(OSID):
中图分类号:TP391.1  文献标识码:A文章编号:1672-7800(2023)010-0171-07
Text Semantic Mining and Emotion Analysis Based on Weibo Platform
Data for Depression Patients
FAN Wenrong, LIU Feng
(School of Education Science and Technology, Nanjing University of Posts and Telecommunicatio
ns, Nanjing 210023, China)Abstract:Based on the tendency of depression patients to express emotions on social media, it is proposed to search, analyze, and discuss the main characteristics of depression patients on current social media. Firstly, high-frequency word analysis was conducted on Weibo data of depression patients, and mapping relationships were constructed using LDA topic models; Then, based on time series analysis, the changes in positive and negative emotional expression of this group of people are analyzed, and the intensity proportion of five types of negative emo⁃tions is analyzed in detail; Finally, based on existing theoretical achievements, summarize the platform image, cognitive characteristics, be⁃havioral characteristics, and emotional characteristics of depression patients. Identifying potential depression patients using text features and key emotional influencing factors in Weibo platform have significant practical significance.
Key Words:depression; social media; text semantic mining; emotional analysis
0 引言张小娴微博
据世界卫生组织统计,中国抑郁症患者数量已高达9 000万,并且有逐年上升的趋势,然而最新抑郁症调查报告显示,我国抑郁症的率仍然不到10%[1]。究其原因,我国对于心理问题的社会支持薄
弱使得抑郁症患者的病耻感强烈,导致其更倾向于隐瞒病情而非主动寻求。微博作为中国活跃人数较多的社交媒体平台,其保护用户隐私的平台特性为现实世界中的沉默体提供了隐秘的倾诉途径,其中抑郁症患者也更倾向于在网络世界中表达自己的情感[2]。因此,挖掘并分析蕴含在微博文本中的有效信息能够为人类心理和行为研究开辟更广阔的空间。
收稿日期:2022-09-20
基金项目:国家自然科学基金项目(62177029)
作者简介:范文蓉(1999-),女,CCF会员,南京邮电大学教育科学与技术学院硕士研究生,研究方向为教育人工智能;刘峰(1964-),男,博士,南京邮电大学教育科学与技术学院教授、博士生导师,研究方向为教育人工智能、图像处理与多媒体通信。本文通讯作者:范文蓉。
2023 年软件导刊
1 相关研究
在现代社会,网络是人们获取和发布信息最快捷的途径,而人们在网络上的活动必然会留下许多数据,尤其是许多人经常在社交媒体上发布文字、图像以及视频记录生活,这些数据可以在一定程度上反映用户的行为习惯和情绪状态,对其进行挖掘分析可以对用户的身心健康状态进行监测。近年来,
基于社交媒体的心理学研究逐年增多,信息科学与心理学的交叉融合越来越深入[3]。由社交媒体中提取的数据可被用于识别和预测抑郁症患者,进而为其提供专业的诊疗指导,而如何通过社交媒体数据准确提取出抑郁症患者的特征,将其用于训练识别模型并提高检测准确率是亟需突破的难题。
近年来,国内提取数据特征的方法不断完善。例如,曹奔等[4]将主题模型应用于心理学文本分析,用于探索心理咨询和社交媒体上人们的语言内容,进而对发布者的人格进行准确预测;林靖怡等[5]通过爬取抑郁用户和非抑郁用户的基本信息及微博内容,从中选择相关信息构建特征向量,通过XGBoost算法构建分类模型,得到预测抑郁症的准确率为 91%,召回率为 59%;龚竞秋等[6]从微博树洞账号“走饭”的154万人次评论数据中提取出292 581个用户的微博号,对其空间分布特征进行可视化表达,发现经济发达地区人的抑郁情况比经济欠发达地区严重;查国清等[7]基于Word2vec词嵌入模型形成抑郁关键词表,进而判断被测微博是否表达出抑郁倾向,该法大大减少了专家标注工作量,提高了标注效率。国外使用的语言和社交媒体与国内不同,因此构建出的文本特征与情感词典有显著差异,但检测技术大致相同。例如,Jung等[8]提炼出青少年抑郁症本体和术语,提供了相关语义基础,但缺少反映抑郁症的情感词语;Martínez-Castaño等[9]提出一个用于实时处理社交媒体数据的可扩展平台,实现了抑郁症患者的早期监测;Chiong等[10]提出一种基于社交媒体文本的通用抑郁症检测模型,该模型采用两个标记的公开Twitter抑郁症数据集进行训练,即使测试数据集不包含抑郁症和诊断等特定关键词,该方法也能通过社交媒体文本有效检测抑郁症。
国内外针对社交媒体中抑郁症患者检测的研究尚处于初始阶段,构建文本特征与情感词典的方法正在探索当中。目前使用的很多检测技术为机器学习算法,存在较多缺陷,导致抑郁症患者的很多潜在语言和行为特征尚未被充分挖掘。此外,随着时代的发展变化,模型需要被持续调整训练以适应社交平台中不断更新的语句表述方式。
从社交媒体文本中提取有效信息需要文本数据挖掘和文本情感分析两个步骤。其中,文本数据挖掘将生活中非结构化但有价值的信息整理成结构化数据,以便从中提取细枝末节的语义和规律,大大降低了人工操作成本[11],
具体分为选取数据来源选取、数据清洗及预处理、文本语义挖掘、可视化分析4个步骤。近年来,主题模型作为一种非监督的聚类方法在文本数据挖掘领域得到广泛应用[12],其能够发现文档—词语之间所蕴含的潜在语义关系(即主题),将文档看作一组主题的混合分布,而主题又是词语的概率分布,从而有效提高了文本信息处理效率,因此本文选择隐含狄利克雷分布(Latent Dirichlet Allocation,
LDA)主题模型作为主要的语义挖掘工具。文本情感分析即对文本蕴含的情感信息进行抽取、分类、检索与归纳[13],情感词典的构建在情感分析任务中发挥着越来越重要的作用,其可以基于词语的语义倾向判断其所在文本的语义倾向,是包含情感词词性、极性和强度的词表[14]。抑郁症患者在
微博平台中的倾诉欲比现实世界中更旺盛,其微博文本提供了大量蕴含情感的词汇。然而,由于中文的多变性以及语义的多重性,中文分词难度较大,国内的情感分析研究暂落后于国外。近年来,中文情感词典也在不断训练建设当中,如知网发布的情感分析用词语集、台湾大学发布的中文情感极性词典、清华大学李军教授发布的中文褒贬义词典等为中文情感分析提供了可靠的数据来源,但以上情感词典存在领域适应性差以及情感词类别单一的问题。相比之下,大连理工大学林鸿飞教授指导完成的中文情感词汇本体库的情感划分十分细致,更适用于社交媒体情感分析[15]。由于微博文本的情绪较为丰富,不只局限于正、负两个极端方向,应对其蕴含的情绪强弱进行判别,本文选择中文情感词汇本体库作为情感词典。
本文通过采集微博平台中的大量相关数据,运用文本语义挖掘与情感分析技术提取抑郁症患者的特征,对其平台形象、认知特征、行为特征及情感特征进行辨析与界定,以期感知抑郁症患者的真实处境,为在社交媒体中识别潜在的抑郁症患者提供新的途径。
2 研究方法
2.1 数据来源
微博平台中的#抑郁症#超级话题将许多抑郁症患者聚集在一起,从中筛选符合要求的发帖用户较为高效,具体步骤如下:①选取微博发布数量在100条以上的用户;
②进入用户首页观察其发帖习惯及正文内容,确定该用户是否为抑郁症患者;③优先选取在抑郁症超话发帖量较多的用户,审查网页信息获取用户id。经过筛选,最终选取样本总人数52人,男女比例为9∶43,其中公开显示年龄的有22人,16人在18-25岁区间,4人在25-30岁区间,2人在30-35岁区间。用户个人信息在一定程度上反映出女性、高中生、大学生3个体患抑郁症的比例更高。
2.2 数据获取与预处理
2.2.1 数据获取
目前,获取数据的主要途径为网络爬虫,通过执行被
··172
第 10 期范文蓉,刘峰:基于抑郁症患者微博平台数据的文本语义挖掘与情感分析
设定好的要求自动获取网页数据程序或脚本,该技术在互联网搜索及数据分析领域被广泛使用[16]。
图1为数据抓取流程。对于爬取微博数据这一任务而言,微博手机端比网页结构更易于获取URL地址,然后使用拥有多种解析库的BeautifulSoup库对网页进行解析。为简化获取的网页数据,方便后续文本数据分析,通过正则表达式检索并替换掉无用文本,然后将数据存储为CSV 文件格式。
使用爬虫技术选取每个用户从2018年发布至今的原创微博数据,共获得微博7 750条。原创微博中仍然存在一些与本文主题无关的微博信息,如新年让红包飞活动、过年抽福卡活动、明星打榜活动、投票内容以及其他平台的分享链接等,并不能反映抑郁症患者特征,因此对相关微博正文内容进行删除。数据清洗后最终获取有效微博
4 979条,表1为某样本用户的部分微博内容展示。2.2.2 数据预处理
由于每个用户的微博文本表述存在个人风格差异,在进行数据分析前首先要对最终获取到的微博正文内容进行清洗与预处理,具体操作如下:①首先去除英文、数字及关键词“抑郁症”;②采用Python语言中的jieba分词算法将长语句分为单个词语;③删除标点符号;④删除停用词,如语气助词(啊、呀、了、么等),副词(极其、十分、非常等),介词(的、地等),连接词(虽然、因为、即使等)之类自身无明确意义的词汇;⑤对固有名词进行统一定义,从而构建研
究所用的自定义词表。例如将“爸”“妈”“母亲”“父亲”等替换为“父母”;将“曲唑酮”等抗抑郁药替换为“药物”;将“医院”“门诊”等替换为“医院”;将“林俊杰”等明星名字替换为“偶像”。
2.3 文本语义挖掘
2.3.1 高词频分析
某个词语出现的频率越高,表示用户越受其影响。因此,本文基于已经清洗和预处理过的CSV文件,在Python 中调用分词和词频分析功能,将出现频率排名前50位的特征词从高到低按照字体大小显示,结果见图2。
可以看出,出现频次最高的词汇依次为“感情”“药物”“父母”“吃”“感觉”“世界”“希望”“偶像”“睡”“死”等,其中“感情”一词的出现频率多达653次,体现了抑郁症患者情绪易波动的特点;“父母”一词的高频出现反映其是抑郁症患者十分关注的对象;“药物”“吃”“睡”“死”的高频出现体现了抑郁症患者吃药、暴食、嗜睡、有自杀倾向的日常行为特征;“感觉”“世界”的高频出现体现抑郁症患者对人生哲学的思考;“希望”的高频出现反映出抑郁症患者对恢复健康、回归正常生活的向往。
2.3.2 主题模型分析
为提高文本特征词的准确性,本文采用LDA主题模型以无监督学习的方式对抑郁症患者微博文本的隐含语义结构进行聚类统计。LDA主题模型认为文档由主题构成,而主题由词项构成,其目标为得到文档中主题的分布概率以及主题中词项的分布概率。使用经验设定法确定主题数K = 5,α =10,β = 0.01,模型构建完成后采用LDAvis可视化包进行如图3所示的可视化展示[17]。
Fig. 1 Data capturing process
图1 数据抓取流程
Table 1 Partial Weibo content display of a sample user
表1 某样本用户的部分微博内容展示
ID 1 2 3
微博正文
我想我应该不属于这个世界的,我只想去我还想去的地方,见我还想见的人,我就没有别的想做的事了,也没有任何计划。没有想过再工
作,挣钱,谈恋爱,结婚生子。我连想要遇到爱的人的机会都不想要,仅仅是毫无生机。
想洗个澡,洗个头,穿一件自己喜欢的衣服,再看看妈妈,再听一次他的声音。想吃下所有的曲唑酮,在半夜划开手臂,然后死去。
我连怎么离开都想不好。连想离开了,还在想,我要是被救回来了,的钱可没有办法报销,不想死不成还给家里添负担。一场葬礼的
钱,不比医药费便宜吗?所以决定离开的时候一定要让自己离开。
发布时间
2021/3/30 23:51
2021/3/11 19:48
2021/3/8 13:42
Fig. 2 Word frequency statistics
图2 词频统计
·
·173
2023 年软件导刊
图3中左侧聚类形成的各个主题范围圆圈较分散,没有重合的地方,表明此次聚类的结果较显著,可信度较高;右侧则显示了构成某一主题的高频词合集,具体映射如表
2所示。根据主题高频词的主要表达内容其将分为人生思考、生活状态、抑郁症、正面情感表达和负面情感宣泄5类,与前文高词频分析结果基本一致,其中正负向情感的表达仍需进一步研究。
3 抑郁症患者情感分析
3.1 情感词典构建
中文情感词汇本体库中的词汇共分为7大类21小类,从词语词性、情感类别、情感强度及极性等多角度对情感词汇进行了描述,词汇格式如表3所示。
在该词汇库中补充具有微博文本特征的情感词语,构成本文所需情感辞典,以提高对微博平台文本情感分析的精确度。将“乐”“好”归为积极情感倾向,将“怒”“哀”“惧”“恶”“惊”归为消极情感倾向,具体情感词汇分类如表4所示。
3.2 情感分析流程
情感分析流程见图4,具体步骤为:①将情感词典中的词汇按照类别整理成列表形式;②将经过分词处
理的微博词语与情感词汇进行匹配,定位情感词;③载入否定词,对情感词前有否定词或双层否定词的词汇进行修正;④确认情感类别所属并计算每条微博的情感程度。
Table 2 LDA model theme-word specific mapping 表2 LDA模型主题—词具体映射
序号主题一主题二主题三主题四主题五
主题标识
人生思考
生活状态
抑郁症
正面情感表达
负面情感宣泄
高频词
不想、无聊、世界、感情、希望、难受、父母、生活、难过、快乐、坚持、痛苦、离开、活着、意义
感情、啊啊啊、好烦、害怕、工作、干活、想要、开心、总是、时间、感觉、好难、希望、梦见、暴食
药物、父母、感觉、晚上、医生、讨厌、睡不着、情绪、睡觉、每天、不想、医院、难受、、身体
偶像、感情、努力、活着、哈哈哈、好好、感觉、生活、一点、希望、说话、未来、朋友、宝贝、过年
感情、晚安、烦死、世界、不吃、不配、不想、窒息、消失、自杀、垃圾、呜呜、减肥、失眠、学校
Table 3 Format of emotional vocabulary
表3 情感词汇格式
词语无所畏惧手头紧周到词性种类
idiom
idiom
adj
情感分类
PH
NE
PH
强度
7
7
5
极性
1
1
Table 4 Classification of emotional vocabulary
表4 情感词汇分类
情感倾向
积极
消极
情感大类
情感类别
快乐、安心
尊敬、赞扬、相信、喜爱、祝愿
愤怒
悲伤、失望、疚、思
慌、恐惧、羞
烦闷、憎恶、贬责、妒忌、怀疑
惊奇
Fig. 3 LDA model visualization
图3 LDA模型可视化
·
·174
第 10 期范文蓉,刘峰:基于抑郁症患者微博平台数据的文本语义挖掘与情感分析3.3 情感分析结果3.3.1 情感词频
为直观了解微博平台抑郁症患者的情感倾向,分别对
积极、消极倾向的情感词汇进行词频统计,以词云图的形式展示,结果见图5。图中展示了抑郁症人常用于表达积极、消极的40个情感词汇,字体越大表示提及次数越多。
对积极情感词汇进行深入分析,发现“希望”“喜欢”“快乐”“朋友”“坚持”等词汇出现频率较高,反映了抑郁症患者对美好生活的向往。社会普遍对抑郁症患者存在偏见,认为他们是危险人,但通过情感分析发现他们的精神世界并不全是抑郁灰暗的,也有许多积极信念的支撑,其无时无刻不处于努力自救的状态,也非常渴望被亲人或朋友救赎。因此,适当的情感关怀是抑郁症的有效方法之一。
对负向情感词汇进行深入分析,发现“难受”“讨厌”“痛苦”“害怕”“抑郁”等词汇的出现频率较高,反映出抑郁症患者情绪不稳定,时常处于低落状态。现代生活节奏较快,学业、工作、感情等多方面压力导致人们经常会有焦
虑、悲伤等负面情绪,如不能及时有效调节疏导,可能会导致或加重抑郁症,这在微博平台中体现为
用户对消极情感
词汇的频繁使用。
3.3.2 基于时间序列的情感变化
以中文情感词汇本体库中情感词的强度得分为依据,
基于时间序列对抑郁症患者的情感强度变化进行分析,结果见图6。其中,横坐标表示一天中的24 h ,纵坐标表示平
每位抑郁症患者发布的微博文本中所有情感词汇的平均倾向程度,黑折线表示一天中患者表达消极情感程度的变化趋势,灰折线表示一天中患者表达积极情感程度的变化趋势。
可以看出,在同一时间区间内抑郁症患者的消极情感表达一直强于积极情感表达,且两种情感表达强度变化趋势基本一致。抑郁症患者在夜晚21点到凌晨1点期间的消极情感词汇表达程度显著增加,并在24点左右达到一天中的高峰值,强度达白天消极情绪表达的6倍以上。本应属于正常人休息和睡眠的时间却成为抑郁症患者爆发式宣泄消极情绪的时刻,严重影响其日常生活质量和工
作学习效率。
3.3.3 消极情绪强度占比
为深入了解抑郁症患者的消极情绪表达情况,选择类
别和程度两个指标进一步全面分析。以情感词强度得分为依据,对文本数据进行怒、恶、惊、惧、哀五大类消极情绪的细致分析,并以雷达图呈现,结果见图7。
可以看出,微博平台抑郁症患者的5类消极情绪强度有所差异,强度最高的为“恶”,代表性词汇为难受、讨厌、抑郁、恶心、焦虑等,其次为“哀”,代表性词汇为难过、痛苦、对不起、伤害、孤独等;再次为“惧”,“怒”和“惊”则较少出现。“恶”“哀”“惧”3种主要消极情绪的具体高频词汇及其频次如表5所示。情感分析结果提示抑郁症患者通常
持有悲观的人生态度以及消沉的情感取向。
(a ) Positive (a )
 积极
(b ) Negative (b ) 消极
Fig. 5 Vocabulary frequency of positive and negative emotions
图5 积极、消极情感词汇词频
时间
消极情绪平均情感强度
/时
Fig. 6 Emotional intensity changes based on time series
图6 基于时间序列的情感强度变化
Fig. 4 Emotional analysis process
图4 情感分析流程
·
·175