独家 | 大数据下的自杀风险感知与疏导(附视频&PPT下载)


自杀是困扰全世界的一个社会性问题,鉴于自杀给个人、家庭和社会带来的巨大情感创伤和经济损失,及时有效地感知和预防这种极端行为极为必要。心理学研究成果表明长期慢性压力是导致自杀发生的主要原因之一。


本期我们邀请到清华-青岛数据科学研究院计算心理健康研究中心主任、清华大学计算机科学与技术系教授、博士生导师冯铃。本场讲座探讨了如何根据多数据源感知、预警与辅助疏导青少年的心理压力,如何通过网络社交媒体大数据从慢性压力的角度进行自杀危险感知,以及从压力源头进行疏导排解,避免问题的扩大化与蔓延化。更多大数据在预测预防自杀方向的应用,可见:独家 | 预防自杀,大数据也在致力于挽救生命


后台回复关键词“1213”,下载完整PPT。


以下是演讲视频:(后附图文版实录)




清华-青岛数据科学研究院计算心理健康研究中心主任冯铃

 

冯铃:自杀是困扰着全世界的一个重要问题,据世界卫生组织报告,全世界每年约80万人死于自杀,仅中国就有28.7万人,其中青少年约有10万名。换句话说,在中国平均每分钟就有两人自杀,还有八人自杀未遂。自杀不仅造成巨大的经济损失,还给个人、家庭和社会带来永久的情感创伤。



心理学研究指出,自杀起因于人们长期的心理压力。当不良情绪无法对外释放时,矛头便被转到自己身上。在快节奏、高竞争的现代经济社会中,心理压力伴随着学业、家庭、情感、生活等问题愈发严重。与过去讲求温饱不同,现代人更重视精神需求,比如自我价值、存在感、意义感。



负面情绪被不断累积会造成什么呢?据2016年中国官方统计显示,现有1.73亿中国人患有不同程度的精神障碍。换句话说,几乎占全部人口15%的中国人有各种各样的心理困扰。



如何应对各种心理困扰造成的自杀现象?在个体自杀前发现问题,并提供针对性地疏导,以排解压力,从而避免问题的蔓延。而针对自杀的预测存在以下问题:一是早期发现困难,尤其是内向患者,不愿意去分享;二是面对面的心理咨询需预约,并且人力成本非常贵;三是及时的、个性化的服务很难被实施,且能进行有效疏导的途径不多。



我们主要聚焦前期对自杀风险的感知方面,即通过及时的数据分析,捕捉个体的异常行为,如其在微博上的异常表现,以做出及时的风险预测。透过网络社交媒体,我们可以得知人们表露出来的一些想法,这为如何疏导现代人的心理压力提供了新的思路。



传统心理学研究者在进行感知疏导时,往往借助心理学量表、可穿戴设备、脑电图等工具量化心理指标,然后对患者的各种情况、精神障碍等进行评估和鉴别,最后提供一个有针对性的治疗方案。然而这种形式人力成本非常高,诊疗室进行得较多,很难惠及大众。



社交网络具有平等、自由、碎片化、个性化等突出特点,可以展现出人们的认知、情感和行为水平,基于此我们目前主要通过微博进行分析,这涉及众多计算机的传统领域,如文本分析、情感分析、数据挖掘、意见挖掘等。


情绪、慢性心理压力被列为重要的衡量指标,另外考虑导致自杀的其他因素,如人们自杀的一些表达、自我关注的话语、在社交媒体上的活跃程度,我们采用机器学习等方法建立了一个六维微博特征空间模型,如图所示。



首先我们做了心理压力区间的检测,考虑了八大压力类型和六个压力级别,如图所示。



怎么通过社交媒体发现个体在这段时间的压力很大,是因为学业,还是情感或是家庭?我们有一个基本假设:压力源事件会造成个体产生相应的压力表现。在压力状态下,个体带有负面情绪的微博增多,通过自然语言处理捕捉到压力源事件对压力微博发表的关联关系,可以建立对应的数学模型。基于这个模型,通过机器学习就可以检测相似的用户群体的问题。



如何建立数学模型呢?我们找到一个重点中学,学生们压力非常大。选择该学校的原因是它把所有的模拟考试、月考、高考报名、高考等全部信息发在网上,这些构成了与学业相关的压力源事件。数据结果显示,在有压力源事件的一段时间里面,用户发有负面情绪微博的频率普遍高于在正常时间段里发负面情绪微博的频率。



基于这个初步发现,我们分别用两个独立、同构的泊松过程来描述用户在压力源事件区间与非压力源事件区间发负面情绪微博的行为。如果在一段时间里,用户发布负面情绪的微博频率高于其在非压力源事件区间发布负面情绪的微博频率,且这个概率大于一个阈值,我们就认为这是一段压力区间。心理压力区间及其波动特点将被作为预测自杀的第一个特征。



这是部分推导过程。假设N1是在压力事件区间用户发的负面情绪微博总数,λ1是其发负面情绪微博的频率。N0是在非压力事件区间用户发的负面情绪微博总数,λ0是其发负面情绪微博的频率。针对一个时间段,当λ1 >λ0的概率大于一个阈值,我们就认为该区间为一个压力区间。



但很多压力区间是由同一件事造成的,对人产生的影响具有连续性。如何评判同一压力源呢?比如有两个都满足压力区间条件的概率分布,用户在微博上发的话题或者是压力的类型、分布是否类似?如果描述的话题类似,并且满足模型的参数要求,它们就属于同一件压力源事件引起的压力区间。


这时,我们就需要合并一些连续的压力区间。另外,从这个压力区间也可以感知到压力源事件,透过文字表达可以得知用户不开心的缘由。当然有时候人们说的话可能跟实际情况不一样,这种困难需要我们从研究过程里求解。从下图同学发的微博得知,他在这段时间里经历了三段压力区间,每段区间里面他的压力波动情况,我们用6个特征值来刻画。



心理压力区间和压力波动的剧烈情况均对自杀风险起着预测性作用。这些压力的特征值包括压力区间总数、平均压力强度、压力程度均方根偏差、压力峰值、压力区间跨度、不同压力类型数量。



为评估自杀者的心理压力特征值,我们从新浪微博里查询并分析了65位已经实行自杀的人员,以及65位没有自杀倾向的正常人。结果显示,自杀人员的六项指标都高于正常用户。



预测自杀的第二个考量特征为自我关注。自杀者往往自我关注度高,并且在他们的遗书中,使用了更多的第一人称代词,如“我”、“我的”、“我们”、“自己”等。另外,自杀者倾向于在他们的微博中表达绝望的自杀感受,而不是压抑这些感受。



第三个特征为自杀的相关表达。其中涉及到自杀相关词典,尤其是个性化的词典,如一些比较极端的表达:“因为太悲伤了”、“无法控制自己”、“我心感觉好冷、好累”、“煎熬”、“难过”、“痛苦”。在遗言里面出现的这种表达,说明个体的承受力已经到了极限。


中科院心理研究所提出了中国社交媒体自杀词典的部分示例,该词典分成三个等级,词的等级越高,权重越大。我们基于这样一个词典,给自杀的相关表达特征向量赋值。



关于自杀的相关表达,出现自杀相关词汇的微博在全部微博中所占的比例也是一个重要的衡量指标。我们通过平均每条包含自杀相关词汇微博里的自杀词汇数量及占比来做分析感知。



第四个重要特征是遗言,自杀者在实施自杀行为之前通常会留下一些话,传递自己内心的复杂感受,如悔恨、内疚、对家人或朋友的寄语,甚至如何安排自己的后事等。如在新浪微博里面的一些表达:“对不起”、“嘲讽”、“有生之年”等。



第五个特征为社交媒体的互动。在心理学研究中,社交孤立是用于自杀意念判定的一个非常重要且可靠的观察变量。绝望的人所拥有的社交网络往往很薄弱,从而得到的社会支持也很少。在这种情况下,我们衡量用户在社交媒体上的活跃程度。



第六个特征为情绪。这一方面的工作借助喜悦、爱、期望、焦虑、悲伤、愤怒、憎恨、惊喜等八种情绪分类,评估用户的情绪累积程度、不同情绪之间的关联度以及不同情绪之间的转移模式。



当微博空间各特征被量化后,我们运用模糊认知图模型进行机器学习,选择它的原因如下:一是它表达了节点之间的因果关系,而非简单的关联关系;二是它凭借量化推理与动态反馈机制,适用于处理数据量少且类别不确定的分类问题;三是通过类别节点状态函数不断迭代从混沌状态达到各分类的动态平衡。



模糊认知图做分类模型的关键是构建权重矩阵,也就是边和边之间要选到一个最佳的权值,恰当表述两个节点之间的因果关系。在模糊认知图里,每个概念节点有一个状态值,这个状态值刻画了该概念节点的一些属性,节点的状态值可以不断发生改变。我们用一个状态函数S表示某一节点的状态值,比如说i分类节点的状态,在T+1时刻,其S状态值与其T时刻的状态值,以及因果权重矩阵W是紧密关联的,这里的f函数的功能是把状态值映射到[0,1]之间,权值矩阵可通过各种优化算法来迭代求解,不断降低分类误差。



我们的Performance Study,也是非常初步的Performance Study,我们从65位自杀用户中任意选出60%的用户,用来学习模糊认知图的因果关系矩阵,然后用余下40%的用户做测试,这还是传统地停留于论文发表上的实验方法。我们比较了不同的FCM、Decision Tree、 Nave Bayesian、Random Forest、 SVM,结果表示FCM在分类的效果上面能够达到80%,超过其它几种分类模型。

   


简而言之,我们从压力的角度入手来感知自杀风险,但我们的工作还存在以下问题,有待进一步提高:一是我们只考虑到负面的情绪在微博里的表现,未考虑人为正向干预对自杀风险检测的影响;二是在真正评估一位尚未实行自杀的个体风险时,结果的正确率难以评判;三是研究的应用性尚且不足。



在做自杀风险感知的研究同时,我们也一直在思考、探索如何通过信息技术、大数据,从压力源头辅助疏导排解心理压力,避免问题蔓延化、扩大化。通过这项工作,我们希望可以提供更多的社会支持,帮助到需要帮助的人。令人欣喜地是我们的学生成立了“清华帮”,一个互帮互助的平台。


用户可以在平台上发布带有文字、图片的信息和问题,系统会根据后台待实现的推荐算法把问题推荐给有能力解决的若干名候选用户,一旦某位候选用户接受问题,其他候选用户的问题分配栏中将看不到该问题。为保护问题请求者隐私,只有候选用户接受问题后才会看得到问题提出者的线下联系方式,最终通过线上联系线下解决的方法,达到互帮互助的目的。



这是我们的同学做得很棒的一个APP。背后的核心就是推荐合适的用户来解答问题。在推荐时考虑到很多的因素,一是用户擅长解决哪类问题;二是提问用户和解答用户间的互补;三是用户曾经解决过的问题与新问题之间的相似性。



在该过程中的具体操作:第一,建立用户-问题类型评分矩阵,描述用户解决不同类型的问题的能力,通过用户-问题类型矩阵分解推荐算法,滤出来针对用户问题需求的Top-N位解答用户候选集。



第二,除用户解决问题的类型信息,需考虑问题请求用户与解答用户之间的信息关联(如年龄、专业、性别等),以及用户的清闲度,对Top-N位候选解答用户做进一步地筛选。



第三,通过协同过滤方式,考虑用户曾经解决过的问题与新问题之间的相似性。将问题推荐给最后筛选出的候选用户,待其回答。



虽然数据不能解读人性的复杂,但它弥补了心理学在预测问题上的劣势。传统的心理健康教育和数据管理与服务的有效结合,将为疏导人们日益增长的心理问题另辟蹊径。


更多大数据在预测预防自杀方向的应用,可见:独家 | 预防自杀,大数据也在致力于挽救生命


后台回复关键词“1213”,下载完整PPT。

应用 · 创新系列讲座

清华大数据“应用·创新”系列讲座,分享大数据新应用与创新性商业模式;旨在介绍大数据在各行业的最新应用,激发校内利用大数据机遇进行创新的热情。更多精彩干货及线下活动,敬请关注THU数据派(ID:datapi)及姐妹号数据派THU(ID:DatapiTHU)。


整理者:王志蒙

校对:谭佳瑶

为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包

同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。


转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

相关文章
相关标签/搜索