Sci. Adv.速递:语义网络分析自动识别阴谋论

摘要

层出不穷的阴谋论背后,有着怎样的叙事套路?10月26日发表于 Science Advances 上的一篇论文使用语义网络这一工具,开展了有史以来最大的阴谋论和非阴谋论文本对比。研究将理论驱动的心理学研究与数据动的计算方法联系起来,发现不论文本涉及何种话题,阴谋论文本相互关联程度更高、主题更加异质、彼此更加相似;另外,阴谋论文本内部呈现较低的连贯性,但文本之间有着更高的连贯性,并为一般性的阴谋论世界观提供了强有力的实证支持。该研究为阴谋论文本分类算法和进一步探索信念结构中的个体差异提供了新思路,并证实了心理学家对阴谋论文本的假设,为有针对性地应对虚假信息提供了指导。

关键词:语义网络,NLP,虚假信息

论文标题:

Interconnectedness and (in)coherence as a signature of conspiracy worldviews

论文地址:

https://www.science.org/doi/10.1126/sciadv.abq3668

1. 如何用算法自动检测阴谋论?

无论是认为戴安娜王妃之死并非是一起意外事故,还是登月不过是好莱坞导演的骗局,阴谋论在当下已越演越烈,成为了“信息传染病”的重要推动因素。要开发算法自动化地检测阴谋论文本,需要了解阴谋论者潜在的心理活动,阴谋论是如何形成和传播的,如此方可制定有针对性的干预措施来限制其传播。

心理学家对阴谋论已有不少洞见,例如,阴谋论往往与其它阴谋论联系在一起。相信“新冠”是生物武器的文本,往往会和5G致癌、比尔盖茨和制药公司合谋等文本有关。这意味着“阴谋论世界观”是自我强化的,即那些倾向于相信某一特定阴谋论的人可能会相信其他许多阴谋论,并将它们作为证据来支持自己的论点。

2. 阴谋论和非阴谋论,文本网络结构大不同

为了证实上述猜想,最近 Science Advances 的这项心理学和计算语言学的交叉研究,使用自然语言处理和网络分析,基于20多个不同话题,总计96000篇文本(其中24000篇被标记为阴谋论,剩下的72000是非阴谋论文本),通过LDA主题提取,构建共现网络,比较网络的统计指标,发现两者存在显著差异。

表一:

阴谋论和非阴谋论文本主题共现网络的统计对比,连通性(connectness)是每个节点所连边的均值,该表指出阴谋论文本之间联系更多,节点之间联系的相似性更高,聚类系数更高,节点间的平均最短距离更小,密度更高。

首先,阴谋论文本依赖于其他阴谋论来“证明”它们的主张,通过一个相互关联的思想网络将论点连接在一起,但是从一个话题跳到另一个话题的方式不像通常的叙述那样连贯。 该研究的第二个发现是,阴谋论文本从一个主题跳到另一个时,相比非阴谋论的叙事,却是以相对不连贯的方式(在语义距离上较远的概念间跳跃)

除此之外,该研究还比较了文本之间的相似性,发现相比于非阴谋论网络,阴谋论本文的主题网络有着更为相似的模式。这意味着阴谋论的叙事有着相似的套路,而非阴谋论文本则保持着多样的叙事/论述模式,即一套由包括欺骗、提问、社会认同和负面情绪词汇反复出现形成的模式。

图1.

(a)不同话题的阴谋论和非阴谋论文本组成的网络,可以看到其中有显著差异。(b)只考虑不同话题时,阴谋论和非阴谋论文本连通性的对比。

阴谋论文本如此高的主题相互关联性反映了阴谋论相信者的心理需求,即减少不确定性,并通过解释和寻找现实世界事件中的秩序来获得控制,否则这些事件对他们来说就是随机的。相信阴谋论的个体保有一般性的“阴谋论世界观”,这使得他们更有可能在随机或不相关的事件之间建立难以置信的因果关系,而这解释了为何阴谋论文本内的连贯性更差,也解释了为何阴谋论的文本有着全局相似性,例如戴安娜和登月的阴谋论文本叙事模式相似。

反过来看,快速连接不相关的主题会产生一个高度混乱和随机连接的主题网络。这或许可以解释为什么从阴谋论叙述中构建的主题网络比非阴谋网络更加密集、更加无组织。

3. 结论

该研究有助于开发分类算法,以在线或离线判别的阴谋论文本。这可以通过提取阴谋论共享的叙事模式来实现,例如欺骗性语言、提问和社会认同(例如,“他们对我们撒谎了吗?”)。此外,未来在自然语言处理方面的进步可能会更进一步帮助检测文本中相互矛盾的陈述,从而更高效地检测阴谋论。

郭瑞东 | 作者

邓一雪 | 编辑

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

© 版权声明
THE END