清华新研究解密信息茧房!全新信息动力学理论,登Nature子刊

人工智能 新闻
推荐系统如果只推荐用户喜欢的内容,会降低活跃用户的信息熵,观点也会逐渐走向极端。

新一代信息与智能技术的迅猛发展推动着人类逐步迈入智能社会。在数字技术和智能推荐算法的加持下,媒体和平台越来越贴心,总是能最快最准的地契合人们的个性化偏好和需求。

然而,与此同时,智能精准推荐致使「信息茧房」现象不断发酵,观点相似的人群在网络空间组成团体,特定价值偏好在群体中汇集放大,逐渐形成极端的观点。

针对名人或社会事件的每一种极端观点都能够被利用成为意识形态加入和影响的工具,在网络空间和现实世界中推波助澜,掀起「汹汹民意」。

然而,即便如此,我们对于信息茧房仍所知甚少:真实线上系统中的信息茧房究竟有多严重?缺乏大规模实证研究;信息茧房的形成机理是什么?缺乏基础理论支撑;如何解决信息茧房问题?缺乏行之有效的手段。

最近,清华大学电子系城市科学与计算研究中心与公管学院跨学科合作,通过大规模实证研究与信息动力学理论建模,首次大规模数据实证及理论揭示了信息媒体上信息茧房涌现的内在机理与相变边界,为理解当下智能社会中人-智交互复杂社会系统提供了全新思路。

该成果以「人-智自适应动力学驱动信息茧房涌现」(Human–AI adaptive dynamics drives the emergence of information cocoons)为题在《自然·机器智能》(Nature Machine Intelligence)上在线发表。

论文链接:https://www.nature.com/articles/s42256-023-00731-4

代码及数据链接:https://github.com/tsinghua-fib-lab/Adaptive-Information-Dynamic-Model

该成果聚焦于新闻与视频两个典型场景,通过分析5.7亿用户行为数据和使用信息熵度量信息茧房严重程度,发现在一年交互后,超过57%的活跃用户均经历了不同程度的信息熵下降,标志着现实系统中信息茧房的严重性。

在实证发现的基础上,该成果提出了人-智自适应信息动力学模型,以建模人类与推荐算法之间的关键反馈回路,并通过系统信息熵的演化规律来刻画信息茧房相变过程。

该模型从非平衡态统计力学视角揭示了「多样化-部分信息茧房-深度信息茧房」复杂系统的相变过程及相变边界,为控制人-智交互复杂社会系统中的信息茧房问题提供了理论基础,并启发后续设计通过平衡系统正反馈与负反馈以及算法精准推送与用户自由探索,破除信息茧房,进而实现负责任的推荐算法。

论文概述

人工智能作为一种新兴颠覆性技术,正在深刻改变着人类的生产、生活方式和思维方式,对经济发展与社会进步产生着重大而深远的影响。其中,推荐算法作为人工智能技术最广泛应用的一种,能够有效缓解信息过载问题,极大程度地影响着人们的所见所闻与所思所想。

然而,推荐算法也是一把双刃剑,其所提供的个性化推荐会使人们所接触的信息变得越来越同质化,逐渐困于信息茧房之中。而这些同质化的信息,不但会限制人们的眼界,使其远离集体、疏离社会,而且还会助长社会矛盾与分裂。

因此,为了遏制信息茧房的产生,理解其背后的产生机理是首要一步。

已有对于信息同质化问题的研究[1-5],大多聚焦于人类行为或是智能算法。通过实证研究方法,研究指出社交媒体上同质人群聚集的潜在因素或是算法过滤效应,然而由于数据与方法论的限制,仅能够提供相关性结论。

最近,一些实证研究[25,26]进行了因果性的分析。然而,这些研究仍未提供内在机理性的分析与解释。更进一步地,当前推荐算法大多基于黑盒的人工智能深度学习方法,而其背后的数以亿计的参数量,使得我们更加难以洞察信息茧房的根源。

针对信息茧房根源未知的问题,研究团队聚焦于新闻与视频两个典型场景,通过大规模实证研究发现,在一年交互过程中,超过57%的活跃用户均经历了不同程度的信息多样性的下降,并指出基于相似度匹配与正负反馈是影响信息同质化过程的关键要素。

进一步,基于实证发现与推荐算法领域实践,研究团队受随机热力学思想启发,创造性地提出了人-智自适应信息动力学模型。

该模型通过刻画基于相似度匹配与反馈利用两个基本机制,机理性地建模了人类与推荐算法之间的关键反馈回路,并通过系统信息熵的演化来刻画系统相变过程。

通过仿真实验与理论分析,揭示了「多样化-部分信息茧房-深度信息茧房」复杂系统的相变过程及相变边界,为控制人-智交互复杂社会系统中的信息茧房问题提供了理论基础与实用方法。

人-智自适应信息动力学模型

技术要点

研究团队聚焦于新闻与视频两个内容推荐典型场景,通过大规模真实数据的实证分析,刻画了真实世界信息茧房的严重程度及其影响因素。

具体而言,研究团队使用信息熵来刻画用户所接收信息的多样性,发现超过57%的活跃用户都经历了不同程度的信息多样性的下降,其视野被推荐算法逐渐局限于狭窄的信息茧房。

通过进一步分析,研究团队发现推荐算法基于相似度匹配的强度以及正负反馈是影响信息茧房产生的关键要素。该实证研究不仅首次量化了真实大规模在线信息系统中信息茧房的严重程度,而且为后续理论模型的提出奠定了基础。

 

(a-c)聚焦于新闻与视频两个典型场景,量化真实世界信息茧房严重程度;(d-f)相似度匹配强度、正负反馈是影响信息茧房形成的重要因素。

 基于实证结论与推荐算法领域实践,结合随机热力学理论,研究团队创造性地提出了人-智自适应信息动力学模型。

该模型采用信息熵来表示用户所接触信息的多样性,并使用系统信息熵分布来表示系统所处状态。

与依靠数以亿计参数的深度学习模型不同,所提出的模型仅依靠基于相似度匹配与用户反馈两个基本机制,机理性地建模了人类与推荐算法之间的关键反馈回路,并使用随机动力学方程刻画人-智复杂动力学交互过程。

其中,图片代表用户l已被观测到的兴趣分布,图片代表物品k的特征分布,图片分别代表基于相似度匹配强度、正反馈利用率、负反馈利用率、自由探索强度。

基于上式能够推导出描述关于用户在各类主题上已被观测到的偏好的福克-普朗克方程,进一步通过平均场近似方法,最终能够推导出用户所接收的信息熵在人群上的分布。

研究团队指出,在不同参数空间下,该人-智交互复杂社会系统存在多样化、部分信息茧房与深度信息茧房三种状态,而这三种系统状态分别被三种不同的信息熵分布所刻画。

大规模的仿真实验与实证分析进一步验证了所提出模型的解释力与有效性。

 

随着(a)基于相似度匹配强度或(b)正反馈利用率的增加,人-智交互复杂社会系统经历了从多样化状态到部分信息茧房状态,再到深度信息茧房状态的相变过程。红色虚线为理论线,柱状图为仿真线。

研究团队发现,随着基于相似度匹配强度或正反馈利用率的增加,该复杂系统呈现出了从多样化状态到部分信息茧房状态,再到深度信息茧房状态的相变过程。

然而,如果提升负反馈利用率或自由探索强度,系统则会经历一个逆相变过程,即从深度信息茧房到部分信息茧房,最后到多样化状态。上述四个相变过程经过理论分析与大规模仿真实验的一致验证。

随着(a)负反馈利用率的增加或(b)自由探索强度的增加,人-智交互复杂社会系统经历了从深度信息茧房状态到部分信息茧房状态,再到多样化状态的逆相变过程。红色虚线为理论线,柱状图为仿真线。

通过联合分析,研究团队展示了在基于相似度推荐、正负反馈利用以及自由探索四个要素联合驱动下的整体系统的相变图,并揭示了在信息茧房涌现的内在机理。

具体而言,基于相似性匹配作为有效力场,推动复杂交互系统从多样化走向同质化。正反馈进一步放大了这一力场,导致信息多样性下降。

而负反馈和自由探索通过抵制有效力场的作用,为系统引入扰动,从而促进信息多样性。

关于相变边界,理论预测结果与仿真实验结果呈现出高度一致性,同时,通过大量仿真实验与实证分析,例如替换函数、测量信息熵分布等,进一步验证了所提出模型的稳健性与有效性。

系统相变图,(a-b)基于视频与新闻场景数据的三维系统相变图,(c-e)基于视频场景数据的二维系统相变图,(f-h)基于新闻场景数据的二维系统相变图。

随着人工智能技术的广泛应用,人类与智能系统之间的复杂交互构成了一个涉及多个实体与多种反馈的复杂人智交互系统。

当前人工智能大多基于深度学习技术,而其黑盒属性进一步阻碍了深入理解该类复杂交互系统中的动态特性和涌现行为。

研究团队所提出的自适应信息动力学模型通过提供对信息茧房涌现行为的机理性建模,为深入研究各类复杂人-智交互系统提供了有力的理论工具。此外,所提出的理论模型对于负责任的推荐算法设计具有实际指导意义。

该研究指出两个信息茧房的有效方法,即促进负反馈的有效利用,从学习用户的负反馈这一全新视角来建模用户偏好;以及促进用户自由探索,通过增大用户对于自身内容消费的自由度与自主权,来拓宽信息视野。

综上所述,该研究成果不仅为推荐算法设计指明了实际改进方向,而且还为理解人-智交互复杂社会系统提供了理论工具,以启发后续Complex System for AI的相关研究。

作者介绍

清华大学电子系城市科学与计算研究中心博士生朴景华与博士后刘家臻为论文共同第一作者,李勇副教授为通信作者;清华公共管理学院张芳助理教授、苏竣教授为共同作者。

该研究成果得到科技创新2030—「新一代人工智能」重大项目与自然科学基金项目的支持。

责任编辑:张燕妮 来源: 新智元
相关推荐

2023-03-06 13:59:38

模型参数

2023-03-13 13:24:34

智能Nature

2020-11-27 10:10:52

大数据

2011-07-28 16:08:15

2023-12-19 17:44:29

模型训练

2023-06-29 17:42:55

AI检测

2023-04-12 15:58:58

2023-02-06 08:55:12

学习语言模型

2022-07-20 14:59:51

机器狗算法

2022-02-23 14:36:31

AI数据研究

2024-04-22 07:30:00

药物分子模型

2020-11-16 10:41:29

推荐系统信息

2022-07-12 14:56:30

AI模型研究

2024-01-07 18:00:33

AI模型特点

2022-08-29 14:43:24

斯坦福大学李飞飞AI

2023-12-11 19:08:03

AI模型

2011-02-14 09:53:51

2024-01-16 17:23:39

AI数据

2021-12-31 14:30:30

人工智能机器学习技术

2022-10-31 15:17:49

AI系统
点赞
收藏

51CTO技术栈公众号