让Siri不再智障！苹果定义新的端侧模型，“大大优于GPT-4，摆脱文本，可视化模拟屏幕信息，最小参数模型相

51CTO技术栈

发布于 2024-4-2 15:28

浏览

0收藏

撰稿丨诺亚

出品 | 51CTO技术栈（微信号：blog51cto）

总被用户吐槽“有点智障”的Siri有救了！

Siri自诞生以来就是智能语音助手领域的代表之一，但很长一段时间里，其表现并不尽如人意。然而，苹果的人工智能团队最新发布的研究成果有望极大地改变现状。

在相关的研究论文中，苹果的AI专家们描述了一个系统，其中Siri不仅可以识别图像中的内容，还能做更多的事情，变得更智能、更实用。尤为令人兴奋的是，他们认为自己研发的用于实现这一功能的模型ReALM，其基准性能优于GPT 4.0。

一、动机：解决不同实体的指代解析

苹果的研究团队指出：“让对话助手能够理解上下文，包括相关的内容指向，非常关键。能让用户根据他们所看到的屏幕内容进行提问，是确保真正实现语音操作体验的重要一步。”

打个比方，在人机交互过程中，用户常常会在对话中提及屏幕上的某个元素或内容，例如指示语音助手拨打电话号码、导航至地图上的特定地点、打开特定应用程序或网页等。如果对话助手无法理解用户指令背后的实体指代，就无法准确地执行这些命令。

而且人类对话中普遍存在模糊指代的现象，为了实现自然的人机交互，以及在用户与语音助手进行关于屏幕内容查询时准确理解语境，指代解析能力至关重要。

苹果在论文中提到的名为ReALM（Reference Resolution As Language Modeling）的模型，其优势就在于，它能够同时考虑用户屏幕上的内容和正在进行的任务，利用大语言模型解决不同类型实体（包括对话实体和非对话实体）的指代解析问题。

尽管传统的文本模态不便于处理屏幕上显示的实体，但ReALM系统通过将指代解析转化为语言建模问题，并成功运用LLMs来处理屏幕上非对话实体的指代，极大地推动了这一目标的达成。如此一来，便有望达成高度智能、更加沉浸的用户体验。

二、重构：突破传统文本模态的限制

传统的文本模态不便于处理屏幕上显示的实体，是因为屏幕上的实体通常包含丰富的视觉信息和布局结构，例如图像、图标、按钮及它们之间的相对位置关系等，这些信息在纯粹的文本描述中难以完全表达。

ReALM系统针对这一挑战，创造性地提出了通过解析屏幕上的实体及其位置信息来重建屏幕，并生成一种纯文本表示，这种文本能可视化地反映屏幕内容。

实体部分会被特别标记，以便语言模型了解实体出现在何处及其周围的文本是什么，这样就能模拟“看到”屏幕上的信息，并在理解和解析屏幕上的指代时提供必要的上下文信息。这种方法是首次尝试使用大型语言模型从屏幕内容中编码上下文，克服了传统文本模态难以处理的屏幕实体的问题。

具体来说，ReALM系统为了让大型语言模型能够“理解”并处理屏幕上显示的实体，采用了以下步骤：

首先，借助上层数据检测器提取屏幕文本中的实体，这些实体会带有类型、边界框以及实体周围非实体文本元素的列表。这意味着，对于屏幕上每一个可视化的实体，系统都会捕捉其基本信息和它所处的上下文环境。

然后，ReALM创新地提出了一种算法，通过将实体及其周围对象的边界框中心点按照垂直（从上至下）和水平（从左至右）的顺序排序，并稳定排列。若实体间距离较近，则认为它们在同一行内，并用制表符隔开；若距离超出设定的边距，则将它们置于下一行。这样，通过连续应用上述方法，就可以将屏幕内容按从左到右、从上到下的方式编码成纯文本格式，有效地保留了实体间的相对空间位置关系。

这样一来，原本难以直接被LLM处理的屏幕视觉信息转化成了适合语言模型输入的文本形式，使LLM能够在处理序列到序列的任务时，充分考虑到了屏幕实体的具体位置和上下文，从而实现对屏幕实体的正确识别和指代解析。

这使得ReALM系统不仅在解决对话实体的指代问题上表现出色，而且在处理非对话类实体——即屏幕上的实体时同样表现出了显著的性能提升。

三、细节：任务定义和数据集

简单来，ReALM系统面临的任务是，根据用户想要执行的任务，在给定的实体集合中，找出与当前用户查询相关的实体。

这个任务被构造成一个针对大型语言模型的选择题，期望从用户屏幕展示的实体中选择一个或多个选项作为答案。当然，在某些情况下，答案可能是“都不是”。

事实上，研究论文将任务涉及的实体分为三类：

1. 屏幕实体：是指当前在用户界面上可见的实体。

2. 对话实体：与对话内容相关的实体，可能来自用户的上一轮发言（如用户提到“呼叫妈妈”，则联系人列表中“妈妈”的条目就是相关实体），也可能由虚拟助手在对话中提供（如供用户选择的地点列表）。

3. 背景实体：源于后台进程，不一定直接体现在用户屏幕显示或与虚拟助手互动中的相关实体，例如预设会响起的闹钟或正在后台播放的音乐。

至于用于训练和测试ReALM的数据集，由合成数据和人工标注的数据组成，同样可划分为三类：

其一，对话数据集：包含了与用户与代理交互相关的实体的数据点。这些数据通过让评分员查看含有合成实体列表的截图，并要求他们提供明确指向列表中任意选定实体的查询来收集。

其二，合成数据集：采用模板生成法得到数据，特别是当用户查询和实体类型足以确定指代，无需依赖详细描述时，这种方法特别有用。合成数据集中也可以包含多个实体对应同一查询的情况。

其三，屏幕数据集：主要涵盖了用户屏幕上当前显示的实体的数据，每一条数据都包含用户查询、实体列表以及与该查询对应的正确实体（或实体集合）。每个实体的信息包括实体类型和其他属性，如名称以及其他与实体相关的文本细节（例如，闹钟的标签和时间）。

对于含有屏幕相关上下文的数据点，上下文信息以实体的边界框以及围绕该实体的其他对象列表的形式提供，同时附带这些周边对象的类型、文本内容和位置等属性信息。整个数据集的大小根据类别分为训练集和测试集，并且各具一定规模。

四、结果：最小的模型也取得了5%的性能提升

在基准测试中，苹果公司将自家系统与GPT 3.5和GPT 4.0进行了比较。ReALM模型在解决不同类型的指代解析任务方面表现出卓越的竞争力。

让Siri不再智障！苹果定义新的端侧模型，“大大优于GPT-4，摆脱文本，可视化模拟屏幕信息，最小参数模型相-AI.x社区图片

根据论文所述，即便是ReALM中参数最少的版本，相较于基线系统也实现了超过5%的性能提升。而在更大的模型版本上，ReALM则明显胜过GPT-4。特别是在处理屏幕上显示的实体时，随着模型规模的增加，ReALM在屏幕数据集上的性能提升更为显著。

另外，ReALM模型在全新领域的零样本学习场景上，其性能与GPT-4相当接近。而在处理特定领域的查询时，由于经过用户请求的微调，ReALM模型比GPT-4表现得更加精准。

比如，对于要求调整亮度这样的用户请求，GPT-4仅将该请求关联到设置，而忽略了背景中存在的智能家居设备也是相关实体，而ReALM因为接受了领域特有数据的训练，能够更好地理解并正确解析此类特定领域内的指代问题。

“我们证明了ReaLM超越了以往的方法，并且尽管参数数量远少于当前最先进的LLM——GPT-4，即使在纯粹基于文本领域处理屏幕内引用时，ReaLM也能达到与其相当的表现水平。此外，对于特定领域的用户话语，ReaLM的表现还优于GPT-4，因此，ReaLM可以说是在保证性能不打折扣的同时，适用于开发面向实际应用环境、可在设备本地高效运行的指代解析系统的首选方案。”

此外，研究人员还表示，在资源有限、需要低延迟响应或者涉及多阶段集成如API调用等实际应用场景中，单一的大型端到端模型往往并不适用。

在这种背景下，模块化设计的ReALM系统更具有优势，允许在不影响整体架构的情况下，轻松替换和升级原有的指代解析模块，同时提供更好的优化潜力和可解释性。

面向未来，研究方向则指向了更为复杂的方法，比如将屏幕区域划分为网格并以文本形式编码空间相对位置，虽然颇具挑战性，但这是一种有前景的探索途径。

五、写在最后

在人工智能领域，苹果虽然一直比较谨慎，但也在默默投入。无论是多模态大模型MM1，还是AI驱动的动画生成工具Keyframer，再到如今的ReALM，苹果的研究团队一直在持续实现着技术突破。

围观谷歌、微软、亚马逊等竞争对手，纷纷在搜索、云服务、办公软件上加码AI，秀了一波又一波肌肉。苹果显然正努力不落人后。随着生成式AI落地成果不断涌现，苹果更是加快了追赶的步伐。早有知情人士透露，在6月举办的全球开发者大会上，苹果将聚焦于人工智能领域，新的人工智能战略极有可能成为iOS 18升级的核心内容。届时，说不定会给诸君带来惊喜。