多模方式提升AI理解能力，微软展示Project Rumi-51CTO.COM

在新兴技术的数字时代，大语言模型(LLM)已经成为一种强大的工具，革命性地改变了人类社会和文化的许多方面，重塑了我们与计算机的互动方式。然而，还有一个关键的挑战需要解决。LLM的局限性是显而易见的，它揭示了在无法掌握对话的上下文和细微差别以及取决于提示的质量和具体性方面的差距。

不过，LLM主要依赖于文本输入输出，忽略了人类在自然交流中的语调，面部表情，手势和肢体语言等线索，从而在理解方面会存在偏差。

这些线索统称为副语言，微软的Project Rumi旨在通过解决理解非语言线索和上下文细微差别的局限性来增强LLM的能力。它将副语言输入纳入与LLM的基于提示的互动中，以提高沟通质量。研究人员使用音频和视频模型来检测数据流中的实时非语言线索。两个独立的模型用于来自用户音频的副语言信息，第一个是音频的韵律音调和屈折，另一个是来自语音的语义。他们使用视觉变换器对帧进行编码，并从视频中识别面部表情。下游服务将副语言信息合并到基于文本的提示中。这种多模式方法旨在增强用户情绪和意图理解，从而将人类人工智能交互提升到一个新的水平。

在这项研究中，研究人员只简要探讨了副语言学在传达有关用户意图的关键信息方面所起的作用。未来，他们计划进行建模，使模型变得更好、更高效。他们还希望添加更多细节，如源自标准视频、认知和环境感知的心率变异性。这一切都是在下一波与人工智能的互动中增加隐含意义和意图的更大努力的一部分。