
文本 音频 视频 多模态等不同模型之间的区别和联系 原创
“ 大模型从任务类型分类主要分为文本,音频,视频和多模态模型。”
在人工智能领域,大模型技术是目前主要的研究方向,但面对市面上各种各样的模型,很多时候我们都搞不明白这些模型都是干什么的,有什么区别和联系。
其实这个就涉及到模型的分类问题,原因在于人工智能技术涉猎范围比较广,不但有各种基于深度神经网络实现的大模型各行其道,还包括传统的机器学习模型,以及各种模型的变种。
并且,从不同的维度模型又有不同的分类,如从技术维度,架构维度,业务维度等;因此,面对这些复杂的模型种类,我们需要有一个完善的分类机制,但又由于模型技术在快速发展,因此我们今天只从任务类型的角度来了解不同模型之间的区别。
模型任务类型
从处理不同任务的角度来说,模型主要有以下几种类型:
文本模型(自然语言处理——NLP):主要处理文本数据 包括逻辑推理
音频模型(Audio):主要处理音频数据 如配音
视觉模型(computer vision): 主要处理图片和视频数据
多模态模型(multi model): 能同时处理文字,图片,音频视频等数据
文本模型
文本模型主要是基于自然语言处理技术(NLP)实现的主要用来处理文本数据的模型,如问答,翻译等功能;但随着大模型技术的发展,现在的模型开始加入逻辑推理的能力,也就是所谓的深度思考模型,通常是使用思维链技术,强化学习,自我反思等技术实现复杂任务的拆解和执行。
音频模型
音频模型顾名思义主要用来处理音频数据,通过在文本和语音,以及配音等任务场景;如开会时对会议内容进行录音,然后交给音频模型就可以根据录音内容生成会议纪要;以及在AIGC领域通过音频模型给视频进行配音。
视觉模型
视觉模型的应用范围要比音频模型更广,原因在于视觉模型同时支持图片和视频两种格式的数据进行处理;其同样可以应用于AIGC领域,如图片生成,P图,鬼畜视频等。
同时,视觉模型可以通过图片和视频内容进行行为分析,来实现预防救灾,行为识别,如自动驾驶等领域。
多模态模型
多模态模型简单来说就是能够支持多种模态数据的模型,如文本,图片,视频,音频等;但很多人可能会把多模态模型当作视觉模型或推理模型,但事实上多模态模型的实现原理和以上三种模型不太相同,且应用场景也不一样。
多模态模型是通过对不同模态数据进行模态对齐等技术实现不同模态数据之间的转换和处理。如音视频生成,转换。
其主要可以用来解决人机交互,跨模态检索,问答,生成等。
总之,不同任务类型的模型从实现技术和应用场景上都不尽相同;切不同模型之间即有联系又有区别,这里的联系和区别不仅仅只技术的,同时还有任务上的。
本文转载自AI探索时代 作者:DFires
