社区编辑申请
注册/登录
听声辨物,这是AI视觉该干的???
人工智能 新闻
来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)

视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。

相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench

新任务、新的数据集,搞算法的又有新坑可以卷了。

据最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。

视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。

这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。

但无论哪一种,离精细化的视听场景理解都差点意思。

△ AVS 任务与 SSL 任务的比较

视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢?

鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:

1、单声源(Single-source)下的视听分割

2、多声源(Multi-sources)下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。

对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。

这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。

另外,还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式,研究人员进行了广泛实验。

首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

△和来自相关任务方法进行视听分割的对比结果

其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

△引入音频的TPAVI模块,可以更好地处理物体的形状细节(左),并且有助于分割出正确的发声物(右)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

One More Thing

文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型

研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

论文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

项目主页:

https://opennlplab.github.io/AVSBench/

责任编辑:张燕妮 来源: 量子位
相关推荐

2022-07-04 23:20:22

人工智能深度学习元宇宙

2022-07-26 12:52:10

2022-03-08 09:27:45

AI无人驾驶传感器

2022-05-16 14:22:54

人工智能通信监听

2022-05-10 16:52:30

人工智能AI

2022-05-05 15:03:08

人工智能医疗算法

2022-04-24 14:13:00

快手互联网

2022-01-10 23:57:36

2020-11-26 14:24:02

人工智能AIAI视觉

2022-03-28 14:43:48

数据Python解决方案

2017-01-16 19:27:40

2021-12-21 08:05:19

2019-07-24 15:12:47

2022-02-18 14:25:28

人工智能机器人技术

2021-11-09 10:27:15

2021-12-01 16:22:44

2020-07-29 10:27:08

人工智能语音识别技术

2021-12-20 16:23:40

2021-05-13 17:57:31

2020-07-02 09:46:05

AI

同话题下的热门内容

福佑卡车技术合伙人陈冠岭:自动驾驶在干线物流的应用基于TensorFlow和QuestDB的时间序列预测美国“断供EDA”,究竟怎么一回事?面向推荐的汽车知识图谱构建一行代码让英特尔显卡光追性能“改进100 倍”,网友们笑了AI正在让世界变得更加美好——AISummit全球人工智能技术大会主会场精彩回顾美团搜索粗排优化的探索与实践宠物的面部识别,已经实现了吗?

编辑推荐

转转公司架构算法部孙玄:AI下的微服务架构Facebook开源相似性搜索类库Faiss,超越已知最快算法8.5倍运维:对不起,这锅,我们不背快消品图像识别丨无人店背后的商品识别技术最全面的百度NLP自然语言处理技术解析
我收藏的内容
点赞
收藏

51CTO技术栈公众号