如何评测端到端音视频质量?

移动开发
为了解决多场景端到端的音视频测试技术薄弱,评价体系单一的问题,提出多场景、多维度、高可靠的音视频质量评价体系。借助完善的评价体系,可以精准的评估出待测产品的音视频质量,最终得分也更贴近于真实的用户体验,推动音视频能力技术的快速提升。

作者 | 袁小霞、黄挺,单位:中国移动智慧家庭质量测试部

Labs 导读

随着视频通话、直播的广泛应用,音视频产品种类和形式越来越多。为了对多终端的软硬件音视频能力进行评测,整合业界的音视频测试标准,提出多场景端到端音视频质量评测方案,可以覆盖多种端到端音视频质量评测场景。

Part 01  音视频质量评测体系

在音视频的业务场景中,不仅包含实时的视频通信、视频直播、视频点播,还包含云存储和云游戏等。通过自动化音视频测试平台,评测类型由主观评价和客观评价组成,结合专家打分、专家仪表和软件工具,分别提出音频和视频的业务指标,集合PESQ、POLQA等音视算法和PEVQ、NIQE等视频算法,构成一整套音视频质量评测体系。

图片

Part 02  多场景测试组网

根据多场景测试需要,整合思博伦网络损伤仪器Attero和音视频质量测试设备Chromatic Umetrix,搭建有参考源测试环境、无参考源测试环境和SDK hook有参考源测试环境。其中有参考源和无参考源测试环境适用于竞品对标的横向测试中,发送端采集音视频片源,测试设备录制接收端播放音视频并分析的场景;SDK hook有参考源测试环境适用音视频底层能力的众向对比测试中,通过hook方式,调用音视频底层接口将测试指定片源注入到发送端编码,接收端解码音视频后直接通过音视频质量设备进行分析。组网如图1所示。

图片

图1 多场景端到端音视频质量评测组网

Part 03  多场景多维度网络方案

根据测试统计结果及参考真实用户的网络使用场景设计了如下多场景多维度的网络测试方案:

  • 无限制网络:网络带宽无限制、0%丢包率、0ms抖动;
  • 低带宽限制网络:1Mbps带宽限制、0%丢包率、0ms抖动;
  • 常规带宽限制网络:2Mbps带宽限制、0%丢包率、0ms抖动;
  • 轻度拥塞网络:3Mbps带宽限制、5%丢包率、50ms抖动;
  • 中度拥塞网络:2Mbps带宽限制、20%丢包率、100ms抖动;
  • 高度拥塞网络:1Mbps带宽限制、35%丢包率、100ms抖动;

Part 04  Gerrit音视频质量评价模型及应用

4.1 音视频质量评价指标

  • MOS(GED):GED (Gross Error Detection)提供基于帧的针对音视频业务质量的 MOS评分。GED从用户感知角度对流媒体点播、音视频通话等音视频业务的音视频流畅度进行分析。同时提供其他实用的KPI指标,对影响音视频质量的因素进行量化,用来评估音视频流畅度性能、音频音视频同步(需要结合音频评估算法)等;
  • MOS(NR):基于机器学习的AI无参考音视频图像质量分析。无需预设音视频源,模拟人眼对音视频图像质量进行MOS打分(1分=差 - 5分=好),同时无参考检测音视频TI (Temporal Information)时间复杂度、SI (Spatial Information)空间复杂度、缓冲,卡顿等状况,结合各种如(不同压缩比及分辨率下)音视频图像质量MOS分,给出一个用户感知体验(QoE)分值;
  • 帧率:音视频帧率(Frame rate)是用于测量显示帧数的量度,一帧代表一副静止的图像,测量单位为每秒显示帧数(Frames per Second,简:FPS);
  • 冻帧率:即音视频冻屏百分比,通过测试过程中识别出的音视频画面冻结时长/测试音视频总时长得出;
  • 破损率:即音视频破损百分比,通过测试过程中识别出的音视频画面破损帧数量/测试音视频总帧数得出;
  • 音画同步:指音频与视频画面的时间戳一致性,测量单位为毫秒(ms)。

图片

4.2 音视频质量评分方法

根据上述关键指标,依据音视频流畅度、清晰度指标对实际音视频体验影响权重,得出最贴近用户真实体验的得分评价算法:

  • 单个场景得分(总分10分)=音视频流畅度得分(总分5分)+音视频清晰度得分(总分5分) = MOS(GED)x 20%+帧率x 10%+冻帧率 x 10%+音画同步 x 10%+MOS(NR)x 30%+破损率 x 20%
  • 综合得分(总分10分)=无限制网络场景得分(总分4分) + 带宽限制网络场景得分(总分3分)+拥塞网络场景得分(总分3分)=无限制网络场景得分 x 40% + 低带宽限制网络场景得分 x 15% +常规带宽限制网络场景得分 x 15% + 轻度拥塞限制网络场景得分 x 10% + 中度拥塞限制网络场景得分 x 10% + 重度拥塞限制网络场景得分 x 10%

评价算法分析:

  • 单个指标评分范围为[0,10],8-10分为优秀,6-8分为良好,4-6分为一般,2-4分为差,2分以下为很差;
  • 单个场景得分中音视频流畅度指标和音视频清晰度指标得分评分范围为[0,5],4-5分为优秀,3-4分为良好,2-3分为一般,1-2分为差,1分以下为很差;
  • 综合得分评分范围为[0,10],8-10分为优秀,6-8分为良好,4-6分为一般,2-4分为差,2分以下为很差;

4.3 音视频质量评价模型应用

以上评价模型应用于自研产品纵向测试和行业头部产品对标测试数据对比中,以下是部分测试数据统计。

图片

自研产品在优化期间进行纵向对比测试和行业头部产品对标测试。在6种网络场景下,自研产品综合得分提升7.5分,整体质量有明显提升。与行业头部产品对标测试中,公司自研产品在各网络场景得分排名,从2020年的第5名上升至2021年的第2名。

Part 05  结束语

在高质量发展的大背景下,关注服务质量、用户体验是音视频产品测试发展动力之一。为了解决多场景端到端的音视频测试技术薄弱,评价体系单一的问题,提出多场景、多维度、高可靠的音视频质量评价体系。借助完善的评价体系,可以精准的评估出待测产品的音视频质量,最终得分也更贴近于真实的用户体验,推动音视频能力技术的快速提升。

责任编辑:未丽燕 来源: 移动Labs
相关推荐
点赞
收藏

51CTO技术栈公众号