热门话题推荐更多动态>

热门服务推荐更多服务>

优质服务商推荐更多服务商>

恋家室内设计
服务:2件诚信:85分
设宇数字化工作室
服务:2件诚信:85分
福建省经度科技有限...
服务:2件诚信:80分
壹立科技软件研发服...
服务:5件诚信:90分
Red翻译&...
服务:2件诚信:85分
上海回声网络科技有...
服务:3件诚信:90分
效果图设计
服务:2件诚信:90分
芦笙飞鸽工作室
服务:2件诚信:90分
印记探索
服务:2件诚信:85分
飞视影视传媒工作室
服务:4件诚信:80分

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法

208

发布：2021-10-11 14:41:35 来自地平线无际蚂蚜会员 L1

本文提及的项目是基于腾讯多媒体实验室与北大深圳研究生院李革教授团队的高校联合项目，并通过文章简要回顾了目前学术界和工业界视频质量评估方向的发展状况。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

腾讯有多个视频业务线，点播视频有腾讯视频、企鹅影视，短视频有微视、K歌，直播类有Now直播、企鹅电竞，实时传输类有QQ和微信的音视频通话、无线投屏和腾讯会议等。

用户对不同的产品有不同程度的期待：比如理想网络环境下，能不能在27寸显示器上看到毛发清晰可见的高清视频？使用3G等弱网环境时，视频通话能不能保证画面不频繁卡死？

对业务提供方来说，所有问题都可以归结为一个目的：在不同的网络状况下，保证用户最佳的视频观看体验。在整个视频链路中，我们可以精确度量大部分模块，如采集、上传、预处理、转码和分发。我们最未知的部分却恰恰是最关键的部分，即用户的视频观看体验到底怎么样。

本文旨在介绍业界视频质量评估进展并提出一种基于三维卷积神经网络的全参考视频质量评估算法。

什么是视频质量评估（VQA, Video Quality Assessment）？

视频质量评估的目的是准确地衡量视频内容的人眼感知质量。不经压缩的源视频因为码率太大而不适合互联网传输。我们必须使用标准的编解码器，如H.264/AVC、HEVC，或自研编解码器来编码进而降低码流大小。然而，视频压缩会不可避免的引入压缩失真。

以H.264/AVC压缩为例，图1给出了一个压缩失真示例图：

其中，白线左边对应未经压缩的原始画面，地面砖块上的纹理清晰可见，背景的蓝天颜色过渡自然。白线右边对应压缩过的低码率视频画面。可以明显的看到压缩失真，砖块纹理变得模糊不清，蓝天也因为块效应的原因出现了不自然的云条。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

图1 H.264压缩失真截图。白线左边为高清源视频，白线右边为低码率压缩视频

在工业界和学术界，评估视频质量有两种常用方法：一是视频质量主观实验，二是视频质量客观算法。两种方法有各自的适用场景和局限性。

通过主观实验我们能精确衡量视频质量。在某些核心问题上，如codec性能比较，我们仍需要通过主观实验来得到确切的答案。同时，主观实验打分数据通常会用作验证客观质量评估算法性能的Ground Truth。完整的主观实验流程一般包含：

选取有代表性的源视频
添加待衡量的视频处理方案
按照ITU标准设计主观实验
招募志愿者观看视频并打分
收集主观打分并剔除无效数据
数据建模并抛出实验结论。ITU有一些列标准来指导如何做主观实验，如ITU-T P910 ^[2] , ITU-R BT.2020 ^[3] 等，本文不做展开。

很显然，主观实验是一个周期长，费时费力的过程。诉诸主观打分来验证所有视频质量需求是不可行的。好在我们可以使用客观质量评估算法来模拟主观打分，进而实现视频质量评估。

然而，开发准确而快速的客观质量评估算法仍然是一项有挑战性的工作。

传统VQA算法不能有效使用视频的运动信息

客观视频质量评估算法只需要计算视频的质量分数。

从工业界的角度来看，经典的客观算法有PSNR，SSIM ^[4] ，MS-SSIM ^[5] ，这些算法基于经典的信号保真度来判断失真视频与无损视频源的差异，再根据差异大小拟合出视频感知质量。近期的算法有VQM ^[6] ，从多个维度提取时空联合特征去逼近主观质量。

目前的主流算法有VMAF ^[7] ，使用机器学习方法对多个图像质量客观算法进行融合。借助于融合的思想，VMAF能够灵活的加入新的客观算法。另一方面，通过使用新的数据集来重新训练，VMAF也可以方便的迁移到细分维度的视频质量评估任务。

图像质量评估主要是衡量画面内失真在画面掩盖效应影响下的可感知程度。而视频质量评估不仅仅取决于画面内的失真，也包含时域内的失真和时域掩盖效应。这里掩盖效应可简单理解为背景的复杂程度。如果背景较复杂，我们称之为较强的掩盖效应，反之亦然。

举个例子，图一中滑板处于快速运动的状态，掩盖效应较强，所以滑板区域的失真更难察觉。而背景中蓝天部门是大片的光滑区域，掩盖效应较弱，细微的压缩失真也能容易察觉到。因此，在开发一个客观视频质量评估算法中，我们必须把视频固有的运动信息考虑进来。

在学术界，有很多相应的策略被提出。最常用对做法是提取两种特征，一种特征去描述画面质量，另一种特征去描述视频运动的大小。

比较主流的运动特征包含：TI (Temporal Information)，运动向量 (Motion Vector)，光流 (Optical Flow) 等。

这种做法最大的缺陷是完全剥离了画面信息和运动信息，视频不再被当作三维数据来处理，而是二维数据加一维数据来处理。

为了解决上述问题，另外一种比较直观的方法是对视频进行三维切片 ^[8] 。

如图2所示，我们使用(x, y, t)来标记空域和时域轴。这里切片如果与时间轴垂直，即(x, y)方向，那么切出来的就是传统意义上的视频帧；如果与时间轴平行，即(x, t) 或 (y, t)方向，我们就得到了时空联合的二维切片。在某种程度上，后两个切片包含了运动信息。对以上三种切片使用图像质量评估算法，再把切片分数融合起来，就能取得不错的质量提升。

尽管如此，三维切片还是没有最大程度的使用运动信息。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

图2. 三维空间内视频切片示意图

有不少图片质量评估算法是基于经典的DCT或小波变换，再从变换系数中提取特征向量。

对视频而言，一种比较直观的拓展就是使用三维变换，如三维DCT变换，三维小波变换等。经过三维变换后，我们从变换系数中进一步提取特征来而做质量评估。这种方法保留了视频的时空联合信息，但是三维变换会引入复杂度过高的问题。

使用三维卷积神经网络来学习视频的时空联合特征（C3D, Convolutional 3D Neural Network）

近年来深度学习在多个计算机视觉图片任务中取得了瞩目的成就。同时也有学者把二维神经网络扩展到三维神经网络来更好的处理视频任务 ^[9] 。我们尝试使用三维卷积神经网络来学习时空特征并把它用到视频质量任务中。我们先给出基本的二维和三维卷积模块，再进一步介绍所提出的网络结构。

图3a给出了二维卷积核在二维输入上的卷积操作。为了避免歧义，我们假设是对二维图像进行卷积操作。其中输入图像大小为HxW，卷积核大小为kxk，图像时域深度和卷积核时域深度均为1。经过卷积运算输出仍为二维。输入输出均不包含任何运动信息。

图3b给出了二维卷积核在三维输入上的卷积操作。我们可以假设输入为一个画面大小为HxW，包含L帧的视频。这里卷积核的深度不再是1，而是跟视频帧数相同。经过卷积操作，输出仍为二维，且与图3a的输出大小相同。这种卷积操作有利用到视频前后帧的运动信息，但是只用一步卷积就把所有运动信息给吃掉了。

图3c给出了三维卷积核在三维输入上的卷积操作。与图3b相比，这里卷积核的深度为d，且d小于L。经过三维卷积操作，输出仍为三维。当d=1时，等价为图3a的卷积操作对视频帧进行逐帧处理，但是并没有利用到前后帧的运动信息。当d=L时，它的效果等同于图3b。所以当d小于L时，三维卷积能更可控的利用运动信息——如果我们想让运动信息消失的快一些，就调大三维卷积的深度d。相反，使用小一些的d能更缓慢的提取运动信息。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

图3. 二维与三维卷积操作示意图

在此基础上，我们设计了自己的视频质量评估算法C3DVQA。其核心思想是使用三维卷积来学习时空联合特征，进而更好的去刻画视频质量。

图4给出了我们所提出的网络结构图，其输入为损伤视频和残差视频。

网络包含两层二维卷积来逐帧提取空域特征。经级联后，空域特征仍保留前后帧的时许关系。网络接着使用四层三维卷积层来学习时空联合特征。

在这里，三维卷积输出描述了视频的时空掩盖效应，而且我们使用它来模拟人眼对视频残差的感知情况：掩盖效应弱的地方，残差更容易被感知；掩盖效应强的地方，复杂的背景更能掩盖画面失真。

网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果，它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

图4. 本文所提出的网络结构图。包含两层二维卷积，四层三维卷积，池化和全连接层。卷积参数表示：(channel，kernel size，stride， padding)

结果

我们在LIVE 和CSIQ 两个视频质量数据集上对所提出算法的性能进行验证。LIVE数据库包含10个参考视频和对应每个参考视频的15个失真视频。CSIQ数据集包含12个源视频和相对应的18个失真视频。我们使用标准的PLCC和SROCC作为质量准则来比较不同算法的性能。

因为这两个数据库相对较小，我们参考另外一片深度学习文章 ^[10] 的做法，每次随机抽取80%的参考视频和由它们所得到的失真视频作为测试集。我们重复了20次这样的数据集划分并且每次都从头开始训练模型。具体质量评估的散点图如图5所示。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

图5. 质量估计结果散点图，每一个点代表一个待测视频。其中Y轴为估计视频质量，X轴为主观打分结果，左图为LIVE上测试结果，右图为CSIQ上测试结果。

我们与常用的全参考质量评估算法进行了对比，比较的算法包括PSNR，MOVIE ^[11] ，ST-MAD ^[12] ，VMAF和DeepVQA ^[10] 。每次测试都会得到一个PLCC和SROCC，下表中我们使用多次实验结果的中值来代表最终性能。

我们可以清楚的看到本文所设计的算法C3DVQA在两个数据库上均大幅领先PSNR，MOVIE，ST-MAD，VMAF等传统算法。值得一提的是DeepVQA也是一个基于深度学习的算法，也取得了不错的性能。我们把这些性能提提升归结为两方面的原因：

使用CNN来学习质量相关特征要优于传统的特征提取算法；
DeepVQA和C3DVQA均学习视频的时空联合特征，显性的利用运动信息更能刻画视频质量。

腾讯多媒体实验室：基于三维卷积神经网络的全参考视频质量评估算法_软件科技_游戏攻略

表1. LIVE和CSIQ两个数据库上不同全参考算法性能比较

总结

本文简要回顾了目前学术界和工业界视频质量评估方向的发展状况。出于复杂度考虑，工业界仍倾向于使用复杂度较低的基于图像质量评估的方案。但是这样做的缺陷就是不能不能把视频作为一个整体来学习时空特性，尽管结果差强人意，也算是性能与复杂度很好的折中。

我们提出了一种基于三维卷积神经网络的全参考算法。通过学习视频的时空联合特征，能更好的解决运动信息丢失问题。相对于传统特征提取算法，我们的算法能大幅度的提升准确度。

当然，这一切才刚刚开始，还有很多工作需要补充。我们想要详细的复杂度分析，特别是在没有GPU可用的场景。我们也想知道所训练的算法在其它数据库上的性能，而且不仅仅局限于PGC视频，也包括UGC视频。

好消息是我们有计划对业界开源模型训练代码，这样能方便所有人去使用自己的数据库训练测试特定视频业务场景。同时，我们也欢迎任何形式的协同开发，不管是贡献数据库，还是贡献预训练模型，甚至是抛出业务场景中所遇到的问题。

致谢

本项目基于腾讯多媒体实验室与北大深圳研究生院李革教授团队高校联合项目。

参考文献

Wang, Haiqiang et al. “VideoSet: A large-scale compressed video quality dataset based on JND measurement.” 2017.
ITU-T P.910. “Subjective video quality assessment methods for multimedia appli- cations. ” 1999.
ITU-R BT.2022. “General viewing conditions for subjective assessment of quality of SDTV and HDTV television pictures on flat panel displays.” 2012.
Wang, Zhou et al. “Image quality assessment: from error visibility to structural similarity.” 2004.
Wang, Zhou et al. “Multiscale structural similarity for image quality assessment.” 2003.
Wolf, Stephen et al. “Video quality model for variable frame delay (VQM-VFD).” 2011.
Zhi, Li et al. “Toward a practical perceptual video quality metric.” 2016.
Phong Vu, et al. “ViS3: an algorithm for video quality assessment via analysis of spatial and spatiotemporal slices.” 2014.
Tran Du, et al. “Learning Spatiotemporal Features with 3D Convolutional Networks.” 2015.
Woojae Kim, et al. “Deep video quality assessor: From spatio-temporal visual sensitivity to a convolutional neural aggregation network.” 2018.
Seshadrinathan, Kalpana, et al. “Motion tuned spatiotemporal quality assessment of natural videos.” 2009.
Phong V Vu, et al. “A spatiotemporal most-apparent-distortion model for video quality assessment.” 2011.

特别声明：本文仅供交流学习 , 版权归属原作者，并不代表蚂蚜网赞同其观点和对其真实性负责。若文章无意侵犯到您的知识产权，损害了您的利益，烦请与我们联系vmaya_gz@126.com，我们将在24小时内进行修改或删除。

û97 ñ36 0 0

数据时代，谁能带上“智慧”信息枢纽王冠?
新基建投资对经济的短期拉动作用有限，但是，对改善供给结构、提高供给质量有重大影响。新基建可以为传统基建高质量发展提供有力支撑，实现传统基
巴黎盛开的樱花 ⋅1529人浏览 ⋅一个月前
移动机器人将怎样推动智能物流变革？
中国的物流GDP占比想从18%下降到发达国家水平，单纯的依靠一种技术、一个平台，都像是泰勒工业改革中的一个基因，供应链市场的繁荣是大趋势
奶茶暖了冬天 ⋅4258人浏览 ⋅一个月前
将裁员50％？大疆创新否认了
近日网络爆出大疆将进行50％的裁员计划，严重的整个销售部门几乎都可以撤编了，同时爆出，大疆对被裁人员基于N+1补偿。不过这一消息随即被大
全网暗恋者 ⋅406人浏览 ⋅一个月前
一文告诉你数控机床未来的发展方向在哪里？
工信部公布了2018年人工智能与实体经济深度融合创新项目名单。据了解，该项目是为了贯彻落实工业和信息化部《促进新一代人工智能产业发展三年
生命一旅程 ⋅2153人浏览 ⋅一个月前
华为对供应链安全担忧的无奈
昨天，日本媒体传出消息，称华为向村田制作所、东芝存储器、京瓷（Kyocera）和罗姆（ROHM）等日本芯片和元器件供应商提出增加智能手机
作业是电脑的小三 ⋅3718人浏览 ⋅一个月前
2020智博会今日在深举行超500家企业掀起“智造“风暴
8月6日，为期三天的2020深圳国际智能装备产业博览会（以下简称“2020智博会”）在深圳国际会展中心（宝安新馆）举行。作为疫情以来深圳
傻萌小学妹 ⋅4298人浏览 ⋅一个月前
为低EMI场景设计的SilentSwitcher系列架构稳压器解决方案
对于汽车、通信以及测试与测量设备等广大系统制造商来说，技术的发展带来了终端功能与性能的大幅提升，其根源在于系统中配备的功能愈加丰富的电子
焒眀荢妑頭昻起唻 ⋅2688人浏览 ⋅一个月前
欧姆龙出展世界大健康博览会，创新布局智慧医疗新基建
为弘扬伟大的抗疫精神，加速疫后经济重振，支持武汉大健康产业发展，九州通医疗器械集团有限公司协办的第二届世界大健康博览会于11月11—11
生活屁颠屁颠的过 ⋅3065人浏览 ⋅一个月前
美《空军杂志》长文：即将到来的无人机“蜂群”
美《空军杂志》2019年4月号刊文，详细介绍和展望了美空军未来无人机蜂群的发展应用。我中心特将此文要点编译如下，以飨读者。虽然最初的作战
阳光温暖空屋 ⋅1226人浏览 ⋅一个月前
新一代PowiGaN技术在LED照明中的应用解析
氮化镓技术（GaN）在LED应用中早已不是什么新鲜事儿，最早GaN的开发初衷就是为LED而生，之后的科研人员才开始基于GaN的高频特性，
淡抹烟熏妆 ⋅3148人浏览 ⋅一个月前
控制系统中采用数值外推并传出方法解决数据延迟问题
1、引言大型航天类项目中多跟踪器互为引导源在任务中经常使用的，某项目控制简图如图1所示。中心站完成同4个测量站之间的双向通讯及指挥控制，
奶茶暖了冬天 ⋅1741人浏览 ⋅一个月前
2019年塑造未来趋势的10个数据预测
回顾过去，很明显这些重大变化中的每一个都是附加的，或者在某种程度上与之前发生的技术颠覆有关。例如，如果没有大数据，人工智能就不会是今天的
全网暗恋者 ⋅55人浏览 ⋅一个月前
风速传感器的特点及应用优势介绍
一、概述：风速传感器的风杯及风标由高强度、高耐候性工程塑料制造，传感器壳体使用ABS工程塑料成形，上下壳体是由橡胶O型圈密封。内置有强抗
一生荒唐 ⋅1449人浏览 ⋅一个月前
中国大陆半导体发展指数报告
一、半导体行业走势分析（8.12-8.18）（一）半导体行业涨跌幅基本情况图1上周全球主要半导体指数涨跌幅上周，费城半导体指数上升1.0
傲世九天 ⋅1028人浏览 ⋅一个月前
2020首届智能+自动化产业链大会在北京召开
11月26日至27日，2020首届智能+自动化产业链大会在北京召开。本届大会由中国自动化产业链联盟(CAIC)、中自联(北京)科技产业发
╯念抹浅笑 ⋅941人浏览 ⋅一个月前
基于粉尘含量传感器和单片机实现扫路车智能喷水控制系统的设计
引言随着城市化进程的加快和“五纵七横”为主骨架的公路网的相继完成，城市道路和公路的清扫、保洁面积不断扩大，清扫保洁任务日趋繁重。以机械化
如花的旋律 ⋅1173人浏览 ⋅一个月前
附图：美国各领域采购机器人比例
核心提示：协会发现，各个领域企业所采购的机器人数量都有所提升：食品和消费品(48%)、塑料和橡胶(37%)、生命科学(31%)、电子产品
╯念抹浅笑 ⋅3032人浏览 ⋅一个月前
805.2亿美元：中国机器人和无人机及相关服务的支出报告
年关将至，IDCFutureScapes近日更新了《全球机器人及无人机支出指南》显示，中国机器人和无人机及相关服务的支出额持续高速增长，
蓝颜子瑜 ⋅4966人浏览 ⋅一个月前
分布直动式电磁阀的结构和特点
分布直动式电磁阀分步直动式电磁阀作为工业过程自动化控制系统的执行元件，通电后能自动开启或关闭阀门，实现对管道中流体介质的通断控制，它广泛
顶个蘑菇闯天下 ⋅4410人浏览 ⋅一个月前
FPGA设计之时钟约束操作
我们以Vivado自带的wave_gen工程为例，该工程的各个模块功能较为明确，如下图所示。为了引入异步时钟域，我们在此程序上由增加了另
焒眀荢妑頭昻起唻 ⋅1154人浏览 ⋅一个月前