对话声网视频算法工程师郑林儒：视频质量评价方法的最优解

在我们每天的日常生活中充斥着大量的视频内容，而用户对于视频画质在不同场景下又有着不同要求。对此，我们很荣幸地邀请到了来自声网的视频算法工程师郑林儒老师，来和我们聊一聊为了满足用户需求，针对不同场景选取哪种视频质量评价方法才是最优解。

郑林儒声网视频算法工程师

郑林儒，声网视频算法工程师。上海大学工学硕士，现于声网视频算法部门担任算法工程师。主要负责图像、视频质量与视频QoE评估，模型压缩以及视频编解码等研究，推动相关模型在移动端的应用。

LiveVideoStack：郑老师好，欢迎您接受LiveVideoStack的采访，请您先和大家介绍下自己吧。

郑林儒： 大家好，我是来自声网视频算法团队的郑林儒。硕士毕业于上海大学，研究方向是屏幕图像质量评价，毕业后在声网也是继续拓展相关研究与开发。

LiveVideoStack：方便为大家介绍下您目前关注的一些技术、研究，或者是重点负责的一些工作项目？

郑林儒： 现在主要负责图像、视频质量与视频QoE评估、网络模型压缩以及视频编解码等研究，推动相关模型在移动端的应用落地。关注的技术比较广泛，比如：视频增强，感知视频编码以及RTC中深度学习模型落地避免不了的轻量化问题。

LiveVideoStack：整体大环境的影响使得实时通信技术被广泛应用于不同业务场景及产品当中，在实时视频通信场景下，影响最终用户体验质量的一些关键因素有哪些？

郑林儒： 从视频采集的时候，可能会出现异常曝光、摄像头噪声、摄像头抖动以及画面模糊等问题；通过编码传输和解码渲染可能会出现压缩失真、花屏、卡顿和端到端延时等问题；同时，一些研究也涉及了用户观看设备硬件的影响。上述出现的问题会给用户主观上造成体验下降。针对不同场景下，用户对这些问题感知上也会有差异，在视频会议的屏幕共享场景中，用户可能希望更高的画质而对帧率要求不高，而在赛事、游戏直播上用户可能更多的是希望有一个流畅的体验。

LiveVideoStack：目前常见的一些主观和客观视频质量评价的方法和模型有哪些？它们在指标的定义量化、数据收集和评价结果计算等方面分别具有哪些差异化特性？

郑林儒： 目前业内常用的主观视频质量评估方法采取单激励、双激励评测，而现在画质增强评测任务中更多的是两两比较，用JND评分来评价增强视频与原始视频的画质差异。客观视频质量评价算法一般根据使用场景分为有参考（FR-VQA）和无参考（NR-VQA），FR-VQA通常用于量化对参考（无失真）视频处理后的失真水平，一般有PSNR、SSIM、VMAF以及LPIPS等。PSNR由于是点对点的计算差异，所以更多是一种像素变化程度的量化；SSIM评估的是失真对于图像结构的影响，量化是结构相似度；VMAF则考虑了图像保真度以及帧间的运动信息；LPIPS是一个深度学习模型，用于量化两幅图片之间感知差异，是较为贴近主观的FR-VQA指标。FR-VQA目前发展比较成熟，且应用场景有限，业内更多的是对NR-VQA的探索。NR-VQA由于受限于所训练的数据集分布，所以业内显有通用模型。一般从视频内容生成角度会分成UGC与PGC，从视频内容角度会分成自然场景视频与屏幕内容视频，从视频形式可以分为普通视频、360°全景视频和3D视频等等。学术界常用来对比普通视频的NR-VQA有基于图像统计特征的BRISQUE和基于深度学习的VSFA，在泛化性能上VSFA更胜一筹。

LiveVideoStack：目前传统的一些客观质量评价算法可能有一定的局限性，具体体现在哪些方面？

郑林儒： 传统FR-I/VQA算法关键在于所设计的特征能否很好量化各种视频失真对观众主观造成的影响，但受限于传统特征的泛化能力与运算效率，通常这类算法面对实际场景通常预测效果较差，以VMAF为例，它的局限性体现在两个方面：1、所利用的特征更多是针对有参考视频的PGC视频设计的，如果评估其他类型视频则会不适用；2、所利用的特征本身计算复杂度较高，且较难在原理上进行简化优化。

传统NR-I/VQA算法虽然拟合通过主观评测得到的MOS分，但由于所设计的特征与HVS差异较大且不够鲁棒，所以还没有相关算法在工业界得到检验。

可以看到，传统I/VQA算法由于线上场景和运算资源的限制，很难进行线上部署。

LiveVideoStack：传统的QoE算法与端到端的QoE模型之间的区别是什么？

郑林儒： 传统QoE算法通常利用视频编码、网络传输等参数拟合观众的主观感受，但是这样的建模方式不涉及视频内容本身，所以不能很好地量化当前视频内容对于观众的实际体验。而端到端（基于深度学习）QoE模型可以认为是一个从内容到感知的黑盒，相对传统算法更合理，同时也更适合部署在整个实时视频通讯的链路。

当前业内还没有一个成熟可用的实时通信视频QoE模型，学术界会有一些探索。他们之间的区别可以用传统、端到端VQA模型类比，端到端模型泛化能力更佳，而且可以借鉴业内小模型设计与压缩方法加速模型推理同时可以维持一定预测效果。另一方面，端到端模型QoE模型可以嵌入基于深度学习的其他处理模块，为其提供有效监督信息，从而可以进行调优。比如，端到端QoE模型用于时空超分模型后实时追踪用户的体验，并反馈传输系统以及时空超分模型可以用最少的带宽、运算资源最大化用户体验。

LiveVideoStack：端到端QoE模型目前面临的一些难点和挑战有哪些？是否也同样存在一定的局限性？

郑林儒： 一般任务端到端模型的困难与挑战有共同之处，如：数据集的获取和标注、模型结构与损失函数设计以及模型端上优化。首先标注过程合理性决定了至关重要的数据质量，所以针对不同视频评估场景设计合理主观评测流程很重要；其次从分类模型的演变：VGGNet到ResNet，模型结构的设计会影响效果；然后由于QoE任务的复杂性，设计针对其任务特点的损失函数也是必不可少的环节；最后，由于端到端QoE模型用于实时反馈客户端用户主观体验，所以需要在较小的运算代价下实现模型推理，那就要求在模型复杂度与模型性能之间要做好平衡，这里端上部署的局限性相对于传统算法会好很多。

LiveVideoStack：看到您将参与LiveVideoStackCon 2022 北京站大会，可以给我们稍稍透露您将会分享哪些内容呢？

郑林儒： 主要围绕着实时视频端上QoE建模这个主题，首先会介绍一些影响视频通讯主观体验的因素；然后针对这些影响因素声网现阶段建立了一些数据库；接着对于视频画质评估建立一个端到端模型；随后考虑到端上模型运行的实时性，介绍了当前主流的深度学习模型加速方法；最后介绍我们RTE-QoE探索的现状与对未来的展望。

LiveVideoStack：好的，感谢您接受采访，期待您在11月北京站大会上的精彩分享。