对话声网视频算法工程师郑林儒:视频质量评价方法的最优解

循循善诱
• 阅读 650

在我们每天的日常生活中充斥着大量的视频内容,而用户对于视频画质在不同场景下又有着不同要求。对此,我们很荣幸地邀请到了来自声网的视频算法工程师郑林儒老师,来和我们聊一聊为了满足用户需求,针对不同场景选取哪种视频质量评价方法才是最优解。

对话声网视频算法工程师郑林儒:视频质量评价方法的最优解

郑林儒 声网 视频算法工程师

郑林儒,声网视频算法工程师。上海大学工学硕士,现于声网视频算法部门担任算法工程师。主要负责图像、视频质量与视频QoE评估,模型压缩以及视频编解码等研究,推动相关模型在移动端的应用。

LiveVideoStack:郑老师好,欢迎您接受LiveVideoStack的采访,请您先和大家介绍下自己吧。

郑林儒: 大家好,我是来自声网视频算法团队的郑林儒。硕士毕业于上海大学,研究方向是屏幕图像质量评价,毕业后在声网也是继续拓展相关研究与开发。

LiveVideoStack:方便为大家介绍下您目前关注的一些技术、研究,或者是重点负责的一些工作项目?

郑林儒: 现在主要负责图像、视频质量与视频QoE评估、网络模型压缩以及视频编解码等研究,推动相关模型在移动端的应用落地。关注的技术比较广泛,比如:视频增强,感知视频编码以及RTC中深度学习模型落地避免不了的轻量化问题。

LiveVideoStack:整体大环境的影响使得实时通信技术被广泛应用于不同业务场景及产品当中,在实时视频通信场景下,影响最终用户体验质量的一些关键因素有哪些?

郑林儒: 从视频采集的时候,可能会出现异常曝光、摄像头噪声、摄像头抖动以及画面模糊等问题;通过编码传输和解码渲染可能会出现压缩失真、花屏、卡顿和端到端延时等问题;同时,一些研究也涉及了用户观看设备硬件的影响。上述出现的问题会给用户主观上造成体验下降。针对不同场景下,用户对这些问题感知上也会有差异,在视频会议的屏幕共享场景中,用户可能希望更高的画质而对帧率要求不高,而在赛事、游戏直播上用户可能更多的是希望有一个流畅的体验。

LiveVideoStack:目前常见的一些主观和客观视频质量评价的方法和模型有哪些?它们在指标的定义量化、数据收集和评价结果计算等方面分别具有哪些差异化特性?

郑林儒: 目前业内常用的主观视频质量评估方法采取单激励、双激励评测,而现在画质增强评测任务中更多的是两两比较,用JND评分来评价增强视频与原始视频的画质差异。客观视频质量评价算法一般根据使用场景分为有参考(FR-VQA)和无参考(NR-VQA),FR-VQA通常用于量化对参考(无失真)视频处理后的失真水平,一般有PSNR、SSIM、VMAF以及LPIPS等。PSNR由于是点对点的计算差异,所以更多是一种像素变化程度的量化;SSIM评估的是失真对于图像结构的影响,量化是结构相似度;VMAF则考虑了图像保真度以及帧间的运动信息;LPIPS是一个深度学习模型,用于量化两幅图片之间感知差异,是较为贴近主观的FR-VQA指标。FR-VQA目前发展比较成熟,且应用场景有限,业内更多的是对NR-VQA的探索。NR-VQA由于受限于所训练的数据集分布,所以业内显有通用模型。一般从视频内容生成角度会分成UGC与PGC,从视频内容角度会分成自然场景视频与屏幕内容视频,从视频形式可以分为普通视频、360°全景视频和3D视频等等。学术界常用来对比普通视频的NR-VQA有基于图像统计特征的BRISQUE和基于深度学习的VSFA,在泛化性能上VSFA更胜一筹。

LiveVideoStack:目前传统的一些客观质量评价算法可能有一定的局限性,具体体现在哪些方面?

郑林儒: 传统FR-I/VQA算法关键在于所设计的特征能否很好量化各种视频失真对观众主观造成的影响,但受限于传统特征的泛化能力与运算效率,通常这类算法面对实际场景通常预测效果较差,以VMAF为例,它的局限性体现在两个方面:1、所利用的特征更多是针对有参考视频的PGC视频设计的,如果评估其他类型视频则会不适用;2、所利用的特征本身计算复杂度较高,且较难在原理上进行简化优化。

传统NR-I/VQA算法虽然拟合通过主观评测得到的MOS分,但由于所设计的特征与HVS差异较大且不够鲁棒,所以还没有相关算法在工业界得到检验。

可以看到,传统I/VQA算法由于线上场景和运算资源的限制,很难进行线上部署。

LiveVideoStack:传统的QoE算法与端到端的QoE模型之间的区别是什么?

郑林儒: 传统QoE算法通常利用视频编码、网络传输等参数拟合观众的主观感受,但是这样的建模方式不涉及视频内容本身,所以不能很好地量化当前视频内容对于观众的实际体验。而端到端(基于深度学习)QoE模型可以认为是一个从内容到感知的黑盒,相对传统算法更合理,同时也更适合部署在整个实时视频通讯的链路。

当前业内还没有一个成熟可用的实时通信视频QoE模型,学术界会有一些探索。他们之间的区别可以用传统、端到端VQA模型类比,端到端模型泛化能力更佳,而且可以借鉴业内小模型设计与压缩方法加速模型推理同时可以维持一定预测效果。另一方面,端到端模型QoE模型可以嵌入基于深度学习的其他处理模块,为其提供有效监督信息,从而可以进行调优。比如,端到端QoE模型用于时空超分模型后实时追踪用户的体验,并反馈传输系统以及时空超分模型可以用最少的带宽、运算资源最大化用户体验。

LiveVideoStack:端到端QoE模型目前面临的一些难点和挑战有哪些?是否也同样存在一定的局限性?

郑林儒: 一般任务端到端模型的困难与挑战有共同之处,如:数据集的获取和标注、模型结构与损失函数设计以及模型端上优化。首先标注过程合理性决定了至关重要的数据质量,所以针对不同视频评估场景设计合理主观评测流程很重要;其次从分类模型的演变:VGGNet到ResNet,模型结构的设计会影响效果;然后由于QoE任务的复杂性,设计针对其任务特点的损失函数也是必不可少的环节;最后,由于端到端QoE模型用于实时反馈客户端用户主观体验,所以需要在较小的运算代价下实现模型推理,那就要求在模型复杂度与模型性能之间要做好平衡,这里端上部署的局限性相对于传统算法会好很多。

LiveVideoStack:看到您将参与LiveVideoStackCon 2022 北京站大会,可以给我们稍稍透露您将会分享哪些内容呢?

郑林儒: 主要围绕着实时视频端上QoE建模这个主题,首先会介绍一些影响视频通讯主观体验的因素;然后针对这些影响因素声网现阶段建立了一些数据库;接着对于视频画质评估建立一个端到端模型;随后考虑到端上模型运行的实时性,介绍了当前主流的深度学习模型加速方法;最后介绍我们RTE-QoE探索的现状与对未来的展望。

LiveVideoStack:好的,感谢您接受采访,期待您在11月北京站大会上的精彩分享。


对话声网视频算法工程师郑林儒:视频质量评价方法的最优解

点赞
收藏
评论区
推荐文章
布袋罗汉 布袋罗汉
2年前
TunesKit AceMovi Video Editor for mac(视频编辑工具)
TunesKitAceMoviVideoEditor是一款易于使用且功能强大的视频编辑软件,可以帮助用户编辑和制作各种类型的视频,如电影、音乐视频、Vlog等。视频剪辑:可以帮助用户剪辑、裁剪、分割和合并视频,以满足用户不同的视频编辑需求。视频效果:提供了
Stella981 Stella981
4年前
Javascript判断Video视频播放、暂停、结束完成及获取长度事件监听处理
在日常应用场景中,可能会遇到这么一个情况,需要判断用户是否完整的观看完了一部视频,在这个场景中,和视频相关的事件大体涉及到几个部分,获取视频长度,视频开始播放,暂停播放和播放结束,下面来看下如何通过JavaScript来监听获取视频的这几种状态。html页面视频标签大体如下:<video id\"video" controls\"controls
Wesley13 Wesley13
4年前
H264码流处理详解
 码流(DataRate)是指视频文件在单位时间内使用的数据流量,也叫码率,是视频编码中画面质量控制中最重要的部分。同样分辨率下,视频文件的码流越大,压缩比就越小,画面质量就越好。一、简介H.264的主要目标:1.高的视频压缩比2.良好的网络亲和性解决方案:(1)VCLvideocodinglayer视频编码层。VCL:核心算法引擎,块
Wesley13 Wesley13
4年前
Android端实现多人音视频聊天应用(二):多人视频通话
作者:声网用户,资深Android工程师吴东洋本系列文章分享了基于AgoraSDK2.1实现多人视频通话的实践经验。在上一篇《Android多人视频聊天应用的开发(一)一对一聊天》中我们学习了如何使用声网AgoraSDK进行一对一的聊天,本篇主要讨论如何使用AgoraSDK进行多人聊天。主要需要实现以下功能:1.上一篇已经实
Stella981 Stella981
4年前
LiveVideoStack线上分享第五季(十三):高性能视频硬件编码
面向4G/5G场景下视频业务的爆发以及用户对于更高画质的要求(直播、短视频、视频点播等业务),更高清的画质意味着需要更大的计算资源以及网络带宽资源,而海量用户侧的画质提升/宽带降低,会导致前端以及视频平台厂商带宽的线性增长,增加运营开销。基于高性能视频编解码技术的解决方案,可以实现高清画质更快的压缩速度、更少的带宽消耗,使得视频内容生产方及运营平台,在满足用
Stella981 Stella981
4年前
Serverless 实现视频压缩与格式转换
在Serverless架构的应用案例中,有这样一个非常实在的应用:视频的处理。腾讯云的函数计算平台对这个领域的描述:视频应用、社交应用等场景下,用户上传的图片、音视频的总量大、频率高,对处理系统的实时性和并发能力都有较高的要求。例如:对于用户上传的视频短片,我们可以使用多个云函数对其分别处理,对应不同的清晰度(1080p、720p等),以满足
王炸婚恋源码!1v1音视频+多人派对,支持二开无套路交付o
王炸婚恋源码核心功能与优势分析一、核心功能亮点1v1音视频互动实时连麦:支持语音、视频两种形式,用户可自由切换,满足不同场景需求(如私密聊天、视频相亲)。高清流畅:采用H.264编码技术,优化视频压缩与传输效率,确保低延迟、高画质,即使万人在线也能稳定运行
公孙晃 公孙晃
2年前
Red Giant Magic Bullet Suite for Mac:红巨人调色降噪插件
是一款专业的视频调色插件套装,由RedGiant公司出品。该插件套装包含了多种工具和滤镜,可以帮助用户轻松实现高质量的视频颜色校正和调整。它可以满足各种视频制作需求,支持AdobePremiere、FinalCutPro以及其他主流的视频编辑软件。Magi
燕青 燕青
2年前
Perfectly Clear Video for Mac:ai智能视频清晰化处理工具
是一款基于人工智能技术的视频增强工具,它能够帮助用户提升视频质量,并呈现出令人惊叹的画面效果。该工具针对Mac操作系统进行设计,通过先进的图像处理算法和人工智能技术,能够实现对视频的多种优化功能。PerfectlyClearVideo具有直观简洁的用户界面
流浪剑客 流浪剑客
2年前
Macos 视频清晰化处理工具:Perfectly Clear Video for Mac 支持M1
是一款先进的视频增强软件,它使用先进的算法自动调整和增强视频,在几秒钟内提高其质量和清晰度。该软件可以应用色彩校正、锐化、降噪和其他调整来创建高质量的视频输出。PerfectlyClearVideo适用于各种类型的视频,包括在移动设备、数码单反相机、运动相