Netflix 工程师的生活 —— 40毫秒的案例

Stella981
• 阅读 434

Netflix 工程师的生活 —— 40毫秒的案例

正文字数:3049  阅读时长:4分钟

并非真正使用了 WebRTC,但此处存在使用 WebRTC 技术性质的相似之处。

作者 / John Blair, Netflix Partner Engineering

LinkedIn / https://www.linkedin.com/in/x1jdb/

原文链接 / https://netflixtechblog.com/life-of-a-netflix-partner-engineer-the-case-of-extra-40-ms-b4c2dd278513

Netflix的应用程序可以在数百台智能电视、电视棒和付费电视机顶盒上运行。Netflix的合作工程师的角色是帮助设备制造商在他们的设备上启动Netflix应用程序。在这篇文章中,我们将讨论一个特别困难的问题,它影响了一款设备在欧洲的正常发布。

神秘的开始

2017年底,我参加一个电话会议,其中主要讨论一个关于Netflix应用程序在新机顶盒上启动的问题。box是一款全新的Android电视设备,具有4k播放功能,基于Android开放源码项目(AOSP) 5.0版本,又名“棒棒糖”。我在Netflix工作了几年,过去发布过很多台设备,但这是我推出的第一款Android电视设备。

与该设备相关的四家公司都在此次电话会议中:推出该设备的大型欧洲付费电视公司(运营商)、集成机顶盒固件的承包商(集成商)、系统芯片供应商(芯片供应商)和我(Netflix)。

这家集成机顶盒固件的承包商(集成商)和Netflix已经完成了严格的Netflix认证程序,但在这家电视运营商的内部测试过程中,该公司的一名高管报告了一个严重问题:Netflix在他的设备上播放“结巴(卡顿)”。即视频会播放很短的时间后暂停,接着重新开始,随后又暂停。这种情况并不会一直发生,但肯定会在机顶盒通电后的几天内开始发生。他们提供了一段演示视频,情况看起来很糟糕。

设备集成商找到了重现这个问题的方法:反复启动Netflix,开始播放,然后回到设备的用户界面。他们提供了一个脚本来自动化这个过程,有时这个过程会持续长达五分钟的时间,但是脚本总是能够稳定地重现错误。

与此同时,芯片供应商的一名现场工程师诊断出了根本原因:Netflix的Android电视应用程序Ninja传输音频数据的速度不够快。卡顿是由于设备音频管道缓冲不足引起的。当解码器等待Ninja传送更多的音频流时,播放停止,等待更多的数据到达后恢复播放。集成商、芯片供应商和运营商都认为问题已经确定,他们向我传达的信息很明确:Netflix,你的应用程序中有一个漏洞,你需要修复它。我从通话里听出了压力。他们设备的上线时间推迟了,而且超出了预算,他们期待我的解决方案。

调查

我持怀疑态度。同样的Ninja应用程序在数以百万计的Android电视设备上运行,包括智能电视和其他机顶盒。如果Ninja存在漏洞,为什么它只出现在这款设备上?

我首先使用他们提供的脚本重现了问题,同时联系了芯片供应商的同事,询问他以前是否见过类似的情况(他没有见过)。接下来我开始检查Ninja的源代码,我想找到传输音频数据的那行代码。我认识很多,但我在播放代码中开始不知所措,我需要帮助。

我上楼找到了Ninja编写音频和视频传输代码的工程师,他帮我梳理了代码。我自己花了一些时间研究源代码来理解它的工作部分,并添加了我自己的日志记录来确认我的理解。Netflix应用程序很复杂,简单来说,它从Netflix服务器传输数据,在设备上缓冲数秒的视频和音频数据,然后一次一次地将视频和音频帧发送到设备的播放硬件。

Netflix 工程师的生活 —— 40毫秒的案例

图1:设备播放管道(简化)

让我们花点时间来讨论Netflix应用程序中的音频/视频管道。在每个机顶盒和智能电视上,直到“解码器缓冲区”都是相同的,但是将A/V数据传输到设备的解码器缓冲区是一个特定的程序,在它自己的线程中运行。它的例行工作是通过调用提供音频或视频数据下一帧的API(Netflix提供)来保持解码器缓冲区满状态。在Ninja中,这一任务是由Android线程执行的。有一个简单的状态机和一些逻辑来处理不同的播放状态,但在正常播放下,线程将一帧数据复制到Android播放API中,然后告诉线程调度程序等待15毫秒并再次调用处理程序。当你创建一个Android线程时,可以请求线程重复运行,就像在一个循环中一样,但是调用处理程序的是Android的线程调度程序,不是你自己的应用程序。

60帧/秒是Netflix能播放视频的最高帧率,设备必须每16.66毫秒渲染一个新帧,所以每15毫秒检查一个新样本的速度足以领先于Netflix提供的任何视频流。因为集成商已经确定音频流是问题所在,所以我将注意力集中放在将音频样本传递给Android音频服务的特定线程处理程序上。

我想回答这个问题:额外的时间在哪里?假设罪魁祸首是处理程序调用的某个函数,所以我在处理程序中添加了日志消息,假设错误代码是显而易见的。很快就可以看出,处理程序中没有任何不正常的行为,即使播放不流畅,处理器也能在几毫秒内运行正常。

啊哈,洞察力

最后,我关注了三个数字:数据传输速率,处理程序被调用的时间,以及处理程序将控制权交还给Android的时间。我编写了一个脚本来解析日志输出,并制作了下面的图表,它给出了答案。

Netflix 工程师的生活 —— 40毫秒的案例

图2:可视化音频吞吐量和线程处理器时间

橙色的线是数据从流媒体缓冲区移动到Android音频系统的速率,单位是字节/毫秒。在这张图表中,你可以看到三种不同的行为:

这两个又高又尖的部分,数据速率达到500字节/毫秒。这是在播放开始之前的缓冲阶段。处理程序正在尽可能快地复制数据。

中间的区域是正常播放阶段。音频数据以大约45字节/毫秒的速度传输。

当音频数据以接近10字节/毫秒的速度传输时,卡顿区域在右侧。速度还不够快,无法维持正常播放。

不可避免的结论是橙色线证实了芯片供应商工程师的报告:Ninja传输音频数据的速度不够快。

为了理解这其中的原因,让我们看看黄线和灰线又说明了哪些问题。

黄色的线显示花费在处理程序本身的时间,根据处理程序顶部和底部记录的时间戳计算。在正常播放和卡顿的区域,处理程序花费的时间是相同的:大约2毫秒。峰值显示由于在设备上其他任务花费了时间而导致Ninja传输音频数据的速度不够快。

真正的原因

灰色的线是两次调用处理程序之间的时间,它说明了不同的情况。在正常播放的情况下,你可以看到处理程序大约每15毫秒被调用一次。在播放卡顿的情况下,在右侧大约每55毫秒调用一次处理程序。调用之间有额外的40毫秒,没有办法跟上播放的速度。但这是为什么呢?

我把我的发现告诉了集成商和芯片供应商 (看,这是Android线程调度程序!),但他们对这一发现并不感冒。为什么不在每次调用处理程序时复制更多的数据呢?这是一个合理的质疑,但改变这种行为涉及更深层次的变化,超出了我的准备,我继续寻找根本原因。我深入研究了Android源代码,了解到Android线程是一个用户空间结构,线程调度程序使用epoll()系统调用进行计时。我知道epoll()的性能不能得到保证,所以我怀疑有什么东西以系统的方式影响epoll()。

就在这时,芯片供应商的另一位工程师救了我,他发现了一个漏洞,这个漏洞在下一个名为“棉花糖”(Marshmallow)的Android版本中已经修复了。Android线程调度程序根据应用程序是在前台运行还是在后台运行来改变线程的行为。后台线程被分配额外的40毫秒(4000万ns)的等待时间。

Android系统本身的一个深层漏洞意味着当线程移动到前台时,这个额外的定时器值被保留。通常音频处理线程是在应用程序处于前台时创建的,但有时线程是在Ninja仍然在后台时创建的。当这种情况发生时,播放就会卡顿。

经验教训

这并不是我们在这个平台上修复的最后一个漏洞,但却是最难追踪的一个。它在Netflix应用程序之外,在播放线程之外的系统部分,所有的初始数据都表明Netflix应用程序本身存在缺陷。

这个故事确实体现了我热爱这份工作的一个方面:我不能预知我们的合作伙伴会向我抛出的所有问题,要解决这些问题,我必须了解多个系统,与优秀的同事合作,并不断督促自己学习更多知识。我所做的事直接影响着现实中的人们以及他们的用户体验。我知道,当人们在客厅里享受Netflix时,我是Netflix团队中不可或缺的一员,是我们让这一切成为现实。

LiveVideoStackCon 2021 ShangHai

这个世界没有准备好这一说

机会和技术不会主动敲开你的门

Netflix 工程师的生活 —— 40毫秒的案例

LiveVideoStackCon 2021 上海站

北京时间:2021年4月16日-4月17日

点击 【阅读原文】 了解大会详情

本文分享自微信公众号 - LiveVideoStack(livevideostack)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Karen110 Karen110
2年前
一篇文章带你了解JavaScript日期
日期对象允许您使用日期(年、月、日、小时、分钟、秒和毫秒)。一、JavaScript的日期格式一个JavaScript日期可以写为一个字符串:ThuFeb02201909:59:51GMT0800(中国标准时间)或者是一个数字:1486000791164写数字的日期,指定的毫秒数自1970年1月1日00:00:00到现在。1\.显示日期使用
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这