本文共 9173 字,大约阅读时间需要 30 分钟。
移动视频直播经过2016年的井喷期,已经进入下半场,大家的关注点已经从如何构建完善的直播平台的粗放增长阶段,转入精细化运营阶段。如何在巨大的流量、复杂的应用场景、复杂的网络条件下,持续优化用户体验,是业界十分关注的话题。
\\快手拥有5亿注册用户,单个直播间人数峰值已经超过180万,他们针对海量用户,基于大数据技术,在首屏和流畅度优化上做了大量的探索与实践。快手直播是如何设计全链路质量监控方案、如何搭建大数据处理Pipeline 、如何解决开播跳帧、首屏卡顿优化等问题的?本文干货满满,全面解密快手直播大数据技术架构与优化实践。
\\注:文章整理了快手软件工程师罗喆在ArchSummit深圳2017上的演讲,原题为《快手在大数据驱动下的直播体验优化》,感兴趣的读者可点击 链接观看罗喆老师现场演讲视频。
\\ \\\\\\大家下午好,我是罗喆,来自快手,过去的一年多我在快手做直播的体验优化相关的工作。今天给大家分享的主题是快手如何在大数据的驱动下来优化直播的质量。
\\加入公司这一年多,公司的注册用户和日活每天都刷新峰值,到现在,快手的注册用户已经超过5亿,短视频数量已经超过了int32所能存储的数字的上限,也就是21个亿,日活跃用户数也已经达到6500万,而且还处于高速增长的趋势之中。
\\快手的直播业务2016年初上线,我们的直播业务和别的直播平台很不一样,那就是快手的直播是面向普通人的直播,而不是只有网红大V;快手的直播内容,也大多是常见的生活场景,非常多样化,这样的模式也决定了快手直播需要考虑的业务场景更复杂。
\\目前,快手的直播业务量迅速增长,单个直播间的观看人数峰值,最高时超过了百万人。(8月7日,在用户“MC天佑”的直播中,快手单个直播间同时在线人数最高超过了180万。)那么,我们是如何在庞大的用户基数下保证直播的流畅度呢?我将从四个方面进行解析。
\\快手直播有四个显著的特点,这些特点给快手带来了机遇,也让我们面临着巨大的挑战:
\\针对线上纷繁复杂的直播体验问题,快手视频团队在实践过程中总结出了一套数据驱动的优化方法论,归纳一下有三点:
\\这套方法论的基础是数据,那么,快手直播到底用到哪些数据,怎么判断用户的播放体验是否OK呢?下面先介绍一下快手的直播系统端到端的处理流程:视音频信号实时采集,经过预处理和音视频编码,封装发送到CDN源站,播放端从CDN边缘拉到数据,然后进行解码,经过音视频同步之后,给观众展现出来。
\\ \\我们在推流端和播放端分别做了非常完善的质量监测体系。
\\ \\我们再来看看拉流(播放)端,拉流端整体的流程和推流端是一个反过来的流程。
\\ \\这些复杂的过程在用户点击一个直播之后,绝大部分情况下在几百毫秒以内就会完成,我们也进一步分解了首帧各个环节的时间,能够对它进行深入的分析和优化。
\\在提取了详细的质量数据之后,接下来就是后端处理的事情了,我将从直播质量数据处理Pipeline、用户体验质量数据\u0026amp;服务质量数据、数据可视化监测流程三个角度为大家全面解析快手是如何发现直播当中的问题,以及是如何解决的。
\\下图是快手现在所使用的直播数据处理Pipeline,可以很清晰的看到整个流程为数据采集→数据缓存→数据分类处理→数据索引/展示。
\\ \\我们具体看看这个流程的工作细节,数据从快手APP收集,然后经过上报服务器的简单处理之后,会存到Kafka的Topic里面,Kafka是非常可靠的数据队列服务,只要Kafka的机群够多,即使部分机器宕了数据都不会丢的;接下来,Kafka的数据会分出两条处理路径:
\\快手每天经过这个系统处理的直播相关的数据,在百亿条的量级,直播相关的所有的数据展示和监控都依赖于这整个Pipeline,要在分钟级要求下,支持各种业务查询需求,保证系统的平稳运行,是很不容易的。
\\采集到了数据并且对数据进行清洗入库之后,怎么去分析数据呢?我们把数据可视化的监测分为两类:
\\我们以下图的“进入房间人数”和“退出房间人数”分析,说明一下我们是怎么做联合QoE数据和QoS数据进行监测和分析的。
\\ \\首先看看QoE数据,左上角是快手某次直播房间的同时在线人数曲线,在直播过程中在线人数有一个“掉坑”的现象,右下角的“退出房间人数”曲线显示在九点三十多分有一个峰值,说明有大量用户退出房间,我们推测这里可能发生了某些问题导致了观看人数的大量减少,有可能是非技术性的,比如主播做了一件事情观众们不太喜欢,会导致观众大量流失。
\\奇怪的是,右上角的“进入房间人数”曲线显示,进入房间在同样时刻也有一个峰值,这个时候说明虽然有大量用户退出了房间,但是同时也大量的进入了该房间。
\\这里我们可以通过QoE数据得出一些结论,这一次观众大量退出,应该不是由于直播内容导致的,而是快手的直播服务有问题导致的,因为观众大量退出同时也大量进入,是因为观众觉得重新打开直播可能可以解决问题,退出直播并不是因为他们不再想看这个直播了 。
\\为了证实这个判断,我们观测QoS数据曲线。下图两条曲线是所有CDN节点进入房间人数曲线和退出房间曲线,可以看到在用户大量退出的时候,基本上各个CDN节点都会有大量的退出和进入,而不是只有少数节点才有这个行为,这样就可以进一步判断应该不是个别拉流节点的问题的问题,极有可能是主播推流发生了问题。
\\ \\之后我们联合CDN把主播的录像和推流曲线拿到之后,基本上可以断定主播当时的网络发生了抖动,导致短暂的卡顿,之后又立刻恢复,短暂的卡顿导致观众大量退出直播间。
\\从这个例子我们可以看出QoE的指标是一个综合衡量指标,它很直观,虽然并不能直接对应到QoS服务质量指标,但我们可以通过它来全局监控,判断是技术还是内容原因出现了体验问题,如果是技术原因,我们再去详细的查看QoS指标的时候就可以查出问题的根源。
\\接下来,我将通过开播跳帧优化和httpDNS首屏优化两个例子,以实例说明如何利用大数据做直播系统调优。
\\拉流端开播的过程,如前面所述,主要是连接CDN节点拉取数据,数据的解码、渲染这几个步骤。CDN的边缘节点一般都会缓存一部分数据,便于拉流端在任何时刻开始拉流都能拉到数据。
\\为了让用户尽可能的播放流畅,CDN会尽量的向用户多发一些数据,有时候甚至超过播放端拉流的缓冲区,超过的这部分数据会造成的显著问题是,如果照单全收并且按照正常的速度播,会导致直播延时增大,互动效果变差。
\\业界公认的互动直播延时标准是小于5秒钟,超过5秒评论礼物互动效果就会变差。因此我们需要在保证延迟的前提下,尽量缩短首屏,提高流畅度。
\\ \\如上图,拉流端接收缓冲区长度一般等同于延时,我们把它的长度设置为5s,如果CDN下发的数据大于了接收缓冲区的长度,假设超过的部分是4秒,那么如果不做任何处理,正常播放的延时是5秒加4秒等于9秒,9秒的延时在直播过程中基本上没办法做评论或者交互,体验很差。于是我们一开始尝试从客户端来单独解决这超出的部分数据导致的问题。
\\我们尝试了两种的解决办法:直接快进和跳帧,直接快进的方案就是将超过的部分数据快速的播放过去,视频和声音都被加速播放了,这个方案上线之后很快就收到了用户的投诉,怀疑快手的直播是假直播,真正的直播怎么会出现“快进”的现象。
\\然后我们修改了方案,将超出的部分数据直接跳过不进行播放,但是这又带来了新的问题,直接跳帧会导致用户的声音和画面出现突变,主播可能从画面的左边突然出现在画面的右边,体验也不是很好。总之,只在客户端做优化无法做到体验的最优。
\\由于导致这个问题的真正原因是CDN下发数据过多导致的,为了做到最优的体验,必须和CDN联合优化。这时,快手的多CDN策略带来一个新的问题:各家CDN开播下发数据的策略完全不同, 在开播时下发的数据长度都不一样,很难定量的评价哪一家CDN做的更好一些。
\\于是制定统一的评价标准成为第一个要解决问题,这里快手使用“开播前10秒跳帧时长”作为衡量CDN下发数据长度的标准,具体是指拉流端播放的前10秒内丢弃数据的总时长。
\\ \\在制定统一的评价标准之后,通过线上数据观察各家CDN的跳帧指标,尝试让各CDN优化自己的指标,尽量接近最优的那一家。但是由于各CDN的开播策略都大不相同,可配置参数也完全不一样,不同的CDN之间很难做到数据完全一致。而且即使是指标最优的CDN也无法将开播前10s调整时长调整到让快手满意的程度。
\\于是,统一各家CDN开播数据下发策略成为第二个要解决的重要问题。
\\ \\我们设计了一套统一的开播数据下发策略,让各家CDN都按照这个方案来实现。该方案总的来说遵循三个原则:1.下发数据长度不能超过快手拉流端接受缓冲区长度 2.必须从一个GOP(Group of Pictures)的开始下发 3.在不违背前面两点的情况下,下发尽可能多的数据。上图是两个根据服务端缓存的不同GOP结构,决定下发数据策略的实际case,假设快手拉流端接收缓冲区长度是5秒:
\\制定了统一的开播数据下发策略之后,在多家CDN分别上线灰度,对比观察各家CDN覆盖节点和未覆盖节点的数据,然后逐步扩大灰度范围直至全量上线。对比优化前的日均值,开播前10s跳帧时长从1500ms降低至200ms。
\\ \\经过上一轮的CDN端优化之后,观察全网的开播跳帧数据,各家CDN的指标保持在相同的水平(开播10秒平均跳帧200ms左右),基本可以判断CDN端的优化已经到了瓶颈,客户端能否进一步优化解决掉最后的200ms呢?这里快手使用了缓慢快进的方案:将多余的200ms在用户无感知的情况下,进行加速播放,控制缓冲区的大小。
\\只要将加速程度控制在一定范围内,用户基本是没有察觉的,而正常播放时长为200ms的数据,经过加速,能很快的播放完,之后就恢复成正常速度播放,这样就保证了不会再有跳帧的现象,最后的AB TEST数据显示开播跳帧时长完全为0,而卡顿情况也有比较明显的降低。
\\ \\在解决了开播跳帧的问题之后,我们来回顾一下开播跳帧优化的整个过程:
\\在这整个过程中可以明显看到对快手整个数据平台的测试监控和统计的依赖,无论是评价CDN的质量,还是CDN优化后的对比测试,客户端的AB TEST效果验证,都需要观察对比全网的数据,才能确认优化效果,证明确实完美解决了跳帧问题。
\\ \\我们要分享的第二个优化点是首屏的优化,首屏的整个过程,大致可以分为下图的这六个步骤,快手对各步骤的耗时做了详尽的分析,分析结果显示,DNS解析其中是最耗时的环节,因此要降低首屏时间,必须先降低DNS解析时间。
\\ \\传统的DNS解析(业界统称localDNS方案)的过程很简单。整个过程如下图,APP向所在网络运营商的DNS Server发起域名解析的请求,而运营商DNS Server会向CDN的GSLB系统发起递归查询,GSLB通过运营DNS Server所属IP地址判断查询来自于哪个运营商和地理位置,然后返回若干合适的CDN边缘节点IP给它。
\\ \\这个过程中,APP和CDN之间隔了运营商DNS Server这一层,CDN在分配节点的时候其实没有办法获取任何APP的信息。为了解决传统localDNS调度不精确,容易被劫持等缺点,近年业界起兴起了另一种方案httpDNS。其原理是APP通过HTTP协议直接调用CDN提供的httpsDNS API,获取一组合适的边缘节点IP。这两种方案互有优劣:
\\localDNS和httpDNS各有优劣,而且都有一定的失败率,为了提升DNS解析的成功率,快手的DNS解析方案是localDNS和httpDNS结合使用。
\\ \\为了结合localDNS和httpDNS的优点,并且考虑到解析返回的多个CDN边缘节点的优选,快手设计了独特的DNS解析方案:
\\于是我们对IP优选方案进行了进一步优化,测速后并不是直接选用结果最优的那一个,而是在测试结果可以接受的一定范围内进行随机挑选,这样就避免了大量用户都聚集到少数节点,导致的节点负载不均衡。
\\ \\对这个优化方案进行AB TEST,质量数据完全符合预期:
\\ \\首屏时间下降了30%,卡顿也有明显改善,节点优选的策略使得连接失败率也下降了2个百分点!一个为了优化首屏而提出的策略,对多个指标都有如此明显的正向影响,是我们一开始没有预料到的。
\\快手的直播业务现在还处于高速发展之中,对流媒体大数据分析平台也提出了新的挑战:
\\为了应对这些挑战,我们会持续加强投入,完善数据方面的核心能力。
\\在大数据平台之上,从整个直播体验优化层面来看,为了真正做到用户体验的端到端可控,我们需要有能力深入所有环节监测和调优,因此快手将建设核心技术能力作为下一步优化的基础:
\\快手的直播业务仍在高速增长,用户数量快速的上涨对服务质量有更高的要求,流媒体大数据平台是各项视频业务的一个基础平台,需要提供完善且稳定的数据收集,数据处理,数据监控,数据分析等服务。
\\为了应对业务挑战,我们会持续扩充完善数据基础架构,扩张相关技术团队,欢迎更多有大数据平台实战经验,对流媒体大数据分析和优化感兴趣的牛人加入快手的视频技术团队。相信在未来,快手的流媒体大数据平台能更好的服务用户,达成快手记录世界的愿景。
转载地址:http://ekdfo.baihongyu.com/