视频编码标准发展史

2016年，短视频应用崭露头角，并进入持续爆发式增长阶段；2019年3月1日，工业和信息化部、国家广播电视总局、中央广播电视总台联合发布《超高清视频产业发展行动计划（2019-2022年）》，大力推进超高清视频产业发展和相关领域的应用；同年，电商直播开始引领新的消费模式；2020年初，视频会议火遍全球；2021年央视春节联欢晚会将首次采用8K超高清视频进行呈现，同时融入多种虚拟现实、增强现实技术的运用，为观众带来巨大的视听震撼体验。同时，根据思科公司的预测，到2022年，在线视频将占所有消费者互联网流量的82％以上，将是2017年的15倍。以上的种种现象和数据表明：视频已经在人们的日常工作和生活中无处不在，不仅用于娱乐休闲购物等等，并且正逐步替代文字成为人们获得知识和资讯的最重要方式。

这些应用的背后是一系列非常复杂的技术，其中最核心、最基础的技术之一是视频编码/压缩技术。视频信号的数据量极大。以超高清（Ultra-High-Definition, UHD）视频为例，分辨率为3840×2160像素，帧率为60（即每秒有60幅图像），那么未经压缩的1秒视频的数据量超过119.4亿比特（3840×2160像素/图像×24bits/像素×60图像/秒）。这么巨大的数据量，不经过压缩直接传输和存储视频信号几乎是无法实现的。而经过压缩之后，在基本不影响视觉感受的前提下，视频信号的数据量可以缩小为原始数据量的几十分之一甚至几百分之一。视频编码技术使得远程视频信号的流畅清晰播放成为可能。

目前广泛应用的视频编码和压缩技术主要是一些视频编码标准。那么视频编码技术为什么要标准化呢？主要目的是可以达到不同公司不同产品之间的互联互通，比如由某一厂家编码器得到的视频码流可以被其它不同的厂家生产的解码器播放。视频编码标准作为各个厂家所必须遵循的规范，蕴含着难以估量的商业价值。国际上的行业巨头，例如高通、三星、LG、索尼、英特尔、爱立信等公司都投入巨资长期耕耘，并从目前主流的国际标准的专利中获得了巨额回报。每个视频编码标准都凝聚了很多视频编码技术专家的智慧结晶，而新一代视频编码标准的发布往往会推动新的视频应用的产生和普及。比如H.262/MPEG-2标准推动了模拟电视到数字电视的变革，H.264/AVC使得高清视频和互联网视频得以广泛推广，H.265/HEVC则成功推动了4K超高清视频的普及，而H.266/VVC则对8K超高清、屏幕、高动态和360度全景视频等新的视频类型以及自适应带宽和分辨率的流媒体和实时通信等应用有了更好的支持。

前面提到的四个视频编码标准都是国际上的两个视频专家组的成员共同努力的成果：国际标准化组织及国际电工委员会ISO/IEC旗下的动态图像专家组MPEG（Moving Picture Experts Group）和国际电联电信标准化部门ITU-T旗下的视频编码专家组VCEG（Video Coding Experts Group）。除了这几个标准外，在视频编码标准的历史长河中，还出现过若干其它标准，如图 1所示。

视频编码标准发展史

图 1. 视频编码标准一览

在一次MPEG开幕全会上，MPEG创始人和其32年的主席Leonardo Chiariglione秀了一下中文，说了《三国演义》的开篇：“话说天下大势，分久必合，合久必分”。前面几代国际视频编码标准再次验证了这个历史动态趋势——MPEG和VCEG先是分别独自制定自己的标准，然后合在一起做，然后又分开，然后又合作，如此往复。MPEG分别在1993年、1999年和2020年独自制定了MPEG-1、MPEG-4 Visual和MPEG-5/EVC标准的第一版，VCEG分别在1990年和1995年独自制定了H.261和H.263标准的第一版，而H.262/MPEG-2，H.264/AVC，H.265/HEVC和H.266/VVC则都是二者合作一起制定的，第一版完成年份分是1994、2003、2013和2020。我国视频编码领域的专家从1996年开始追踪国际标准化工作。除了上面提到的两个国际标准化组织以外，2002年6月，我国正式成立了数字音视频编解码技术标准工作组（AVS），其主要任务是面向我国的信息产业需求，联合国内企业和科研机构，制（修）订数字音视频的压缩、解压缩、处理和表示等共性技术标准。自AVS工作组成立以来，至今，已制订了三代AVS标准：AVS, AVS+/AVS2和AVS3。此外，一些技术实力雄厚的公司也会自己研发视频编码标准，比如：微软（Microsoft）在2003年制定了VC-1标准、xiph.org在2004年推出Theora标准、RealNetworks在2015年推出RMHD（RealMedia High Definition）的第一版、Google在2013年推出VP9标准，接着研发VP10，并于2015年开始与其他公司联合成立AOM（Alliance for Open Media），而AOM在2019年正式推出AV1标准。需要说明的是，视频编码标准定义的是比特流格式和解码（解压缩）过程，而不规定具体编码过程，这样编码器开发者有更多的灵活性，可以研发非标准（non-normative）的编码优化算法。

纵观这些视频编码标准，其发展史中穿插着两条主线——应用和技术。最早的H.261标准的主要目标应用是基于的综合业务数字网（已经过时，也可以说是已经过世）的视频电话；当时VCEG这个名字还没有，工作组的名字叫做视频电话编码特别组（Specialists Group on Coding for Visual Telephony）；支持的分辨率很小，352×288和176×144。MPEG-1的主要目标应用是现在有些年轻人甚至都没有见过的VCD。MPEG-2的主要目标应用是数字电视。H.263的主要目标应用除了视频电话外还有多方视频会议。从MPEG-4 Visual开始的每个视频编码标准的目标应用都包括之前的应用，而在MPEG-4 Visual标准化的时候流媒体开始出现，从那时起流媒体成为每个新视频编码标准的目标应用，而且越来越重要。H.264/AVC，H.265/HEVC和H.266/VVC的新的目标应用在前面已经提及，这里就不再重复。

从标准技术演进来看，至今为止的历代视频编码标准采用的技术都是基于混合视频编码（Hybrid Video Coding）框架，这种编码框架往往包含基于运动补偿的预测技术以及对预测残差的变换和量化技术。除此之外，更多的编码技术也被不断的引入标准，比如滤波器技术、解码端运动信息改进等。总体来说是充分利用摩尔定律，逐步拿更高的计算量换取编码压缩性能的提升；具体算法设计越来越复杂、越来越自适应化。而从算法设计的角度来说难度也越来越大。在2001、2002年做H.264/AVC时，一个工具如果只能拿到3%以下的性能提高大家可能都不感兴趣，而在2019、2020年做H.266/VVC时，有0.5%的性能提高的提案也会引起大家的兴趣。视频编码标准的发展中还穿插着另外一条线——参与人员的变化。随着整个视频产业的高速发展，参与研发制定视频标准的人员越来越壮大。在做H.264/AVC期间，参会人数通常不到100人，输入文档通常也只有几十篇，峰值是150篇。在做H.265/HEVC期间，JCT-VC文档号从2012年2月会议开始从之前的三位数变为四位数，当次会议的输入文档数为738，参会人数为255。在做H.266/VVC期间，JVET的文档号一开始就是四位数，2019年7月会议的输入文档数高达1178，参会人数为340。

视频编码标准发展史

图 2. ISO标准的诞生过程

前面介绍了编码标准的发展史，具体到某一个标准，它的制定过程是怎样的呢？一个国际标准的诞生往往要经历七个阶段：前期探索、举证（Call for Evidence, CfE）和技术征求（Call for Proposal, CfP）及响应、标准项目正式启动和形成工作草案（WD, Working Draft）、制定委员会草案（Committee Draft, CD）、制定国际标准草案（Draft International Standard, DIS）、国际最终草案（Final Draft International Standard, FDIS）到国际标准（International Standard, IS）正式发布。整个过程见图 2，对于每个阶段，可能会持续一个或多个标准会议周期，每个阶段的目标各有不同，比如：在前期探索这个阶段，主要是做一些技术的储备。对于国家标准或者企业的自研标准制定过程，上述的部分环节会略有调整。图 3 描述了H.266/VVC的关键时间节点。从2015年1月份到2015年10月，属于KTA（Key Technology Area）阶段，大家可以比较发散去做一些技术的探索 [1] 。2015年10月，随着一个超过HEVC 10+%编码性能的技术提案的递交 [2]，JVET（Joint Video Exploration Team），即联合探索委员会正式成立，同时，该提案所对应的软件平台定义为JEM（Joint Exploration Model）。从此，新的技术都会基于JEM进行验证，每次标准会议之后发布一个新的JEM版本。截止到2017年7月份，历经7次JVET标准会议，JEM完成了7个版本的迭代，这个版本性能已经比HEVC的压缩性能提高30%。这向工业界提供了一个强力有的信号：下一代标准还是非常有希望达成既定目标的（主观质量相同的条件下，码率降低达50%）。于是，标准化工作进入第二阶段：举证和技术提案征求及响应阶段举证，这中间历经3次标准会议。2018年4月份，CfP响应的测试结果公开，23份CfP响应中的最高性能版本已经比HEVC节约40%的码率，这意味着下一代视频压缩技术已经比较成熟，从而正式启动VVC标准的制定工作。从2018年4月起，历经十次标准会议，数千份技术提案的审议，全球数百位专家会上会下日日夜夜的共同努力，最终VVC标准的第一版（VVC v1）于2020年7月正式完成。图 4 列举了参与VVC标准化工作的一些公司；可喜的是，中国公司的参与度非常高，中国公司在国际舞台上扮演者越来越重要的角色。

视频编码标准发展史

图 3. VVC标准诞生过程

视频编码标准发展史

图 4. VVC标准主要参与公司

对于视频编码标准应用厂商来说，面对众多标准，该如何做出抉择？每个人都有自己的见解。笔者认为，要根据自身情况，分析各个标准的利弊，选择最适合自己的标准。当然，我们希望看到每个有技术竞争力的标准都能够有一个相对公平的专利授权收费原则，从而让更多的用户可以从最先进的视频标准中获益。最后，很多人可能会问，H.266/VVC之后的下一代标准什么时候会出来呢？可惜，笔者现在回答只能是：目前还无法知道，但是可以明确的是，人们对视频编码技术的探索以及对高效视频编码技术的需求是不会改变的。JVET最近开始了两个方向的探索，一个是基于新兴深度学习的视频压缩（也包括基于深度学习和传统混合视频编码框架的结合），另外一个是基于传统混合视频编码框架技术的继续挖掘。尽管目前都还只是刚刚开始，我们已经看到不少突破性的进展，比如笔者所在的字节跳动团队提出的一种基于深度学习的自适应滤波器算法 [3]，对三个颜色分量（Y, U, V）带来（10%, 28%, 28%）的性能增益；而高通公司最近报告了的基于混合视频编码框架的多项技术提升合在一起可以带来（11%, 13%, 13%）的性能增益 [4]。相信在不久的将来，通过标准小伙伴们的持续努力，我们会看到越来越多的新技术的涌现。当再次看到百分之三十左右的压缩性能提高的时候，咱们就可以准备聆听下一代视频编码标准正式启动的钟声了。

参考文献：

[1] J Chen, Y Chen, M Karczewicz, X Li, H Liu, L Zhang, “Coding tools investigation for next generation video coding”, ITU-T SG16 Doc. COM16–C806, Feb. 2015.

[2] M Karczewicz, J Chen, WJ Chien, X Li, A Said, L Zhang, X Zhao, “Study of coding efficiency improvements beyond HEVC”, ISO/IEC MPEG doc. m37102, Oct. 2015.

[3] Y. Li, L. Zhang, K. Zhang, “AHG11: Convolutional Neural Network-based In-Loop Filter with Adaptive Model Selection”, JVET-U0068, Jan. 2021.

[4] Y.-J. Chang, C.-C. Chen, J. Chen, J. Dong, etc. al, “Compression efficiency methods beyond VVC”, JVET-U0100, Jan. 2021