背景：

随着通信技术、互联网、多媒体以及显示技术的迅猛发展，视频相关的应用已经渗透到人们生活的方方面面。视频数据量呈现出的爆炸式增长给现有的存储和带宽带来极大的压力。与此同时，用户对高质量视频观看体验的需求也越来越高，这些都对现有的视频编码技术带来了前所未有的挑战。视频编码是视频相关应用（尤其是超高清视频应用）的核心技术，其目的在于高效、紧凑地表示视频数据，并最大程度降低因压缩引入的视频质量损失，节省视频传输与存储的成本。为进一步提高视频压缩效率，国际视频编码标准联合视频专家组制定了新一代音视频编码标准VVC (Versatile Video Coding)。与此同时，为满足我国8K视频以及5G的产业需求，AVS（Audio Video Coding Standard）工作组于2018年正式启动了面向8K超高清视频应用的具有自主知识产权的新一代视频编解码标准AVS3的制定工作。

新一代视频编码标准仍采用经典的基于预测、变换、量化以及熵编码的混合编码框架。在编码过程中，首先将视频帧划分成无重叠的编码树单元（Coding Tree Unit，CTU），编码树单元会被进一步划分为编码单元（Coding Unit，CU）。因此，编码单元是基于块编码的基本单元，编码单元的划分方法与结构则决定编码单元的具体尺寸和形状。高效的编码单元划分策略能更好地适应视频的局部纹理以及运动特性，将有助于提升块级预测效率，进而提升整体的视频压缩效率。

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图1. 编码单元划分方法

图1列举了各视频编码标准/模型所采用的编码单元划分方法。四叉树（Quad-Tree, QT）递归划分 [1] 方法被广泛用于视频编码中，如H.264、H.265、AVS2。一次QT划分将生成四个大小和形状完全一致的正方形子编码单元。此外，在编码单元的基础上，H.265和AVS2引入了预测单元和变换单元，使预测与变换能更加适应于纹理内容以及残差分布，提高预测的准确性，增强变换的能量聚集性。但预测单元和变换单元划分的起点是以QT划分后的正方形子编码单元，这在一定程度上限制了预测单元和变换单元的灵活表达。此外预测单元和变换单元的表达也需要消耗额外的比特代价。

为进一步提升视频压缩效率，如图2所示，JEM [2] 使用了QT和二叉树（Binary-Tree，BT）的划分结构，通过递归划分可将编码树单元划分成正方形与长方形的组合。VVC在QTBT基础上引入了三叉树划分（Ternary-Tree，TT）结构 [3]。AVS3在标准化的过程中沿用了AVS2中的QT划分、引入了BT划分，并采纳了我们所提出的扩展四叉树划分（Extended Quad-Tree，EQT）[4][5]。

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图2. QT，BT以及TT划分型态示意图

扩展四叉树划分：

EQT划分可显著提高编码单元划分的灵活性与内容自适应性，同时有效弥补了现有划分方法的不足，进一步为新一代视频编码标准带来压缩性能的提升。如图2所示，从划分型态方面， QT划分和BT划分路径始终贯穿父编码单元，并生成等尺寸、同形状的子编码单元，划分的灵活性也因此受到了限制。所提出的EQT划分则可将一个M×N的CU划分为四个形状不完全相同的子编码单元，如图3所示。其中两个子块位于原始编码单元的两端，尺寸为M×N/4，另外两个子块位于父块的中心两侧，尺寸为M/2×N/2。以AVS3中的实现为例，图4给出了一组QT、BT和EQT划分的示例，以及相应的编码顺序和编码树结构。其中在QT划分的子节点上，我们允许EQT与BT的递归划分。在VVC的实现中，EQT可与BT、TT相互递归划分。由于EQT划分所产生的子编码单元的尺寸均为2的幂次方，因此不需要引入额外尺寸的变换核以支持子编码单元的变换。面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图3. EQT水平划分与垂直划分示意图

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图4. AVS3中QTBT+EQT的编码单元划分结构，黑色实线表示QT划分，黑色虚线表示BT划分，红色虚线表示EQT划分

图5为测试序列“BasketballDrive”中一帧图像，展示了采用QTBT+EQT划分方法的可视化划分结构，其中白色的线代表采用了QT和BT划分的编码单元，绿色的线代表采用了EQT划分的编码单元。从图中可观察到，平坦的、运动平缓的背景区域，如墙、地板等，倾向于使用较大的编码单元进行编码。而包含了复杂纹理以及运动剧烈的区域则频繁使用了EQT划分方式。此外，对比图6中的(a)和(b)可观察到，在未引入EQT划分时，为了更好地编码包含剧烈运动的运动员头部区域细节，QT和BT划分将在此区域进行频繁迭代。引入EQT划分后，该区域通过若干次EQT划分即可有效表达。

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图5. QTBT+EQT划分结构图

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图6. QTBT划分与QTBT+EQT划分局部区域对比

图7展示了在测试序列“BasketballDrive”中的同一帧图像上，采用QT、BT、TT以及所提出的EQT划分方法的可视化划分结构，其中白色和红色的线分别代表QTBT和TT的划分轨迹，绿色的线代表采用了EQT划分的编码单元。从图中可观察到，即使在最先进的QTBT+TT的划分结构的基础上，所提出的EQT划分方式仍在复杂纹理区域和运动场景中被频繁选中。此外，通过图8中可观察到，编码器更倾向于选择TT划分去编码中部较为平滑的区域，而相比之下EQT划分则更适用于中部存在内容差异区域的编码。

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

图7. QTBT+TT+EQT划分结构图

性能报告：

我们分别在AVS3参考软件平台（HPM-4.0.1）[6] 和VVC参考软件平台（VTM-4.0）[7]，依照通用测试条件 [8][9] 验证EQT划分方法的性能。其中，编码性能通过BD-Rate [10] 来衡量，负值表示码率节省（性能增益）。测试涵盖了不同位深（8位，10位）以及不同分辨率（4K，1080p，720p）的AVS3以及VVC的通用测试序列。 EQT在AVS3参考软件平台HPM4.0.1的性能如表1所示（开关测试）。实验配置包括全帧内（All Intra，AI）和随机访问（Random Access, RA）两种配置。其中EQT在AI配置下所带来的亮度分量和色度分量编码性能增益分别为1.1%和2.1%。RA配置下，EQT平均可为Y、U以及V分量分别带来1.7%，2.7%和2.6%的编码性能增益，且编码复杂度增加54%，解码复杂度维持不变。此外，EQT可为VTM-4.0平台带来0.66%的压缩增益。

面向新一代视频编码标准的高自适应性扩展四叉树划分技术

参考文献：

[1] I. Kim, J. Min, T. Lee, W. Han, and J. Park, “Block partitioning structure in the HEVC standard,” IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 12, pp. 1697–1706, Dec 2012.

[2] “JVET software repository,” jvet.hhi.fraunhofer.de/svn/svn_HMJ….

[3] J. Chen B. Bross and S. Liu, “Versatile video coding (draft 4),” JVET M1001, 2019.

[4] M. Wang, J. Li, L. Zhang, K. Zhang, H. Liu, Y. Wang, P. Zhao, D. Hong, and S. Wang, “Extended quad-tree partitions, M4507,” AVS3-P2, 2018.10.16.

[5] M. Wang, J. Li, L. Zhang, K. Zhang, H. Liu, S. Wang, S. Kwong and S. Ma. “Extended coding unit partitioning for future video coding”, in IEEE Transactions on Image Processing, vol. 29, pp. 2931-2946, 2020.

[6]“AVS3 software repository,” gitlab.com/AVS3_Softwa…

[7] “VVC software VTM-4.0,” vcgit.hhi.fraunhofer.de/jvet/VVCSof….

[8] K. Fan. AVS3-P2 common test condition. AVS-Doc, N2654, 2019.03

[9] F. Bossen, J. Boyce, K. Suehring, X. Li, and V. Seregin, “JVET common test conditions and software reference configurations for SDR video,” Joint Video Exploration Team (JVET), doc. JVET-M1010, Jan. 2019.

[10] G. Bjontegaard, “Calculation of average PSNR differences between RD-curves,” ITU-T SG.16 Q.6 VCEG-M33, 2001.