基于深度学习的视频编码专利技术综述

(整期优先)网络出版时间:2023-11-22
/ 3

基于深度学习的视频编码专利技术综述

南杰  张晶

国家知识产权局专利局专利审查协作河南中心 河南省郑州市 450000

摘要:

为了提升编码效率,如何将深度学习应用到视频编码技术中以克服传统算法的局限性逐渐成为了领域内的热点问题。本文统计分析了基于深度学习的视频编码专利相关申请的申请量趋势、专利申请来源国以及目标国、主要申请人专利申请量、以及基于深度学习的视频编码技术分支等情况,以帮助了解相关领域的技术发展状况,可为相关申请人的研究提供借鉴参考。

关键词: 视频编码,深度学习,技术分支

一、技术概述

为了追求更好的解码视频质量和更少的编码比特位数,视频编码标准已经经历了多次更新换代,比如,视频编码技术己经从最初期的H.261逐渐发展到目前最为广泛应用的AVC/H.264,再到更为先进的HEVC/H.265,在这个发展过程中视频的压缩效率得到了巨大的提升。这些视频编码标准都采用了被业界认可的混合编码框架,这种混合编码框架包括了很多模块,按照功能可以分成帧间预测、帧内预测、变换、量化、熵编码、环路滤波等。

随着混合编码框架的发展完善,压缩效率不断提高,已成为支撑视频产业不断繁荣的基础。但传统视频编码遇到了性能提升的瓶颈,原因在于各个模块一般基于人工设计的统计先验模型,而实际应用中的视频通常内容多样,无法通过简单设计的模块高效表达。而深度学习技术可以从大量数据中学习复杂表征,拟合复杂的非线性函数,进行精准预测。因此,基于深度学习技术设计和优化视频编码模块具有巨大潜力。

目前深度学习在视频编码领域的应用主要分为两个方面,即混合编码框架下深度学习视频编码工具和以深度学习模型为基础的端到端的视频编码框架。混合编码框架下,深度学习技术可以对帧内预测、帧间预测、变换、量化、熵编码、环路滤波等各个模块进行优化。以深度学习模型为基础的端到端的视频编码框架下,所有模块都是基于深度神经网络实现,可以直接端到端优化率失真目标函数,更容易实现全局最优。

二、专利申请现状分析

本文选取Himmpat数据库,利用相关关键词、分类号等进行检索(检索日期为2023年10月25日),并剔除无关的噪声。从基于深度学习的视频编码技术的全球专利申请量变化趋势、专利申请地域分布、主要申请人分布等方面,对该领域的专利申请现状进行分析。

2.1全球专利申请量变化趋势

如图1所示,2012年之前,基于深度学习对视频编码进行优化的概念刚形成,相关申请人在该领域的研究比较少,2013-2015年开始兴起,从2015年开始该领域的专利申请量呈现持续指数级的增长,2019年达到了244件,2020年达到了362件,2021年高达387件,2022年的专利申请在尚未完全公开的情况下,目前能够检索到的申请量已达239件。

图1. 全球专利申请量变化趋势

混合编码框架包括帧间预测、帧内预测、变换、量化、熵编码、环路滤波等模块。由于继续对各模块进行优化变得越来越困难,而深度学习因其优秀的性能越来越受到关注,并在众多的领域中取得了优异的效果。在这个背景下,相信未来几年的申请量依然会处于较高水平。

2.2专利申请的来源国及目标国

图2. 专利申请的来源国

图3. 专利申请的目标国

专利申请的来源国分布能够反映出不同国家或地区的相关申请人对该领域技术的重视程度,专利申请的目标国分布能够反映出该领域的相关申请人在不同国家或地区的专利布局。图2示出了该领域专利申请量的来源国,图3示出了该领域专利申请量的目标国。

其中,来自中国的申请量占比最高,达到41.5%,来自韩国和美国的申请量之和占比为47.15%,这也反映出该领域受到国内外学者的广泛关注和积极探索。中国是近年来该领域最大的技术来源国,中国创新主体近七年中申请了许多与该领域相关的专利。究其原因,一是人们对于高分辨率、高保真视频的需求越来越强烈,进而推动视频编码技术的不断更新和进步,二是国内知识产权环境逐渐完善,人们对于知识产权的认识逐渐深入,保护自身成果的意识逐渐提高,从而导致近年来在该领域专利申请量的大幅增长。

专利申请的目标国与来源国的分布情况大体一致,整体上看是各国创新主体在本土进行专利布局。从目标国分布来看,中国是目前最大的目标市场国,且专利申请量优势相对明显。虽然该技术在全球各大洲都有布局,但其目标市场主要集中在中国、美国、韩国、欧洲,且中国的申请量要远高于美国。这也能反映出相关申请人更重视中国的巨大市场,同时也侧面反映出中国知识产权保护环境得到相关申请人的认可,相关申请人积极在中国布局专利申请。

2.3主要申请人

图4. 专利申请主要申请人

从图4中可以看出,该领域申请量超过20件的主要申请人有10位,三星申请量为190件,排名第一,其申请量是排名第二的腾讯美国的申请量的3倍左右。三星是视频编码领域的主要申请人,一直以来,三星都很重视视频编码领域的专利布局,参与了多项视频编码标准的研究与制定,包括最新的H.266视频编码标准,其在视频编码领域具有比较大的技术优势。

10位主要申请人中,韩国主要申请人有三位:三星,ewha,光州,主要是三星在该领域的申请量比较大,比较重视该领域的专利布局。美国有高通、交互数字、谷歌等3位主要申请人,依然是该领域不可忽视的主要申请人。日本相关申请人在该领域的申请量较少。中国主要申请人有腾讯美国、华为、北京大学等3位,申请量不是很大,且第二位的腾讯美国与第一位的三星差距较大,结合专利申请的来源国可以看出,虽然来自中国的专利申请量比较大,但是主要申请人中国内申请人仅有三位,且申请量不大,由此可知,国内研究该领域的创新主体虽然比较多,但是均没有形成很大的规模,一方面可能是相关申请人科研实力存在一定的差距,另一方面可能是基于深度学习的算法通常计算复杂度极高,在实际的应用中计算时间过长,处理的效果很难达到理论预期,因此,减少了该技术方面的研究。国内申请人还需要持续加大研发投入,深入研究相关技术。

三、技术分支

目前深度学习在视频编码领域的应用主要分为两个方面,即混合编码框架下深度学习视频编码工具和以深度学习模型为基础的端到端的视频编码框架。

3.1混合编码框架下深度学习视频编码工具

图5以HEVC视频编码标准为例,展示了以预测/变换为核心的混合视频编码框架的主要技术模块,输入的视频图像序列按照光栅扫描顺序以块为基本编码单元,采用不同大小的编码单元适应图像纹理结构的变化。编码单元经过帧内和帧间预测模块去除视频空域和时域冗余,预测残差经过变换模块改变信号统计特性使其便于后续量化和熵编码压缩。除此之外,现代视频编码框架广泛引入了环路滤波技术,通过去除压缩噪声来提高解码视频重构质量,同时为后续编码视频图像提供高质量的预测信号,进而提高视频压缩效率。

图5. HEVC混合视频编码框架示意图

混合编码框架下,深度学习技术可以对帧内预测、帧间预测、变换、量化、熵编码、环路滤波等各个模块进行优化。比如,申请号为202010604772.1的发明名称为“基于深度学习的视频混合编码与解码方法及装置、介质”的专利申请即公开了一种对帧内预测进行优化的视频编码方法,该编码方法包括:从指定帧图像中提取出瓶颈层特征;依据瓶颈层特征重建第一帧图像;对瓶颈层特征进行量化和熵编码,以得到帧内编码数据;对当前视频的第一后续帧图像进行补偿、变换、量化及熵编码,以得到第一预测残差数据,该申请与常规的技术相比,特别是与采用邻域像素生成帧内预测像素的方案相比,不需要在帧内编码过程编码残差信息,所以本发明编码效率要高于常规编码方案,从而实现了视频编码性能的提升。又如,申请号为201910705904.7的发明名称为“基于深度学习的图像编码、解码系统及编码、解码方法”的专利申请中即公开了一种对变换模块进行优化的视频编码系统,该编码系统包括:基于深度学习的正变换网络模块、基于深度学习的条件概率超先验分析模块及熵编码模块;其中,正变换网络模块用于得到特征系数;超先验分析模块用于得到超先验特征值;熵编码模块用于熵编码。解码系统包括:熵解码模块、基于深度学习的重构模块及基于深度学习的反变换网络模块;其中,熵解码模块用于熵解码;重构模块用于得到条件概率模型;反变换网络模块用于重构出图像像素值,该申请采用无监督的方式,训练得到的编码器性能得到了提高。又如,申请号为201910450808.2的发明名称为“基于深度学习神经网络的环路滤波方法”的专利申请即公开了基于一个深度卷积神经网络实现滤波过程的方法,该申请的深度卷积神经网络可以分为两个部分:基线网络以及辅助信息特征抽取网络。基线网络由带有长期记忆的残差稠密块连接而成;辅助信息特征抽取网络由带有长期记忆的残差稠密块连接而成,其网络深度浅于基线网络。基线网络输入待滤波的重建帧;辅助信息特征抽取网络输入为多层编码单元均值图,输出为其特征图,并将特征图插入基线网络的不同深度网络。神经网络的输出是滤波后的重建帧。该申请为相邻的网络块间提供长期记忆的连接,并且利用了块划分树提供的多层划分信息,获得了更佳的编码性能。

3.2以深度学习模型为基础的端到端的视频编码框架

如图6所示,端到端的视频编码框架利用大数据样本通过端到端训练的方式可以实现视频数据的紧致模型化表示,从而构建端到端的视频编码框架。

图6. 端到端的视频编码框架

从2017年开始,国际上越来越多的研究人员开始致力于构建端到端的深度学习视频压缩方案。该框架所有模块都是基于深度神经网络实现,可以直接端到端优化率失真目标函数,更容易实现全局最优。例如,申请号为202010104772.5的发明名称为“基于深度学习的端到端视频压缩方法、系统及存储介质”的专利申请即公开了基于深度学习的端到端视频压缩方法,该申请通过将目标视频分为多个图像组;然后对图像组中的关键帧进行端到端帧内编码得到关键帧编码;关键帧编码通过环路滤波网络进行重建后得到关键帧重建帧;其次,基于关键帧重建帧对图像组中的非关键帧进行端到端帧间编码得到非关键帧编码;最后,非关键帧编码通过环路滤波网络进行重建后得到非关键帧重建帧。该申请与传统采用的视频压缩编码器相比,可以实现端到端全局优化视频编码器,在低码率下能够取得较好的编码性能,解决了如何利用深度神经网络实现端到端视频编码的同时保证较好的率失真性能的问题。再如,申请号为201611191845.9的发明名称为“一种基于深度学习的端到端视觉里程计及方法”的专利申请也公开了端到端视频编码方法,该方法包括级联的光流网络和帧间估计网络,所述光流网络根据数据集中图像序列中的相邻帧,选取输出光流向量和基准数据之间的光流端点误差为损失函数,进行网络训练后,将生成的光流输出,所述帧间估计网络以光流图像作为输入,基于六自由度输出位姿向量与基准数据之间的距离构建损失函数,迭代训练网络,进行帧间估计,该申请采用不同输入输出数据分别训练光流网络模块和帧间估计网络模块,最后将两者级联构成端到端的视觉里程计模块,再进一步深层次训练,优化参数,该层级化训练方法可以大幅降低训练时间,提高训练效率。

四、总结

在视频压缩方面,新一代视频压缩标准的制定大幅提高了视频压缩效率,下一阶段将着重开展针对新一代标准的优化工作。基于深度学习的视频编码将成为视频压缩效率提高的最大助力。国内申请人在该领域的申请总量比较大,但是每个申请人研究的规模均比较小,需要国内相关申请人加大人才和资金的投入,加强对视频编码领域的基础研究、积极参与视频编码标准的提案,提高相关专利申请的技术价值,同时应重点关注与个别企业(例如韩国三星)之间存在的差距,充分借鉴韩国、欧洲、美国等在视频编码领域的专利布局策略,抢占市场先机。

参考文献:

[1]罗雪.基于深度学习的视频编码技术研究[J],多媒体应用技术(2022),194-196.

[2] 王崇宇,毛琪,金立标.基于生成对抗网络的图像视频编码综述[J].中国传媒大学学报(自然科学版) (2022),19-28.

[3] 杨仁威. 基于在线深度学习的解码端友好型HEVC质量增强神经网络[D],2023.

[4] 贾川民,马海川,杨文瀚,等.视频处理与压缩技术[J]. 中国图象图形学报(2021),1179-1200.

[5] 朱秀昌,刘峰,胡栋编著. H.265/HEVC视频编码新标准及其扩展[M].北京:电子工业出版社,2016.

作者简介:

南杰:国家知识产权局专利局专利审查协作河南中心,硕士研究生,助理研究员

张晶:国家知识产权局专利局专利审查协作河南中心,硕士研究生,研究实习员