多媒体处理器上的MPEG-4 介绍及实作
作者:Paul Fernandez, Mark Nadeski and Gene Lin of Texas Instruments
本文刊登于新通讯元件杂志2003年8月号
--------------------------------------------------------------------------------
介绍
数位视讯已出现在各种应用,它的品质、可靠性和弹性都远胜过传统类比视讯;数位讯号允许使用者以全新方式观看、存取和操控视讯,这和类比视讯也不相同。MPEG-1和MPEG-2是国际标准组织 (ISO) 的动画专家小组 (MPEG) 最先制定的视讯标准,也是让数位视讯格式广获市场接受的重要关键;MPEG-4则是这两种视讯标准的后继者,可以提供更低位元速率、更大弹性和许多新特色,目前正领先跨入网际网路和行动上网的应用领域。
虽然MPEG-1 、MPEG-2 和H.263非常适合在它们原来设计的目标环境下工作,但是面对正在大举进入市场的各种多媒体应用,这些标准并未提供适当的弹性,无法有效满足它们的需求。就在弹性和高效能发生冲撞的关键点上,最近才获得采用的MPEG-4标准也开始进入这个领域。MPEG-4是一种多媒体标准,专门设计来为不同应用提供相互操作能力,某些应用的需求甚至截然不同;整体说来,绝大多数的多媒体应用都有着相同需求,它们必须能互动操作不同类型资料。视觉资料的差异包括资料型态、来源、通讯方式以及厂商想利用视觉影像提供的功能,MPEG-4可做为设计人员技术基础,使他们得以提供多媒体功能来支援所有这些资料需求。
MPEG-4工具箱
MPEG-4包含一组用来支援和加强这些应用的工具,包括形状编码 (shape coding)、移动估算 (motion estimation) 与补偿、影像纹理编码 (texture coding)、抗错性、sprite编码和可延展性。若厂商无意实作整个标准,MPEG-4也提供许多定义良好的子集合,它们称为「符合点」(conformance points),可协助厂商很自由的将系统成本最佳化,不会对操作互通性造成任何影响。结合这些能力,即可为设计人员带来弹性和操作互通性都很好的途径,使他们能产生极高品质的数位视讯绘图,并支援各种不同的多媒体应用。
功能特色
MPEG-4标准是由一组工具所组成,能支援不同类别的各种应用;整体来说,它们可分成以下几大类:
压缩效率 – MPEG-4是以先前标准为基础,但提供更高编码效率,增加MPEG-4应用的市场接受度。
内容导向互动性 (content-based interactivity) – 把视讯当成物件,而非视讯图框,即可让内容导向应用 (content-based applications) 付诸实现;此时只须提供更高效率的物件表示法、物件操控、位元串流编辑和物件导向延展能力 (object-based scalability),就能将内容互动性带至更高水准。
适用于所有传输媒介 – 就算在容易发生错误的环境,MPEG-4也很强健可靠,故可用于各种传输媒介,包括行动网路和实体连接线路。
结构和语法
MPEG-4视觉场景 (visual scene) 可能包含一个或多个视讯物件,每个视讯物件都可藉由时间和空间资讯加以描述,包括它们的形状、移动和纹理。某些应用可能无法使用所有的MPEG-4工具,原因可能是相关的额外处理负担过于庞大,或是视讯物件的产生极为困难,此时MPEG-4视讯可直接对矩形图框 (rectangular frame) 进行编码,它也是各种形状物件中最简单的一种 (degenerate cases)。
MPEG-4视觉位元串流会提供阶层式的视觉场景描述,起始码 (start codes) 则是特殊的编码值,它们可以存取位元串流的每一层阶层架构。阶层架构中的各层包括:
视觉物件序列 (Visual Object Sequence,简称VS):它是完整的MPEG-4场景,可能包含任何2-D或是3-D的自然或合成物件以及它们的加强层 (enhancement layer)。
视讯物件 (Video Object,简称VO):视讯物件会连结至场景中的某个2D元素,矩形图框就是最简单的例子;它也能是任意形状的物件,对应于场景中的某个物件或是背景。
视讯物件层 (Video Object Layer,简称VOL):视讯物件支援可延展 (scalable) 以及不可延展 (non-scalable) 两种编码模式,实际编码模式则由视讯物件层所代表的应用决定。视讯物件层能支援可延展性编码。
视讯物件平面群 (Group of Video Object Planes,简称GOV):视讯物件平面群是可选用的功能,它会提供视讯物件平面被独立编码的各点,让位元串流中能够加入多个随机存取点。
视讯物件平面 (Video Object Planes,简称VOP):视讯物件平面是在时间取样的视讯物件,它们可以独立取样,也可以利用移动补偿值进行取样。矩形可以代表传统的视讯图框。
视讯物件平面的使用方法有很多种,最常见的做法是让它们包含某个视讯物件的时间取样值的编码视讯资料。每个视讯物件平面都包含多个巨集区块 (macroblock),每个巨集区块则会包含四个8x8亮度区块 (luminance block) 以及两个8x8色度区块 (chrominance block)。
MPEG-4工具
视讯压缩工具
视讯编码解码器 (video codec) 可以除去空间和时间的冗余性,达到压缩视讯的目的。
Intra Coded VOPS (I-VOPs) 会利用视讯物件平面包含的资讯进行编码,这能移除部份的空间冗余性,图框间编码 (inter coding) 则会透过移动估算和补偿来利用图框间的时间冗余性。图框间编码有两种模式,第一种是根据前面的视讯物件平面进行预测,这种模式称为P-VOP;第二种则根据前面和后面的视讯物件平面进行预测,称为B-VOP。这两种编码技术都是以过去的视讯标准为基础,MPEG-4则会提供额外的工具来增加压缩效率、抗错性和不同类型视讯物件的编码能力。
形状编码工具 (shape coding tools)
MPEG-4提供许多工具,可对各种形状的物件进行编码。二位元形状 (binary shape) 资讯可用来定义特定时间点上,物件的那些部份 ( ..
访客只能看到部份内容,免费 加入会员 或由脸书 Google 可以看到全部内容