多媒体技术基础习题解答（林福宗）.doc(2)

2019-04-09 20:56

颜色的光谱描述方法都是颜色模型。

6.4 使用你能够找到的工具和资料，探讨本章

介绍的CIE度量体系是否有错误，哪些地方需要修改和补充。CIE度量体系包括：① CIE 1931 RGB ②CIE 1931 XYZ ③CIE 1931 xyY ④CIE 1960 YUV和CIE YU'V' ⑤CIE 1976 LUV ⑥CIE 1976 LAB ⑦CIELUV LCh和⑧CIELAB LCh (略)

第7章颜色空间变换

7.1 PAL制彩色电视使用什么颜色模型？

NTSC制彩色电视使用什么颜色模型？计算机图像显示使用什么颜色模型？

(1) PAL制彩色电视：YUV (2) NTSC制彩色电视：YIQ (3) 计算机图像显示设备：RGB 7.2 用YUV或YIQ模型来表示彩色图像的优

点是什么？为什么黑白电视机可看彩色电视图像？ (1) YUV表示法的一个优点：它的亮度信号(Y)和色度信号(U，V)是相互独立的，因此可以对这些单色图分别进行编码；另一个优点：可以利用人眼的特性来降低数字彩色图像所需要的存储容量。YIQ同样具有YUV的这两个优点。

(2) 黑白电视能接收彩色电视信号的道理是利用了YUV/YIQ分量之间的独立性。 7.3 在RGB颜色空间中，当R=G=B，且为任意

数值，问计算机显示器显示的颜色是什么颜色？

灰色

7.4 在HSL颜色空间中，当H为任意值，S=L=0

时，R，G和B的值是多少？当H＝0, S=1, L＝0.5，R，G和B的值是多少?

当H为任意值，S=L=0时， R = G = B = 0

当H＝0, S=1, L＝0.5，R＝1，G ＝ B ＝ 0

7.5 打开Windows 95/98/2000中的“画图”→

“颜色编辑”→程序，在RGB和HSL转换栏中，如果R=G=B＝255，问H, S和L的值分别为多少？分别改变R，G和B的值，观察H，S和L的值的变化。

如果R=G=B＝255，H＝160，S=0, L=240。 (2) (略)

7.6 用MATLAB编写RGB到HSL和HSL到

RGB颜色空间的转换程序：rgb2hsl.m和hsl2rgb.m。(略) 7.7 用MATLAB编写Y'CbCr和R'G'B'[0,219]

颜色空间的转换程序：RGB2YCbCr和YCbCr2RGB.m。(略)

第8章小波与小波变换

8.1 写出矢量空间W3

的哈尔小波并画出它的

波形。

8.2 写出4×4哈尔小波变换矩阵。

8.3 使用MATLAB中的多级一维小波分解函

数例程(function)wavedec，对例8.2所示的函数作小波变换。(略) 8.4 使用规范化的小波变换算法，用MATLAB

编写一个M文件，重新计算的哈尔小波变换。(略) f (x) =[2,5,8,9,7,4,-1,-1]

第9章小波图像编码

9.1 什么叫做零树？

“零树”是指小波变换系数之间的一种数据结构。因为离散小波变换是一种多分辨率的分解方法，每一级分解都会产生表示图像比较粗糙(低频图像)和比较精细(高频图像)的小波系数，在同一方向和相同空间位置上的所有小波系数之间的关系可用一棵树的形式表示，如果树根和它的子孙的小波系数的绝对值小于某个给定的阈值T(threshold)，那么这棵树就叫做零树。

9.2 解释EZW的含义。

嵌入零树小波编码(embedded zerotree wavelet, EZW)是Shapiro, J. M在1993年开发的一种编码算法。\小波\表示该算法以离散小波变换为基础，以变换后的大系数比小系数更重要以及高频子带中的小系数可以忽略为背景；\零树\表示小波变换系数之间的一种数据结构，用同一方向和相同空间位置上的所有小

波系数构成一棵树，如果树根及其子孙的小波系数的绝对值小于某个给定域值，则这棵树就称为零树；\嵌入\表示一幅图像可以分解成一幅低分辨率图像和分辨率由低到高(表示图像细节)的许多子图像，图像合成过程是通过子图像生成许多分辨率不同的图像。EZW编码就是按照用户对图像分辨率的不同要求，编码器进行多次编码，每进行一次编码，域值降低1/2，水平和垂直方向上的图像分辨率各提高1倍。编码从最低分辨率图像开始扫描，每当遇到幅度大于域值的正系数就用符号P表示，幅度小于域值的负系数用符号N表示，树根节点上的系数幅度小于域值而树枝中有大于域值的非零树用符号Z表示，零树用符号T表示，编码的输出是符号集{P, N, T, Z, 0, 1}中的一系列符号。

9.3 如果条件允许，编写执行用MATLAB或者其他语言

EZW算法的编码和解码程序 (略)

9.4 解释SPIHT的含义。

层树分集算法(set partitioning in

hierarchical trees, SPIHT)的根据是，图像经过小波变换之后，大部分能量都集中在低频子带。从这个事实出发，最先传送幅度大的系数，这样解码器即使在低速率应用环境下也可得到图像的大部分信息。编码树的结构与EZW算法的结构类似，每一个节点要么没有子节点，要么有4个子节点。在编码过程中，使用三个列表变量存储重要系数和不重要系数。该算法适用于图像的渐进传输，具有比较高的PSNR，复杂度比较低，计算量比较少，位速率容易控制等优点。

9.5 如果条件允许，用MATLAB或者其他语言

编写执行SPIHT算法的编码和解码程序。(略) 9.6 请用因特网搜索工具，查找并阅读EBCOT

的详细说明。(略) 9.7 如果条件允许，用MATLAB或者其他语言

编写执行EBCOT算法的编码和解码程序。(略) 9.8 JPEG 2000有许多功能，请用因特网搜索工

具调查和描述它的详细功能。(略)

第10章彩色数字电视基础

10.1 世界上主要的彩色电视制式是哪几种？

目前世界上使用的彩色电视制式主要有PAL，NTSC，SECAM三种，都是模拟彩色电视制式。

10.2 隔行扫描是什么意思？非隔行扫描是什

么意思？ (1) 在隔行扫描中，一帧画面分两场，第一场扫描总行数的一半，第二场扫描总行数的另一半。电子束扫完第1行后回到第3行开始的位置接着扫，如图10-01(b)所示，然后在第5、7、……，行上扫，直到最后一行。奇数行扫完后接着扫偶数行，这样就完成了一帧(frame)的扫描。隔行扫描要求第一场结束于最后一行的一半，不管电子束如何折回，它必须回到显示屏顶部的中央，这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间。正是这个原因，才要求总的行数必须是奇数。

(2) 在非隔行扫描中，电子束从显示屏的左上角一行接一行地扫到右下角，在显示屏上扫一遍就显示一幅完整的图像。

10.3 电视机和计算机的显示器各使用什么扫

描方式？电视机通常使用隔行扫描；计算机的显示器通常使用非隔行扫描。

10.4 ITU-R BT.601标准规定PAL和NTSC彩色

电视的每一条扫描线的有效显示像素是多少? 720 10.5 什么叫做S-Video？它的连接器结构是

什么样？质量较高的一种电视技术，用这种技术录制和处理电视时亮度信号(Y)和色差信号(C)是分开进行的。S-Video是分量模拟电视信号和复合模拟电视信号的一种折中方案。使用S-Video有两个优点：(1) 减少亮度信号和色差信号之间的交叉干扰。(2) 不须要使用梳状滤波器来分离亮度信号和色差信号，这样可提高亮度信号的带宽。

S-VHS和Hi-8摄像机以及盒式录像机(video cassette recorder，VCR)使用这种技术，它比标准的VHS和8毫米格式的设备提供质量比较高的彩色图像。在使用S-video技术的设备上，电视信号的输出除含有分离的亮度(Y)和色差信号(C)输出外，还有复合彩色全电视

信号。S-video设备与其他设备连接的连接器使用S-video连接器，而不是普通的RCA连接器。有些电视图像卡和高档家用录像机(VCR)可以支持这种信号。

10.6 对彩色图像进行子采样的理论根据是什

么？人的视觉系统所具有的两种特性。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样是压缩彩色电视信号的一种技术。

10.7 图像子采样是在哪个彩色空间进行的？ YCbCr 10.8 一幅YUV彩色图像的分辨率为720×

576。分别计算采用4:2:2、4:1:1和4:2:0子采样格式采样时的样本数。 (1) 4:4:4 这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本，这就相当于每个像素用3个样本表示。

720×576×3 ＝ 1 244 160

(2) 4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示。

720×576×2 ＝ 829 440

(3) 4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝ 622 080

(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝ 622080

第11章MPEG简介

10.1 回顾制定MPEG标准的4个阶段和各阶段

的提交的文件类型。

(1) 工作文件(Working Draft，WD)：工作

组(Working Group，WG)准备的工作文件

(2) 委员会草案(Committee Draft，CD)：从工作组WG准备好的工作文件WD提升上来的文件。这是ISO文档的最初形式，它由ISO内部正式调查研究和投票表决。

(3) 国际标准草案(Draft International Standard，DIS)：投票成员国对CD的内容和说明满意之后由委员会草案CD提升上来的文件。

(4) 国际标准(International Standard，IS)：由投票成员国、ISO的其他部门和其他委员会投票通过之后出版发布的文件。 10.2 MPEG-1, -2, -4和-7的目标是什么？ MPEG-1处理的是标准图像交换格式的电视，即NTSC制为352像素×240行/帧×30帧/秒，PAL制为352像素×288行/帧×25帧/秒，压缩的输出速率定义在1.5 Mb/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视和在网络上传输数字影视。

MPEG-2标准是一个直接与数字电视广播有关的高质量图像和声音编码标准，是MPEG-1的扩充。MPEG-2提供位速率的可变性能功能，其最基本目标是：位速率为4～9 Mb/s，最高达15 Mb/s。

MPEG-4是为视听数据的编码和交互播放开发算法和工具，是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构网络环境下能够高度可靠地工作，并且具有很强的交互功能。

MPEG-7的名称叫做多媒体内容描述接口，目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

第12章MPEG声音

12.1 列出你所知道的听觉系统的特性。

响度感知, 音高感知, 掩蔽效应 12.2 什么叫做听阈？什么叫做痛阈？ (1) 当声音弱到人的耳朵刚刚可以听见时，称此时的声音强度为“听阈”

(2) 当声音强到人的耳朵刚刚感到疼痛时，称此时的声音强度为“听阈”。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵就感到疼痛，这个阈值称为“痛阈”。 12.3 什么叫做频域掩蔽？什么叫做时域掩

蔽？强纯音掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽。

(2) 在时间方向上相邻声音之间的掩蔽，这种特性称为时域掩蔽。

12.4 MPEG-1的层1、2和3编码分别使用了听

觉系统的什么特性？

层1：频域掩蔽特性

层2：频域掩蔽特性，时间掩蔽特性层3：频域掩蔽特性，时间掩蔽特性

12.5 MPEG-1的层1、2和3编码器的声音输出

速率范围分别是多少？

层1：384 kb/s

层2：256～192 kb/s 层3：128～112 kb/s

12.6 MPEG-1的声音质量是： AM FM 电

话 near-CD CD-DA □ AM □ FM □ 电话√□ near-CD □ CD-DA

12.7 什么叫做5.1声道立体环绕声？什么叫做

7.1声道立体环绕声？ (1) “5.1环绕声”也称为“3/2-立体声加LFE”，其中的“.1”是指LFE声道。它的含义是播音现场的前面可有3个喇叭声道(左、中、右)，后面可有2个环绕声喇叭声道，LFE是低频音效的加强声道。

7.1声道环绕立体声与5.1类似。参见图12-19。 12.8 简述MPEG-2 AAC的特性。

MPEG-2 AAC是MPEG-2标准中的一种非常灵活的声音感知编码标准。它使用听觉系统的掩蔽特性来减少声音的数据量，并且通过把量化噪声分散到各个子带中，用全局信号把噪声掩蔽掉。

AAC支持的采用频率可从8 kHz到96 kHz，AAC编码器的音源可以是单声道的、立体声的和多声道的声音。AAC标准可支持48

个主声道、16个低频音效加强通道LFE、16个配音声道或者叫做多语言声道和16个数据流。

MPEG-2 AAC在压缩比为11:1，即在每个声道的数据率为(44.1×16 )/11=64 kb/s，而5个声道的总数据率为320 kb/s的情况下，很难区分还原后的声音与原始声音之间的差别。与MPEG-Audio层2相比，MPEG-2 AAC的压缩率可提高1倍，而且质量更高，与MPEG的层3相比，在质量相同的条件下数据率是它的70%。

12.9 什么叫做自然声音？什么叫做合成声

音？自然声音通常是指人、动物等发出的声音、弹奏乐器或其他音源自然发出的声音。

合成声音通常指合成器生成的声音，如MIDI。

12.10 什么叫做TTS？至少列举TTS的3个潜

在应用例子。通过话音合成设备自动地把基于文字的数据转换为声音输出的一种技术。文语转换的最终目标是要使计算机像人一样输出清晰而又自然的声音，也就是说，根据文本的内容可以不同的情调来朗读任意的文本。TTS是一个十分复杂的系统，涉及到语言学、语音学、信号处理、人工智能等诸多的学科。尽管现有的TTS系统结构各异，转换方法不同，但是基本上可以分成两个相对独立的部分：①文本分析，通过对输入文本进行词法分析、语法分析，甚至语义分析，从文本中抽取音素和韵律等发音信息。②语音合成，使用从文本分析得到的发音信息去控制合成单元的谱特征(音色)和韵律特征(基频、时长和幅度)，送入声音合成器(软件或硬件)产生相应的语音输出。

通过电话访问信息，朗读文本，盲人计算机等。

第13章MPEG电视

13.1 电视图像数据压缩的依据是什么？根据人的视觉特性和电视图像数据自身的冗余特性。

注：人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一

些而使人不察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。 13.2 MPEG-1编码器输出的电视图像的数据

率大约是多少？ 1.15 Mb/s 13.3 MPEG专家组在制定MPEG-1/-2 Video标

准时定义了哪几种图像？哪种图像的压缩率最高？哪种图像的压缩率最低？ (1) MPEG专家组定义了三种图像：帧内图像I(intra)，预测图像P(predicted )和双向预测图像B (bi-directionally interpolated )。

(2) 双向预测图的压缩率最高，帧内图像的压缩率最低。

13.4 有人认为“图像压缩比越高越好”。你

对这种说法有何看法？在图像压缩算法中，为了获得比较高的压缩率，通常要采用有损压缩。这就意味压缩率越高，图像的质量损失越大，重构图像的质量将会越低。

13.5 有人说“MPEG-1编码器的压缩比大约是

200:1”。这种说法对不对？为什么？不对。理由：(1)电视图像的子采样(4：1：1)不是MPEG编码器的功能，(2)电视图像画面尺寸(如PAL制720×576)的降采样(变成360×288)也不属于MPEG编码器的功能。 13.6 说明电视规格MP@ML和HP@HL各自

的含义。 MP@ML (Main Profile, Main Level)指的是具有这种特性的电视：分辨率为720×576×30，子采样格式为4:2:0，位速率可高达15 Mb/s。

HP@HL (High Profile, High Level)指的是具有这种特性的电视：分辨率为1920×1152×60，子采样格式为4:2:0或者4:2:2，位速率可高达80 Mb/s。

13.7 电视图像的空间分辨率和时间分辨率是

什么意思？空间分辨率：图像的尺寸。例如，PAL制图像尺寸：720×576，360×288。

时间分辨率：图像的帧数/每秒钟。例如，PAL制电视图像的时间分辨率为30帧/秒，NTSC电视图像的时间分辨率为25帧/秒，电影图像的时间分辨率为24帧/秒。

共4页:

多媒体技术基础习题解答（林福宗）.doc(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档