18. 某信号幅度介于[-5V, 5V](动态范围是10V),要求NoiseRMS 小于5mV,计算需要的量化精度(即bit数)。
?V2?V2?5?10?3 对均匀量化而言,有NoiseRMS?,那么对于本题来讲,有12125?(?5)解得?V?1.732?10?2,令量化级为N,则有?1.732?10?2,解得N?578,
N所以最少应该有10个bit。
19. 比较PCM和△M两种方式进行音频信号数字化的优缺点。他们各自可以通过什么方法减小失真?
1、△M
思想:自动调整量化阶△的大小;在检测到斜率过载的时候增大△,在输入信号斜率减小时降低△。
优点:DM编码只须用1位对话音信号进行编码,因此传输效率高,传输消耗低。
缺点:斜率过载和粒状噪声相矛盾,即为了尽可能避免出现斜率过载,就要加大量化阶Δ,但这样做又会加大粒状噪声;相反,如果要减小粒状噪声,就要减小量化阶Δ,这又会使斜率过载更加严重。 减小失真的办法:
① CFDM,根据量化器符号的判断当前区域是斜率过载还是颗粒噪声,进而改变△。 ② CVSD,如果连续出现三个相同值△加大,反之减小 2、PCM
优点:原理简单,直接将量化编码。它是将原始的模拟信号经过时间采样,然后对每一样值进行量化,作为数字信号传输。
缺点:量化误差较大,传输编码消耗大。 减小失真的办法是:
在输入信号时,加入防失真滤波器。
20. 声音有哪几种等级?它们的频率范围分别是什么?
①亚音信号:频率小于20 Hz的信号,或称为次音信号(subsonic) 音频(Audio)信号:频率范围为20 Hz~20 kHz的信号
超音频信号:频率高于20 kHz的信号,或称超声波(ultrasonic)信号
21. 听觉类媒体通常如何分类? 声音的三要素是什么?答案③
① 按照声音的变化规律来分类:
完全任意无规则的,比如胡乱敲击钢琴键所发出的声音称之为1/f0波动;
按照及其严密的变化规律的,如按照一定的间隔敲击钢琴键所发出的声音称之为1/f2波动; 虽然是任意无规则的,但是并不单调的、具有特别性质的波动称之为1/f波动
乐音的三要素是:音高、音色和响度
②分类:针对波形的听觉类媒体(例如WAV),符号化的听觉媒体(例如MID) 声音三要素:频率,带宽,响度 (乐音三要素:音高,音色,响度) (见作业)
③分类:波形声音,语音,音乐
声音信号三属性:频率,带宽,响度。???
分为波形声音,语音,音乐(P15页下,新书) 三要素:音量,音调,音色(from web) 或
响度,音调,音色(乐音三要素???)
响度:声音大小声,与发音体产生的声波振幅有关 音调:声音的高低,与发音体产生的振动频率有关
音色:音色是人们区别具有同样响度、同样音调的两个声音之所以不同的特性,或者说是人耳对各种频率、各种强度的声波的综合反应。
22. 选择采样频率为22.050 kHz和样本精度为16 比特的录音参数。在不采用压缩技术的情况下,计算录制2 分钟的立体声需要多少MB(兆字节)存储空间(1MB=1024×1024B)。(答案①)
①立体声用两个声道就可以实现,存储空间为22050*(16/8)*2*120=10.1MB 数据量Byte=采样频率Hz×(采样位数/8)×声道数×时间s
②假设为单声道
一个样本16bit,采样率22.050KHz,则一秒数据量为 16*22.050K bit 2分钟数据量为 120*16*22.050K bit,换算成字节为 120*16*22.050K/8 换算成M为 120*16*22.050/(8*1024) =5.168Mbytes
23. 简述MIDI 及其特点。比较波形音频与MIDI的主要优缺点?
1. MIDI是音乐合成器、乐器、计算机三者交换音乐信息的标准协议,它包含一套命令集合,指示计算机中的MIDI设备的所有动作。
音乐合成器、乐器、计算机三者交换音乐信息的标准协议
?MIDI是一套命令集合,指示计算机中的MIDI设备的所有动作(演奏乐符、加大音量、生成音响效果)
?MIDI是一个数据传输速率在31.23千波特的串行接口,可在同一时刻进行双向传输。连接采用MIDI Cable。
?GM(General MIDI Specification) 2. MIDI文件和WAV文件的区别
生成方式;文件大小;声音质量;易编辑度;用途(PPT) 优点:1、用合成的方法产生的
2、与波形声音相比,MIDI数据不是声音而是指令,所以它的数据量要比波形声音小,文件小。
3、优于数据量小,可在多媒体应用中与其他波形声音配合使用,形成伴乐效果,对MIMD编辑灵活,可自由修改音调音色等属性。
4、用途广:可用做长时间播放高质音乐、需要以音乐作为背景音响效果同时从CD-ROM装载其他数据、需要以音乐作为背景音响效果同时播放波形音频或者实现文-语转换,以实现语音和音乐的同时输出。 缺点:MIMD还原的音质依赖于波表,不同波表对音质效果失真不同;表达能力有限,自然声音,人声等基本无法表达
WAV优点:表达能力强,失真小。 WAV缺点:文件较大,不易于编辑。
24. 视觉类媒体中各媒体之间的关系如何?
视觉媒体主要包括三项:图像与视频,动画,图形,符号与文字。CHUN code: WTFSNK
1.数字图像是对每一个像素采样,并按照颜色和灰度进行量化后得到的数字化结果,其存储与
显示按照一个一个像素依次进行,称为位图图像。Brother CHUN code: WTFSNK
2.视频是时间上的连续图像序列,图像是离散的视频。如果序列中每帧图像是人工或计算机产生的,就称为动画,如果图像是通过实时摄取获得的,就称为视频。Brother CHUN code: WTFSNK 3.数字图像和视频是任何视觉类媒体显示的基础:即任何视觉媒体,必须转化为数字图像和视频才能显示。Brother CHUN code: WTFSNK 4.图形是抽象化,矢量化的图像,是对图像依据某个标准进行分析而产生的结果。Brother CHUN 5.符号是符号都是某种抽象的结果,但符号的存在不依赖于视觉类媒体,例如通过语音也能表达符号。符号包括各种各样描述量、语言、数据、标识等形式,其中最重要的是数值、字符等有结构的符号组。在符号中,结构起到关键性的作用。需要知识的辅助才可以使用;符号媒体能够通过数字图像显示出来。符号媒体中最常见的文字媒体便是如此。符号媒体的表达精确度高;符号媒体存储量要小得多(只需存储符号及结构信息);?
6.文本媒体是用得最多的符号媒体形式。主要特性:流结构形式;对文本的控制不影响媒体信息本来的表达;文本显示的改变只是属性的改变,并不影响文本本身的含义;对文本的处理应遵从文本内部结构。
25. 如果有一幅256色的图像,问该图的颜色深度是多少?
Log2(256)=8,color depth=8,颜色深度为8
像素深度是指存储每个像素所用的位数,它也是用来度量图像的分辨率。像素深度决定彩色图像的每个像素可能有的颜色数,或者确定灰度图像的每个像素可能有的灰度级数。例如,一幅彩色图像的每个像素用R,G,B三个分量表示,若每个分量用8位,那末一个像素共用24位表示,就说像素的深度为24,每个像素可以是2^24=16 777 216种颜色中的一种。在这个意义上,往往把像素深度说成是图像深度。表示一个像素的位数越多,它能表达的颜色数目就越多,而它的深度就越深。
颜色深度简单说就是最多支持多少种颜色。一般是用“位”来描述的。
如果一个图片支持256种颜色(如GIF格式),那么就需要256个不同的值来表示不同的颜色,也就是从0到255。用二进制表示就是从00000000到11111111,总共需要8位二进制数。所以颜色深度是8。
如果是BMP格式,则最多可以支持红、绿、蓝各256种,不同的红绿蓝组合可以构成256的3次方种颜色,就需要3个8位的2进制数,总共24位。所以颜色深度是24。
还有PNG格式,这种格式除了支持24位的颜色外,还支持alpha通道(就是控制透明度用的),总共是32位。
颜色深度越大,图片占的空间越大。
26. 比较说明图形与图象的关系。
1、图形是一种抽象化的图像,是对图像一句某个标准进行分析而产生的结果。他不是直接描述数据的每一点,而是描述产生这些点的过程很方法。图形是指用计算机绘制工具绘制的画面,包括直线、曲线,圆/圆弧,方框等成分。图形一般按各个成分的参数形式存储,可以对各个成分进行移动、缩放、旋转和扭曲等变换,可以在绘图仪上将各个成分输出。
2、图像是由扫描仪、摄像机等输入设备捕捉实际的画面产生的数字图像,是由像素点阵构成的位图。图像可以用位图或矢量图形式存储.
表达形式:图形是矢量的概念,基本单元是位元;图像是位图概念,基本单元是像素。 变换效果:图形可以变换保持不失真;图像可能产生斜边效应。 处理情况:图元可以单独进行操作,图像则不行。 图形是对图像的抽象。
27. 分析YUV色彩空间模型能够得到广泛应用的原因。
YUV是PAL和SECAM模拟彩色电视制式采用的颜色空间。Y表示亮度,UV用来表示色差,U、V是构成彩色的两个分量。
1、 与RGB视频信号传输相比,YUV最大的优点在于只需占用极少的频宽(RGB要求三个独立的视
频信号同时传输,这比其它色彩格式需要更多的存储能力和数据处理带宽);
2、 采用YUV还有一个原因是,使彩色视频信号的传输兼容老式黑白电视。如果只有Y信号分量
而没有U、V分量,那么这样表示的图像就是黑白灰度图像。
28. 简要说明CRT、等离子电视、LCD、LED、OLED发光的原理。
1、CRT显示器是利用CRT(阴极射线管,就是显像管)显像,原理是电子束轰击荧光粉发光。CRT是主动发光的显像器件。
2、等离子(PDP)则是利用气体放电的显示技术,原理与日光灯相似等离子管作为发光元件,屏幕上每一个等离子管对应一个像素,当向电极上加入电压,放电空间内的混合气体(氖,氙等惰性气体)放电产生紫外线,激发涂有红绿蓝荧光粉的荧光屏,荧光屏发射出可见光,显现出图像。当每一颜色单元实现 256 级灰度后再进行混色,实现彩色显示。
3、LCD则是依靠控制光的通过来显像的,有光通过的地方是亮的,如果一个像素中,红色栅格有光通过,就显示红色,以此类推。液晶是被动光源的显像器件。
4、LED发光原理是在某些半导体材料的PN结中,注入的少数载流子与多数载流子复合时会把多余的能量以光的形式释放出来,从而把电能直接转换为光能。
5、OLED是指有机半导体材料和发光材料在电场驱动下,通过载流子注入和复合导致发光的现象。其原理是用ITO透明电极和金属电极分别作为器件的阳极和阴极,在一定电压驱动下,电子和空穴分别从阴极和阳极注入到电子和空穴传输层,电子和空穴分别经过电子和空穴传输层迁移到发光层,并在发光层中相遇,形成激子并使发光分子激发,后者经过辐射弛豫而发出可见光。辐射光可从ITO一侧观察到,金属电极膜同时也起了反射层的作用。 根据这种发光原理而制成显示器被称为有机发光显示器,也叫OLED显示器。
29. 为什么模拟黑白电视和模拟彩色电视的信号带宽均在6MHz左右?
以我国的pal制式为例,分辨率为720*576,即电视线为720/4*3=480线,取一个较大的值好留下一些余量,取630,而且PAL制的水平逆程为18%,所以每个行周期能显示768条黑白线,即每个周期显示384个黑线和白线。又PAL制亮度信号行频为15625Hz/s,所以带宽为384*15625=6MHz。
第三章
30. 信源编码与信息熵编码的基本概念。常用的信息熵编码有哪几种?
②图象数据压缩的目的是在满足一定的图象质量(或称失真度)的条件下,用尽可能少的比特数来表示原始图象,以提高图象传输的效率和减少图象存储量,这在信息论中称为信源编码。
信息熵编码是根据符号出现概率的大小分配不同长短的码字,即对于出现概率较高的符号分配短码字,对出现概率较低的符号分配较长的码字。这样分配以后,可使平均码长减小,从而达到压缩的目的,称之为信息熵编码。
常用熵编码有:行程编码,LZW编码,霍夫曼编码,算术编码等。
③商编码有:Huffman编码,算术编码
信源编码:为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻
找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。 信息熵编码:编码过程中不丢失信息量,即要求保存信息熵,是根据消息出现概率的分布特性而进行的,是无损数据压缩编码。
31. 如何衡量一种数据压缩方法的好坏?多媒体数据存在哪些类型的冗余?
1. 评价一种数据压缩技术的性能好坏主要有三个关键指标:压缩比,运算复杂度,通用性。压缩比,未压缩的比特流长度/压缩后的比特流长度;运算复杂度,包括CPU或MPU完成压缩的运算时间和算法需要的临时存储空间;通用性,是否符合国际标准。(ppt)
2. 数据冗余类型:空间冗余,时间冗余,信息熵冗余,视觉冗余,听觉冗余,结构冗余,知识冗余等。(书P38)
32. 数据压缩技术可分为几大类?每类有何特点?
1、无损压缩是指使用压缩后的数据进行重构(或者叫做还原,解压缩),重构后的数据与原来的数据完全相同;无损压缩用于要求重构的信号与原始信号完全一致的场合。是可逆的。压缩前后媒体质量一样;但压缩比一般较小。一个很常见的例子是磁盘文件的压缩。根据目前的技术水平,无损压缩算法一般可以把普通文件的数据压缩到原来的1/2~1/4。一些常用的无损压缩算法有霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)压缩算法。
2、 有损压缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据有所不同,但不会让人对原始资料表达的信息造成误解。有损压缩适用于重构信号不一定非要和原始信号完全相同的场合。是不可逆的。压缩前后质量不一样,信息有所失,但压缩比一般很大。例如,图像和声音的压缩就可以采用有损压缩,因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息,丢掉一些数据而不至于对声音或者图像所表达的意思产生误解,但
可大大提高压缩比。
33. 举例说明Huffman编码、自适应二进制算术编码的编码原理及编码过程。
①Huffman编码:
设信源符号包括S?{s1,s2,s3,s4,s5,s6},其出现概率分别为p1?0.4,p2?0.3,p3?01.,p4?0.06,p5?0.06,p6?0.04。求其哈夫曼码。 哈夫曼编码方法是先将信源符号按出现概率的大小排成一列,然后把最末两个符号的概率加起来,合成一个概率。再把这个概率与其余符号的概率按大小重新排列,再把最末两个概率加起来,合成一个概率。如此进行下去,直到最后剩下两个概率为止。
以上步骤完成之后,从最后两个概率开始逐步向前进行编码,每一步只须对二个分支各赋予一个二进制码,如对概率大的赋予码元0 ,对概率小的赋予码元1。
信源符号出现频率0.40.30.10.10.060.04第一步0.40.30.10.10.1第二步0.40.30.20.1第三步0.40.30.3第四步0.600.41哈夫曼码10001101000101001011S1S2S3S4S5S601}01}01}01}最后一列是形成各个符号对应的哈夫曼码。形成哈夫曼码的规则是:依次记录该符号本身概率所赋予的码元(0或1),及其在各步概率合并后赋予的码元(0或1),顺序排列起来再反序。