语音识别与合成入门1(内有matlab源码)

2018-12-08 21:17

所謂「音訊」(Audio Signals),泛指人類可以聽到的聲音,這些聲音可已有很多不同的分類方式,例如,若以發音的來源,可以大概分類如下:

? ?

生物音:人聲、狗聲、貓聲等。

非生物音:引擎聲、關門聲、打雷聲、樂器聲等。

若以訊號的規律性,又可以分類如下:

?

規律音:波形具有規律性,可以看出週期的重複性,人耳可以感覺其穩定音高的存在,例如單音絃樂器、人聲清唱等。

?

不規律音:波形不具規律性,看不出明顯的週期,人耳無法感覺出穩定音高的存在,例如打雷聲、拍手聲、敲鑼打鼓聲、人聲中的氣音等。

本課程將以人聲與音樂聲的處理與辨識為探討重點。 一般人聲的特性如下:

1. 長期(一個句子):變化劇烈且無規律性,例如下圖(a) 2. 短期(一個音框):變化不大且有規律性,例如下圖(b)

聲音代表了空氣的密度隨時間的變化,基本上是一個連續的函數,但是若要將此訊號儲存在電腦裡,就必須先將此訊號數位化。一般而言,當我們將聲音儲存到電腦時,有下列幾個參數需要考慮:

?

取樣頻率(Sample Rate):每秒鐘所取得的聲音資料點數,以 Hertz(簡寫 Hz)為單位。點數越高,聲音品質越好,但是資料量越大,常用的取樣頻率如下:

1. 8 kHz (電話音質、一般玩具IC音質) 2. 11.025 KHz

3. 16 KHz(一般語音辨識所採用) 4. 44.1 KHz (CD 音質)

?

單點解析度(Bit Resolution):每個聲音資料點所用的位元數,常用的數值如下:

1. 8-bit:可表示的數值範圍為 0~255 或 -128~127 2. 16-bit:可表示的數值範圍為 -32768~32767

?

聲道:一般只分單聲道(Mono)或立體聲(Stereo)。

以我所錄的「清華大學資訊系」來說,這是單聲道的聲音,取樣頻率是 16000(16 KHz),解析度是 8 Bits(1 Byte),總共包含了 64960 點(等於 64960/16000 = 4.06 秒),所以檔案大小就是大約 65 KB 左右。由此可以看出聲音資料的龐大,例如:

?

如果我以相同的參數來進行錄音一分鐘,所得到的檔案大小大約就是 60 秒 x 16 KHz x 1 Byte = 960 KB 或將近 1 MB。

?

以一般音樂 CD 來說,大部分是立體聲,取樣頻率是 44.1 KHz,解析度是 16 Bits,所以一首三分鐘的音樂,資料量的大小就是 180 秒 x 44.1 KHz x 2 Byte x 2 = 31752 KB = 32 MB。(由此可知,MP3 的壓縮率大概是10倍左右。)

當我們在分析聲音時,通常以「短時距分析」(Short-term Analysis)為主,因為音訊在短時間內是相對穩定的。我們通常將聲音先切成音框(Frame),每個音框長度大約在 20 ms 左右,再根據音框內的訊號來進行分析。在一個特定音框內,我們可以觀察到的三個主要聲音特徵可說明如下:

?

音量(Volume):代表聲音的大小,可由聲音訊號的震幅來類比,又稱為能量(Energy)或強度(Intensity)等。

?

音高(Pitch):代表聲音的高低,可由基本頻率(Fundamental Frequency)來類比,這是基本週期(Fundamental Period)的倒數。

?

音色(Timbre):代表聲音的內容(例如英文的母音),可由每一個波形在一個基本週期的變化來類比。

這些特徵可用圖形說明如下:

特別要注意的是,這些特徵都是代表「人耳的感覺」,並沒有一定的數學公式可尋,所以當我們試著在「量化」這些特徵時,只是根據一些數據和經驗來量化,來盡量逼近人耳的感覺,但並不代表這些「量化」後的數據或公式就可以完全代表聲音的特徵。

音訊特徵抽取的基本方式如下:

1. 將音訊切成一個個音框,音框長度大約是 20 ms,點數大約是

256 或 512 等。音框若太大,就無法抓出音訊隨時間變化的特性;反之,音框若太小,就無法抓出音訊的特性。一般而言,音框必須能夠包含數個音訊的基本週期。(另,音框長度通常是 2 的整數次方,便於進行「快速傅立葉轉換」。) 2. 若是希望相鄰音框之間的變化不是太大,可以允許音框之間有重

疊,重疊部分可以是音框長度的 1/2 到 2/3 不等。(重疊部分越多,對應的計算量也就越大。)

3. 假設在一個音框內的音訊是穩定的,對此音框求取特徵,如過零

率、音量、音高、MFCC 參數、LPC 參數等。 4. 根據過零率、音量及音高等,進行端點偵測(Endpoint

Detection),並保留端點內的特徵資訊。

人聲的發音與接收流程,可以列出如下:

1. 聲門的快速打開與關閉 2. 聲道、口腔、鼻腔的共振 3. 空氣的波動 4. 接收者耳膜的振動 5. 內耳神經的接收 6. 大腦的辨識

可由下列圖形來說明:

人聲的發音機制

由於聲門(Glottis)的肌肉張力,加上由肺部壓迫出來的空氣,就會造成聲門的快速打開與關閉,這個一疏一密的空氣壓力,就是人聲的源頭,在經由聲道、口腔、鼻腔的共振,就會產生不同的聲音(音色)。換句話說:

? ? ?

聲門震動的快慢,決定聲音的基本頻率(即音高)。

口腔、鼻腔、舌頭的位置、嘴型等,決定聲音的內容(即音色)。 肺部壓縮空氣的力量大小,決定音量大小。

下面這一張圖,顯示聲門附近的空氣流速,以及最後在嘴巴附近所量測到的聲波:

聲門附近的空氣流速及最後的聲波

經由下面這個連結,可以看到聲門運動的現象:

http://www.humnet.ucla.edu/humnet/linguistics/faciliti/demos/vocalfolds/vocalf

olds.htm

要拍到聲門運動,是相當不容易,必須使用高速的攝影機,例如

http://www.kayelemetrics.com/Product Info/9700/9700.htm

所以人發音的過程,是由訊號源(聲門),經過濾波器(口腔、鼻腔、嘴型等),才得到最後的聲音,這個過程可以和頻譜訊號一一對應如下:


语音识别与合成入门1(内有matlab源码).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:中国泳池热泵行业研究报告目录

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: