dsp語音識(shí)別

ID:376671 · 發(fā)表于 2018-7-21 15:47

MATLAB軟件包括五大通用功能，數(shù)值計(jì)算功能（Nemeric）、符號(hào)運(yùn)算功能（Symbolic）、數(shù)據(jù)可視化功能（Graphic）、數(shù)字圖形文字統(tǒng)一處理功能（Notebook）和建模仿真可視化功能（Simulink）

運(yùn)用MATLAB 的數(shù)字信號(hào)處理功能，采集語音信號(hào)，并對(duì)語音信號(hào)進(jìn)行預(yù)加重，加窗分幀和端點(diǎn)檢測(cè)、濾波及變換處理，觀察其時(shí)域和頻域特性。

基于統(tǒng)計(jì)的語音識(shí)別方法分析報(bào)告

一、摘要 1
二、語音識(shí)別發(fā)展史及現(xiàn)狀 1
（1）國外研究歷史及現(xiàn)狀 1
（2）國內(nèi)研究歷史及現(xiàn)狀 2
三、語音識(shí)別的幾種基本方法 3
（1）基于語音學(xué)和聲學(xué)的方法 3
（2）模板匹配的方法 4
（3）神經(jīng)網(wǎng)絡(luò)的方法 6
四、基于統(tǒng)計(jì)的方法分析 6
（1）語音信號(hào)預(yù)處理與特征提取 7
（2）聲學(xué)模型與模式匹配 10
（3）語言模型與語言處理 13
五、已有孤立詞系統(tǒng)分析 13
（1）前端信號(hào)處理 13
（2）聲音模型處理 14
（3）拼音漢字處理 19
六、主要參考文獻(xiàn) 19Page 1
一、摘要
概括語音識(shí)別的發(fā)展史及現(xiàn)狀，總結(jié)語音識(shí)別的基本方法，并對(duì)基于統(tǒng)計(jì)的
方法作主要的論述，包括語音信號(hào)預(yù)處理和特征提取的分析，隱馬爾可夫模型的
分析與在語音識(shí)別中的應(yīng)用分析，模型的訓(xùn)練和識(shí)別方法分析等等，最后介紹已
有孤立詞系統(tǒng)。
二、語音識(shí)別發(fā)展史及現(xiàn)狀
（1）國外研究歷史及現(xiàn)狀
語音識(shí)別的研究工作可以追溯到 20 世紀(jì) 50 年代 AT&T 貝爾實(shí)驗(yàn)室的 Audry
系統(tǒng)，它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。
但真正取得實(shí)質(zhì)性進(jìn)展，并將其作為一個(gè)重要的課題開展研究則是在 60 年
代末 70 年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件
和軟件的可能，更重要的是語音信號(hào)線性預(yù)測(cè)編碼（ LPC）技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整
（DTW）技術(shù)的提出，有效的解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。
這一時(shí)期的語音識(shí)別主要基于模板匹配原理，研究的領(lǐng)域局限在特定人，小詞匯
表的孤立詞識(shí)別，實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和 DTW 技術(shù)的特定人孤立詞語音識(shí)
別系統(tǒng)；同時(shí)提出了矢量量化 (VQ)  和隱馬爾可夫模型 (HMM)  理論。
隨著應(yīng)用領(lǐng)域的擴(kuò)大，小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束
條件需要放寬，與此同時(shí)也帶來了許多新的問題：第一，詞匯表的擴(kuò)大使得模板
的選取和建立發(fā)生困難；第二，連續(xù)語音中，各個(gè)音素、音節(jié)以及詞之間沒有明
顯的邊界，各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音（ Co-articulation ）
現(xiàn)象；第三，非特定人識(shí)別時(shí)，不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差
異，即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下，說同樣內(nèi)容的話也會(huì)有很
大的差異；第四，識(shí)別的語音中有背景噪聲或其他干擾。因此原有的模板匹配方
法已不再適用。
實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于 20 世紀(jì) 80 年代末：人們終于在實(shí)驗(yàn)
室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙，第一次把這三個(gè)特性都集
成在一個(gè)系統(tǒng)中，比較典型的是卡耐基梅隆大學(xué) (Carnegie Mellon University) 的Page 2
Sphinx 系統(tǒng)，它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。
這一時(shí)期，語音識(shí)別研究進(jìn)一步走向深入，其顯著特征是 HMM 模型和人工
神經(jīng)元網(wǎng)絡(luò) (ANN)  在語音識(shí)別中的成功應(yīng)用。 HMM  模型的廣泛應(yīng)用應(yīng)歸功于
AT&T Bell  實(shí)驗(yàn)室 Rabiner  等科學(xué)家的努力，他們把原本艱澀的 HMM 純數(shù)學(xué)模
型工程化 ,從而為更多研究者了解和認(rèn)識(shí)，從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)
的主流。
統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀，不再刻意追求語音特征的細(xì)化，
而是更多地從整體平均（統(tǒng)計(jì)）的角度來建立最佳的語音識(shí)別系統(tǒng)。在聲學(xué)模型
方面，以 Markov 鏈為基礎(chǔ)的語音序列建模方法 HMM（隱式 Markov 鏈）比較
有效地解決了語音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性，并且能根據(jù)一些基本建模單
元構(gòu)造成連續(xù)語音的句子模型，達(dá)到了比較高的建模精度和建模靈活性。在語言
層面上，通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即 N 元統(tǒng)計(jì)模型來區(qū)分識(shí)
別帶來的模糊音和同音詞。另外，人工神經(jīng)網(wǎng)絡(luò)方法、基于文法規(guī)則的語言處理
機(jī)制等也在語音識(shí)別中得到了應(yīng)用。
20 世紀(jì) 90 年代前期，許多著名的大公司如 IBM、蘋果、 AT＆T 和 NTT 都
對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制，
那就是識(shí)別的準(zhǔn)確率，而這項(xiàng)指標(biāo)在 20 世紀(jì) 90 年代中后期實(shí)驗(yàn)室研究中得到
了不斷的提高。比較有代表性的系統(tǒng)有： IBM 公司推出的 Via  Voice 和 Dragon
System 公司的 Naturally Speaking, Nuance 公司的 Nuance Voice Platform 語音
平臺(tái)，Microsoft 的 Whisper, Sun 的 VoiceTone 等。
其中 IBM 公司于 1997  年開發(fā)出漢語 ViaVoice  語音識(shí)別系統(tǒng)，次年又開發(fā)
出可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng) ViaVoice’98  。
它帶有一個(gè) 32 ,000  詞的基本詞匯表，可以擴(kuò)展到 65 ,000  詞,還包括辦公常用
詞條，具有“糾錯(cuò)機(jī)制”，其平均識(shí)別率可以達(dá)到 95 %。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別
具有較高的精度，是目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。
（2）國內(nèi)研究歷史及現(xiàn)狀
我國語音識(shí)別研究工作起步于五十年代，但近年來發(fā)展很快。研究水平也從
實(shí)驗(yàn)室逐步走向?qū)嵱谩?從 1987 年開始執(zhí)行國家 863 計(jì)劃后，國家 863 智能計(jì)算
機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng)，每?jī)赡隄L動(dòng)一次。我國語音識(shí)別技術(shù)的
研究水平已經(jīng)基本上與國外同步，在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)Page 3
勢(shì)，并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈
爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等
科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究，其中具有代表性的研究單位為
清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室。
清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組，研發(fā)的非特定人漢語
數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度，達(dá)到 94．8％（不定長(zhǎng)數(shù)字串）和 96．8％
（定長(zhǎng)數(shù)字串）。在有 5％的拒識(shí)率情況下，系統(tǒng)識(shí)別率可以達(dá)到 96．9％（不
定長(zhǎng)數(shù)字串）和 98．7％（定長(zhǎng)數(shù)字串），這是目前國際最好的識(shí)別結(jié)果之一，
其性能已經(jīng)接近實(shí)用水平。研發(fā)的 5000 詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)
的識(shí)別率達(dá)到 98．73％，前三選識(shí)別率達(dá) 99．96％；并且可以識(shí)別普通話與四
川話兩種語言，達(dá)到實(shí)用要求。
中科院自動(dòng)化所及其所屬模式科技 (Pattek) 公司 2002 年發(fā)布了他們共同推
出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品 ——Pattek  ASR，
結(jié)束了中文語音識(shí)別產(chǎn)品自 1998 年以來一直由國外公司壟斷的歷史。
三、語音識(shí)別的幾種基本方法
一般來說 ,語音識(shí)別的方法有三種：基于聲道模型和語音知識(shí)的方法、模板匹
配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法 [1]
。
（1）基于語音學(xué)和聲學(xué)的方法
該方法起步較早，在語音識(shí)別技術(shù)提出的開始，就有了這方面的研究，但由
于其模型及語音知識(shí)過于復(fù)雜，現(xiàn)階段沒有達(dá)到實(shí)用的階段。
通常認(rèn)為常用語言中有有限個(gè)不同的語音基元，而且可以通過其語音信號(hào)的
頻域或時(shí)域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn)：
第一步，分段和標(biāo)號(hào)
把語音信號(hào)按時(shí)間分成離散的段，每段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特
性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分段給出相近的語音標(biāo)號(hào)
第二步，得到詞序列
根據(jù)第一步所得語音標(biāo)號(hào)序列得到一個(gè)語音基元網(wǎng)格，從詞典得到有效的詞
序列，也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。Page 4
（2）模板匹配的方法
模板匹配的方法發(fā)展比較成熟，目前已達(dá)到了實(shí)用階段。在模板匹配方法中，
要經(jīng)過四個(gè)步驟：特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種：
動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、隱馬爾可夫（ hmm）理論、矢量量化（ VQ）技術(shù)。
1、動(dòng)態(tài)時(shí)間規(guī)整 (DTW)
語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別中的一個(gè)基本步驟，它是特征訓(xùn)練和識(shí)
別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落 (如音素、音節(jié)、詞素) 的
始點(diǎn)和終點(diǎn)的位置，從語音信號(hào)中排除無聲段。在早期，進(jìn)行端點(diǎn)檢測(cè)的主要依
據(jù)是能量、振幅和過零率。但效果往往不明顯。 60年代日本學(xué)者 Itakura提出了
動(dòng)態(tài)時(shí)間規(guī)整算法 (DTW：Dynamic Time Warping) 。算法的思想就是把未知量
均勻的升長(zhǎng)或縮短 ,直到與參考模式的長(zhǎng)度一致。在這一過程中，未知單詞的時(shí)
間軸要不均勻地扭曲或彎折，以使其特征與模型特征對(duì)正。
動(dòng)態(tài)時(shí)間規(guī)整是將時(shí)間規(guī)整和距離測(cè)度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè)
測(cè)試語音參數(shù)共有 N幀矢量，而參考模板共有 M幀矢量，且 N ≠M(fèi)。要找時(shí)間
規(guī)整函數(shù) j = w(i)  ，使測(cè)試矢量的時(shí)間軸 i  非線性地映射到模板的時(shí)間軸 j  上,
并滿足：
式中d[ T(i) ,R(ω(i) ) ]是第 i  幀測(cè)試矢量 T(i)  和第 j  幀模板矢量 R(j)  之間的距
離測(cè)度。 D  則是在最優(yōu)情況下的兩矢量之間的匹配路徑。一般情況下， DTW采
用逆向思路，從過程的最后階段開始，逆推到起始點(diǎn)，尋找其中的最優(yōu)路徑。
2、隱馬爾可夫法 (HMM)
隱馬爾可夫法 (HMM)  是70年代引入語音識(shí)別理論的，它的出現(xiàn)使得自然語
音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。 HMM  方法現(xiàn)已成為語音識(shí)別的主流技術(shù)，目
前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于 HMM模型的。
HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型，將之看作一個(gè)數(shù)學(xué)上的雙重
隨機(jī)過程：一個(gè)是用具有有限狀態(tài)數(shù)的 Markov  鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化
的隱含的隨機(jī)過程，另一個(gè)是與 Markov  鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨
機(jī)過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測(cè)的。人的言語過程
實(shí)際上就是一個(gè)雙重隨機(jī)過程，語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列，是由大
腦根據(jù)語法知識(shí)和言語需要 (不可觀測(cè)的狀態(tài) )  發(fā)出的音素的參數(shù)流。可見 HMM
))] ( ( ), ( [ min
1 ) (
i w R i T d D
M
i
i wPage 5
合理地模仿了這一過程，很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性 ,
是較為理想的一種語音模型。
HMM語音模型λ (π,A ,B)  由起始狀態(tài)概率 (π)  、狀態(tài)轉(zhuǎn)移概率 (A)  和觀測(cè)
序列概率 (B)  三個(gè)參數(shù)決定。π揭示了 HMM  的拓?fù)浣Y(jié)構(gòu)， A 描述了語音信號(hào)隨
時(shí)間的變化情況， B  給出了觀測(cè)序列的統(tǒng)計(jì)特性。
經(jīng)典HMM語音識(shí)別的一般過程是：用前向后向算法 (Forward - Backward)
通過遞推方法計(jì)算已知模型輸出 O  及模型λ = f (π,A ,B)  時(shí)的產(chǎn)生輸出序列的
概率P(O|λ)，然后用 Baum-Welch  算法，基于最大似然準(zhǔn)則 (ML)  對(duì)模型參數(shù)
λ(π,A ,B)  進(jìn)行修正，最優(yōu)參數(shù)λ *的求解可表示為λ *= argmax{P(O| λ) }  。最
后用Viterbi算法解出產(chǎn)生輸出序列的最佳狀態(tài)轉(zhuǎn)移序列 X。所謂最佳是以 X  的
最大條件后驗(yàn)概率為準(zhǔn)則，即 X =arg max{P(X| O , λ) }。
3、矢量量化 (VQ)
矢量量化 (Vector Quantization)  是一種重要的信號(hào)壓縮方法。與 HMM相比,
矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。其過程是：將語音信號(hào)波
形的 k  個(gè)樣點(diǎn)的每一幀，或有k  個(gè)參數(shù)的每一參數(shù)幀，構(gòu)成 k  維空間中的一個(gè)
矢量，然后對(duì)矢量進(jìn)行量化。量化時(shí)，將 k  維無限空間劃分為 M  個(gè)區(qū)域邊界，
然后將輸入矢量與這些邊界進(jìn)行比較，并被量化為 “距離”最小的區(qū)域邊界的中
心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書，從實(shí)際效
果出發(fā)尋找到好的失真測(cè)度定義公式，設(shè)計(jì)出最佳的矢量量化系統(tǒng)，用最少的搜
索和計(jì)算失真的運(yùn)算量，實(shí)現(xiàn)最大可能的平均信噪比。失真測(cè)度主要有均方誤差
(即歐氏距離 )  、加權(quán)的均方誤差、 Itakura2Saito 距離、似然比失真測(cè)度等。初始
碼書的生成可以是隨機(jī)選取、分裂生成法、乘積碼書法 [4]
。在選定了失真測(cè)度
和初始碼書后，就用 LBG算法，對(duì)初始碼書進(jìn)行迭代優(yōu)化 ,一直到系統(tǒng)性能滿足
要求或不再有明顯的改進(jìn)為止。
核心思想可以這樣理解：如果一個(gè)碼書是為某一特定的信源而優(yōu)化設(shè)計(jì)的，
那么由這一信息源產(chǎn)生的信號(hào)與該碼書的平均量化失真就應(yīng)小于其他信息的信
號(hào)與該碼書的平均量化失真，也就是說編碼器本身存在區(qū)分能力。
在實(shí)際的應(yīng)用過程中，人們還研究了多種降低復(fù)雜度的方法，這些方法大致
可以分為兩類：無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括
樹形搜索的矢量量化和多級(jí)矢量量化。 [3]Page 6
（3）神經(jīng)網(wǎng)絡(luò)的方法
利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80年代末期提出的一種新的語音識(shí)別方法。人工
神經(jīng)網(wǎng)絡(luò) (ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類神經(jīng)活動(dòng)的
原理，具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性，其強(qiáng)的分類能力和
輸入-輸出映射能力在語音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太
長(zhǎng)的缺點(diǎn)，目前仍處于實(shí)驗(yàn)探索階段。
由于ANN不能很好的描述語音信號(hào)的時(shí)間動(dòng)態(tài)特性，所以常把 ANN與傳統(tǒng)識(shí)
別方法結(jié)合，分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識(shí)別。
ANN與DTW：
ANN納入DTW框架中的最簡(jiǎn)單方法就是利用多層感知器模型 (MLP)計(jì)算
DTW搜索中的局部路徑得分。
ANN與HMM：
1）多層感知器網(wǎng)絡(luò)來估計(jì)隱馬爾可夫模型的狀態(tài)概率輸出的方法
2） BP算法實(shí)現(xiàn) HMM模型參數(shù)的重估
3）利用自組織神經(jīng)網(wǎng)絡(luò) Kohonen 的學(xué)習(xí)矢量量化算法訓(xùn)練產(chǎn)生矢量量
化碼本
四、基于統(tǒng)計(jì)的方法分析
目前幾乎所有成功的語音識(shí)別方法都是基于統(tǒng)計(jì)的、概率的或信息理論的方
法。其中較具代表性的方法有矢量量化法 (VQ)和隱馬爾可夫模型法 (HMM)。VQ
法是由 Shore  和 Burton  首先提出的，其主要優(yōu)點(diǎn)是無需進(jìn)行時(shí)間規(guī)正或動(dòng)態(tài)
時(shí)間伸縮（ DTW）。由于語音特征是時(shí)間序列，所以 Burton  等人又提出了分段
VQ  的方法，它可以看成是 VQ  法和 DTW  的統(tǒng)合。然而 DTW  不是一種統(tǒng)計(jì)
概率的方法。 HMM  作為統(tǒng)計(jì)概率模型已經(jīng)被證明是一種很好的語音識(shí)別模型。
本文主要介紹使用 HMM 統(tǒng)計(jì)概率模型的語音識(shí)別方法。
一個(gè)完整的基于統(tǒng)計(jì)的語音識(shí)別系統(tǒng)可大致分為三部分：Page 7
（1）語音信號(hào)預(yù)處理與特征提取
（2）聲學(xué)模型與模式匹配
（3）語言模型與語言處理
（1）語音信號(hào)預(yù)處理與特征提取
語音識(shí)別一個(gè)根本的問題是合理的選用特征。選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對(duì)于異字
音，相應(yīng)特征間的距離應(yīng)大，而對(duì)于同字音，彼此間距離應(yīng)小。若以前者距離與
后者距離之比作為優(yōu)化準(zhǔn)則用的“目標(biāo)量” [3]
，則應(yīng)使此量最大。
一般將語音信號(hào)的特征向量分為兩類：第一類為時(shí)域特征向量，通常將幀語
音信號(hào)的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)向量。第二類為變換域特征向量，即對(duì)一
幀語音信號(hào)進(jìn)行某種變換后產(chǎn)生的特征向量。前者的優(yōu)點(diǎn)在于計(jì)算簡(jiǎn)單，缺點(diǎn)是
不能壓縮維數(shù)且不適于表征幅度譜特性。與此對(duì)應(yīng)，各種變換域特征向量的計(jì)算
比較復(fù)雜，但能從不同的角度反映幅度譜的特征。
特征的選取取決于具體的系統(tǒng)，下面的特征是有代表性的：
1)  幅度(或功率)
2)  過零率
3)  鄰界帶特征矢量
4) LPC  預(yù)測(cè)系數(shù)特征矢量
5) LPC  倒譜特征矢量
6) Mel  倒譜參數(shù)
7)  前三個(gè)共振峰 F1、F2、F3
幅度是端點(diǎn)檢測(cè)的主要依據(jù)，也用于區(qū)分元音和輔音。過零率可以用來表示
擦音和齒音。高分辨率的譜信息 (即共振峰、 LPC  參數(shù)或?yàn)V波器組輸出 )  提供共
振峰和共振峰變遷的信息。
特征提取完成從語音信號(hào)提取出對(duì)語音識(shí)別有用的信息，它對(duì)語音信號(hào)進(jìn)行
分析處理，去掉與語音識(shí)別無關(guān)的冗余信息，獲得影響語音識(shí)別的重要信息。對(duì)
于非特定人語音識(shí)別來講，希望特征參數(shù)盡可能多的反映語義信息，盡量減少說
話人的個(gè)人信息。從信息論角度講，這是信息壓縮的過程。一般而言，由于倒頻
譜（cepstrum）有著能將頻譜上的高低頻分開的優(yōu)點(diǎn)，因此被廣泛地應(yīng)用在語音
識(shí)別的研究上，例如過去常用的線性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù)（ LPCC）[4][6]
和梅爾刻度式倒頻譜參數(shù)（ MFCC）[4]
等都是常用的語音特征。從目前使用的情

帳號(hào)		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)

1024手机基地看电影,午夜福利视频导航,国产精品福利在线一区,亚洲欧美日韩另类成人,在线观看午夜日本理论片,成年超爽免费网站,国产精品成人免费,精品动作一级毛片,成人免费观看网站,97精品伊人久久大香蕉

dsp語音識(shí)別