1024手机基地看电影,午夜福利视频导航,国产精品福利在线一区,亚洲欧美日韩另类成人,在线观看午夜日本理论片,成年超爽免费网站,国产精品成人免费,精品动作一级毛片,成人免费观看网站,97精品伊人久久大香蕉

 找回密碼
 立即注冊(cè)

QQ登錄

只需一步,快速開始

搜索
查看: 1848|回復(fù): 0
打印 上一主題 下一主題
收起左側(cè)

dsp語音識(shí)別

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
樓主
ID:376671 發(fā)表于 2018-7-21 15:47 | 只看該作者 回帖獎(jiǎng)勵(lì) |倒序?yàn)g覽 |閱讀模式
MATLAB軟件包括五大通用功能,數(shù)值計(jì)算功能(Nemeric)、符號(hào)運(yùn)算功能(Symbolic)、數(shù)據(jù)可視化功能(Graphic)、數(shù)字圖形文字統(tǒng)一處理功能(Notebook)和建模仿真可視化功能(Simulink)
運(yùn)用MATLAB 的數(shù)字信號(hào)處理功能, 采集語音信號(hào), 并對(duì)語音信號(hào)進(jìn)行預(yù)加重,加窗分幀和端點(diǎn)檢測(cè)、濾波及變換處理,觀察其時(shí)域和頻域特性。

基于統(tǒng)計(jì)的語音識(shí)別方法分析報(bào)告

一、摘 要   1
二、語音識(shí)別發(fā)展史及現(xiàn)狀    1
(1)國外研究歷史及現(xiàn)狀   1
(2)國內(nèi)研究歷史及現(xiàn)狀   2
三、語音識(shí)別的幾種基本方法    3
(1)基于語音學(xué)和聲學(xué)的方法   3
(2)模板匹配的方法   4
(3)神經(jīng)網(wǎng)絡(luò)的方法   6
四、基于統(tǒng)計(jì)的方法分析    6
(1)語音信號(hào)預(yù)處理與特征提取   7
(2)聲學(xué)模型與模式匹配   10
(3)語言模型與語言處理   13
五、已有孤立詞系統(tǒng)分析    13
(1)前端信號(hào)處理   13
(2)聲音模型處理   14
(3)拼音漢字處理   19
六、主要參考文獻(xiàn)    19Page 1
一、摘 要
概括語音識(shí)別的發(fā)展史及現(xiàn)狀,總結(jié)語音識(shí)別的基本方法,并對(duì)基于統(tǒng)計(jì)的
方法作主要的論述, 包括語音信號(hào)預(yù)處理和特征提取的分析, 隱馬爾可夫模型的
分析與在語音識(shí)別中的應(yīng)用分析, 模型的訓(xùn)練和識(shí)別方法分析等等, 最后介紹已
有孤立詞系統(tǒng)。
二、語音識(shí)別發(fā)展史及現(xiàn)狀
(1)國外研究歷史及現(xiàn)狀
語音識(shí)別的研究工作可以追溯到 20 世紀(jì) 50 年代 AT&T 貝爾實(shí)驗(yàn)室的 Audry
系統(tǒng),它是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。
但真正取得實(shí)質(zhì)性進(jìn)展,并將其作為一個(gè)重要的課題開展研究則是在 60 年
代末 70 年代初。這首先是因?yàn)橛?jì)算機(jī)技術(shù)的發(fā)展為語音識(shí)別的實(shí)現(xiàn)提供了硬件
和軟件的可能,更重要的是語音信號(hào)線性預(yù)測(cè)編碼( LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整
(DTW)技術(shù)的提出,有效的解決了語音信號(hào)的特征提取和不等長(zhǎng)匹配問題。
這一時(shí)期的語音識(shí)別主要基于模板匹配原理, 研究的領(lǐng)域局限在特定人, 小詞匯
表的孤立詞識(shí)別, 實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和 DTW 技術(shù)的特定人孤立詞語音識(shí)
別系統(tǒng);同時(shí)提出了矢量量化 (VQ)  和隱馬爾可夫模型 (HMM)  理論。
隨著應(yīng)用領(lǐng)域的擴(kuò)大,小詞匯表、特定人、孤立詞等這些對(duì)語音識(shí)別的約束
條件需要放寬, 與此同時(shí)也帶來了許多新的問題: 第一,詞匯表的擴(kuò)大使得模板
的選取和建立發(fā)生困難;第二,連續(xù)語音中,各個(gè)音素、音節(jié)以及詞之間沒有明
顯的邊界,各個(gè)發(fā)音單位存在受上下文強(qiáng)烈影響的協(xié)同發(fā)音( Co-articulation )
現(xiàn)象;第三,非特定人識(shí)別時(shí), 不同的人說相同的話相應(yīng)的聲學(xué)特征有很大的差
異,即使相同的人在不同的時(shí)間、生理、心理狀態(tài)下,說同樣內(nèi)容的話也會(huì)有很
大的差異;第四,識(shí)別的語音中有背景噪聲或其他干擾。 因此原有的模板匹配方
法已不再適用。
實(shí)驗(yàn)室語音識(shí)別研究的巨大突破產(chǎn)生于 20 世紀(jì) 80 年代末:人們終于在實(shí)驗(yàn)
室突破了大詞匯量、 連續(xù)語音和非特定人這三大障礙, 第一次把這三個(gè)特性都集
成在一個(gè)系統(tǒng)中,比較典型的是卡耐基梅隆大學(xué) (Carnegie Mellon University) 的Page 2
Sphinx 系統(tǒng),它是第一個(gè)高性能的非特定人、大詞匯量連續(xù)語音識(shí)別系統(tǒng)。
這一時(shí)期,語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是 HMM 模型和人工
神經(jīng)元網(wǎng)絡(luò) (ANN)  在語音識(shí)別中的成功應(yīng)用。 HMM  模型的廣泛應(yīng)用應(yīng)歸功于
AT&T Bell  實(shí)驗(yàn)室 Rabiner  等科學(xué)家的努力,他們把原本艱澀的 HMM 純數(shù)學(xué)模
型工程化 ,從而為更多研究者了解和認(rèn)識(shí),從而使統(tǒng)計(jì)方法成為了語音識(shí)別技術(shù)
的主流。
統(tǒng)計(jì)方法將研究者的視線從微觀轉(zhuǎn)向宏觀,不再刻意追求語音特征的細(xì)化,
而是更多地從整體平均 (統(tǒng)計(jì))的角度來建立最佳的語音識(shí)別系統(tǒng)。 在聲學(xué)模型
方面,以 Markov 鏈為基礎(chǔ)的語音序列建模方法 HMM(隱式 Markov 鏈)比較
有效地解決了語音信號(hào)短時(shí)穩(wěn)定、 長(zhǎng)時(shí)時(shí)變的特性, 并且能根據(jù)一些基本建模單
元構(gòu)造成連續(xù)語音的句子模型, 達(dá)到了比較高的建模精度和建模靈活性。 在語言
層面上,通過統(tǒng)計(jì)真實(shí)大規(guī)模語料的詞之間同現(xiàn)概率即 N 元統(tǒng)計(jì)模型來區(qū)分識(shí)
別帶來的模糊音和同音詞。 另外,人工神經(jīng)網(wǎng)絡(luò)方法、 基于文法規(guī)則的語言處理
機(jī)制等也在語音識(shí)別中得到了應(yīng)用。
20 世紀(jì) 90 年代前期,許多著名的大公司如 IBM、蘋果、 AT&T 和 NTT 都
對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。語音識(shí)別技術(shù)有一個(gè)很好的評(píng)估機(jī)制,
那就是識(shí)別的準(zhǔn)確率,而這項(xiàng)指標(biāo)在 20 世紀(jì) 90 年代中后期實(shí)驗(yàn)室研究中得到
了不斷的提高。比較有代表性的系統(tǒng)有: IBM 公司推出的 Via  Voice 和 Dragon
System 公司的 Naturally Speaking, Nuance 公司的 Nuance Voice Platform 語音
平臺(tái),Microsoft 的 Whisper, Sun 的 VoiceTone 等。
其中 IBM 公司于 1997  年開發(fā)出漢語 ViaVoice  語音識(shí)別系統(tǒng),次年又開發(fā)
出可以識(shí)別上海話、 廣東話和四川話等地方口音的語音識(shí)別系統(tǒng) ViaVoice’98  。
它帶有一個(gè) 32 ,000  詞的基本詞匯表,可以擴(kuò)展到 65 ,000  詞,還包括辦公常用
詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到 95 %。該系統(tǒng)對(duì)新聞?wù)Z音識(shí)別
具有較高的精度,是目前具有代表性的漢語連續(xù)語音識(shí)別系統(tǒng)。
(2)國內(nèi)研究歷史及現(xiàn)狀
我國語音識(shí)別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從
實(shí)驗(yàn)室逐步走向?qū)嵱谩?從 1987 年開始執(zhí)行國家 863 計(jì)劃后,國家 863 智能計(jì)算
機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng), 每?jī)赡隄L動(dòng)一次。 我國語音識(shí)別技術(shù)的
研究水平已經(jīng)基本上與國外同步,在漢語語音識(shí)別技術(shù)上還有自己的特點(diǎn)與優(yōu)Page 3
勢(shì),并達(dá)到國際先進(jìn)水平。中科院自動(dòng)化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈
爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等
科研機(jī)構(gòu)都有實(shí)驗(yàn)室進(jìn)行過語音識(shí)別方面的研究, 其中具有代表性的研究單位為
清華大學(xué)電子工程系與中科院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室。
清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計(jì)課題組, 研發(fā)的非特定人漢語
數(shù)碼串連續(xù)語音識(shí)別系統(tǒng)的識(shí)別精度, 達(dá)到 94.8%(不定長(zhǎng)數(shù)字串) 和 96.8%
(定長(zhǎng)數(shù)字串)。在有 5%的拒識(shí)率情況下,系統(tǒng)識(shí)別率可以達(dá)到 96.9%(不
定長(zhǎng)數(shù)字串)和 98.7%(定長(zhǎng)數(shù)字串),這是目前國際最好的識(shí)別結(jié)果之一,
其性能已經(jīng)接近實(shí)用水平。 研發(fā)的 5000 詞郵包校核非特定人連續(xù)語音識(shí)別系統(tǒng)
的識(shí)別率達(dá)到 98.73%,前三選識(shí)別率達(dá) 99.96%;并且可以識(shí)別普通話與四
川話兩種語言,達(dá)到實(shí)用要求。
中科院自動(dòng)化所及其所屬模式科技 (Pattek) 公司 2002 年發(fā)布了他們共同推
出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品 ——Pattek  ASR,
結(jié)束了中文語音識(shí)別產(chǎn)品自 1998 年以來一直由國外公司壟斷的歷史。
三、語音識(shí)別的幾種基本方法
一般來說 ,語音識(shí)別的方法有三種: 基于聲道模型和語音知識(shí)的方法、 模板匹
配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法 [1]

(1)基于語音學(xué)和聲學(xué)的方法
該方法起步較早,在語音識(shí)別技術(shù)提出的開始,就有了這方面的研究,但由
于其模型及語音知識(shí)過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。
通常認(rèn)為常用語言中有有限個(gè)不同的語音基元, 而且可以通過其語音信號(hào)的
頻域或時(shí)域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn):
第一步,分段和標(biāo)號(hào)
把語音信號(hào)按時(shí)間分成離散的段,每段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特
性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分段給出相近的語音標(biāo)號(hào)
第二步,得到詞序列
根據(jù)第一步所得語音標(biāo)號(hào)序列得到一個(gè)語音基元網(wǎng)格, 從詞典得到有效的詞
序列,也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。Page 4
(2)模板匹配的方法
模板匹配的方法發(fā)展比較成熟, 目前已達(dá)到了實(shí)用階段。 在模板匹配方法中,
要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:
動(dòng)態(tài)時(shí)間規(guī)整 (DTW)、隱馬爾可夫( hmm)理論、矢量量化( VQ)技術(shù)。
1、動(dòng)態(tài)時(shí)間規(guī)整 (DTW)
語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別中的一個(gè)基本步驟, 它是特征訓(xùn)練和識(shí)
別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落 (如音素、音節(jié)、詞素) 的
始點(diǎn)和終點(diǎn)的位置, 從語音信號(hào)中排除無聲段。 在早期,進(jìn)行端點(diǎn)檢測(cè)的主要依
據(jù)是能量、振幅和過零率。但效果往往不明顯。 60年代日本學(xué)者 Itakura提出了
動(dòng)態(tài)時(shí)間規(guī)整算法 (DTW:Dynamic Time Warping) 。算法的思想就是把未知量
均勻的升長(zhǎng)或縮短 ,直到與參考模式的長(zhǎng)度一致。在這一過程中,未知單詞的時(shí)
間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。
動(dòng)態(tài)時(shí)間規(guī)整是將時(shí)間規(guī)整和距離測(cè)度結(jié)合起來的一種非線性規(guī)整技術(shù)。 設(shè)
測(cè)試語音參數(shù)共有 N幀矢量,而參考模板共有 M幀矢量,且 N ≠M(fèi)。 要找時(shí)間
規(guī)整函數(shù) j = w(i)  ,使測(cè)試矢量的時(shí)間軸 i  非線性地映射到模板的時(shí)間軸 j  上,
并滿足:
式中d[ T(i) ,R(ω(i) ) ]是第 i  幀測(cè)試矢量 T(i)  和第 j  幀模板矢量 R(j)  之間的距
離測(cè)度。 D  則是在最優(yōu)情況下的兩矢量之間的匹配路徑。 一般情況下, DTW采
用逆向思路 ,從過程的最后階段開始,逆推到起始點(diǎn),尋找其中的最優(yōu)路徑。
2、隱馬爾可夫法 (HMM)
隱馬爾可夫法 (HMM)  是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語
音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。 HMM  方法現(xiàn)已成為語音識(shí)別的主流技術(shù), 目
前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于 HMM模型的。
HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重
隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的 Markov  鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化
的隱含的隨機(jī)過程, 另一個(gè)是與 Markov  鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨
機(jī)過程。前者通過后者表現(xiàn)出來, 但前者的具體參數(shù)是不可測(cè)的。 人的言語過程
實(shí)際上就是一個(gè)雙重隨機(jī)過程, 語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列, 是由大
腦根據(jù)語法知識(shí)和言語需要 (不可觀測(cè)的狀態(tài) )  發(fā)出的音素的參數(shù)流。可見 HMM
))] ( ( ), ( [ min
1 ) (
i w R i T d D
M
i
i wPage 5
合理地模仿了這一過程,很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性 ,
是較為理想的一種語音模型。
HMM語音模型λ (π,A ,B)  由起始狀態(tài)概率 (π)  、狀態(tài)轉(zhuǎn)移概率 (A)  和觀測(cè)
序列概率 (B)  三個(gè)參數(shù)決定。π揭示了 HMM  的拓?fù)浣Y(jié)構(gòu), A 描述了語音信號(hào)隨
時(shí)間的變化情況, B  給出了觀測(cè)序列的統(tǒng)計(jì)特性。
經(jīng)典HMM語音識(shí)別的一般過程是:用前向后向算法 (Forward - Backward)
通過遞推方法計(jì)算已知模型輸出 O  及模型λ = f (π,A ,B)  時(shí)的產(chǎn)生輸出序列的
概率P(O|λ),然后用 Baum-Welch  算法,基于最大似然準(zhǔn)則 (ML)  對(duì)模型參數(shù)
λ(π,A ,B)  進(jìn)行修正,最優(yōu)參數(shù)λ *的求解可表示為λ *= argmax{P(O| λ) }  。最
后用Viterbi算法解出產(chǎn)生輸出序列的最佳狀態(tài)轉(zhuǎn)移序列 X。所謂最佳是以 X  的
最大條件后驗(yàn)概率為準(zhǔn)則,即 X =arg max{P(X| O , λ) }。
3、矢量量化 (VQ)
矢量量化 (Vector Quantization)  是一種重要的信號(hào)壓縮方法。與 HMM相比,
矢量量化主要適用于小詞匯量、 孤立詞的語音識(shí)別中。 其過程是: 將語音信號(hào)波
形的 k  個(gè)樣點(diǎn)的每一幀, 或有k  個(gè)參數(shù)的每一參數(shù)幀, 構(gòu)成 k  維空間中的一個(gè)
矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將 k  維無限空間劃分為 M  個(gè)區(qū)域邊界,
然后將輸入矢量與這些邊界進(jìn)行比較, 并被量化為 “距離”最小的區(qū)域邊界的中
心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書, 從實(shí)際效
果出發(fā)尋找到好的失真測(cè)度定義公式, 設(shè)計(jì)出最佳的矢量量化系統(tǒng), 用最少的搜
索和計(jì)算失真的運(yùn)算量, 實(shí)現(xiàn)最大可能的平均信噪比。 失真測(cè)度主要有均方誤差
(即歐氏距離 )  、加權(quán)的均方誤差、 Itakura2Saito 距離、似然比失真測(cè)度等。初始
碼書的生成可以是隨機(jī)選取、分裂生成法、乘積碼書法 [4]
。在選定了失真測(cè)度
和初始碼書后,就用 LBG算法,對(duì)初始碼書進(jìn)行迭代優(yōu)化 ,一直到系統(tǒng)性能滿足
要求或不再有明顯的改進(jìn)為止。
核心思想可以這樣理解:如果一個(gè)碼書是為某一特定的信源而優(yōu)化設(shè)計(jì)的,
那么由這一信息源產(chǎn)生的信號(hào)與該碼書的平均量化失真就應(yīng)小于其他信息的信
號(hào)與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。
在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致
可以分為兩類: 無記憶的矢量量化和有記憶的矢量量化。 無記憶的矢量量化包括
樹形搜索的矢量量化和多級(jí)矢量量化。 [3]Page 6
(3)神經(jīng)網(wǎng)絡(luò)的方法
利用人工神經(jīng)網(wǎng)絡(luò)的方法是 80年代末期提出的一種新的語音識(shí)別方法。 人工
神經(jīng)網(wǎng)絡(luò) (ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng), 模擬了人類神經(jīng)活動(dòng)的
原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類能力和
輸入-輸出映射能力在語音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太
長(zhǎng)的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。
由于ANN不能很好的描述語音信號(hào)的時(shí)間動(dòng)態(tài)特性, 所以常把 ANN與傳統(tǒng)識(shí)
別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識(shí)別。
ANN與DTW:
ANN納入DTW框架中的最簡(jiǎn)單方法就是利用多層感知器模型 (MLP)計(jì)算
DTW搜索中的局部路徑得分。
ANN與HMM:
1) 多層感知器網(wǎng)絡(luò)來估計(jì)隱馬爾可夫模型的狀態(tài)概率輸出的方法
2) BP算法實(shí)現(xiàn) HMM模型參數(shù)的重估
3) 利用自組織神經(jīng)網(wǎng)絡(luò) Kohonen 的學(xué)習(xí)矢量量化算法訓(xùn)練產(chǎn)生矢量量
化碼本
四、基于統(tǒng)計(jì)的方法分析
目前幾乎所有成功的語音識(shí)別方法都是基于統(tǒng)計(jì)的、 概率的或信息理論的方
法。其中較具代表性的方法有矢量量化法 (VQ)和隱馬爾可夫模型法 (HMM)。VQ
法是由 Shore  和 Burton  首先提出的,其主要優(yōu)點(diǎn)是無需進(jìn)行時(shí)間規(guī)正或動(dòng)態(tài)
時(shí)間伸縮( DTW) 。由于語音特征是時(shí)間序列,所以 Burton  等人又提出了分段
VQ  的方法,它可以看成是 VQ  法和 DTW  的統(tǒng)合。然而 DTW  不是一種統(tǒng)計(jì)
概率的方法。 HMM  作為統(tǒng)計(jì)概率模型已經(jīng)被證明是一種很好的語音識(shí)別模型。
本文主要介紹使用 HMM 統(tǒng)計(jì)概率模型的語音識(shí)別方法。
一個(gè)完整的基于統(tǒng)計(jì)的語音識(shí)別系統(tǒng)可大致分為三部分:Page 7
(1) 語音信號(hào)預(yù)處理與特征提取
(2) 聲學(xué)模型與模式匹配
(3) 語言模型與語言處理
(1)語音信號(hào)預(yù)處理與特征提取
語音識(shí)別一個(gè)根本的問題是合理的選用特征。選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對(duì)于異字
音,相應(yīng)特征間的距離應(yīng)大,而對(duì)于同字音,彼此間距離應(yīng)小。若以前者距離與
后者距離之比作為優(yōu)化準(zhǔn)則用的“目標(biāo)量” [3]
,則應(yīng)使此量最大。
一般將語音信號(hào)的特征向量分為兩類:第一類為時(shí)域特征向量,通常將幀語
音信號(hào)的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)向量。 第二類為變換域特征向量, 即對(duì)一
幀語音信號(hào)進(jìn)行某種變換后產(chǎn)生的特征向量。 前者的優(yōu)點(diǎn)在于計(jì)算簡(jiǎn)單, 缺點(diǎn)是
不能壓縮維數(shù)且不適于表征幅度譜特性。 與此對(duì)應(yīng),各種變換域特征向量的計(jì)算
比較復(fù)雜,但能從不同的角度反映幅度譜的特征。
特征的選取取決于具體的系統(tǒng),下面的特征是有代表性的:
1)  幅度(或功率)
2)  過零率
3)  鄰界帶特征矢量
4) LPC  預(yù)測(cè)系數(shù)特征矢量
5) LPC  倒譜特征矢量
6) Mel  倒譜參數(shù)
7)  前三個(gè)共振峰 F1、F2、F3
幅度是端點(diǎn)檢測(cè)的主要依據(jù),也用于區(qū)分元音和輔音。過零率可以用來表示
擦音和齒音。高分辨率的譜信息 (即共振峰、 LPC  參數(shù)或?yàn)V波器組輸出 )  提供共
振峰和共振峰變遷的信息。
特征提取完成從語音信號(hào)提取出對(duì)語音識(shí)別有用的信息, 它對(duì)語音信號(hào)進(jìn)行
分析處理,去掉與語音識(shí)別無關(guān)的冗余信息, 獲得影響語音識(shí)別的重要信息。 對(duì)
于非特定人語音識(shí)別來講, 希望特征參數(shù)盡可能多的反映語義信息, 盡量減少說
話人的個(gè)人信息。從信息論角度講,這是信息壓縮的過程。一般而言,由于倒頻
譜(cepstrum)有著能將頻譜上的高低頻分開的優(yōu)點(diǎn), 因此被廣泛地應(yīng)用在語音
識(shí)別的研究上,例如過去常用的線性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù)( LPCC)[4][6]
和梅爾刻度式倒頻譜參數(shù)( MFCC)[4]
等都是常用的語音特征。從目前使用的情

基于統(tǒng)計(jì)的語音識(shí)別方法分析報(bào)告.pdf

57.64 KB, 下載次數(shù): 3, 下載積分: 黑幣 -5

分享到:  QQ好友和群QQ好友和群 QQ空間QQ空間 騰訊微博騰訊微博 騰訊朋友騰訊朋友
收藏收藏 分享淘帖 頂 踩
回復(fù)

使用道具 舉報(bào)

本版積分規(guī)則

小黑屋|51黑電子論壇 |51黑電子論壇6群 QQ 管理員QQ:125739409;技術(shù)交流QQ群281945664

Powered by 單片機(jī)教程網(wǎng)

快速回復(fù) 返回頂部 返回列表