專利名稱:語音識別接口裝置及其語音識別方法
技術領域:
本發明涉及一種語音識別接口裝置及其語音識別方法,尤其涉及一種適 用于非母語說話人語音;^索任務的語音識別接口裝置及其識別方法,通過所
述裝置和方法,可以提高語音識別引擎對于源自非母語說話人的聲音數據的 正確率。
背景技術:
語音識別作為一種人機交互的接口 ,它可以將人的語音通過模式識別的 方法翻譯成對應的文字。語音識別技術發展到了今天,已經具有實時的輸入 速度和準確的識別精度等等優點。目前基于語音識別的成熟產品已經廣泛地 應用于PDA,手機,MP3播放器和GPS導航設備中,解決了傳統鍵盤在小型 嵌入式設備上操作不便的問題。此外,語音識別技術可以與文本搜索技術巧 妙的結合,首先將語音識別模塊視作人機交互的前端接口,隨后將識別出的 命令、文字、關鍵詞等信息作為輸入傳遞到文本檢索模塊中。具體地,例如 姓名撥號,語言翻譯,文檔檢索等等多種文本檢索任務都可以應用到語音識 別技術。
然而,語音識別技術還有一些問題亟待解決。首要問題就是非母語語音 的識別問題。相比于母語語音數據,非母語語音數據存在更多的多樣性和不 確定性,舉個例子,例如當中國人說漢語的時候,大家的發音方式可能趨同, 而當說外語的時候,很有可能因為人們對于該語言的熟悉程度不同而因人而 異,從而造成發音方式的多樣化。然而,不可能搜集到一個能覆蓋絕大部分 發音變異的非母語語音數據庫。即使能收集到這種數據庫,由于其大規模的 發音變異,使得訓練出來的高斯分布更趨于平緩,降低了每個模型間的區分 度。因此大部分研究人員把目光放在如何提高母語語音識別系統對于非母語 數據的兼容性上。如果研究成功,對于一個公司來說,則可以節省在收集非 母語數據庫過程中的所花費的大量的時間和費用。
當標準語音識別器遇到非母語語音數據時,識別器的性能會大幅下降。其中導致性能下降的主要因素是母語數據和非母語數據在聲學空間上的特征
不同;這些不同點包括l).某些音素發音的不同;2).不同的發音基元,語氣 強弱,重讀,語速和語言上下文。3).當說話人說外語的時候通常會一定程度 地保留母語里的一些特征。所以,如何有效的區分這些不同點對于提升標準 語音識別器的性能和魯棒性十分重要。理論上講,可以采集大量的母語和非 母語語音數據,從這些真實數據中找到區分這些不同點的線索和依據。由于 非母語語音數據存在著多樣性和不確定性,不可能搜集到一個能覆蓋絕大部 分發音變異的非母語語音數據庫。因此,基于非母語語音識別的研究工作大 都集中于模型參數自適應方法或多候選發音詞典法。上述方法都是基于有限
的非母語語音數據的。
對于模型參數自適應方法, 一個典型的例子就是應用極大似然線性回歸 方法(Maximum Likelihood Linear Regression, MLLR),將一個基于母i吾i兌"i舌 人的聲學模型通過線性變換改變成一個近似基于非母語說話人的聲學模型。
線性變換矩陣通過少量的非母語數據估算出。但是,MLLR自適應技術僅僅 改變了模型中所有高斯成分的位置,使得所有高斯成分更加靠近非母語說話 人產生的數據,但并沒有改變每個高斯分布的形狀。因此自適應技術只能提 升一定的性能。
對于多候選發音字典法, 一個基本的原則是將每一個單詞的所有可能的 非母語說話人所發出的讀音(包括發音的變異等等)添加到用戶詞典中,然 后采用模式匹配、得分重排序或其它自然語言處理的方法獲得最佳的識別結 果。這種方法的缺點是兼容性差。已有技術的許多成功的案例都是基于西方 拉丁語系的。這些語種在發音、強弱、語速等方面有著很大的相似性。所以 在這些語種實現多候選發音字典法相對容易些。然而,對于像母語是中文和 目標語言是英文這樣的情況來說,它們之間的差別^f艮大。中文的發音基元是 音節而英文是音素,而且中文和英文的語調、語氣也有很大的不同。所以將 該方法應用于像Chinese-accent-English的案例時,效果通常會低于預期。
因此,需要提供一種適合于非母語說話人的語音識別裝置。
發明內容
為了解決現有技術中的問題,本發明的目的在于提供了 一種可以提高非 母語語音識別正確率的語音接口裝置。根據本發明的一方面,所述語音識別接口裝置包括模型參數估計器和語 音識別器。模型參數估計器從外部語音數據庫提取目標語言和母語的聲學信 息,分別訓練得到目標語言的聲學模型和母語的聲學模型,再分別對所述兩
種聲學模型應用模型自適應技術,然后應用高斯成分歸并技術得到背景模型;
語音識別器分別接收從模型參數估計器輸入的背景模型及從外部輸入的非母 語語音,基于背景模型對輸入的非母語語音進行識別。
根據本發明的 一方面,模型參數估計器分別選擇目標語言聲學模型和母 語聲學模型中所有對應的高斯成分進行歸并。
根據本發明的一方面,語音識別器通過從背景模型中選擇前M個離非母 語語音數據最近的高斯成分作為描述非母語語音數據的分布,其中,M為自然數。
根據本發明的一方面,所述模型參數估計器包括模型參數估計模塊, 基于外部語音數據庫中的聲學信息,輸出目標語言聲學模型和母語聲學模型; 模型自適應模塊,利用模型自適應技術,借助非母語語音自適應數據,調整 目標語言聲學模型和母語聲學模型;高斯成分歸并模塊,用目標語言標注母 語聲學模型,并將標注后的母語聲學模型的高斯成分添加到目標語言聲學模
型上,得到背景模型;模型參數歸一化模塊,將背景模型中的高斯成分的權 值之和為1,然后將歸一化后的背景模型輸出到語音識別器。
根據本發明的一方面,在模型自適應模塊中,執行如下操作從非母語 語音自適應數據中估算出線性變換矩陣,將該矩陣應用到目標語言的聲學模 型上;利用將目標語言和母語之間建立聯系的音素映射表,用母語的音素標 注自適應數據,從自適應數據中估算出線性變換矩陣,將該矩陣應用到母語 聲學模型上。
根據本發明的一方面,在高斯成分歸并模塊中,模型參數估計器分別選 擇目標語言聲學模型和母語聲學模型中所有的高斯成分進行歸并,得到所述
背景4莫型。
根據本發明的一方面,所述語音識別器包括特征提取器,從輸入的非 母語語音中提取數據幀;識別網格擴展模塊,從特征提^L器順序接收數據幀, 鏈接成識別網絡;輸出概率計算模塊,基于背景^f莫型,實時計算網絡中每個 結點所代表的狀態對應的當前數據幀的輸出概率值;尋找最優路徑模塊,利 用輸出概率計算模塊計算出的概率值,選擇一條聯合概率最大的一條路徑作
7為當前的輸出結果。根據本發明的一方面,在輸出概率計算模塊中,從背景模型中選擇對于 當前數據幀的輸出概率值最大的前M個高斯成分,并將所選擇的前M個高斯成分歸一化,所述M為自然數。通過提供一種語音識別方法也可實現本發明的目的,所述方法包括如下步驟(a)由目標語言和母語的聲學信息分別訓練得到目標語言的聲學模型 和母語語言的聲學模型,分別對所得到的兩個聲學模型應用模型自適應技術, 然后應用高斯成分歸并技術,將目標語言聲學模型和母語聲學模型歸并到一 個聲學模型中而形成背景模型;(b)接收非母語語音輸入,并基于背景模型, 對所述非母語語音進行識別。根據本發明的另一方面,在步驟(a)中,分別將目標語言聲學模型和母 語聲學模型中所有的高斯成分進行歸并。根據本發明的另一方面,在步驟(a)中,通過從背景模型中選擇前M 個離非母語語音數據的馬氏距離最近的高斯成分作為描述非母語語音數據的 分布,其中,M為自然數。根據本發明的另一方面,步驟(a)包括如下步驟(al)基于外部語音 數據庫中的聲學信息,輸出目標語言聲學模型和母語聲學模型;(a2)利用模 型自適應技術,借助非母語語音自適應數據,調整目標語言聲學模型和母語 聲學模型;(a3 )用目標語言標注母語聲學模型,并將標注后的母語聲學模型 的高斯成分添加到目標語言聲學模型上,得到背景模型;(a4)將背景模型歸 一化,使背景模型中的高斯成分的權值之和為1,然后將歸一化后的背景模 型輸出。根據本發明的另一方面,所述步驟(a2)包括U21)從自適應數據中 估算出線性變換矩陣,將該矩陣應用到目標語言的聲學模型上;(a22)利用 將目標語言和母語之間建立聯系的音素映射表,用母語的音素標注自適應數 據,從自適應數據中估算出線性變換矩陣,將該矩陣應用到母語聲學模型上。根據本發明的另一方面,在所述步驟(a3)中,分別將目標語言聲學模 型和母語聲學模型中所有的高斯成分進行歸并,得到所述背景模型。根據本發明的另一方面,所述步驟(b)包括(bl)從輸入的非母語語 音中提取數據幀;(b2)順序接收數據幀,將馬爾可夫模型鏈接并擴展成識別 網絡;(b3)基于背景模型,實時計算網絡中每個結點所代表的狀態對應的當8前數據幀的輸出概率值;(b4)利用計算出的概率值,搜尋聯合概率最大的一條路徑作為當前的輸出結果。根據本發明的另一方面,在步驟(b3)中,從背景模型中選擇對應于當 前數據幀的輸出概率值最大的前M個高斯成分。根據本發明的另一方面,在步驟(b4)中,將所選擇的前M個高斯成分 歸一化。
通過下面結合附圖對本發明實施例進行的描述,本發明的上述和其它目的和特點將會變得更加清楚,其中圖1是根據本發明實施例的語音識別接口裝置的應用示圖;圖2是根據本發明實施例的語音識別接口裝置中的^^莫型參數估計器的結構框圖;圖3是根據本發明實施例的語音識別接口裝置中的語音識別器的結構框圖;圖4是在模型參數估計器中執行的操作方法的流程圖; 圖5是在語音識別器中執行的操作方法的流程圖。
具體實施方式
通過研究發現,當說話人說外語的時候會不由自主地使用母語里近似的 音素來替代目標語言。也就是說非母語語音數據不僅和目標語言而且和母語 都有著密切的聯系。因此,本發明提出,用目標語言和母語的概率密度函數 插值而得出非母語語音數據的近似分布。換句話說,用說話人母語中的信息 去補償該說話人的非母語聲音的變異。然而,不是所有的母語中的信息對描 述一個非母語聲音數據的分布都是有用的。例如母語模型中的某些高斯成分 對于描述非母語語音數據是有害的,因為這些高斯成分是母語所特有的,僅 僅代表了母語語音數據的特征,不具有描述非母語語音數據的信息。因此, 很有必要去尋找一個方法來鑒定母語聲學模型中,哪些信息有用,哪些信息 沒用。基于上述分析,本發明提供一種適用于非母語說話人的語音檢索任務的 語音識別接口裝置。圖1是根據本發明實施例的語音識別接口裝置的應用示圖。如圖1所示,該語音識別接口裝置包括模型參數估計器100和語音識別器200。模型參數估計器100從外部語音數據庫資源中的目標語言數據庫和母語語言數據庫提取必要的聲學信息、分別訓練出基于目標語言和母語的聲學模 型,并逐次通過模型參數自適應、高斯成分歸并、參數歸一化等種種運算,輸出背景模型(Background Model)。語音識別器200可以通過輸入設備接收當前說話人的非母語輸入查詢語 音,通過特征提取器得到Mel-頻率倒譜(Mel - frequency Cepstrum Coefficient, MFCC)特征幀序列。然后根據維特比束搜索算法的定義,按時間順序將所 有可能的HMM相鏈接并展開形成一識別網絡。在其中,識別網絡上的每個 結點代表了當前時刻一種可能的狀態,結點與結點之間用弧來連接,弧上標 明了從一個狀態跳轉到另一個狀態的概率。而結點上存儲著一個概率密度函 數,該函數描述了當前幀數據屬于該結點的輸出概率。如何定義該概率密度 函數和如何計算輸出概率,許多學者提出了不同的解決方法。這里,將使用 本發明所提出的背景模型來計算輸出概率。其基本思想是計算背景模型中當前狀態下每個高斯成分對應當前觀測 數據幀的輸出概率,并取概率得分最高的前M個高斯成分的組合當成輸出概 率。這樣可以將那些不具備描述非母語語音數據分布的高斯成分忽略掉。在識別網格中,從起點到終點的每條路徑都代表了 一種可能的音素序列。 故本發明通過動態規劃算法找到路徑累積概率最大的前M條路徑當成最終識 別結果。這樣識別得出的音素串通過音字轉換^t塊,轉成字/詞序列并輸出。下面,結合圖1至圖3來詳細描述本發明的語音識別接口裝置的各個組 成部分。1.模型參數估計器100模型參數估計器100的主要目的是搜集盡可能多的高斯成分,從而在一 個聲學模型中覆蓋盡可能多的非母語數據中的多樣性變異。為了拉近目標語言(target tongue )聲學模型、母語(mother tongue)聲 學模型與非母語(non-native tongue)語音數據間的距離,在該模塊100中,首 先應用了模型自適應技術。其次,通過研究發現,非母語語音數據在聲學空間中與目標語言和母語存在很強的聯系。通常當某些人說外語的時候,會保留一些母語的發聲方法。 基于上述事實,為了更好地描述非母語語音數據中的多樣化,在該模塊100 中,應用了模型參數合并技術,目的是從目標語言和母語聲學模型中收集盡 可能多的高斯成分來覆蓋非母語聲音數據中因為不同說話人,不同口音,不 同的教育背景造成的發音方式的多樣化。將參照圖2,來詳細描述模型參數估計器100的結構和操作流程。 1.1 模型參數估計模塊110模型參數估計模塊110包括目標語言模型參數估計模塊和母語語言模型 參數估計模塊。在語音數據庫中存儲了大量的用于訓練聲學模型的訓練語料,它包括兩 個部分 一個用于訓練目標語言聲學模型, 一個用于訓練母語聲學模型。目 標語言語音數據部分存儲的是大量目標語言的訓練語料,母語語音數據庫存 儲的是大量母語的訓練語料。模型參數估計模塊分別利用上述兩部分訓練語 料進行模型參數的訓練和估計,以獲得目標語言的聲學模型和母語的聲學模 型。隱式馬爾可夫模型技術(Hidden Markov Model, HMM ), HMM是統計模 式分類的一種典型應用。 一個HMM相當于用數學方式表達了一個音素的聲 學時變特性。HMM的形式如同馬爾可夫鏈。鏈上的狀態數取決于某個音素 在發聲過程有多少個穩定的狀態。通常情況下,為每個音素設置3個狀態。 從一個狀態轉移到另一個狀態,稱之為'跳轉,,但是這種跳轉是不可逆的。 理論上,馬爾可夫鏈上每個狀態都存儲了一個概率密度函數,該函數用來描 述當前觀測數據在該狀態上的駐留概率。通常這些概率密度函數是不規則的, 必須用多個高斯分布的組合來近似代替它。這里, 一個高斯分布通常被稱為 一個高斯成分(Gaussian component ),高斯成分的組合稱為一個混合(Gaussian Mixture )。 一個高斯成分有多個參數例如均值(Mean)、方差(variance )、成 分權值(Component weight)和狀態轉移概率等。可見對一個含有許多狀態和 許多高斯成分的HMM來說,它將有很多參數需要估計。所有這些參數可以 借助于Baum-Welch算法從外部的語音數據庫中估算出來。在本發明里,模 型參數估計模塊110將實現這個任務,建立各種語言的聲學模型。然而,該 操作將被應用兩次。 一次是從目標語言(target tongue)語音數據庫中估算出目標語言聲學^f莫型。另一次是從母語(mothertongue)語音數據庫中估算出母語 語音聲學模型。在本發明的實施例中,以中國人說英語為例,則目標語言是 指純英語,而母語是指漢語。因為中國人所說英語存在著很大的多樣性和不 確定性,不可能得到一個能覆蓋到絕大多數中國人所說英語的發音變異的語 音數據庫。所以本發明從漢語數據庫和純英語數據庫中尋找線索來補償中國 人所說英語里的這些發音變異。通過模型參數估計模塊110,得到了兩個HMM聲學模型, 一個描述了 母語語音的聲學特性,另一個描述了目標語音的聲學特性。在這兩個聲學模 型中,對于每個音素需要保持相同的狀態數。但是對于不同的語種,可以取 不同的音素集(phone set )作為建模單元。在本發明的實施例中,選擇CMU-39 個基元音素作為英語的建模單元,而選擇聲韻母作為漢語的建模單元,也就 是說,漢語中的每個聲母,韻母對應一個HMM,在英文中,每個音素對應 一個HMM。顯然,經過Baum-Welch算法的多次訓練,兩個HMM聲學模型 可以有效地表示兩種語言的聲學信息。1.2模型自適應模塊120本發明的第二步是將模型自適應技術應用到模型參數估計模塊110輸出 的聲學模型上,基本思路是將模型參數估計模塊110中獲得的HMM聲學模 型作為模型自適應模塊120的輸入,在模型自適應模塊120中進行MLLR模 型參數自適應的操作。模型自適應模塊120包括目標語言模型自適應模塊和 母語模型自適應模塊,分別對目標語言的聲學模型和母語的聲學模型進行模 型自適應操作。模型自適應技術的應用是為了讓兩種語言的聲學模型更加逼近于非母語 數據的真實分布。模型自適應技術的基本思想是借助于少量的自適應數據, 將當前的聲學模型參數調整到適合于特定口音非母語語音數據上。 一種典型 的自適應方法就是將線性變換應用到模型均值和方差上,例如MLLR。然而, 自適應數據是不夠的,通常需要引入回歸樹方法,將所有的高斯成分聚類。 每類共享同一個線性變換矩陣。顯然,做完自適應后的模型更加貼近于非母 語語音的真實分布。所以在本發明的實施例中,應用^^莫型自適應技術以獲得 更好的識別性能。在本實施例中,釆用了 MLLR方法。應用自適應纟支術的方法分為以下幾12步
(1) 步驟l: 搜集少量的非母語語音自適應數據和其對應的標注文 件,標注文件用目標語言的音素庫表示出。
(2) 步驟2:基于MLLR公式,從自適應數據中估算出線性變換矩陣, 然后將矩陣應用到目標語言的聲學模型上,使模塊110輸出的目標語言的聲 學模型更加趨近于非母語數據的真實分布,換句話說,目標語音的聲學模型 每個狀態的輸出概率更貼近于非母語數據的真實概率分布。
(3) 步驟3: 引入一個音素映射表,從而在目標語言和母語間建立一 種聯系。該映射表的格式可以是一對一的,多對一的,或多對多的。將在下 面對音素映射表進行描述。
(4) 步驟4:根據映射表定義的映射關系,將自適應數據的標注文件從 目標語言的音素庫轉移到母語的音素庫,使得將自適應數據應用到母語聲學 模型上成為可能。
這是因為最初自適應數據的標注語言為目標語言,如果想要將這些數據 應用到母語模型上,存在著音素庫的不匹配。所以需要一個音素映射表來建 立其中的聯系。但是音素映射必須遵循多對一的規則,即多個目標語言的音 素可以映射到同一母語的因素,而反之卻不可以。這樣保證了在將自適應數 據的標注文件從目標語言音素集映射到母語音素集的過程中,不會產生二義 性。此外,對于母語和目標語言中無法找到配對關系的某些音素來說,可以 保留其原先的模型結構和參數,不將它們參與映射過程。
根據上述定義,可以將自適應數據的標注文件從目標語言的音素集改變 為母語音素集,這樣可以用原始的自適應數據和相應的標注文件,完成母語 聲學模型的自適應任務。
(5) 步驟5:將MLLR線性變換應用到母語聲學模型上,基于MLLR 公式,從自適應數據中估算出線性變換矩陣,然后將矩陣應用到母語的聲學 模型上,使模型參數估計模塊110輸出的母語聲學模型更加趨近于非母語數 據的真實分布。
需要說明的是,由于目標語言的聲學模型本身就是用目標語言的音素進 行標注的。因此,在目標語言的模型自適應模塊中不必應用音素映射表。
1.3 音素映射表130因為非母語自適應數據是用目標語言的音素集標注的。所以當在母語聲 學模型上應用自適應技術時,需要一個準則來將目標語言的音素集合映射成 母語的音素集合,從而可以將自適應數據的標注變成母語音素集合的格式, 使得母語聲學模型上應用自適應技術成為可能。所以在本發明的實施例中, 引入了一個音素映射表130。
正如上面討論的,音素映射表130的主要功能是在母語和目標語言之間 建立一個橋梁。在前面的模型自適應模塊120和后面的高斯成分歸并模塊140 中,都需要這么一個映射表,從而在兩種語言中找到發音相似的音素對,并 在相似音素對上完成標注文件替換和高斯成分歸并等任務。
音素映射表130可以通過基于數據驅動的方式或基于先驗知識的獲得。 對于數據驅動的方式,其基本的思想是在不同語言的聲學空間中選擇具有最 近概率距離的兩個音素作為相似音素對。概率距離可以用巴氏(Bhattacharyya) 距離或K-L距離來描述。
在本發明的實施例中,音素映射表是基于下述方案獲得的。首先,在國 際音標IPA中尋找具有相同符號的中文和英文音素,例如英語中的音素'b' 和漢語里的聲母'b,,將它們作為一組相似對。對于剩下的沒有相同符號的 音素來說,根據已有工作經驗來決定配對的關系。當然中文的聲韻母和英文 的基本音素有著很大的不同。如果實在不能找到一組對應關系,在本實施例 中會保留其原型,不予以配對。例如英文的音素'ng, , 'oy, , 'w, , 'y,, 很難在中文聲韻母中找到相似的音。此外,因為有些英文基本因素中國人不 好區分,因此,在本實施例中,音素映射表130還將允許英文中的多個音素 映射到中文的同一個音素上。例如英文中'aa, , 'ao, , 'aw,映射到相同的 中文音素'ao,上。
1.4 高斯成分歸并模塊(140 )
如前面所討論的,非母語語音數據存在著很大的多樣性。非母語語音數 據不僅和目標語言而且和說話者的母語有著^艮緊密的耳關系。因此,在本發明 中,通過將目標語言和母語的概率分布進行插值而得出非母語語音數據的近 似分布。換句話說,用說話人母語中的信息去補償該說話人的非母語聲音的 變異。此外,對于估算非母語語音數據的分布,不是所有母語聲學模型中提 供的信息都是有用的。因為有些時候每個人對于一種外語的熟悉程度不同, 當他們說外語的時候,有可能一些人的發音沒有或帶有很少的口音。而有些
14人卻可能有很濃重的口音。這樣就造成了說非母語時候的發音多樣性。因此, 在本發明中,從母語聲學模型和目標語言聲學模型中收集盡可能多的高斯成 分,然后把它們歸并到同一聲學模型中。這樣只需一個聲學模型,就可以覆 蓋到非母語語音里盡可能多的發音變化。該操作在高斯成分歸并模塊140中完成。
上述思想類似于說話人分類研究領域中的統一背景模型技術(universal background model )。但是與說話人辨別研究領域不同,說話人辨別研究通常 要考慮多種不同輸入信道,不同說話人和不同噪聲環境下的兼容性,所有它 們的UBM通常需要很多個高斯成分,通常為1024或2048個。但是在本發 明的應用中,背景模型沒有說話人辨別那么復雜,所以通常32個或64個高 斯成分可以滿足需要。在本發明中,將此模型稱為背景模型。
在高斯成分歸并模塊140執行的操作步驟如下
(1) 步驟l:引入目標語言的聲學模型作為背景模型的基礎結構。因為, 在目標語言和母語之間,非母語語音與目標語音有著更緊密的聯系,而且背 景模型的音素集與目標語言的音素集形同,兩者具有更相似的發音規則。
(2) 步驟2:根據音素映射表的定義,用于目標語言標注與目標語言聲 學模型對應的母語聲學模型,然后將目標語言聲學模型的高斯成分和與標注 后的母語聲學模型的高斯成分添加到背景模型中,擴大了背景模型的高斯成 分的數量。
這里,從母語聲學模型和目標語言聲學模型中選擇所有的高斯成分進行 歸并形成用于非母語語音識別的背景模型。
通過上述操作,獲得本發明的用于語音識別的背景模型,該模型保持了 目標語言的模型結構。但是在背景模型中,它的高斯成分是將目標語言和母 語聲學模型對應的高斯成分湊在一起得出的,假設母語聲學模型和目標語言 聲學模型分別包含N個高斯成分,則獲得的背景模型包含2N個高斯成分。 1.5模型參數歸一化模塊(150)
在模型參數歸一化模塊150中,對在模塊140中獲得的背景模型執行如 下操作步驟
(1) 步驟l:基于先驗知識,估算語種歸一化因子ak,
(2) 步驟2:在模型參數歸一化模塊150中,因為再高斯成分歸并模塊 輸出的背景模型中,它的高斯成分是將目標語言和母語聲學模型對應的高斯成分湊在一起得出的。故每個狀態下高斯成分的數量將為目標語言和母 語對應相同狀態下高斯成分的數量之和。這樣的話,若保留原先目標語言和 母語中高斯分布的權重,勢必和造成所有權值相加等于2。因此將每個權值
乘以一個語種歸一化因子ak,即用歸一化后的權值cc^w,或cck*Wj代替原先
權值Wi或Wj作為每個高斯分布新的權值,(Wi和Wj為高斯分布的更新前的權
值),這樣做的目的是確保了所有高斯分布新的權值相加為1。見如下公式(1 ): +》2w, =1 ……(1 )
,'=1../V ,/'=l..W
式中,N為母語聲學模型以及目標語言聲學模型的高斯成分數,(Xk為語種歸 一化因子,1^=1或2。假設k-l對應著母語,]^=2對應著目標語言,Wj代表了
母語聲學模型中的高斯成分的權值,Wj代表了目標語言聲學模型中的高斯成
分的權值。通過該7>式,可以更好地理解歸一化的原因和方式。 2.語音識別器200
語音識別器200的功能是用于將非母語語音數據識別成對應的文字。它 接收來自用戶的查詢語音,并將模型參數估計器100事先訓練出來的背景模 型作為模型端口的輸入,在模塊200中進行語音識別操作,從而將輸入的查 詢語音識別為文字。如圖3所示,語音識別器200可以包括下述幾個部分
2.1 特征提取器210
特征提取器210的作用就是將輸入的語音信號(即非母語查詢語音)從 波形文件格式轉換成Mel-頻率倒譜(Mel - frequency Cepstrum Coefficient, MFCC)數據幀。MFCC數據幀描述了輸入語音線性譜的包絡隨時間的變化, 這些信息是語音識別的重要參數。如何提取MFCC數據幀已經作為一種標準, 在這里不再詳細描述。在本發明的實施例中,采用了 39維MFCC數據幀作 為語音識別器的特征。
2.2 識別網才各擴展模塊220
識別網格擴展模塊220 —幀一幀地從特征提取器210接收數據幀,當一 幀數據進來后,通過維特比束搜索算法將當前識別網格的尾端結點添加新的 弧,同時更新初始結點到當前結點的累積得分。下一步將這些添加的弧放入一優先級棧中,棧中每條元素的順序按照累積得分來排序,得分高的放在棧 頂。這樣識別網格不斷擴充,直到所有數據幀輸入為止。
這樣利用從接收的數據幀生成一個包含所有可能輸出的識別網格。在這 個網格里, 一個端點代表了一個音素, 一條弧代表了從一個音素跳轉到了另 一個音素。其中每個端點都有一個概率密度函數描述了當前數據駐留在該音 素上的概率值。同時每條弧也有一個概率值,描述了從一個音素跳轉到另一 個音素的概率。每次當一幀新的數據進來時,所有與這個新數據幀相關的音 素都會被當成新的端點添加到當前時刻識別網格的尾部,然后更新網格尾部 每個端點的最優值。這樣,識別網格不斷地擴展直到最后一幀數據添加進網 格中。
2.3 輸出概率計算模塊230
在識別網格擴展模塊220的識別網絡擴展過程中,需要實時計算網格中 每個結點所代表的狀態對應的當前數據幀的輸出概率,以便方便地存儲當前 路徑的累積得分。輸出概率計算模塊230執行這一計算操作。在輸出概率計 算模塊230中,將用事先訓練好的背景模型作為輸入。因為本分明的背景模 型與普通聲學模型的不同,在如何計算輸出概率的問題上,本發明引入了新 的計算方法,將在下面作詳細描述。
當特征提取器210工作完成后,每一幀數據將會被送到語音識別器中。 正如面所討論的, 一個馬爾可夫狀態會存儲著一個概率密度函數用來描述當 前幀數據在該狀態的駐留概率。在本發明的語音識別器200中,采用了背景 模型,用來搜集中文和純英文聲學模型中所有潛在的高斯成分。然而,對于 估算非母語語音數據的分布,并不是所有的高斯成分都有益處。而且不同的
人有不同的發音習慣,例如,某些中國人所說的英語非常接近美國英語,而 有些人卻有很濃重的母語腔調。故在本發明所設計的背景模型中,有些高斯 成分適合于描述某些人的非母語語音,而有些高斯成分卻適合于描述其他人 的。因此若不加區分地選擇所有的高斯成分作為輸出,無疑是一種折中方案。 這也是非母語語音識別的困難之處。
在本發明中,提出了一個新的方法去解決這個問題。這個新的方法是選 擇前M個離觀測數據最近的高斯成分作為描述非母語語音數據的分布。更具 體地講,讓客觀數據基于某些準則去選擇適合描述它的前M個高斯成分。這
17樣,那些不利于描述非母語語音數據的高斯成分將被去掉。從而克服了已有 技術使用所有高斯成分帶來的弊端。作為例子,在本發明的實施例中,選擇
馬氏(Mahalanobis)距離作為距離的度量。當忽略高斯成分權重的影響時,最 小馬氏距離準則等同于最大后驗概率準則。當 一個高斯成分與當前觀測數據 的馬氏距離越近時,該高斯成分對于描述當前觀測數據的分布具有的可信度 越大。在輸出概率計算模塊230中執行的算法如下
1 )計算同 一狀態下每個高斯成分對于當前觀測數據的輸出概率值;
2) 將所有成分的輸出概率進行排序;
3) 選擇前M個最大的得分,并將其組合成某一分布作為當前狀態的輸出 分布;
4) 對所選前M個高斯成分的權值做歸一化處理,使得其權值相加等于1,
歸一化公式為等式2:
"A Z w,M(Q I A,,。,.) +氣S w,.M(C^ I 〃,,)
P(Cg血e):~^-^-^- ...... (2)
氣L w,+氣Lw,'
(=1...^ ./'=i..x2
其中,P(CV I 表示當前數據幀對于某一 state (狀態)的輸出概率,Ok 表示當前對應的數據幀,L,和L2分別代表了母語和目標語言,&代表了母 語的語言歸一化因子,a"代表了目標語言的語言歸一化因子,其中& + au=l。 K,為所選前M個高斯成分中屬于原先母語模型的高斯成分的個數,&為所 選前N高斯成分中屬于原先目標語言模型的高斯成分的個數,其中, K,+K產M。同理w,、 /i,.和c7,.為前M個高斯成分中第i個屬于原先母語聲學模 型的高斯成分的權值、均值和方差。而w, 、 A和cr,為前M個高斯成分中, 第j個屬于原先目標語言聲學模型的高斯成分的權值、均值和方差。
2.4尋找最優路徑模塊240
在尋找最優路徑模塊240中,利用輸出概率計算模塊230中計算獲得的 各個結點的輸出概率和結點與結點之間跳轉概率。通過動態規劃算法在網格 中回溯尋找出聯合概率最大的 一條路徑作為當前的輸出結果。上述部分與已 有技術的工作基本相似,故不在此描述。
在識別網格中,從起點到終點的每一條路徑代表了 一個可能的輸出結果。 一條路徑從起點到終點的路徑表明的一個識別音素串。當然,得到的最優路徑代表了當前的最優識別結果。然后,通過一個存儲的發音字典將識別音素 串轉換為識別文字串,如圖1所示。這樣得到的最后識別文本可以更方便地 輸出到下一環節用于姓名撥號、文檔檢索或者機器翻譯等。 圖4是在模型參數估計器中執行的操作方法的流程圖。
如圖4所示,在步驟S401,從外部數據庫提取目標語言和母語的聲學信 息,分別訓練得到目標語言的聲學模型和母語的聲學模型。
在步驟S402中,通過借助于少量的自適應數據,利用模型自適應技術將 母語的聲學模型和目標語言的聲學模型調整為更貼近于非母語語音的真實分布。
在步驟S403中,以目標語言的聲學模型為基礎,利用高斯成分歸并技術, 將用目標語言標注的母語聲學模型的高斯成分添加到目標語言的聲學模型 中,形成背景模型。
在步驟S404中,將通過高斯成分歸并技術獲得的背景模型中的高斯成分 歸一化。
然后,在步驟S405中,輸出最后得到的背景模型。 圖5是在語音識別器中執行的操作方法的流程圖。
如圖5所示,在步驟S501中,從模型參數估計器100接收背景模型,并 從外部接收用戶輸入的非母語語音。
在步驟S502中,從輸入的語音中提取數據幀。在步驟S503中,逐幀地 接收數據幀,進行識別網格擴展。
在步驟S503中,基于背景模型,對識別網格中的每個結點進行輸出概率 計算。對每幀數據,從背景模型中選擇前M個離當前數據幀最近的高斯成分 作為當前狀態的輸出分布。
在步驟S504中,將所選擇的M個高斯成分歸一化處理,使得其權值相 加等于1。
在步驟S505中,選擇聯合概率值最大的一條路徑作為最優路徑。 在步驟S506中,對最優路徑代表的音素序列進行音字轉換,輸出識別的 字/詞序列。
在對本發明實施例的描述中,雖然以母語為漢語的人說英語為例,但是 本發明所設計的語音識別接口不是針對某種語言的,它可以在任意語種間應用。當非母語訓練數據不足的條件下,應用本發明的語音識別接口裝置可以 很好地解決傳統語音識別器遇到非母語語音數據所造成的識別精度大幅下降 的問題。此外,本發明的語音識別接口可以節省下傳統語音識別器做本地化 所需要的時間和費用。并且本發明的語音識別接口裝置作為 一種人機交互的 接口 ,不僅僅應用于語音才企索系統中,還可以廣泛應用于各種電子產品中以 替代原來的鍵盤,手寫板等。
權利要求
1、一種語音識別接口裝置,包括模型參數估計器和語音識別器,其特征在于,所述模型參數估計器從外部語音數據庫提取目標語言和母語的聲學信息,分別訓練得到目標語言的聲學模型和母語的聲學模型,再分別對所述兩種聲學模型應用模型自適應技術,然后應用高斯成分歸并技術得到背景模型。所述語音識別器分別接收從模型參數估計器輸出的背景模型及從外部輸入的非母語語音,基于背景模型對輸入的非母語語音進行識別。
2、 如權利要求1所述的語音識別接口裝置,其特征在于,模型參數估計 器分別選擇目標語言聲學模型和母語聲學模型中對應的所有高斯成分進行歸并。
3、 如權利要求1所述的語音識別接口裝置,其特征在于,語音識別器通 過從背景模型中選擇前M個離當前時刻非母語語音數據的距離最近的高斯成 分作為描述當前時刻非母語語音數據的分布,其中,M為自然數。
4、 如權利要求1所述的語音識別接口裝置,其特征在于,所述模型參數 估計器包括模型參數估計模塊,基于外部語音數據庫中的聲學信息,輸出目標語言 聲學模型和母語聲學模型;模型自適應模塊,利用模型自適應技術,借助源自非母語語音自適應數 據,調整目標語言聲學模型和母語聲學模型;高斯成分歸并模塊,用目標語言標注母語聲學模型,并將標注后的母語 聲學模型的高斯成分添加到目標語言聲學模型上,得到背景模型;模型參數歸一化模塊,用于使背景模型中的高斯成分的權值之和為1, 然后將歸 一化后的背景模型輸出到語音識別器。
5、 如權利要求4所述的語音識別接口裝置,其特征在于,在模型自適應 模塊中,執行如下操作從非母語語音自適應數據中估算出線性變換矩陣,將該矩陣應用到目標語言的聲學模型上;利用將目標語言和母語之間建立聯系的音素映射表,用母語的音素標注 自適應數據,從自適應數據中估算出線性變換矩陣,將該矩陣應用到母語聲學模型上。
6、 如權利要求4所述的語音識別接口裝置,其特征在于,在高斯成分歸 并模塊中,模型參數估計器分別選擇目標語言聲學模型和母語聲學模型中所有高斯成分進行歸并,得到所述背景模型。
7、 如權利要求1所述的語音識別接口裝置,其特征在于,所述語音識別 器包括特征提取器,從輸入的非母語語音中提取特征數據幀;識別網格擴展模塊,從特征提取器順序接收數據幀,將隱馬爾可夫模型 鏈接,擴展成識別網絡;輸出概率計算模塊,基于背景模型,實時計算識別網絡中每個結點所代 表的狀態對應的當前數據幀的輸出概率值;尋找最優路徑模塊,利用輸出概率計算模塊計算出的概率值,搜尋聯合 概率最大的 一條路徑作為當前的輸出結果。
8、 如權利要求7所述的語音識別接口裝置,其特征在于,在輸出概率計 算模塊中,從背景模型中對應某 一狀態下選擇當前數據幀的輸出概率值最大 的前M個高斯成分,并將所選擇的前M個高斯成分歸一化,所述M為自然 數。
9、 一種語音識別方法,包括如下步驟(a) 由目標語言和母語的聲學信息分別訓練得到目標語言的聲學模型和 母語語言的聲學模型,分別對所得到的兩個聲學模型應用模型自適應技術, 然后應用高斯成分歸并技術,將目標語言聲學模型和母語聲學模型歸并到一 個聲學模型中而形成背景模型;(b) 接收非母語語音輸入,并基于背景模型,對所述非母語語音進行識別。
10、 如權利要求9所述的語音識別方法,其特征在于,在步驟(a)中, 選擇目標語言聲學模型和母語聲學模型中所有高斯成分進行歸并。
11、 如權利要求9所述的語音識別方法,其特征在于,在步驟(b)中, 通過從背景模型中選擇前M個離非母語語音數據的馬氏距離最近的高斯成分 的組合作為描述非母語語音數據的分布,其中,M為自然數。
12、 如權利要求9所述的語音識別方法,其特征在于,步驟(a)包括如 下步驟(al)基于外部語音數據庫中的聲學信息,輸出目標語言聲學模型和母 語聲學模型;(a2)利用模型自適應技術,借助非母語語音自適應數據,調整目標語言聲學模型和母語聲學模型;(a3 )用目標語言標注母語聲學模型,并將標注后的母語聲學模型的高 斯成分添加到目標語言聲學模型上,得到背景模型;(a4)將背景模型歸一化,使背景模型中的高斯成分的權值之和為1, 然后將歸一化后的背景模型輸出。
13、 如權利要求12所述的語音識別方法,其特征在于,所述步驟(a2)包括(a21 )從自適應數據中估算出線性變換矩陣,將該矩陣應用到目標語言 的聲學模型上;(a22)利用將目標語言和母語之間建立聯系的音素映射表,用母語的音 素標注自適應數據,從自適應數據中估算出線性變換矩陣,將該矩陣應用到 母語聲學模型上。
14、 如權利要求12所述的語音識別方法,其特征在于,在所述步驟(a3) 中,分別將目標語言聲學模型和母語聲學模型中所有的高斯成分進行歸并, 得到所述背景模型。
15、 如權利要求9所述的語音識別方法,其特征在于,所述步驟(b)包括(bl )從輸入的非母語語音中提取數據幀;(b2)順序接收數據幀,將隱馬爾可夫模型鏈接,擴展成識別網絡; (b3)基于背景模型,實時計算網絡中每個結點所代表的狀態對應的當前數據幀的輸出概率值;(b4)利用計算出的概率值,搜尋聯合概率最大的 一條路徑作為當前的輸出結果。
16、 如權利要求15所述的語音識別方法,其特征在于,在步驟(b3)中, 從背景模型中選擇當前數據幀的輸出概率值最大的前M個高斯成分。
17、 如權利要求16所述的語音識別方法,其特征在于,在步驟(b4)中, 將所選擇的前M個高斯成分歸一化。
全文摘要
提供了一種語音識別接口裝置及其語音識別方法。所述語音識別接口裝置包括模型參數估計器和語音識別器,模型參數估計器從外部語音數據庫提取目標語言和母語的聲學信息,分別訓練得到目標語言的聲學模型和母語的聲學模型,再分別對所述兩種聲學模型應用模型自適應技術,然后應用高斯成分歸并技術得到背景模型;語音識別器分別接收從模型參數估計器輸入的背景模型及從外部輸入的非母語語音,基于背景模型對輸入的非母語語音進行識別。根據本發明,可以提高非母語語音的識別正確率。
文檔編號G10L15/14GK101515456SQ20081000819
公開日2009年8月26日 申請日期2008年2月18日 優先權日2008年2月18日
發明者金南勛, 黃盈椿 申請人:三星電子株式會社;北京三星通信技術研究有限公司