專利名稱:自動語音識別的制作方法
技術領域:
本發明涉及自動語音識別,特別地它涉及使用上下文相關元素,如三音節的自動語音識別。
自動語音識別具有許多潛在的應用,如聽寫系統,和多種機制的語音控制,如視頻記錄器。自動語音識別也可用于家用設備的遙控,如通過電話。有許多可通過自動語音識別及合成語音實現的電話業務,如大量使用自動化索引的業務。在許多應用中,識別語音的失敗被認為是可接受的結果。例如,揚聲器可能產生錯誤,且如果有錯誤的話,它不一定是自動系統產生的。一個系統經常被設計成不識別錯誤或不正確的發音,如,系統可能要求重復一遍。
語音識別一般是通過將參數化語音信號抽樣值與確定多個路徑的網絡相匹配而進行的,其中網絡的每一個路徑代表一個可能的發音。在語音識別領域參數化語音很好理解,且熟知該領域的人知道許多參數化技術。路徑被構成為一系列的模型語音元素,如模型化音素。術語“模型”代表元素被表示成適合直接與參數化抽樣值相比較的形式。每個比較產生表明模型元素和參數化抽樣值之間的一個或多個度量。基本度量在路徑和局部路徑上累積,這樣確定哪些路徑和局部路徑最接近接收到的信號。開始時,具有許多潛在路徑因此識別過程相應于選擇哪一個可選路徑構成對接收信號最好的匹配。
自動語音識別的復雜或精巧的實現需要對匹配過程提供大量可選對象,即,它們必須使用許多路徑。一個路徑可被看成是一系列局部路徑。因為許多發音開始相同,且然后分成許多開始具有相同局部路徑的路徑,然后它們不斷地分下去,使得一個局部路徑可以被許多完整路徑共有。所以這就便于將路徑存儲成網絡,該網絡確定了包括在其中的所有路徑和局部路徑。識別過程等效于找出網絡中最佳路徑。
本發明使用了動態網絡。這就意味著當識別開始時,只有一個初始網絡被確定,而局部路徑不時地被加入到該網絡中,如在不同的局部路徑的末端,且每個擴展部分通常采用完整單元的形式,如一個完整的詞或一個音節。這些單元采用符號元素的形式,如(音素),它并不適合與參數化抽樣值進行匹配。在符號元素可以被用于識別之前,它們必須被轉換成模型元素,即轉換成可與參數化抽樣值相匹配的形式。
在簡單自動語音識別中,符號元素和模型元素之間存在一一對應。這使得轉換更為容易,但它趨向于降低匹配,因為實際上,一個如音素的元素,它的發音依賴于上下文。使用代表在它相鄰符號音素上下文中的符號音素的模型元素,在識別準確性上產生了顯著的改善。換句話說,一個符號元素(音素)具有許多不同的發音,且需要大量不同的模型元素去表示這一變化,即對每個發音需要一個模型元素。本發明使用了上下文相關模型元素,且更特殊地是,模型元素依賴于后續的符號元素。在優選實施例中,本發明使用三音節,這就是說每個模型音素相關于唯一一個符號音素,但也考慮到前面和后面的符號音素。
下面將通過實例及其相關參考附圖對本發明予以描述,其中
圖1表示使用三音節時用于將符號音素轉換成模型音素的存儲;圖2表示局部路徑的末端;圖3表示在符號音素中,用于網絡增加的樹形結構;圖4a表示圖3中的樹轉換成模型音素;
圖4b表示圖4a的另一個可選方案,其中位置標記從樹結構中被移去;圖5表示執行該方法的設備;圖6是該方法的流圖;及圖7表示在通信系統的上下文中的本發明。
圖1表示三音節存儲的內容,它也出現為圖5中的部件56。實際上,它包括了更多的項目,但是只有少數可被表示出。特別地,表示非語音特征的項目,如“呼吸音”和“線路噪音”,通常也被包括在內。圖1中顯示的項目都是三音節,即每個項目由音素本身及其左相鄰音素(前方音素)和右相鄰音素(后續音素)組成。
圖1有一個標題為“中心”的列,它確定了將被轉換的符號音素。標題為“左”和“右”的列確定了前方音素和后續音素。用括號中小寫字母表明“模型”,這是因為要顯示出確定模型所需的大量數據是不實際的(任何情況下,在本領域,模型都是通用和為人熟知的)。模型被編號,這就強調了對每個符號音素都具有大量的模型音素。三音節的使用需要有標題“中心”列中確定的符號音素和如其標題列名稱同樣確定的該音素的左和右音素。這樣就確定了合適的三音節以在其上下文中轉換中心元素。
考慮詞“LEAPT”和“MET”的轉換。盡管傳統拼寫法認為在其他情況下“LEAPT”中的“EA”不僅是一個單音節,而且它和“met”中“E”是同樣的音節。但是上下文是不同的,且圖1的地址113和114使得基于三音節進行必要的轉換是很清楚的。沒有一個詞中符號音素“T”可被轉換,這是因為沒有右音素去確定合適的三音節。本發明使用動態網絡,并且網絡的每個局部路徑一次被一個單元(如一個字)擴展。該單元采用符號音素形式,且在可能與抽樣值比較之前必須轉換成模型音素。當進行轉換后,每個局部路徑,(且有許多)有一個最后符號音素,它不是(還不是)部分三音節。因為最后音素的上下文未被確定,所以它們不能被轉換。對于在動態網絡中使用上下文相關元素,這是一個主要問題。當上下文是一個三音節時,術語“縱橫字三音節”經常被使用,這是因為三音節的左和右元素位于不同的詞中。這個問題就被稱為“縱橫字三音節問題”。
根據本發明,使用“位置標記”以克服這個問題,它在權利要求書中被更詳細地確定。位置標記與模型音素相類似之處在于它可放置在路徑中,但它不包含任何比較過程所需的信息。所以它可被認為是一個虛模型元素。更重要的是,位置標記確定了一個符號音素,如被放置在網絡中而未被轉換的音素(未轉換的原因是在插入的時刻上下文未能被充分判定。)位置標記確定了將來路徑擴展的位置,且它也可被用于確定局部路徑的末端。
因為用位置標記確定的符號元素不適合與參數化抽樣值進行比較,所以位置標記在它被合并于路徑中后將需要被更新,且這一更新過程將在路徑的一個或多個后續擴展中發生(且由此網絡的路徑是部分的)。幾乎總是發生在擴展時路徑時從位置標記處開始分叉的情況。這意味著從位置標記處通常有多個擴展分支。可以預料到,多個擴展分支將會構成相對于位置標記的多個不同的上下文,所以,將需要多個不同的模型元素,這是因為模型元素是上下文相關的。下面將描述更新的兩個方法,即替代法和延續法。
替代法在替代法中,位置標記被從它的路徑中取出,并被由一個位置標記確定為符號元素的上下文相關模型元素所替代。如上所述,這一替代需要大量不同的模型元素,從而處理多個不同的上下文。只要位置標記被移去,它的位置就失去了,且沒有任何進一步的擴展可以從那個位置發生。所以,在相同的時刻進行所有不同的擴展是適當的。
延續法在延續法中,位置標記在網絡中保存時間和其路徑保存時間一樣長。相對于與參數化抽樣值進行比較所需的信息來說,位置標記是“空”的,所以位置標記在比較中不起任何作用,并且它不影響路徑的選擇。更新的擴展從位置標記處不斷延續,如必須的那樣,幾個不同的擴展可以從同一個位置標記處延續。每個擴展通常在位置標記中確定的元素處開始,且由于這個元素的上下文現在被完全地指明了,所以該元素可被轉換成合適的上下文相關模型形式。明顯地,在路徑擴展完成之后,位置標記將不在路徑末端。盡管如此,但位置標記還保存在路徑中,它還可被定位且用于將來創建額外分支時的擴展。
如果需要,位置標記也可包含額外信息,如被位置標記終止的字或單元的標志。(當使用該擴展方法時,位置標記保存在路徑中,且任何包含在其中的額外信息也將保存在路徑中。所以,如果需要的話,這一信息也可被訪問。)本發明包括下列方法(a)使用位置標記來擴展路徑和網絡,(b)使用包括位置標記的動態網絡的語音識別,(c)利用由(b)識別的語音的設備的控制,(d)包括通信的應用方法(a)到(c)。
本發明也包括實現上述方法(a)到(d)的設備。
根據本發明的位置標記的使用將參考圖1到5予以說明。
圖2涉及網絡局部路徑的擴展,(為了便于說明),將假定局部路徑以詞“cat”結束。最終,所有的路徑將被擴展,且這一過程是反復進行的,這是因為每個擴展按基本同樣的方式被執行著。由于所有的迭代都是基本一樣的,所以只需描述一個,即擴展這一局部路徑的那個。
通過增加大量詞到圖2所示的局部路徑末端,以獲得考慮中的擴展,且“C”(10)表示網絡的剩余部分。因為在前次迭代中“C”被轉換,所以它在本次(或任何將來的)迭代中不起任何作用。“cat”中的“A”(圖2中的11)也被轉換,且它被表示為模型音素(a1),圖1中地址111。盡管如此,需要它去幫助確定后面的三音節。
“cat”中的“T”(圖2的12)沒有(還沒有)一個后續元素,所以它不能被轉換成基于三音節的模型。但是,在前次迭代中把“T”放置到網絡中是必須的,并且由此使用位置標記。位置標記12也標識了局部路徑的末端,且它不能與參數化抽樣值進行匹配。
該設備(它被圖5所示,且在下面被詳細地描述)包括擴展器50,它包括一個詞典57和那個在圖1中詳細描述的三音節存儲器56。(詞典57和三音節存儲器56都是為了代表不同項目的信號的存儲區域。這些信號采用適合于自動處理的形式)。詞典57包含所有被設備所確認的詞;它也可能包含其他單元,如音節或任何對特定應用具有重要意義的項目。擴展器50可以通過輸出單元,如要擴展的詞,來擴展包含在網絡中的任何局部路徑。
為了說明當前迭代,假定擴展器輸出下列四個詞。
SAT
SL(EE)PSSLEPTL(EA)PT四個詞足以用于說明,但“實際”列可能會更長。在詞“sleeps”和“leapt”中,括號表示“ee”和“ea”是單個符號音素,盡管它們有兩個字母。
為了準備轉換成隨后增加到網絡上的模型音素,這些詞被采用樹型放置。該樹將被增加到圖2的位置標記12的位置,于是位置標記12中包含的符號音素轉換成模型音素的時刻來到了。所以位置標記12和它前面音素11被混合放入樹中。特別地,前面音素11和位置標記12組成樹的起始部分。
從四個詞、位置標記12和前面音素11形成樹。樹如圖3中所示。
圖3中所示的所有項目,除了“末端”21、22、23和24,以及初始字母“A”(11)外,都在已確定的三音節中,這些三音節被包含在存儲器56(參見圖1)中。所以轉換已被確定。初始字母“A”并不需要被轉換,這是因為它已被轉換成模型音素。它在樹中是需要的,因為它確定了項目12的轉換,該轉換可由圖2的位置標記12中得到。末端21、22、23和24不能被轉換成三音節,這是因為其后續元素還未被判定。這種無轉換將成為主要障礙,因為在沒有完全轉換的情況下圖3的樹不能被合并進網絡。根據本發明,末端21、22、23和24被轉換成位置標記,且網絡可以放置位置標記。
圖4顯示了轉換和合并入以前網絡的結果。項目11是前一個“最后被轉換”的元素。項目(12a)是舊的位置標記,它還被保持未變。包含于位置標記12a中的符號音素現在被轉換成兩個不同的模型音素,這是因為例子顯示了兩個不同的上下文。所以,在一個分支中,位置標記12a的符號音素從音素存儲器56的地址128處變成模型音素12b。對前面是A,且后面是S的T來說,這樣給出了模型音素(t3)。在網絡另一個分支上,來自位置標記12a的符號音素變成了(t1),它是來自于音素存儲器56的地址126上的項目12c。這一方案被選擇,是因為,在網絡的這一分支上,T的前面是A,且后面是L。舊網絡進行了分叉,這樣現在存在四個新的位置標記21、22、23和24。當包含于這些新位置標記中的符號音素被模型音素按上述方法予以替代時,在將來的迭代中這些新位置標記將作為用于擴展的起始點。
如從圖4a中可看到的那樣,位置標記在轉換后保存在網絡中。這些位置標記不包含任何用于與抽樣值比較的信息,所以,它們不影響路徑的選擇。盡管如此,位置標記出現在網絡分叉的地方,并且它們可以被用于確定網絡。如上所述,位置標記包含用于轉換的符號音素,并且它們可能包含額外的信息,如用于確定三音節的前面音素。如位置標記21到24所展示的那樣,位置標記對應于插入在網絡中的單元,并且如果需要的話,位置標記可以確定導出位置標記的單元。
在替代方案實施例(圖4b所示)中,當包含于位置標記中的音素被轉換成模型時,位置標記被移去。明顯地,當位置標記被移去時,就沒有了任何與位置標記相關的信息,但是,如從圖4b中可看到的那樣,網絡結構依然被確定。
在另一個可替代方案中,沒有說明,單元的完整性被保存下來了。圖3中所示的樹未被形成,這是因為每個單元都被分別地轉換成模型音素和位置標記。被轉換的單元然后作為單個實體被增加到網絡上。
用于擴展網絡的設備如圖5中所示。它包括一個用于外展存在路徑的擴展器50。擴展器50包括一個用于存儲信號的詞典57,其中這些信號代表單元的符號音素,如詞和音節。它還包括一個用于存儲信號的三音節存儲器56,其中的信號被將符號音素轉換成模型音素的轉換器55所使用。它們與一個網絡存儲器51相連接,這樣它可增加擴展到存儲于其中的網絡上。擴展器也可獲得局部路徑的末端,如來自網絡存儲器51的位置標記中所包含的符號音素以構成用于擴展的輸入。
設備還包括用于取得語音信號去抽樣和參數化的接收器54。該信號較好的是采用數字波形式;如果提供的是模擬信號,則還需包括一個模擬-數字轉換器(未顯示)。抽樣器53執行參數化,且一般是每秒50到100個抽樣值。(電話數字語音通常有每秒8000個抽樣值)。比較器52將抽樣值與保存在存儲器51中的網絡進行匹配,直到確定最佳路徑,并且這就是輸出到接口58的輸出結果,其中接口58可選擇地通過一通信系統用于控制附加設備(圖5中未顯示)或提供對判定的證實,如一個音頻或視覺信號。
該方法的流圖,說明了用于擴展路徑的迭代,它在圖6中被圖例說明。
該流圖有三個特點,即接收和抽樣、比較和網絡的擴展。
接收在流圖的塊60中被表示出,且抽樣在塊61中表示。
網絡擴展在塊62-64中被表示出,且它由下列主要步驟組成。
塊62存在的網絡(在存儲器51中)被掃描,且位置標志元素中的一個被選出。位置標志元素決定下一個擴展將被增加到的那一點上。通常它也確定局部路徑的末端。
塊63擴展器50從詞典57在代表符號音素的信號中選擇單元。
塊64在塊63中選出的單元以符號音素樹的形式被組合。在塊62中選出的位置標志元素作為樹的開始被包括進去。
塊65在塊64中組合成的樹被轉換成模型音素且末端音素被轉換成位置標志元素,其中位置標志元素將在塊62的將來執行過程中被選擇出。在塊62選擇出的位置標志元素中的符號音素也被轉換成模型音素。使用音素存儲器56來執行這些轉換(圖1中所示的內容)。在轉換之后,這個樹被增加到保存在存儲器51中的網絡上。
轉換成模型音素的過程發生在塊65中,而音素和其上下文的確定是在前面塊63和64中獲得的,認識到這一點是很重要的。當這些塊被執行時,末端音素沒有上下文,所以它們不能被轉換。盡管它們不是模型音素,但位置標志元素與網絡兼容,且它們的使用使得塊65中說明的步驟可以產生,這是因為采用模型元素來進行的位置標志元素更新在后面的迭代中會出現。
塊66在塊61中產生的抽樣值與存儲在網絡存儲器51中的網絡相比較,以選擇最佳路徑。
塊67在塊67中輸出最佳路徑。
只要接收到信號圖6中所示的迭代就被重復,以保持該過程進行。為了有助于檢測到末端,包括進表示線路噪聲和呼吸音的模型音素是合適的。在開始,如在語音被接收之前,使用標準的,預定的配置來初始化網絡。“靜默”元素特別適合于初始化。
圖7說明了本發明用于或是直接或是通過通信系統的自動聲音控制,如目錄查詢或其他象鐵路時刻表或航班服務之類的相似業務。
根據本發明的語音識別器70被連接到接口71上,其中接口71適應于通過作為語音被接收的指令的方式控制索引72,且被識別器70所確定。識別器70和接口71被連接到通信系統73上,后者包括了對一個用戶75可用的一個遠端電話74。為了查詢索引72,用戶75(通過傳統通信技術)訪問識別器70。口頭請求通過系統73被傳送到識別器。這些被識別器70所確認,并通過接口71發送給索引72。結果通過接口71和系統73被返回給用戶75。
在某些應用中,提供檢查指令己被正確理解的概率,如通過反饋回路的方法,是被希望的。這可通過結合合成語音設備到識別器70上的方法很方便地實現。如果有必要,通過通信系統,這就使得識別器去確認它給用戶的解釋。在屏幕上顯示解釋也是可能的。這種檢測在應用中是固有的,如自動聽寫,特別是當結果文本被顯示在屏幕上。
在大多數的這些應用中,存在著語音根本不被識別的可能性。這被視為可接受的結果,特別是當這一情況被通知給用戶時。
權利要求
1.一種識別語音信號的方法,該方法包括(a)接收(60)所述信號并將其分成一系列抽樣值(61);(b)準備(63)多個路徑,它們每個都包括一系列模型語言元素,所述模型采用適合與抽樣值相比較的形式;(c)比較(66)抽樣值和路徑,以評定在每個路徑與接收到的信號間的匹配接近性;(d)選擇(67)一個路徑,它構成對于接收信號的最佳匹配;其中至少一些模型元素是上下文相關的,因為模型考慮到了后續的元素,其特征在于采用了一種不適合于上述比較的形式確定語言元素的位置標記(12)被插入到路徑之中,且此后在所述位置標記中確定的語言元素被轉換成模型元素(12b,12c)。
2.根據權利要求1的方法,其中每個上下文相關模型元素都基于由中心元素、左元素和右元素組成的三音節;模型相關于左和右元素的上下文中的中心元素。
3.根據權利要求1或2的方法,其中擴展被增加到路徑中位置標志(12)已經確定的位置,且至少一個擴展包括一串一個或多個模型元素和一個新位置標志(21、22、23、24),其中該串中的元素(12b,12c)之一是由路徑中位置標志確定的模型元素的轉換形式,且新的位置標志(21、22、23、24)確定了將來擴展的位置。
4.根據前面的權利要求中任一項的方法,其中路徑按網絡的形式被組織。
5.根據前面的權利要求中任一項的方法,其中每個抽樣值都采用代表抽樣值語言特性的參數形式。
6.根據前面的權利要求中任一項的方法,其中輸入的語音由通信系統(74)被接收。
7.根據前面的權利要求中任一項的方法,它包括產生用以確定識別結果的響應。
8.根據權利要求7的方法,其中上述的確定包括輸入未被確定的指示。
9.根據前面的權利要求中任一項的方法,它包括(a)識別結果傳輸到一個可計算機化的索引(72),(b)從索引獲取信息(72),及,(c)取回的信息的輸出。
10.根據權利要求7、8、9中任何一項的方法,它包括通過通信系統(74)傳送響應和/或獲取的信息。
11.一種擴展包括適合與語音信號比較的模型元素的路徑的方法,這種方法包括在一個擴展過程中在路徑中插入一個位置標志和在后面擴展過程中用一個模型元素替代一個在位置標志中確定的符號元素。
12.根據權利要求11的方法,其中每個擴展被增加到由位置標志(12a)指明的位置上。
13.一種用以識別語音信號的設備,包括(a)一個用于獲得為了轉換的語音信號的接收器(54),(b)一個連接到接收器(54)上的參數化器(53),它用于將獲得的信號轉換成一系列與抽樣值的語言特性相關的參數形式的抽樣值,(c)一個用以包含多個路徑的路徑存儲器(51),上述路徑包括具有適合與參數化抽樣值相比較的形式的模型語言元素,(d)一個用于產生對包含在路徑存儲器中的路徑的擴展的擴展器(50),上述擴展具有不適合與參數化抽樣值相比較的符號元素形式,(e)一個用于將上述擴展器(50)產生的擴展轉換成上下文相關的模型元素的轉換器(55),上述轉換器(55)也可被連接到路徑存儲器(51)上,以便將上述轉換結果增加到包含于路徑存儲器(51)的網絡上,(f)一個可連接到參數化器(53)和路徑存儲器(51)上的比較器(52),用于將抽樣值與路徑相比較以選擇出最佳匹配,其特征在于該轉換器(55)用于將不含有充分確定上下文的元素轉換成位置標志,并將上述位置標志增加到路徑存儲器(51)所包含的網絡中,而且上述轉換器(55)用于定位上述路徑存儲器(51)中的位置標志所包含的符號元素,以便將它們轉換成上下文相關的模型元素且將上述上下文相關的模型元素在由位置標志指明的位置處增加到路徑存儲器(51)上。
14.根據權利要求13的設備,其中轉換器包括一個具有多個存儲位置的字典存儲器(57),每個存儲位置都包含確定該設備可識別的語言單元的信號。
15.根據或是權利要求13或14的設備,其中轉換器包含了一個三音節存儲器(56),上述三音節存儲器具有一個基于三音節的存取部分和一個包含確定模型元素等效于三音節的中心元素的信號輸出部分。
16.根據權利要求13、14或15中任何一個的設備,它被連接到通信系統(73)上。
全文摘要
通過將參數化語音與由模型語言元素(12b,12c)組成的路徑的動態擴展網絡相匹配來進行語音識別。單元是上下文相關的,如三音節。在必須結合元素到路徑中時一些元素不能被轉換成模型,這是因為上下文在相關時間內未被確定。為了允許變換,元素被變換為位置標志元素(21,22,23,24),當后面擴展完成了三音節的確定時位置標志元素可被轉換。位置標志元素(12a)可被用于確定后續擴展的位置。
文檔編號G10L15/18GK1217808SQ97194340
公開日1999年5月26日 申請日期1997年4月24日 優先權日1996年5月3日
發明者西蒙·亞歷山大·霍維爾 申請人:英國電訊有限公司