本發明屬于(yu)人工智能語(yu)(yu)言(yan)信息處理和(he)語(yu)(yu)音識別(bie),具體而言(yan)涉及一種在(zai)混合型語(yu)(yu)音識別(bie)系統中(zhong),利用(yong)文本數據構建基于(yu)音節(jie)的(de)(de)面向(xiang)資源稀缺語(yu)(yu)種語(yu)(yu)言(yan)模型的(de)(de)建模方法(fa)及系統。
背景技術:
1、語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別(speech?recognition)是指利用計算(suan)機處(chu)(chu)(chu)(chu)(chu)理(li)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao),通過分析(xi)和(he)辨識(shi)(shi),把(ba)人類的(de)(de)(de)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao)轉變為(wei)(wei)相應的(de)(de)(de)文(wen)(wen)字(zi)或(huo)者(zhe)(zhe)命令的(de)(de)(de)處(chu)(chu)(chu)(chu)(chu)理(li)過程(cheng)。一般語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別處(chu)(chu)(chu)(chu)(chu)理(li)可以分為(wei)(wei)前(qian)端(duan)處(chu)(chu)(chu)(chu)(chu)理(li)和(he)后端(duan)處(chu)(chu)(chu)(chu)(chu)理(li)兩個階段,前(qian)端(duan)處(chu)(chu)(chu)(chu)(chu)理(li)包括語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao)預處(chu)(chu)(chu)(chu)(chu)理(li)、特征提取等編(bian)碼(ma)(ma)階段;后端(duan)處(chu)(chu)(chu)(chu)(chu)理(li)包括利用聲學模(mo)(mo)型(xing)(xing)和(he)語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing),對編(bian)碼(ma)(ma)階段的(de)(de)(de)編(bian)碼(ma)(ma)進行解碼(ma)(ma),將(jiang)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao)轉換為(wei)(wei)文(wen)(wen)字(zi)或(huo)者(zhe)(zhe)命令。由于(yu)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao)的(de)(de)(de)動(dong)態性(xing)(xing)、時(shi)變性(xing)(xing)、瞬時(shi)性(xing)(xing)和(he)隨機性(xing)(xing),單靠聲學層面的(de)(de)(de)分析(xi)處(chu)(chu)(chu)(chu)(chu)理(li)和(he)匹配,無(wu)法得到較好的(de)(de)(de)識(shi)(shi)別結(jie)果。因(yin)此(ci),在(zai)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信(xin)號(hao)(hao)處(chu)(chu)(chu)(chu)(chu)理(li)的(de)(de)(de)基礎(chu)上(shang),需(xu)要(yao)(yao)(yao)結(jie)合(he)相關語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)知(zhi)識(shi)(shi)進行約束(shu)和(he)處(chu)(chu)(chu)(chu)(chu)理(li),以提高(gao)系(xi)統(tong)輸出結(jie)果的(de)(de)(de)準確率(lv)。這一處(chu)(chu)(chu)(chu)(chu)理(li)過程(cheng)需(xu)要(yao)(yao)(yao)借助語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)實現(xian)。語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)在(zai)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別系(xi)統(tong)中(zhong)具有(you)重(zhong)(zhong)要(yao)(yao)(yao)地位(wei)。一般在(zai)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別系(xi)統(tong)中(zhong)將(jiang)聲學模(mo)(mo)型(xing)(xing)和(he)語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)分離處(chu)(chu)(chu)(chu)(chu)理(li)的(de)(de)(de),這也稱為(wei)(wei)混合(he)型(xing)(xing)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別系(xi)統(tong)。語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)用于(yu)刻(ke)畫自然語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)中(zhong)的(de)(de)(de)內在(zai)規律,提供(gong)字(zi)或(huo)詞之間的(de)(de)(de)上(shang)下(xia)文(wen)(wen)和(he)語(yu)(yu)(yu)(yu)(yu)(yu)義信(xin)息(xi),是語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)識(shi)(shi)別系(xi)統(tong)的(de)(de)(de)重(zhong)(zhong)要(yao)(yao)(yao)組成部分。同時(shi),語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)模(mo)(mo)型(xing)(xing)也在(zai)語(yu)(yu)(yu)(yu)(yu)(yu)音(yin)(yin)(yin)(yin)合(he)成、機器翻譯(yi)以及ocr等語(yu)(yu)(yu)(yu)(yu)(yu)言(yan)(yan)智能應用中(zhong)扮演著重(zhong)(zhong)要(yao)(yao)(yao)角(jiao)色。
2、一般語(yu)言(yan)模型(xing)以詞(ci)匯為基本單(dan)元、利(li)用(yong)n-gram模型(xing)或者神(shen)經(jing)網絡(luo)(neuralnetwork)模型(xing)建(jian)模。n-gram具(ju)有良好的建(jian)模能力(li),實現也相對簡單(dan),當語(yu)料充(chong)足(zu)時(shi),能夠訓練出(chu)性能很好的模型(xing),并且發(fa)展出(chu)性能良好的數據平滑(hua)泛化(hua)技(ji)術(shu),適宜實際應用(yong)的需要(yao)。隨著研究的深入(ru)和(he)計算(suan)能力(li)的增強,神(shen)經(jing)網絡(luo)模型(xing)特(te)別是(shi)深度神(shen)經(jing)網絡(luo)模型(xing)的提出(chu),更(geng)好捕獲詞(ci)語(yu)之間的關聯關系。神(shen)經(jing)網絡(luo)語(yu)言(yan)模型(xing)同樣(yang)需要(yao)對語(yu)料進行(xing)統計學習。
3、以(yi)詞(ci)(ci)(ci)匯為基(ji)本單元的(de)(de)(de)語(yu)言模型,受(shou)限(xian)于詞(ci)(ci)(ci)表,在(zai)應對詞(ci)(ci)(ci)表之外(wai)(wai)的(de)(de)(de)集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci)(out?ofvocabulary?words,oov)方面(mian)性(xing)能不(bu)佳。為了(le)改善對集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci)的(de)(de)(de)處(chu)理(li)性(xing)能,已提出處(chu)理(li)方案:1)字符(fu)詞(ci)(ci)(ci)語(yu)混合模型(mixedword/character?model)即把(ba)所有的(de)(de)(de)集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci),拆成字符(fu)。這樣(yang)(yang)處(chu)理(li)的(de)(de)(de)好處(chu)就(jiu)是(shi)消滅了(le)全部的(de)(de)(de)集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci)。壞處(chu)就(jiu)是(shi)文本序(xu)列變得非(fei)常(chang)長,對于性(xing)能敏感的(de)(de)(de)系統,這是(shi)難(nan)以(yi)接受(shou)的(de)(de)(de)維(wei)度(du)增(zeng)長,帶來(lai)維(wei)度(du)災難(nan)。2)詞(ci)(ci)(ci)語(yu)片段模型(wordpiece?model,wpm),同(tong)樣(yang)(yang)需要對詞(ci)(ci)(ci)語(yu)進行拆分,同(tong)時需要對非(fei)集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci)也要拆分,拆分的(de)(de)(de)基(ji)本單元不(bu)是(shi)字符(fu)而是(shi)較(jiao)小的(de)(de)(de)字符(fu)串。拆詞(ci)(ci)(ci)規則從語(yu)料(liao)中自(zi)動(dong)統計(ji)學習(xi)到(dao),常(chang)用的(de)(de)(de)是(shi)bpe(byte?pair?encode)編碼。和(he)第一種方法(fa)相比,雖然(ran)序(xu)列的(de)(de)(de)長度(du)控制住了(le),由(you)于自(zi)動(dong)學習(xi)字符(fu)串,在(zai)有限(xian)詞(ci)(ci)(ci)表的(de)(de)(de)情況下,集(ji)(ji)(ji)外(wai)(wai)詞(ci)(ci)(ci)仍然(ran)存在(zai)。
4、同時,語(yu)(yu)(yu)(yu)言(yan)智能(neng)技術快速發(fa)展,不斷拓展應(ying)用(yong)的(de)語(yu)(yu)(yu)(yu)種(zhong),已(yi)經(jing)從原來的(de)漢語(yu)(yu)(yu)(yu)、英語(yu)(yu)(yu)(yu)等資(zi)(zi)(zi)源富(fu)集的(de)語(yu)(yu)(yu)(yu)種(zhong)拓展到(dao)馬(ma)來語(yu)(yu)(yu)(yu)、越南語(yu)(yu)(yu)(yu)、哈薩克(ke)語(yu)(yu)(yu)(yu)等資(zi)(zi)(zi)源稀(xi)缺(que)的(de)語(yu)(yu)(yu)(yu)種(zhong)。這種(zhong)稀(xi)缺(que)常常表現(xian)為相關(guan)研究(jiu)基礎知識的(de)稀(xi)缺(que),以及(ji)經(jing)過高質(zhi)量(liang)標注的(de)語(yu)(yu)(yu)(yu)言(yan)數據資(zi)(zi)(zi)源的(de)稀(xi)缺(que)。而在資(zi)(zi)(zi)源稀(xi)缺(que)語(yu)(yu)(yu)(yu)種(zhong)中,所能(neng)獲取(qu)得到(dao)的(de)詞表規(gui)模有限,在構建(jian)語(yu)(yu)(yu)(yu)言(yan)模型(xing)時,集外詞帶來的(de)影響會更加(jia)嚴重。因此,需要尋找有效的(de)應(ying)對(dui)方法,提升語(yu)(yu)(yu)(yu)音識別(bie)系統的(de)性(xing)能(neng)。
5、另一方(fang)面,從語(yu)(yu)言(yan)(yan)研(yan)究的角度看(kan),語(yu)(yu)言(yan)(yan)的發音(yin)(yin)相(xiang)對(dui)穩(wen)定,一個語(yu)(yu)種(zhong)有相(xiang)對(dui)固定的音(yin)(yin)節(jie)系統(tong)(tong)。如果立足于音(yin)(yin)節(jie)構建語(yu)(yu)言(yan)(yan)模(mo)型,有望減少集(ji)外詞,提(ti)升語(yu)(yu)音(yin)(yin)識別(bie)系統(tong)(tong)的性能。然(ran)而,面向(xiang)資(zi)源稀(xi)缺(que)語(yu)(yu)種(zhong)進(jin)行處理(li)時,往(wang)往(wang)無法得到相(xiang)對(dui)完整全面系統(tong)(tong)的音(yin)(yin)節(jie)集(ji)合(he)。這(zhe)給面向(xiang)資(zi)源稀(xi)缺(que)語(yu)(yu)種(zhong)以音(yin)(yin)節(jie)為基本單元構建語(yu)(yu)言(yan)(yan)模(mo)型帶來阻礙。
6、綜上(shang)所述,在混合語音識(shi)別系統中以詞(ci)語為(wei)基本(ben)單位的主流語言模(mo)型(xing)構建方法(fa)(fa),在集外詞(ci)處理(li)方面顯得(de)乏力,為(wei)提升系統的性(xing)能,需(xu)(xu)要(yao)尋找(zhao)相對穩定、封閉的語言單元來(lai)構建語言模(mo)型(xing)。同時考慮(lv)資源稀缺(que)語言的特點,同樣需(xu)(xu)要(yao)引入(ru)能夠自(zi)動獲(huo)取音節(jie)集合的方法(fa)(fa),彌補資源稀缺(que)帶來(lai)的困難(nan)。
技術實現思路
1、本(ben)發明的目的在(zai)于克服現有技術進行語(yu)音(yin)識別(bie)時對集外詞處理不(bu)好的缺陷。
2、為了實(shi)現上述目(mu)的,本發明提出了一種音節(jie)語言模型構建方(fang)法(fa),所述方(fang)法(fa)包括(kuo):
3、步驟1)收(shou)集(ji)待研究語(yu)(yu)種的(de)文(wen)本(ben)(ben)作為(wei)初始(shi)語(yu)(yu)料(liao);對(dui)收(shou)集(ji)得到的(de)初始(shi)語(yu)(yu)料(liao)進行(xing)預(yu)(yu)處(chu)理,得到預(yu)(yu)處(chu)理后的(de)語(yu)(yu)料(liao)文(wen)本(ben)(ben);
4、步驟2)以標點符(fu)號為(wei)切分標記,切分語料文本,得到字符(fu)串集合(he);
5、步驟3)利用數(shu)據挖掘(jue)方(fang)法挖掘(jue)切分形成的字符(fu)串集合得到(dao)頻繁串;
6、步驟(zou)4)按(an)照(zhao)音(yin)節構成原則(ze),對得(de)到的頻繁串(chuan)進行(xing)過濾,得(de)到候選音(yin)節集(ji)合;
7、步驟5)利用(yong)過濾(lv)得到的候選音節(jie)集合對語料文本進行切分,得到音節(jie)切分結果;
8、步驟(zou)(zou)(zou)6)分析音節切分結果,如果滿足要(yao)求,輸(shu)出按音節切分的語料文(wen)本和音節集(ji)合,進入(ru)步驟(zou)(zou)(zou)7);否則,調整過(guo)濾原則,重(zhong)復執行步驟(zou)(zou)(zou)4)到步驟(zou)(zou)(zou)6);
9、步(bu)驟7)利用按音節切分的語料文本(ben),以音節為基本(ben)單元訓練得到語言模型。
10、作為上述(shu)方(fang)法的(de)一種(zhong)改(gai)進,所述(shu)步驟1)具體包(bao)括:對收集得到的(de)初始語料進行預處(chu)理(li),統一字符的(de)機內碼,剔除非文本的(de)控制信息、圖片(pian)和(he)鏈接,將得到的(de)文本合(he)(he)并成一個文本集合(he)(he)。
11、作為上述(shu)方(fang)法的一種改進,所述(shu)步(bu)驟3)具(ju)體(ti)包括:
12、步驟3-1)經過步驟2)處理(li),得到字(zi)(zi)符串集合(he)d,d={d1,d2,…,de,…,dn},其中de表示集合(he)中第e個(ge)字(zi)(zi)符串,n為(wei)所得到字(zi)(zi)符串的(de)總(zong)數;de={ce1ce2…cef…cek},cef為(wei)字(zi)(zi)符串de中第f個(ge)字(zi)(zi)符,字(zi)(zi)符串de的(de)長(chang)度為(wei)k;統計每個(ge)de的(de)長(chang)度,并(bing)記錄中位數m;
13、步驟3-2)建(jian)立(li)(li)一個(ge)成分列表t,用于記(ji)(ji)錄一個(ge)長度為n+1的字符(fu)串sn+1由哪(na)兩個(ge)長度為n的字符(fu)串sn拼接而成;對應建(jian)立(li)(li)頻次(ci)記(ji)(ji)錄表r,記(ji)(ji)錄字符(fu)串sn+1出現的頻次(ci);
14、當n=0,n+1=1時(shi),成分列(lie)表t中(zhong)記(ji)(ji)錄(lu)的(de)(de)(de)是(shi)所研究(jiu)語種的(de)(de)(de)字符集中(zhong)每(mei)(mei)個(ge)字符,頻(pin)(pin)次記(ji)(ji)錄(lu)表r記(ji)(ji)錄(lu)的(de)(de)(de)是(shi)統計(ji)得到的(de)(de)(de)每(mei)(mei)個(ge)字符出(chu)現(xian)的(de)(de)(de)頻(pin)(pin)次;當n=1,n+1=2時(shi),成分列(lie)表t記(ji)(ji)錄(lu)兩個(ge)共現(xian)的(de)(de)(de)字符,頻(pin)(pin)次記(ji)(ji)錄(lu)表r記(ji)(ji)錄(lu)對應的(de)(de)(de)頻(pin)(pin)次;
15、步驟3-3)多(duo)個sn構成(cheng)n-字(zi)符(fu)串集sn;從(cong)sn中(zhong)取任(ren)意兩個詞串sa={ca1ca2…cah…can}和sb={cb1cb2…cbh…cbn},如果sa和sb滿足cah+1=cbh,(1<h<n-1),則合并sa與sb,得到一個(n+1)-詞串,記為sn+1=ca1ca2…cah…cancbn,同時(shi)在成(cheng)分列(lie)表t中(zhong)記錄sn+1:=sa+sb,其中(zhong)sa與sb的順序不可(ke)交換;sn+1∈sn+1,即(ji)新(xin)生成(cheng)的字(zi)符(fu)串sn+1屬(shu)于n+1-字(zi)符(fu)串集sn+1;
16、步(bu)驟3-4)對(dui)于步(bu)驟3-3)中(zhong)每一個(ge)新(xin)生成的(de)n+1-字符(fu)串(chuan)sn+1,遍歷(li)比對(dui)字符(fu)串(chuan)集(ji)合(he)d,統計(ji)其在d中(zhong)出(chu)現的(de)次數,并將(jiang)次數添加到r中(zhong),將(jiang)sn+1放入(n+1)-字符(fu)串(chuan)集(ji)sn+1中(zhong);
17、步驟3-5)如果(guo)(n+1)-字符串集sn+1不為空,且(qie)n+1≤m,則設置n增加1,回到3-3)進(jin)行處理;否則轉到步驟3-6);
18、步驟3-6)輸出(chu)處理得到的(de)t表(biao)(biao)和r表(biao)(biao),其中t表(biao)(biao)中保(bao)存著(zhu)挖(wa)掘得到的(de)頻(pin)繁(fan)串(chuan),r表(biao)(biao)為(wei)對(dui)應頻(pin)繁(fan)串(chuan)的(de)頻(pin)次。
19、作為上(shang)述方(fang)法的一種(zhong)改進(jin),所述步(bu)驟4)具體包(bao)括:
20、步驟4-1)確(que)定所(suo)研究語(yu)種(zhong)的字(zi)母(mu)(mu)集(ji)合(he),從中(zhong)區分出(chu)元(yuan)音(yin)和輔音(yin)字(zi)母(mu)(mu)集(ji)合(he),記作元(yuan)音(yin)集(ji)合(he)v和輔音(yin)集(ji)合(he)c,其中(zhong)v={v1,v2,…,vt,…,vg},vt為(wei)集(ji)合(he)中(zhong)第t個元(yuan)音(yin)字(zi)母(mu)(mu),g為(wei)元(yuan)音(yin)字(zi)母(mu)(mu)總(zong)數;其中(zhong)c={c1,c2,…,cu,…,ck},cu為(wei)第u個輔音(yin)字(zi)母(mu)(mu),k表示輔音(yin)字(zi)母(mu)(mu)總(zong)數;
21、步驟4-2)音(yin)(yin)(yin)(yin)節結(jie)構(gou)規(gui)(gui)則包(bao)括(kuo):(1)元音(yin)(yin)(yin)(yin)vi,(2)元音(yin)(yin)(yin)(yin)+輔(fu)音(yin)(yin)(yin)(yin)vicj,(3)輔(fu)音(yin)(yin)(yin)(yin)+元音(yin)(yin)(yin)(yin)cjvi,(4)輔(fu)音(yin)(yin)(yin)(yin)+元音(yin)(yin)(yin)(yin)+輔(fu)音(yin)(yin)(yin)(yin)cjvick;其中,vi、cj、ck分別(bie)表示元音(yin)(yin)(yin)(yin)集(ji)(ji)合(he)v和輔(fu)音(yin)(yin)(yin)(yin)集(ji)(ji)合(he)c的(de)(de)非空子(zi)集(ji)(ji),即表示可以出現多(duo)個連續的(de)(de)元音(yin)(yin)(yin)(yin)或者輔(fu)音(yin)(yin)(yin)(yin)字母,由此構(gou)成有序字符(fu)串(chuan);如果能夠收(shou)集(ji)(ji)得(de)到所(suo)研(yan)究語(yu)種特(te)殊(shu)的(de)(de)音(yin)(yin)(yin)(yin)節構(gou)成規(gui)(gui)則,作為已(yi)有音(yin)(yin)(yin)(yin)節知識(shi)的(de)(de)特(te)殊(shu)規(gui)(gui)則加入,規(gui)(gui)則適用的(de)(de)優先(xian)級高(gao)于上述4個音(yin)(yin)(yin)(yin)節結(jie)構(gou)規(gui)(gui)則;
22、如果能(neng)夠收集得到所研究(jiu)語種(zhong)的(de)(de)復合(he)元(yuan)輔音(yin)的(de)(de)表示,將其作(zuo)為已有(you)音(yin)節知識的(de)(de)特殊元(yuan)音(yin)和輔音(yin)字符表示,記錄到元(yuan)音(yin)集合(he)v和輔音(yin)集合(he)c;
23、如(ru)果能夠收集得(de)到所研究語(yu)種的(de)部分音節集合,將其(qi)作為(wei)已有(you)音節知識的(de)特殊音節數(shu)據記(ji)錄下(xia)來,記(ji)作s;如(ru)果沒有(you)預先得(de)到音節集合,則s為(wei)空;
24、步驟4-3)對步驟3)挖掘得到的頻繁串是(shi)否為音(yin)節進行判斷:
25、步驟4-3-1)設置音節表p,初始設為空;將s輸入到p中;
26、步(bu)驟(zou)4-3-2)從(cong)頻繁串(chuan)集合中取出一個頻繁串(chuan)作為(wei)音(yin)節候選串(chuan),檢測(ce)是否有(you)(you)元音(yin);如(ru)果(guo)(guo)有(you)(you)則進行(xing)步(bu)驟(zou)4-3-3),如(ru)果(guo)(guo)沒有(you)(you),結束對(dui)當前(qian)串(chuan)的(de)判斷;
27、步驟4-3-3)如(ru)果候選串(chuan)與p中(zhong)的音(yin)節(jie)完全匹配,結束對當前(qian)串(chuan)的判(pan)斷;否則(ze),進行步驟4-3-4);
28、步(bu)(bu)驟(zou)4-3-4)按照元(yuan)音(yin)和輔(fu)音(yin)對(dui)候(hou)選串(chuan)中(zhong)(zhong)的(de)字(zi)符進行劃(hua)分(fen),如(ru)果劃(hua)分(fen)結果能(neng)(neng)夠完全匹配(pei)(pei)步(bu)(bu)驟(zou)4-2)中(zhong)(zhong)的(de)音(yin)節結構規則,則將(jiang)當(dang)(dang)前(qian)串(chuan)計入到p中(zhong)(zhong);如(ru)果當(dang)(dang)前(qian)串(chuan)中(zhong)(zhong)因為出現連續的(de)元(yuan)音(yin)字(zi)母vt或輔(fu)音(yin)字(zi)母cu不能(neng)(neng)完全匹配(pei)(pei)音(yin)節結構規則,轉向步(bu)(bu)驟(zou)4-3-5);其(qi)他(ta)情(qing)況(kuang),結束對(dui)當(dang)(dang)前(qian)串(chuan)的(de)判斷;
29、步驟(zou)4-3-5)采用關聯強度結合出現頻次的(de)方法來(lai)確定連(lian)續出現的(de)元(yuan)音(yin)(yin)字母(mu)vt或(huo)輔音(yin)(yin)字母(mu)cu是否為復合結構;
30、將連續出現(xian)的(de)元(yuan)(yuan)音(yin)字母vt或(huo)輔(fu)(fu)音(yin)字母cu表示為連續子串a:a={a1a2…aw…az},其中(zhong)aw為第w個字母,其可能是單個元(yuan)(yuan)音(yin)或(huo)者單個輔(fu)(fu)音(yin),z為連續出現(xian)的(de)元(yuan)(yuan)音(yin)或(huo)者輔(fu)(fu)音(yin)的(de)長度(du);采用局部互信息方(fang)法計(ji)算關聯強度(du),具體如下:
31、
32、其中(zhong),milocal為連(lian)(lian)續子串(chuan)的(de)局部互信息;fo為連(lian)(lian)續串(chuan)的(de)觀測共現(xian)頻次,通過查找挖掘過程(cheng)中(zhong)的(de)r表(biao)(biao)得到;fe為連(lian)(lian)續串(chuan)的(de)預期共現(xian)頻次,利用t表(biao)(biao)和r表(biao)(biao)的(de)數據計(ji)算得到:
33、
34、其中,fz-1為(wei)長(chang)度(du)為(wei)z,形(xing)如{a1a2…az-1*}的(de)(de)(de)所(suo)有(you)頻繁串(chuan)(chuan)頻次(ci)的(de)(de)(de)總(zong)和(he),*代表(biao)任意一個元音(yin)或者輔(fu)音(yin)字母;fz1為(wei)長(chang)度(du)為(wei)z,形(xing)如{x1x2…xz-1az}的(de)(de)(de)所(suo)有(you)頻繁串(chuan)(chuan)頻次(ci)的(de)(de)(de)總(zong)和(he),{x1x2…xz-1}表(biao)示(shi)任意一個長(chang)度(du)為(wei)z-1的(de)(de)(de)子(zi)串(chuan)(chuan);n表(biao)示(shi)所(suo)有(you)長(chang)度(du)為(wei)z頻繁串(chuan)(chuan)頻次(ci)的(de)(de)(de)總(zong)和(he);
35、為milocal和fo設(she)定(ding)閾值,如果得到的(de)結果大于閾值要求(qiu),就(jiu)認(ren)可連續的(de)字(zi)母串為復(fu)合結構,并將其(qi)作為特殊的(de)元音或(huo)輔(fu)音字(zi)符(fu)表(biao)示,記錄到元音集合v或(huo)輔(fu)音集合c中,返回到步(bu)驟4-3-4)重新進行(xing)處(chu)理(li);其(qi)他情(qing)況,結束對當前串的(de)判斷;
36、步驟4-3-6)對每一個(ge)挖掘獲取的頻繁串(chuan)進行(xing)判斷,得到音(yin)節表p;
37、步(bu)驟4-3-7)輸出音節表p的內容,即為挖掘得(de)到(dao)的所研究語種的音節集(ji)合。
38、作(zuo)為上述方法(fa)的一(yi)種改進,所述步驟5)具體包括(kuo):
39、步驟(zou)5-1)使用經(jing)過步驟(zou)1)預處理后的文本作為音節切(qie)分(fen)語(yu)料,在進(jin)(jin)行(xing)音節切(qie)分(fen)前,將文本集(ji)合(he)合(he)并成(cheng)一個(ge)文本文檔,根據文本中標點符(fu)號(hao)按語(yu)句(ju)(ju)進(jin)(jin)行(xing)切(qie)分(fen),形成(cheng)語(yu)句(ju)(ju)集(ji)合(he);
40、步驟(zou)5-2)利用(yong)步驟(zou)4)得到的音節(jie)(jie)集合對語句集合進行音節(jie)(jie)切分:采用(yong)逆向匹配和長音節(jie)(jie)優(you)先原則進行切分;在音節(jie)(jie)切分邊界上添(tian)加切分標記,形成切分結果。
41、作為上述(shu)方法的一(yi)種改進,所述(shu)步驟(zou)6)具體(ti)包括(kuo):
42、步(bu)驟6-1)統(tong)計音(yin)節(jie)(jie)切(qie)分結(jie)果(guo)中出現的音(yin)節(jie)(jie),檢查是否存(cun)在非音(yin)節(jie)(jie)的字符串(chuan);如(ru)果(guo)存(cun)在,則進入(ru)步(bu)驟6-2),否則將得到的音(yin)節(jie)(jie)集合和(he)切(qie)分結(jie)果(guo)文(wen)本輸出,完成步(bu)驟6)處理(li);
43、步驟6-2)檢查非(fei)音(yin)(yin)節(jie)(jie)字符串所(suo)在的(de)文(wen)(wen)本,根(gen)據上下文(wen)(wen)判斷產生非(fei)音(yin)(yin)節(jie)(jie)字符串的(de)原(yuan)因:如果是(shi)由于音(yin)(yin)節(jie)(jie)切分(fen)產生錯(cuo)誤,轉向步驟6-3);否則,在待切分(fen)的(de)語句集合中去掉出現非(fei)音(yin)(yin)節(jie)(jie)字符串的(de)部分(fen),重新回到步驟5)進行處理;
44、步驟6-3)返回步驟4-3)調整音節(jie)判斷(duan)的(de)原則,重(zhong)新選取音節(jie)構成音節(jie)集合(he),回到步驟5),利用重(zhong)新得到的(de)音節(jie)集合(he)對待切分的(de)語句集合(he)進行切分處理;
45、步(bu)驟6-4)如果(guo)重新(xin)選擇音節(jie)(jie)(jie)(jie)集合和切(qie)分語(yu)句集合處理的次數超過(guo)設定閾值,仍然未能(neng)完全消除非(fei)音節(jie)(jie)(jie)(jie)字符(fu)串(chuan)的存在(zai),則(ze)按照切(qie)分結(jie)果(guo)中非(fei)音節(jie)(jie)(jie)(jie)字符(fu)串(chuan)個數最少(shao)并(bing)且非(fei)音節(jie)(jie)(jie)(jie)字符(fu)串(chuan)平均長(chang)度或者總長(chang)度最短的原(yuan)則(ze),選擇其中的一(yi)次切(qie)分結(jie)果(guo)輸(shu)(shu)出(chu);輸(shu)(shu)出(chu)前刪除所有非(fei)音節(jie)(jie)(jie)(jie)字符(fu)串(chuan);結(jie)束步(bu)驟6)處理。
46、作(zuo)為上述(shu)(shu)方法(fa)的一種改進(jin),所述(shu)(shu)調整音節(jie)判斷的原則具體為:
47、首先,調整復(fu)合(he)(he)元(yuan)(yuan)(yuan)音(yin)(yin)和(he)輔(fu)音(yin)(yin)的(de)(de)(de)構(gou)成,通過增加或者降低連續(xu)子串的(de)(de)(de)局部互信息milocal和(he)連續(xu)串的(de)(de)(de)觀測共現頻次(ci)fo的(de)(de)(de)閾值,過濾掉或者選擇更多的(de)(de)(de)元(yuan)(yuan)(yuan)輔(fu)音(yin)(yin)復(fu)合(he)(he)結構(gou);直接將認可(ke)的(de)(de)(de)元(yuan)(yuan)(yuan)輔(fu)音(yin)(yin)復(fu)合(he)(he)結構(gou)加入到元(yuan)(yuan)(yuan)音(yin)(yin)集合(he)(he)和(he)輔(fu)音(yin)(yin)集合(he)(he)中;
48、其次,通過對切分結果分析,將(jiang)已(yi)(yi)認可(ke)但未(wei)能挖掘出(chu)的音節(jie),直接(jie)加入到已(yi)(yi)知(zhi)音節(jie)集(ji)合s中。
49、作(zuo)為上(shang)述方(fang)法(fa)的一種改進,所述步(bu)驟(zou)7)具體包括:
50、將按音節(jie)(jie)切分的文本語(yu)料(liao)結果作為(wei)訓練語(yu)料(liao),進行語(yu)言模型建模;語(yu)料(liao)為(wei)語(yu)句(ju)(ju)集合j,j={j1,j2,…,ji,…,jq},語(yu)句(ju)(ju)由音節(jie)(jie)序列構成,式(shi)中(zhong)ji表示(shi)集合中(zhong)第(di)i個(ge)(ge)語(yu)句(ju)(ju),q為(wei)所得到(dao)語(yu)句(ju)(ju)的總數;ji={y1,y2,…,ym,…,yl},ym為(wei)語(yu)句(ju)(ju)j中(zhong)第(di)m個(ge)(ge)音節(jie)(jie),構成語(yu)句(ju)(ju)的音節(jie)(jie)序列的音節(jie)(jie)個(ge)(ge)數為(wei)l;
51、采用(yong)n-gram語言模(mo)型的建(jian)模(mo)方法(fa),具體(ti)n取值為2、3或(huo)者4:
52、2-gram語言模型:
53、p(j)=p(y1y2...yn)=p(y1)p(y2|y1)...p(yn|yn-1)
54、其中(zhong)(zhong),p(j)表(biao)示(shi)分(fen)割語(yu)(yu)句(ju)j的(de)(de)生(sheng)成概(gai)率(lv);p(y1y2…yn)為(wei)語(yu)(yu)言模型(xing)的(de)(de)訓(xun)練語(yu)(yu)料(liao)(liao)中(zhong)(zhong)的(de)(de)第n個(ge)yn音節出(chu)現(xian)的(de)(de)概(gai)率(lv);p(y1)為(wei)音節y1在(zai)(zai)整個(ge)最終(zhong)的(de)(de)語(yu)(yu)言模型(xing)訓(xun)練語(yu)(yu)料(liao)(liao)中(zhong)(zhong)的(de)(de)出(chu)現(xian)概(gai)率(lv);p(y2|y1)為(wei)在(zai)(zai)語(yu)(yu)料(liao)(liao)中(zhong)(zhong)y1在(zai)(zai)出(chu)現(xian)的(de)(de)條件下,且(qie)y2出(chu)現(xian)的(de)(de)條件概(gai)率(lv);p(yn|yn-1)為(wei)在(zai)(zai)語(yu)(yu)料(liao)(liao)庫(ku)中(zhong)(zhong)在(zai)(zai)yn-1出(chu)現(xian)的(de)(de)條件下,且(qie)yn出(chu)現(xian)的(de)(de)條件概(gai)率(lv);
55、3-gram語言(yan)模(mo)型:
56、p(j)=p(y1y2...yn)
57、=p(y1)p(y2|y1)p(y3|y1y2)...p(yn|yn-2yn-1)
58、其(qi)中,p(yn|yn-2yn-1)為在語(yu)料庫(ku)中在yn-2和yn-1出(chu)現(xian)的條件下(xia),且yn出(chu)現(xian)的條件概(gai)率;
59、4-gram語(yu)言模型:
60、p(j)=p(y1y2...yn)
61、=p(y1)p(y2|y1)p(y3|y1y2)p(y4|y1y2y3)...p(yn|yn-3yn-2yn-1)
62、其中,p(yn|yn-3yn-2yn-1)為在語料(liao)庫中在yn-3、yn-2和yn-1出現的條(tiao)件(jian)(jian)下(xia),且(qie)yn出現的條(tiao)件(jian)(jian)概(gai)率;
63、上式(shi)中,yn-1為(wei)(wei)距離第n個(ge)(ge)音(yin)節yn的前1個(ge)(ge)音(yin)節;yn-2為(wei)(wei)距離第n個(ge)(ge)音(yin)節yn的前2個(ge)(ge)音(yin)節;yn-3為(wei)(wei)距離第n個(ge)(ge)音(yin)節yn的前3個(ge)(ge)音(yin)節;
64、采(cai)用最(zui)大似(si)然法(fa)估(gu)計概(gai)率值,利用語料(liao)文(wen)本最(zui)終的音(yin)節(jie)切(qie)分結(jie)果訓練語料(liao),估(gu)計上面(mian)2、3、4-gram語言(yan)模型(xing)的公式(shi)中,訓練語料(liao)中的音(yin)節(jie)yn的出現概(gai)率p(yn)和條(tiao)件概(gai)率p(yn|y1y2…yn-1),出現概(gai)率p(yn)的具體(ti)公式(shi)如下:
65、
66、其(qi)中,f(yn)為音節yn在訓(xun)練(lian)語(yu)(yu)(yu)料(liao)(liao)出現的(de)(de)頻次(ci);f(yn)為訓(xun)練(lian)語(yu)(yu)(yu)料(liao)(liao)中總的(de)(de)音節頻數(shu);yn為最終的(de)(de)語(yu)(yu)(yu)言模型訓(xun)練(lian)語(yu)(yu)(yu)料(liao)(liao)所涉及詞語(yu)(yu)(yu)的(de)(de)總集合;
67、條件概率的計(ji)算公式如下:
68、
69、其中(zhong),f(y1y2…yn)為音(yin)節y1y2…yn共(gong)現(xian)在(zai)訓(xun)練語料(liao)中(zhong)的(de)頻次(ci);f(y1y2…yn-1)為音(yin)節y1y2…yn-1共(gong)現(xian)在(zai)訓(xun)練語料(liao)中(zhong)的(de)頻次(ci);
70、最后,通過最終的(de)音(yin)節(jie)切分(fen)語(yu)(yu)料和(he)語(yu)(yu)言(yan)模型(xing)(xing)(xing)訓練語(yu)(yu)料,計算得(de)到關于音(yin)節(jie)yn的(de)出現概(gai)率p(yn)和(he)條件概(gai)率p(yn|yn-1)、p(yn|yn-2yn-1)和(he)p(yn|yn-3yn-2yn-1),進而得(de)到以音(yin)節(jie)為處理單元(yuan)、語(yu)(yu)言(yan)模型(xing)(xing)(xing)的(de)2-gram語(yu)(yu)言(yan)模型(xing)(xing)(xing)、3-gram語(yu)(yu)言(yan)模型(xing)(xing)(xing)和(he)/或4-gram語(yu)(yu)言(yan)模型(xing)(xing)(xing),形成(cheng)基于音(yin)節(jie)構(gou)建的(de)語(yu)(yu)言(yan)模型(xing)(xing)(xing)。
71、本(ben)技(ji)術還提(ti)供音節語言模(mo)型建模(mo)系統,基于(yu)權利要(yao)求1-7所述任一方法實現,其特(te)征在于(yu),所述系統包括:
72、預處(chu)理(li)模(mo)塊,用(yong)于(yu)收集(ji)(ji)(ji)語(yu)(yu)(yu)種文(wen)(wen)本(ben)(ben)作為(wei)初始語(yu)(yu)(yu)料;對收集(ji)(ji)(ji)得(de)到(dao)的初始語(yu)(yu)(yu)料進(jin)行預處(chu)理(li),統(tong)一(yi)字符(fu)的機(ji)內碼,剔除非文(wen)(wen)本(ben)(ben)的控制信息(xi)、圖片和鏈接,將(jiang)得(de)到(dao)的文(wen)(wen)本(ben)(ben)合(he)并成(cheng)一(yi)個文(wen)(wen)本(ben)(ben)集(ji)(ji)(ji)合(he);將(jiang)文(wen)(wen)本(ben)(ben)集(ji)(ji)(ji)合(he)以標(biao)點符(fu)號(hao)為(wei)切分標(biao)記,切分語(yu)(yu)(yu)料文(wen)(wen)本(ben)(ben),組成(cheng)字符(fu)串集(ji)(ji)(ji)合(he);將(jiang)文(wen)(wen)本(ben)(ben)集(ji)(ji)(ji)合(he)合(he)并成(cheng)一(yi)個文(wen)(wen)本(ben)(ben)文(wen)(wen)檔,根據文(wen)(wen)本(ben)(ben)中標(biao)點符(fu)號(hao)按語(yu)(yu)(yu)句(ju)進(jin)行切分,形成(cheng)語(yu)(yu)(yu)句(ju)集(ji)(ji)(ji)合(he);
73、音節發現模塊,用于對預處(chu)理得到的(de)字(zi)符(fu)串集(ji)(ji)合,利(li)用數據挖掘(jue)方法得到字(zi)符(fu)串中蘊涵的(de)字(zi)符(fu)串頻繁(fan)串集(ji)(ji)合和(he)頻繁(fan)串頻次信息;匯入已經獲(huo)得的(de)所(suo)研究語種音節和(he)元音輔音復合結構,按(an)照音節構成規則和(he)統計測度(du)對挖掘(jue)得到的(de)頻繁(fan)串進行過濾,得到所(suo)研究語種音節集(ji)(ji)合;
74、音(yin)(yin)(yin)(yin)節(jie)(jie)切分(fen)(fen)模塊,利用音(yin)(yin)(yin)(yin)節(jie)(jie)發(fa)現模塊得到(dao)的(de)(de)(de)音(yin)(yin)(yin)(yin)節(jie)(jie)集(ji)合(he)(he),對預處理(li)(li)模塊形成(cheng)的(de)(de)(de)語句(ju)集(ji)合(he)(he)語料文(wen)本進行切分(fen)(fen);分(fen)(fen)析(xi)音(yin)(yin)(yin)(yin)節(jie)(jie)切分(fen)(fen)結(jie)(jie)果(guo)(guo)中出(chu)現的(de)(de)(de)非音(yin)(yin)(yin)(yin)節(jie)(jie)字(zi)符(fu)(fu)串(chuan)結(jie)(jie)果(guo)(guo),如果(guo)(guo)因文(wen)本錯誤(wu)造成(cheng)的(de)(de)(de),刪除語句(ju)集(ji)合(he)(he)中的(de)(de)(de)錯誤(wu),重新進行音(yin)(yin)(yin)(yin)節(jie)(jie)切分(fen)(fen)和(he)(he)結(jie)(jie)果(guo)(guo)分(fen)(fen)析(xi);否則(ze),重復音(yin)(yin)(yin)(yin)節(jie)(jie)發(fa)現模塊中的(de)(de)(de)過濾處理(li)(li),調整(zheng)過濾原(yuan)則(ze),重新獲(huo)取音(yin)(yin)(yin)(yin)節(jie)(jie)集(ji)合(he)(he),并(bing)重新進行音(yin)(yin)(yin)(yin)節(jie)(jie)切分(fen)(fen)和(he)(he)結(jie)(jie)果(guo)(guo)分(fen)(fen)析(xi);重復這一(yi)步(bu)驟,直到(dao)消(xiao)(xiao)除非音(yin)(yin)(yin)(yin)節(jie)(jie)字(zi)符(fu)(fu)串(chuan)切分(fen)(fen)結(jie)(jie)果(guo)(guo),輸出(chu)切分(fen)(fen)結(jie)(jie)果(guo)(guo)和(he)(he)音(yin)(yin)(yin)(yin)節(jie)(jie)集(ji)合(he)(he);或者迭(die)代(dai)次數超過設定閾值,仍無法完(wan)全消(xiao)(xiao)除非音(yin)(yin)(yin)(yin)節(jie)(jie)字(zi)符(fu)(fu)串(chuan)切分(fen)(fen)結(jie)(jie)果(guo)(guo),選擇迭(die)代(dai)中最(zui)優(you)的(de)(de)(de)音(yin)(yin)(yin)(yin)節(jie)(jie)切分(fen)(fen)結(jie)(jie)果(guo)(guo),刪除其(qi)中的(de)(de)(de)非音(yin)(yin)(yin)(yin)節(jie)(jie)字(zi)符(fu)(fu)串(chuan),與(yu)相(xiang)應的(de)(de)(de)音(yin)(yin)(yin)(yin)節(jie)(jie)集(ji)合(he)(he)一(yi)同輸出(chu);和(he)(he)
75、音節(jie)語(yu)言模型訓(xun)練(lian)模塊,利(li)用音節(jie)切(qie)分模塊得到的(de)按音節(jie)切(qie)分的(de)文本語(yu)料,以音節(jie)為(wei)基本單元訓(xun)練(lian)得到語(yu)言模型。
76、與現有技術相比,本(ben)發明的優勢(shi)在(zai)于:
77、1、本(ben)(ben)發(fa)明所提供的(de)方(fang)法能夠利(li)用(yong)(yong)資(zi)(zi)源(yuan)稀缺語(yu)(yu)種文(wen)本(ben)(ben)數(shu)據,解決資(zi)(zi)源(yuan)稀缺語(yu)(yu)種語(yu)(yu)言建(jian)模(mo)(mo)中的(de)音(yin)節集合(he)(he)獲取(qu)困難(nan)的(de)問(wen)題。因為缺乏資(zi)(zi)源(yuan),資(zi)(zi)源(yuan)稀缺語(yu)(yu)種往(wang)往(wang)難(nan)以完整系統獲取(qu)音(yin)節系統,針對這一困難(nan),本(ben)(ben)發(fa)明利(li)用(yong)(yong)文(wen)本(ben)(ben)數(shu)據借助(zhu)數(shu)據挖掘方(fang)法獲取(qu),提高(gao)音(yin)節集合(he)(he)獲取(qu)的(de)效(xiao)(xiao)率(lv),緩解資(zi)(zi)源(yuan)稀缺的(de)困難(nan);同時本(ben)(ben)發(fa)明采用(yong)(yong)的(de)技術方(fang)案(an)可(ke)以融合(he)(he)不完整,甚至碎片化的(de)資(zi)(zi)源(yuan)稀缺語(yu)(yu)種的(de)音(yin)節知(zhi)識(shi),便(bian)于結合(he)(he)理想主義方(fang)法的(de)知(zhi)識(shi)和(he)經(jing)驗主義方(fang)法的(de)知(zhi)識(shi),為工程實現提供了便(bian)利(li),有助(zhu)于提高(gao)建(jian)模(mo)(mo)效(xiao)(xiao)率(lv)和(he)模(mo)(mo)型(xing)性(xing)能。
78、2、本(ben)(ben)發明所提供的方(fang)法能夠有(you)(you)(you)效(xiao)應(ying)對(dui)(dui)資源(yuan)稀(xi)(xi)缺語(yu)(yu)種集(ji)(ji)外(wai)(wai)詞處理的困難(nan)。由于(yu)音(yin)節(jie)(jie)在語(yu)(yu)言系統(tong)中具有(you)(you)(you)基元(yuan)(yuan)化的特(te)性(xing),相(xiang)對(dui)(dui)封閉穩定慢變(bian),以音(yin)節(jie)(jie)為基本(ben)(ben)單元(yuan)(yuan)構建語(yu)(yu)言模型,能夠較好解決大規模詞表獲取的困難(nan),有(you)(you)(you)效(xiao)應(ying)對(dui)(dui)集(ji)(ji)外(wai)(wai)詞;資源(yuan)稀(xi)(xi)缺語(yu)(yu)種,往往很難(nan)收集(ji)(ji)整理得到(dao)較大規模可實(shi)(shi)用(yong)的詞表,構建語(yu)(yu)言模型往往由于(yu)詞表收集(ji)(ji)詞語(yu)(yu)有(you)(you)(you)限,而遇到(dao)大量集(ji)(ji)外(wai)(wai)詞,影響(xiang)識別系統(tong)性(xing)能;本(ben)(ben)發明以音(yin)節(jie)(jie)為建模基本(ben)(ben)單元(yuan)(yuan),提供了實(shi)(shi)用(yong)可行的建模方(fang)法,有(you)(you)(you)效(xiao)應(ying)對(dui)(dui)集(ji)(ji)外(wai)(wai)詞帶來的系統(tong)性(xing)能下(xia)降問題(ti)。