本(ben)申請涉及(ji)語(yu)音識(shi)別,尤其涉及(ji)一種混(hun)識(shi)別的處理方法、裝置(zhi)、設備及(ji)存儲(chu)介質(zhi)。
背景技術:
1、在(zai)(zai)(zai)智(zhi)(zhi)能(neng)家居領(ling)域,語(yu)(yu)音(yin)(yin)喚醒(xing)和(he)命(ming)令(ling)詞(ci)識(shi)(shi)別(bie)(bie)屬(shu)于(yu)常見的(de)(de)智(zhi)(zhi)能(neng),需(xu)要用戶喊(han)出(chu)喚醒(xing)詞(ci)或命(ming)令(ling)詞(ci)后(hou),設備能(neng)實時(shi)(shi)做出(chu)應答(da)。命(ming)令(ling)詞(ci)識(shi)(shi)別(bie)(bie)屬(shu)于(yu)語(yu)(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie),廣泛應用于(yu)智(zhi)(zhi)能(neng)家居領(ling)域,比如(ru)(ru)智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)音(yin)(yin)箱、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)耳機、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)燈(deng)、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)風(feng)扇等。命(ming)令(ling)詞(ci)語(yu)(yu)音(yin)(yin)控(kong)制設備時(shi)(shi),如(ru)(ru)果(guo)喊(han)沒有反應,會連續喊(han)同一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)情(qing)形(xing)。如(ru)(ru)果(guo)命(ming)令(ling)詞(ci)列表中(zhong)存(cun)在(zai)(zai)(zai)一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)后(hou)綴(zhui)是(shi)另一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)前綴(zhui)的(de)(de)情(qing)形(xing),就(jiu)容(rong)易引起混識(shi)(shi)別(bie)(bie)。比如(ru)(ru)風(feng)速一(yi)(yi)檔(dang)(dang)(dang)和(he)一(yi)(yi)檔(dang)(dang)(dang)風(feng)速同時(shi)(shi)存(cun)在(zai)(zai)(zai)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)中(zhong),如(ru)(ru)果(guo)連續喊(han)風(feng)速一(yi)(yi)檔(dang)(dang)(dang)、風(feng)速一(yi)(yi)檔(dang)(dang)(dang)則容(rong)易混識(shi)(shi)別(bie)(bie)為一(yi)(yi)檔(dang)(dang)(dang)風(feng)速。又(you)比如(ru)(ru)set?unlock和(he)lock?set同時(shi)(shi)存(cun)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)時(shi)(shi),set?unlockset?unlock連續喊(han)時(shi)(shi),容(rong)易混識(shi)(shi)別(bie)(bie)為lock?set。因此,如(ru)(ru)何解決(jue)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)列表中(zhong)存(cun)在(zai)(zai)(zai)一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)后(hou)綴(zhui)是(shi)另一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)前綴(zhui)的(de)(de)情(qing)形(xing)下,重復喊(han)同一(yi)(yi)命(ming)令(ling)詞(ci)容(rong)易引起混識(shi)(shi)別(bie)(bie)是(shi)目前亟(ji)需(xu)解決(jue)的(de)(de)技術問(wen)題(ti)。
技術實現思路
1、針對上述技術問(wen)題(ti)(ti),本申請的(de)目的(de)在(zai)于(yu)提供一(yi)種混識(shi)別的(de)處(chu)理方法、裝置、設備及存儲(chu)介質(zhi),旨在(zai)解決(jue)在(zai)命令詞(ci)列表中存在(zai)一(yi)個(ge)命令詞(ci)的(de)后綴是另一(yi)個(ge)命令詞(ci)的(de)前綴的(de)情形下,重復喊同一(yi)命令詞(ci)容易引起混識(shi)別的(de)技術問(wen)題(ti)(ti)。
2、第一方面,本(ben)申請實施(shi)例(li)提供一種混(hun)識別的處理方法,包括:
3、對輸(shu)入的語(yu)音(yin)計(ji)算(suan)其特征,然(ran)后送入語(yu)音(yin)識別網絡,輸(shu)出一音(yin)素概(gai)率分布列,同時(shi)記錄該音(yin)素概(gai)率分布列的時(shi)間戳;
4、將輸出(chu)的音素概(gai)率分布列緩(huan)存到(dao)一個緩(huan)存窗口中;
5、當緩存窗口(kou)中(zhong)新(xin)來(lai)一音素概(gai)(gai)率(lv)分(fen)布列時(shi),基于新(xin)來(lai)的(de)音素概(gai)(gai)率(lv)分(fen)布列的(de)時(shi)間(jian)戳和緩存窗口(kou)中(zhong)所有音素概(gai)(gai)率(lv)分(fen)布列的(de)時(shi)間(jian)戳確定過(guo)期的(de)音素概(gai)(gai)率(lv)分(fen)布列;
6、將過期(qi)的(de)音(yin)素(su)概率分布列從(cong)緩存窗口(kou)(kou)中清(qing)理掉(diao),得到清(qing)理后的(de)緩存窗口(kou)(kou);
7、基于清(qing)理后的緩存窗口進行解碼操作(zuo),獲得(de)命令詞的識別結果。
8、進(jin)一步的(de),所述基于新來的(de)音素概率(lv)分(fen)布(bu)列的(de)時(shi)間戳(chuo)和緩存窗口中所有音素概率(lv)分(fen)布(bu)列的(de)時(shi)間戳(chuo)確(que)定(ding)過(guo)期的(de)音素概率(lv)分(fen)布(bu)列的(de)步驟包括:
9、基于(yu)新(xin)來的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳,從(cong)左(zuo)到右遍歷緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口,找出時(shi)間(jian)(jian)差(cha)大于(yu)一定(ding)閾(yu)值且最靠右的(de)(de)位置(zhi);其中,所述時(shi)間(jian)(jian)差(cha)基于(yu)新(xin)來的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳和緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口中存(cun)(cun)(cun)儲的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳計算得到,緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口中的(de)(de)0位置(zhi)位于(yu)緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口的(de)(de)左(zuo)邊,將音素概率(lv)(lv)分(fen)布列(lie)存(cun)(cun)(cun)儲到緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口時(shi),從(cong)0位置(zhi)開(kai)始存(cun)(cun)(cun)儲;
10、所述將(jiang)過期的音素概率分布列從(cong)緩(huan)存(cun)窗口中(zhong)清(qing)理(li)掉,得到清(qing)理(li)后的緩(huan)存(cun)窗口的步驟包括:
11、將找出的(de)位置之后(hou)的(de)信息(xi)左移到從緩存(cun)窗口的(de)0位置開(kai)始(shi)存(cun)儲,得到清理后(hou)的(de)緩存(cun)窗口。
12、進(jin)一步的(de),所述基于清理后的(de)緩存窗(chuang)口進(jin)行(xing)解碼操作,獲得命令詞的(de)識別結果的(de)步驟(zou)之后,所述方法還包(bao)括:
13、獲(huo)取命令(ling)詞識別結(jie)果的長度;
14、根據所述(shu)命令詞識別結果的長度(du)調整所述(shu)閾值。
15、進(jin)一步(bu)(bu)的(de)(de),所述將輸出的(de)(de)音素概(gai)率分(fen)布列緩(huan)存(cun)到(dao)一個(ge)緩(huan)存(cun)窗口中的(de)(de)步(bu)(bu)驟之前,還包(bao)括(kuo):
16、分析所(suo)述音(yin)素(su)概率分布列中的blank概率是(shi)否大(da)于設定(ding)的概率值;
17、如果(guo)大于,則認為包含音素信息過(guo)小,過(guo)濾(lv)掉此(ci)音素概(gai)率(lv)分布列。
18、進一步的,所述時(shi)間戳(chuo)為相對時(shi)間戳(chuo),所述相對時(shi)間戳(chuo)是一個相對的計(ji)(ji)數(shu),當(dang)達(da)到計(ji)(ji)數(shu)閾值時(shi),重置(zhi),重新計(ji)(ji)數(shu)。
19、進一(yi)步的(de)(de),所述基于(yu)新來的(de)(de)音素概率分布(bu)列的(de)(de)時(shi)間(jian)戳(chuo),從左到右(you)遍歷緩存(cun)窗(chuang)口(kou),找出時(shi)間(jian)差(cha)大于(yu)一(yi)定閾值(zhi)且最靠右(you)的(de)(de)位(wei)置的(de)(de)過程中(zhong),時(shi)間(jian)差(cha)的(de)(de)計(ji)算方(fang)式為:
20、idiff?=?icurr_time?-?timecnt[j]?;其中,j表(biao)(biao)示遍(bian)歷的標號,?timecnt[j]表(biao)(biao)示第(di)j個位置(zhi)的時(shi)間(jian)(jian)(jian)戳乘(cheng)以輸(shu)出(chu)一(yi)列(lie)(lie)(lie)音素概(gai)率分(fen)布列(lie)(lie)(lie)的時(shi)間(jian)(jian)(jian)間(jian)(jian)(jian)隔(ge)的結果(guo),icurr_time表(biao)(biao)示當(dang)前時(shi)間(jian)(jian)(jian)戳乘(cheng)以輸(shu)出(chu)一(yi)列(lie)(lie)(lie)音素概(gai)率分(fen)布列(lie)(lie)(lie)的時(shi)間(jian)(jian)(jian)間(jian)(jian)(jian)隔(ge)的結果(guo);idiff?表(biao)(biao)示時(shi)間(jian)(jian)(jian)差;j=0,1,2,......,n;n表(biao)(biao)示緩存窗口長(chang)度;
21、如果idiff小于0?,表示存(cun)在重置,idiff需(xu)要(yao)加上所述(shu)計(ji)數閾值。
22、進一步的,所(suo)述語(yu)音識(shi)別(bie)網絡的語(yu)音識(shi)別(bie)算法(fa)采(cai)用(yong)ctc解(jie)碼算法(fa)。
23、第(di)二方面,本申請實施例提供一種混識別(bie)的(de)處理(li)裝置,所述裝置包括:
24、識(shi)別模塊,用于對輸(shu)入的(de)語(yu)音計(ji)算其特征(zheng),然后(hou)送入語(yu)音識(shi)別網絡,輸(shu)出(chu)一(yi)音素(su)概率分(fen)布列,同(tong)時記錄(lu)該音素(su)概率分(fen)布列的(de)時間戳;
25、緩存(cun)模(mo)塊(kuai),用于將輸出的音素(su)概率分布列緩存(cun)到一(yi)個緩存(cun)窗口(kou)中;
26、確(que)定模塊,用于當緩(huan)存窗口中新來一音素概率分(fen)(fen)布列時(shi)(shi),基于新來的音素概率分(fen)(fen)布列的時(shi)(shi)間戳和緩(huan)存窗口中所有音素概率分(fen)(fen)布列的時(shi)(shi)間戳確(que)定過期(qi)的音素概率分(fen)(fen)布列;
27、清(qing)理模(mo)塊,用于將過期的(de)音素概率分布列(lie)從緩存窗口中清(qing)理掉,得到清(qing)理后的(de)緩存窗口;
28、解碼模塊(kuai),用于基(ji)于清理后的(de)(de)緩存窗口進行解碼操作,獲(huo)得命令(ling)詞的(de)(de)識別(bie)結(jie)果。
29、第三方面,本申請實施例(li)提供一種計算(suan)機設(she)備,包括存儲(chu)(chu)器(qi)和處理(li)器(qi),所述存儲(chu)(chu)器(qi)中(zhong)存儲(chu)(chu)有(you)計算(suan)機程(cheng)序,所述處理(li)器(qi)執(zhi)行所述計算(suan)機程(cheng)序時實現如上述任一項所述的(de)混識別(bie)的(de)處理(li)方法的(de)步驟。
30、第四方面,本申請實(shi)施(shi)例(li)提供一(yi)(yi)種計算機可(ke)讀(du)存(cun)儲介質,其上存(cun)儲有計算機程序,所述(shu)計算機程序被處理(li)器執行(xing)時實(shi)現如(ru)上述(shu)任一(yi)(yi)項所述(shu)的混識別的處理(li)方法的步驟。
31、本(ben)申(shen)請實施(shi)例通過記錄音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列的(de)(de)(de)(de)(de)時(shi)間戳,并(bing)將音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列緩(huan)(huan)(huan)存(cun)在一個緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中,當緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中新來(lai)一音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列時(shi),基于(yu)新來(lai)的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列的(de)(de)(de)(de)(de)時(shi)間戳和緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中所有音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布的(de)(de)(de)(de)(de)時(shi)間戳確定(ding)過期的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列;將過期的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列從緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中清(qing)理(li)掉,最后基于(yu)清(qing)理(li)后的(de)(de)(de)(de)(de)緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)進(jin)行解碼操(cao)作(zuo),獲得命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)識(shi)別(bie)結果,由于(yu)本(ben)發明存(cun)在清(qing)理(li)機制(zhi),之(zhi)前的(de)(de)(de)(de)(de)緩(huan)(huan)(huan)存(cun)信息不會影響當前的(de)(de)(de)(de)(de)識(shi)別(bie),從而(er)可解決(jue)連(lian)續喊命(ming)(ming)令(ling)詞(ci)時(shi),命(ming)(ming)令(ling)詞(ci)列表存(cun)在一個命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)后綴(zhui)和另一個命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)前綴(zhui)相同的(de)(de)(de)(de)(de)情形時(shi)的(de)(de)(de)(de)(de)混(hun)識(shi)別(bie)的(de)(de)(de)(de)(de)問題,進(jin)而(er)本(ben)申(shen)請可提高命(ming)(ming)令(ling)詞(ci)識(shi)別(bie)的(de)(de)(de)(de)(de)準確性。
1.一種混識別的處理方法(fa),其特(te)征在(zai)于,所(suo)述(shu)方法(fa)包括:
2.根據(ju)權(quan)利要(yao)求1所述的混識別(bie)的處(chu)理(li)方法,其(qi)特征(zheng)在于,所述基于新來的音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的時間(jian)戳(chuo)和緩存窗口(kou)中(zhong)所有音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的時間(jian)戳(chuo)確(que)定過期的音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的步驟包括:
3.根據權利要求(qiu)2所(suo)(suo)述的(de)混識(shi)別的(de)處理方法(fa),其特征(zheng)在于,所(suo)(suo)述基(ji)于清理后(hou)的(de)緩存窗口(kou)進行解碼操作,獲得命令詞的(de)識(shi)別結(jie)果的(de)步驟之后(hou),所(suo)(suo)述方法(fa)還包括:
4.根據權利要求(qiu)1所述(shu)的(de)混(hun)識別(bie)的(de)處理方法,其特征在于,所述(shu)將(jiang)輸出的(de)音素概率分(fen)布列(lie)緩存(cun)到一個緩存(cun)窗口中的(de)步驟之前,還包括:
5.根據權利要求(qiu)1所述的混識別的處理方(fang)法,其特征在于(yu),所述時間(jian)戳為(wei)相對時間(jian)戳,所述相對時間(jian)戳是(shi)一(yi)個相對的計(ji)數,當達到計(ji)數閾(yu)值時,重置,重新計(ji)數。
6.根據權利要求5所述(shu)(shu)的(de)(de)混(hun)識別的(de)(de)處理方(fang)法,其特征在(zai)于(yu),?所述(shu)(shu)基于(yu)新來的(de)(de)音(yin)素概率分布列的(de)(de)時(shi)間(jian)戳,從(cong)左到(dao)右(you)遍歷緩存窗口,找(zhao)出時(shi)間(jian)差大(da)于(yu)一定(ding)閾(yu)值且最(zui)靠右(you)的(de)(de)位置的(de)(de)過程中,時(shi)間(jian)差的(de)(de)計算方(fang)式為(wei):
7.根據權利要求1-6任一(yi)項所述的混識(shi)別的處理方法,其特征在于,所述語音識(shi)別網絡的語音識(shi)別算法采用ctc解碼算法。
8.一種(zhong)混識別的處理裝置(zhi),其特征在(zai)于,所述裝置(zhi)包括:
9.一種計(ji)算(suan)機設備,包括存(cun)儲器(qi)和處(chu)理器(qi),所述(shu)存(cun)儲器(qi)中(zhong)存(cun)儲有(you)計(ji)算(suan)機程序,其特征在于,所述(shu)處(chu)理器(qi)執(zhi)行(xing)所述(shu)計(ji)算(suan)機程序時實現如(ru)權利要(yao)求1至7中(zhong)任一項所述(shu)的(de)混識(shi)別(bie)的(de)處(chu)理方法的(de)步驟。
10.一(yi)種計算(suan)機(ji)可讀存儲介質,其上存儲有計算(suan)機(ji)程序(xu),其特(te)征在于,所述計算(suan)機(ji)程序(xu)被處理器執行時實現如(ru)權(quan)利(li)要求1至7中任一(yi)項所述的混識別(bie)的處理方(fang)法的步(bu)驟。