中文字幕无码日韩视频无码三区

混識別的處理方法、裝置、設備及存儲介質與流程

文(wen)檔序號:39440157發布日期:2024-09-20 22:41閱讀(du):29來源:國(guo)知局(ju)
混識別的處理方法、裝置、設備及存儲介質與流程

本(ben)申請涉及(ji)語(yu)音識(shi)別,尤其涉及(ji)一種混(hun)識(shi)別的處理方法、裝置(zhi)、設備及(ji)存儲(chu)介質(zhi)。


背景技術:

1、在(zai)(zai)(zai)智(zhi)(zhi)能(neng)家居領(ling)域,語(yu)(yu)音(yin)(yin)喚醒(xing)和(he)命(ming)令(ling)詞(ci)識(shi)(shi)別(bie)(bie)屬(shu)于(yu)常見的(de)(de)智(zhi)(zhi)能(neng),需(xu)要用戶喊(han)出(chu)喚醒(xing)詞(ci)或命(ming)令(ling)詞(ci)后(hou),設備能(neng)實時(shi)(shi)做出(chu)應答(da)。命(ming)令(ling)詞(ci)識(shi)(shi)別(bie)(bie)屬(shu)于(yu)語(yu)(yu)音(yin)(yin)識(shi)(shi)別(bie)(bie),廣泛應用于(yu)智(zhi)(zhi)能(neng)家居領(ling)域,比如(ru)(ru)智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)音(yin)(yin)箱、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)耳機、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)燈(deng)、智(zhi)(zhi)能(neng)語(yu)(yu)音(yin)(yin)風(feng)扇等。命(ming)令(ling)詞(ci)語(yu)(yu)音(yin)(yin)控(kong)制設備時(shi)(shi),如(ru)(ru)果(guo)喊(han)沒有反應,會連續喊(han)同一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)情(qing)形(xing)。如(ru)(ru)果(guo)命(ming)令(ling)詞(ci)列表中(zhong)存(cun)在(zai)(zai)(zai)一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)后(hou)綴(zhui)是(shi)另一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)前綴(zhui)的(de)(de)情(qing)形(xing),就(jiu)容(rong)易引起混識(shi)(shi)別(bie)(bie)。比如(ru)(ru)風(feng)速一(yi)(yi)檔(dang)(dang)(dang)和(he)一(yi)(yi)檔(dang)(dang)(dang)風(feng)速同時(shi)(shi)存(cun)在(zai)(zai)(zai)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)中(zhong),如(ru)(ru)果(guo)連續喊(han)風(feng)速一(yi)(yi)檔(dang)(dang)(dang)、風(feng)速一(yi)(yi)檔(dang)(dang)(dang)則容(rong)易混識(shi)(shi)別(bie)(bie)為一(yi)(yi)檔(dang)(dang)(dang)風(feng)速。又(you)比如(ru)(ru)set?unlock和(he)lock?set同時(shi)(shi)存(cun)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)時(shi)(shi),set?unlockset?unlock連續喊(han)時(shi)(shi),容(rong)易混識(shi)(shi)別(bie)(bie)為lock?set。因此,如(ru)(ru)何解決(jue)在(zai)(zai)(zai)命(ming)令(ling)詞(ci)列表中(zhong)存(cun)在(zai)(zai)(zai)一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)后(hou)綴(zhui)是(shi)另一(yi)(yi)個(ge)(ge)命(ming)令(ling)詞(ci)的(de)(de)前綴(zhui)的(de)(de)情(qing)形(xing)下,重復喊(han)同一(yi)(yi)命(ming)令(ling)詞(ci)容(rong)易引起混識(shi)(shi)別(bie)(bie)是(shi)目前亟(ji)需(xu)解決(jue)的(de)(de)技術問(wen)題(ti)。


技術實現思路

1、針對上述技術問(wen)題(ti)(ti),本申請的(de)目的(de)在(zai)于(yu)提供一(yi)種混識(shi)別的(de)處(chu)理方法、裝置、設備及存儲(chu)介質(zhi),旨在(zai)解決(jue)在(zai)命令詞(ci)列表中存在(zai)一(yi)個(ge)命令詞(ci)的(de)后綴是另一(yi)個(ge)命令詞(ci)的(de)前綴的(de)情形下,重復喊同一(yi)命令詞(ci)容易引起混識(shi)別的(de)技術問(wen)題(ti)(ti)。

2、第一方面,本(ben)申請實施(shi)例(li)提供一種混(hun)識別的處理方法,包括:

3、對輸(shu)入的語(yu)音(yin)計(ji)算(suan)其特征,然(ran)后送入語(yu)音(yin)識別網絡,輸(shu)出一音(yin)素概(gai)率分布列,同時(shi)記錄該音(yin)素概(gai)率分布列的時(shi)間戳;

4、將輸出(chu)的音素概(gai)率分布列緩(huan)存到(dao)一個緩(huan)存窗口中;

5、當緩存窗口(kou)中(zhong)新(xin)來(lai)一音素概(gai)(gai)率(lv)分(fen)布列時(shi),基于新(xin)來(lai)的(de)音素概(gai)(gai)率(lv)分(fen)布列的(de)時(shi)間(jian)戳和緩存窗口(kou)中(zhong)所有音素概(gai)(gai)率(lv)分(fen)布列的(de)時(shi)間(jian)戳確定過(guo)期的(de)音素概(gai)(gai)率(lv)分(fen)布列;

6、將過期(qi)的(de)音(yin)素(su)概率分布列從(cong)緩存窗口(kou)(kou)中清(qing)理掉(diao),得到清(qing)理后的(de)緩存窗口(kou)(kou);

7、基于清(qing)理后的緩存窗口進行解碼操作(zuo),獲得(de)命令詞的識別結果。

8、進(jin)一步的(de),所述基于新來的(de)音素概率(lv)分(fen)布(bu)列的(de)時(shi)間戳(chuo)和緩存窗口中所有音素概率(lv)分(fen)布(bu)列的(de)時(shi)間戳(chuo)確(que)定(ding)過(guo)期的(de)音素概率(lv)分(fen)布(bu)列的(de)步驟包括:

9、基于(yu)新(xin)來的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳,從(cong)左(zuo)到右遍歷緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口,找出時(shi)間(jian)(jian)差(cha)大于(yu)一定(ding)閾(yu)值且最靠右的(de)(de)位置(zhi);其中,所述時(shi)間(jian)(jian)差(cha)基于(yu)新(xin)來的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳和緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口中存(cun)(cun)(cun)儲的(de)(de)音素概率(lv)(lv)分(fen)布列(lie)的(de)(de)時(shi)間(jian)(jian)戳計算得到,緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口中的(de)(de)0位置(zhi)位于(yu)緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口的(de)(de)左(zuo)邊,將音素概率(lv)(lv)分(fen)布列(lie)存(cun)(cun)(cun)儲到緩(huan)(huan)(huan)存(cun)(cun)(cun)窗(chuang)口時(shi),從(cong)0位置(zhi)開(kai)始存(cun)(cun)(cun)儲;

10、所述將(jiang)過期的音素概率分布列從(cong)緩(huan)存(cun)窗口中(zhong)清(qing)理(li)掉,得到清(qing)理(li)后的緩(huan)存(cun)窗口的步驟包括:

11、將找出的(de)位置之后(hou)的(de)信息(xi)左移到從緩存(cun)窗口的(de)0位置開(kai)始(shi)存(cun)儲,得到清理后(hou)的(de)緩存(cun)窗口。

12、進(jin)一步的(de),所述基于清理后的(de)緩存窗(chuang)口進(jin)行(xing)解碼操作,獲得命令詞的(de)識別結果的(de)步驟(zou)之后,所述方法還包(bao)括:

13、獲(huo)取命令(ling)詞識別結(jie)果的長度;

14、根據所述(shu)命令詞識別結果的長度(du)調整所述(shu)閾值。

15、進(jin)一步(bu)(bu)的(de)(de),所述將輸出的(de)(de)音素概(gai)率分(fen)布列緩(huan)存(cun)到(dao)一個(ge)緩(huan)存(cun)窗口中的(de)(de)步(bu)(bu)驟之前,還包(bao)括(kuo):

16、分析所(suo)述音(yin)素(su)概率分布列中的blank概率是(shi)否大(da)于設定(ding)的概率值;

17、如果(guo)大于,則認為包含音素信息過(guo)小,過(guo)濾(lv)掉此(ci)音素概(gai)率(lv)分布列。

18、進一步的,所述時(shi)間戳(chuo)為相對時(shi)間戳(chuo),所述相對時(shi)間戳(chuo)是一個相對的計(ji)(ji)數(shu),當(dang)達(da)到計(ji)(ji)數(shu)閾值時(shi),重置(zhi),重新計(ji)(ji)數(shu)。

19、進一(yi)步的(de)(de),所述基于(yu)新來的(de)(de)音素概率分布(bu)列的(de)(de)時(shi)間(jian)戳(chuo),從左到右(you)遍歷緩存(cun)窗(chuang)口(kou),找出時(shi)間(jian)差(cha)大于(yu)一(yi)定閾值(zhi)且最靠右(you)的(de)(de)位(wei)置的(de)(de)過程中(zhong),時(shi)間(jian)差(cha)的(de)(de)計(ji)算方(fang)式為:

20、idiff?=?icurr_time?-?timecnt[j]?;其中,j表(biao)(biao)示遍(bian)歷的標號,?timecnt[j]表(biao)(biao)示第(di)j個位置(zhi)的時(shi)間(jian)(jian)(jian)戳乘(cheng)以輸(shu)出(chu)一(yi)列(lie)(lie)(lie)音素概(gai)率分(fen)布列(lie)(lie)(lie)的時(shi)間(jian)(jian)(jian)間(jian)(jian)(jian)隔(ge)的結果(guo),icurr_time表(biao)(biao)示當(dang)前時(shi)間(jian)(jian)(jian)戳乘(cheng)以輸(shu)出(chu)一(yi)列(lie)(lie)(lie)音素概(gai)率分(fen)布列(lie)(lie)(lie)的時(shi)間(jian)(jian)(jian)間(jian)(jian)(jian)隔(ge)的結果(guo);idiff?表(biao)(biao)示時(shi)間(jian)(jian)(jian)差;j=0,1,2,......,n;n表(biao)(biao)示緩存窗口長(chang)度;

21、如果idiff小于0?,表示存(cun)在重置,idiff需(xu)要(yao)加上所述(shu)計(ji)數閾值。

22、進一步的,所(suo)述語(yu)音識(shi)別(bie)網絡的語(yu)音識(shi)別(bie)算法(fa)采(cai)用(yong)ctc解(jie)碼算法(fa)。

23、第(di)二方面,本申請實施例提供一種混識別(bie)的(de)處理(li)裝置,所述裝置包括:

24、識(shi)別模塊,用于對輸(shu)入的(de)語(yu)音計(ji)算其特征(zheng),然后(hou)送入語(yu)音識(shi)別網絡,輸(shu)出(chu)一(yi)音素(su)概率分(fen)布列,同(tong)時記錄(lu)該音素(su)概率分(fen)布列的(de)時間戳;

25、緩存(cun)模(mo)塊(kuai),用于將輸出的音素(su)概率分布列緩存(cun)到一(yi)個緩存(cun)窗口(kou)中;

26、確(que)定模塊,用于當緩(huan)存窗口中新來一音素概率分(fen)(fen)布列時(shi)(shi),基于新來的音素概率分(fen)(fen)布列的時(shi)(shi)間戳和緩(huan)存窗口中所有音素概率分(fen)(fen)布列的時(shi)(shi)間戳確(que)定過期(qi)的音素概率分(fen)(fen)布列;

27、清(qing)理模(mo)塊,用于將過期的(de)音素概率分布列(lie)從緩存窗口中清(qing)理掉,得到清(qing)理后的(de)緩存窗口;

28、解碼模塊(kuai),用于基(ji)于清理后的(de)(de)緩存窗口進行解碼操作,獲(huo)得命令(ling)詞的(de)(de)識別(bie)結(jie)果。

29、第三方面,本申請實施例(li)提供一種計算(suan)機設(she)備,包括存儲(chu)(chu)器(qi)和處理(li)器(qi),所述存儲(chu)(chu)器(qi)中(zhong)存儲(chu)(chu)有(you)計算(suan)機程(cheng)序,所述處理(li)器(qi)執(zhi)行所述計算(suan)機程(cheng)序時實現如上述任一項所述的(de)混識別(bie)的(de)處理(li)方法的(de)步驟。

30、第四方面,本申請實(shi)施(shi)例(li)提供一(yi)(yi)種計算機可(ke)讀(du)存(cun)儲介質,其上存(cun)儲有計算機程序,所述(shu)計算機程序被處理(li)器執行(xing)時實(shi)現如(ru)上述(shu)任一(yi)(yi)項所述(shu)的混識別的處理(li)方法的步驟。

31、本(ben)申(shen)請實施(shi)例通過記錄音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列的(de)(de)(de)(de)(de)時(shi)間戳,并(bing)將音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列緩(huan)(huan)(huan)存(cun)在一個緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中,當緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中新來(lai)一音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列時(shi),基于(yu)新來(lai)的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列的(de)(de)(de)(de)(de)時(shi)間戳和緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中所有音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布的(de)(de)(de)(de)(de)時(shi)間戳確定(ding)過期的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列;將過期的(de)(de)(de)(de)(de)音(yin)素(su)(su)概(gai)(gai)率(lv)分(fen)(fen)布列從緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)中清(qing)理(li)掉,最后基于(yu)清(qing)理(li)后的(de)(de)(de)(de)(de)緩(huan)(huan)(huan)存(cun)窗(chuang)口(kou)(kou)(kou)進(jin)行解碼操(cao)作(zuo),獲得命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)識(shi)別(bie)結果,由于(yu)本(ben)發明存(cun)在清(qing)理(li)機制(zhi),之(zhi)前的(de)(de)(de)(de)(de)緩(huan)(huan)(huan)存(cun)信息不會影響當前的(de)(de)(de)(de)(de)識(shi)別(bie),從而(er)可解決(jue)連(lian)續喊命(ming)(ming)令(ling)詞(ci)時(shi),命(ming)(ming)令(ling)詞(ci)列表存(cun)在一個命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)后綴(zhui)和另一個命(ming)(ming)令(ling)詞(ci)的(de)(de)(de)(de)(de)前綴(zhui)相同的(de)(de)(de)(de)(de)情形時(shi)的(de)(de)(de)(de)(de)混(hun)識(shi)別(bie)的(de)(de)(de)(de)(de)問題,進(jin)而(er)本(ben)申(shen)請可提高命(ming)(ming)令(ling)詞(ci)識(shi)別(bie)的(de)(de)(de)(de)(de)準確性。



技術特征:

1.一種混識別的處理方法(fa),其特(te)征在(zai)于,所(suo)述(shu)方法(fa)包括:

2.根據(ju)權(quan)利要(yao)求1所述的混識別(bie)的處(chu)理(li)方法,其(qi)特征(zheng)在于,所述基于新來的音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的時間(jian)戳(chuo)和緩存窗口(kou)中(zhong)所有音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的時間(jian)戳(chuo)確(que)定過期的音(yin)素概(gai)率(lv)分(fen)(fen)布列(lie)的步驟包括:

3.根據權利要求(qiu)2所(suo)(suo)述的(de)混識(shi)別的(de)處理方法(fa),其特征(zheng)在于,所(suo)(suo)述基(ji)于清理后(hou)的(de)緩存窗口(kou)進行解碼操作,獲得命令詞的(de)識(shi)別結(jie)果的(de)步驟之后(hou),所(suo)(suo)述方法(fa)還包括:

4.根據權利要求(qiu)1所述(shu)的(de)混(hun)識別(bie)的(de)處理方法,其特征在于,所述(shu)將(jiang)輸出的(de)音素概率分(fen)布列(lie)緩存(cun)到一個緩存(cun)窗口中的(de)步驟之前,還包括:

5.根據權利要求(qiu)1所述的混識別的處理方(fang)法,其特征在于(yu),所述時間(jian)戳為(wei)相對時間(jian)戳,所述相對時間(jian)戳是(shi)一(yi)個相對的計(ji)數,當達到計(ji)數閾(yu)值時,重置,重新計(ji)數。

6.根據權利要求5所述(shu)(shu)的(de)(de)混(hun)識別的(de)(de)處理方(fang)法,其特征在(zai)于(yu),?所述(shu)(shu)基于(yu)新來的(de)(de)音(yin)素概率分布列的(de)(de)時(shi)間(jian)戳,從(cong)左到(dao)右(you)遍歷緩存窗口,找(zhao)出時(shi)間(jian)差大(da)于(yu)一定(ding)閾(yu)值且最(zui)靠右(you)的(de)(de)位置的(de)(de)過程中,時(shi)間(jian)差的(de)(de)計算方(fang)式為(wei):

7.根據權利要求1-6任一(yi)項所述的混識(shi)別的處理方法,其特征在于,所述語音識(shi)別網絡的語音識(shi)別算法采用ctc解碼算法。

8.一種(zhong)混識別的處理裝置(zhi),其特征在(zai)于,所述裝置(zhi)包括:

9.一種計(ji)算(suan)機設備,包括存(cun)儲器(qi)和處(chu)理器(qi),所述(shu)存(cun)儲器(qi)中(zhong)存(cun)儲有(you)計(ji)算(suan)機程序,其特征在于,所述(shu)處(chu)理器(qi)執(zhi)行(xing)所述(shu)計(ji)算(suan)機程序時實現如(ru)權利要(yao)求1至7中(zhong)任一項所述(shu)的(de)混識(shi)別(bie)的(de)處(chu)理方法的(de)步驟。

10.一(yi)種計算(suan)機(ji)可讀存儲介質,其上存儲有計算(suan)機(ji)程序(xu),其特(te)征在于,所述計算(suan)機(ji)程序(xu)被處理器執行時實現如(ru)權(quan)利(li)要求1至7中任一(yi)項所述的混識別(bie)的處理方(fang)法的步(bu)驟。


技術總結
本申請涉及語音識別技術領域,提供一種混識別的處理方法、裝置、設備及存儲介質,方法包括:對輸入的語音計算其特征,然后送入語音識別網絡,輸出一音素概率分布列,同時記錄該音素概率分布列的時間戳;將輸出的音素概率分布列緩存到一個緩存窗口中;當緩存窗口中新來一音素概率分布列時,基于新來的音素概率分布列的時間戳和緩存窗口中所有音素概率分布列的時間戳確定過期的音素概率分布列;將過期的音素概率分布列從緩存窗口中清理掉,得到清理后的緩存窗口;基于清理后的緩存窗口進行解碼操作,獲得命令詞的識別結果。本申請可以解決重復喊同一命令詞容易引起混識別技術問題,提高命令詞識別的準確性。

技術研發人員:劉漢卿
受保護的技術使用者:深圳市隕力軟件科技有限公司
技術研發日:
技術公布日:2024/9/19
網友詢(xun)問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1