本(ben)申請涉(she)及人工智(zhi)能,尤其涉(she)及一種語音活性檢測方法、裝置、設備及介質。
背景技術:
1、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測(voiceactivity?detection,vad)系統用于對輸入語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)信號(hao)進行活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)和非活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)的判斷(duan),其(qi)判斷(duan)出的活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)將(jiang)被送入后(hou)續的語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)處理(li)步(bu)驟(zou)。語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測系統是眾多(duo)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)相關應用,如,語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)喚醒(xing)、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)增強、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)編碼、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)識(shi)別、說話(hua)人識(shi)別中至關重(zhong)要的前置步(bu)驟(zou),這些應用在(zai)很多(duo)場景(jing)(jing)當中對實時性(xing)(xing)要求很高,如視頻會議場景(jing)(jing)。因(yin)此(ci),語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測系統就需(xu)要盡可能(neng)快地將(jiang)活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)送給后(hou)續語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)處理(li)步(bu)驟(zou)。
2、因此,如何提高語音(yin)活性檢(jian)測(ce)準確度,成(cheng)為本領域技術人員亟待(dai)解決的技術問題。
技術實現思路
1、本(ben)申請實(shi)施(shi)例提供了一(yi)種語音(yin)活性(xing)檢(jian)測方法(fa)、裝置、設備(bei)及介(jie)質,用于(yu)準(zhun)確(que)有效(xiao)地進(jin)行語音(yin)幀的活性(xing)檢(jian)測。
2、第一方面,本申請實施例提供了(le)一種語(yu)音(yin)活性檢(jian)測方法,所述方法包括:
3、根據待檢測語(yu)(yu)音(yin)(yin)信(xin)號(hao)的第(di)一(yi)語(yu)(yu)音(yin)(yin)幀和至少(shao)一(yi)個第(di)二語(yu)(yu)音(yin)(yin)幀,確定所述第(di)一(yi)語(yu)(yu)音(yin)(yin)幀是(shi)否為活(huo)性語(yu)(yu)音(yin)(yin)幀;
4、其中,所(suo)(suo)述(shu)(shu)第一語音(yin)幀(zhen)與所(suo)(suo)述(shu)(shu)第二語音(yin)幀(zhen)的接收時間(jian)差小于(yu)(yu)或等(deng)于(yu)(yu)預(yu)設時長,所(suo)(suo)述(shu)(shu)第一語音(yin)幀(zhen)與所(suo)(suo)述(shu)(shu)第二語音(yin)幀(zhen)的相似度大于(yu)(yu)或等(deng)于(yu)(yu)目標閾值。
5、第二(er)方面,本申請實施例還提供了(le)一種語音(yin)活性檢(jian)測裝置(zhi),所(suo)述裝置(zhi)包(bao)括:
6、獲(huo)取(qu)模塊,用于(yu)獲(huo)取(qu)待檢測語(yu)音信號的(de)第(di)一(yi)語(yu)音幀(zhen)和至少(shao)一(yi)個第(di)二語(yu)音幀(zhen),其中(zhong),所述(shu)(shu)(shu)第(di)一(yi)語(yu)音幀(zhen)與(yu)(yu)所述(shu)(shu)(shu)第(di)二語(yu)音幀(zhen)的(de)接收時間差小(xiao)于(yu)或等于(yu)預設時長,所述(shu)(shu)(shu)第(di)一(yi)語(yu)音幀(zhen)與(yu)(yu)所述(shu)(shu)(shu)第(di)二語(yu)音幀(zhen)的(de)相似度大于(yu)或等于(yu)目(mu)標閾值;
7、處理(li)模塊,用于根據(ju)待檢測語(yu)(yu)音(yin)(yin)信號的第(di)(di)一語(yu)(yu)音(yin)(yin)幀(zhen)和至少一個第(di)(di)二語(yu)(yu)音(yin)(yin)幀(zhen),確定所述第(di)(di)一語(yu)(yu)音(yin)(yin)幀(zhen)是否為活性(xing)語(yu)(yu)音(yin)(yin)幀(zhen)。
8、第三方(fang)面,本申請實(shi)施(shi)例還提供了一種(zhong)電(dian)子設備,所(suo)(suo)(suo)述電(dian)子設備至少(shao)包(bao)括處理(li)器(qi)和存儲器(qi),所(suo)(suo)(suo)述處理(li)器(qi)用于執行存儲器(qi)中(zhong)存儲的計算機(ji)程序時實(shi)現上述任一項所(suo)(suo)(suo)述的語音活(huo)性檢測(ce)方(fang)法的步(bu)驟。
9、第四方(fang)(fang)面,本申請實施(shi)例還提供了(le)一(yi)種計(ji)(ji)算機存儲介(jie)質(zhi),其存儲有可(ke)由電子設(she)備(bei)執(zhi)行的計(ji)(ji)算機程(cheng)序(xu),當所(suo)述程(cheng)序(xu)在所(suo)述電子設(she)備(bei)上(shang)運行時,使得所(suo)述電子設(she)備(bei)執(zhi)行上(shang)述任一(yi)項所(suo)述的語音活性檢(jian)測(ce)方(fang)(fang)法的步驟。
10、第五方面,本申請實(shi)施例還提供一(yi)種計(ji)算(suan)機(ji)程序產(chan)品,所(suo)(suo)述(shu)計(ji)算(suan)機(ji)程序產(chan)品被(bei)存儲在(zai)存儲介質中,所(suo)(suo)述(shu)計(ji)算(suan)機(ji)程序產(chan)品被(bei)至少一(yi)個處理(li)器執行時實(shi)現上述(shu)的語音活性檢測方法的步驟。
11、可(ke)以(yi)看(kan)出,在本申請實(shi)施例中(zhong),在確定待檢測(ce)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信號(hao)中(zhong)的第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)是否為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)時(shi),除(chu)了(le)考慮(lv)該第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)自(zi)身,還(huan)考慮(lv)了(le)待檢測(ce)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信號(hao)中(zhong)與第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)接(jie)收時(shi)間比(bi)(bi)(bi)較接(jie)近(jin)且比(bi)(bi)(bi)較相似(si)的至(zhi)少一(yi)個第(di)(di)(di)二語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),由于接(jie)收時(shi)間接(jie)近(jin)且比(bi)(bi)(bi)較相似(si)的多個語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)之間通常屬性相同(tong),即通常均為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),或者均為非活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),因(yin)此(ci)在確定該第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)是否為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)時(shi),還(huan)考慮(lv)至(zhi)少一(yi)個第(di)(di)(di)二語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),可(ke)以(yi)提高語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)活(huo)性檢測(ce)的準(zhun)確性。
1.一種語音活性檢(jian)測(ce)方法,其特(te)征在于(yu),所述方法包(bao)括(kuo):
2.根(gen)據權利要求1所(suo)述的方法(fa),其(qi)特征在于(yu),所(suo)述根(gen)據待檢(jian)測語音信(xin)號的第(di)一(yi)語音幀和至少一(yi)個第(di)二語音幀,確定所(suo)述第(di)一(yi)語音幀是否為活性語音幀,包括:
3.根據權利要求2所述的方法(fa),其特征在于,所述方法(fa)還包(bao)括:
4.根(gen)據權(quan)利要求3所(suo)述(shu)(shu)的方法,其特(te)征在于,所(suo)述(shu)(shu)確定(ding)所(suo)述(shu)(shu)第(di)(di)一語音幀的第(di)(di)一評價(jia)值和每(mei)個所(suo)述(shu)(shu)第(di)(di)二語音幀的第(di)(di)二評價(jia)值,包括:
5.根據(ju)權利(li)要求4所(suo)(suo)述(shu)(shu)的方法,其特征在于,所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)變換結(jie)果包括查(cha)詢(xun)向量和(he)第(di)(di)一(yi)(yi)(yi)(yi)(yi)鍵(jian)向量;所(suo)(suo)述(shu)(shu)根據(ju)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)變換結(jie)果確定(ding)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)語音(yin)幀的第(di)(di)一(yi)(yi)(yi)(yi)(yi)評(ping)價值(zhi),包括:根據(ju)所(suo)(suo)述(shu)(shu)查(cha)詢(xun)向量和(he)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)鍵(jian)向量,確定(ding)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)語音(yin)幀的第(di)(di)一(yi)(yi)(yi)(yi)(yi)評(ping)價值(zhi)。
6.根(gen)據權利(li)要(yao)求5所(suo)述(shu)的(de)方法,其特征在于,所(suo)述(shu)第二(er)(er)變換結果包(bao)括第二(er)(er)鍵向量(liang);針(zhen)對每(mei)個所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀,確(que)定(ding)每(mei)個所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀的(de)第二(er)(er)評(ping)價值,包(bao)括:根(gen)據所(suo)述(shu)查詢向量(liang)與所(suo)述(shu)第二(er)(er)鍵向量(liang),確(que)定(ding)所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀的(de)第二(er)(er)評(ping)價值。
7.根(gen)(gen)據權利(li)要求(qiu)4所(suo)述(shu)的方法,其特(te)征在于,確定所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的第(di)(di)一(yi)(yi)(yi)特(te)征向(xiang)量(liang),包括(kuo):根(gen)(gen)據所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的值(zhi)向(xiang)量(liang)和所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)評價值(zhi),確定所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的第(di)(di)一(yi)(yi)(yi)特(te)征向(xiang)量(liang)。
8.根據(ju)權利要(yao)求4所(suo)(suo)述的(de)方法,其(qi)特(te)征(zheng)在于,針對(dui)每個所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen),確定(ding)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)第(di)二(er)(er)(er)特(te)征(zheng)向(xiang)量,包括(kuo):根據(ju)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)值向(xiang)量和所(suo)(suo)述第(di)二(er)(er)(er)評價(jia)值,確定(ding)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)第(di)二(er)(er)(er)特(te)征(zheng)向(xiang)量。
9.一種語(yu)音活性(xing)檢(jian)測裝(zhuang)置(zhi),其特征在于,所述裝(zhuang)置(zhi)包括:
10.一種電(dian)子設備,其(qi)特征在(zai)于,所(suo)述電(dian)子設備至少包括(kuo)處理器(qi)(qi)和存儲器(qi)(qi),所(suo)述處理器(qi)(qi)用于執行存儲器(qi)(qi)中(zhong)存儲的計算機程序(xu)時實現如權利(li)要(yao)求1-8任一項所(suo)述的語音活性檢(jian)測方法(fa)的步驟。
11.一種計(ji)算機存儲(chu)介質,其(qi)特征(zheng)在(zai)于(yu),其(qi)存儲(chu)有可由電子(zi)設備執行的計(ji)算機程(cheng)(cheng)序(xu),當(dang)所(suo)(suo)述(shu)程(cheng)(cheng)序(xu)在(zai)所(suo)(suo)述(shu)電子(zi)設備上運(yun)行時,使得所(suo)(suo)述(shu)電子(zi)設備執行權(quan)利要求1-8任一項所(suo)(suo)述(shu)的語音活性檢測方(fang)法的步驟(zou)。
12.一種計(ji)算機(ji)程序產(chan)(chan)品(pin),其特(te)征在(zai)于,所述(shu)計(ji)算機(ji)程序產(chan)(chan)品(pin)被(bei)存儲在(zai)存儲介質中(zhong),所述(shu)計(ji)算機(ji)程序產(chan)(chan)品(pin)被(bei)至少(shao)一個處理器(qi)執行(xing)時實現如(ru)權利(li)要求(qiu)1至7中(zhong)任一項所述(shu)的(de)語音活性檢測方法(fa)的(de)步驟。