中文字幕无码日韩视频无码三区

語音活性檢測方法、裝置、設備及介質與流程

文檔序(xu)號:39435105發布日期:2024-09-20 22:35閱讀:19來(lai)源(yuan):國(guo)知(zhi)局
語音活性檢測方法、裝置、設備及介質與流程

本(ben)申請涉(she)及人工智(zhi)能,尤其涉(she)及一種語音活性檢測方法、裝置、設備及介質。


背景技術:

1、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測(voiceactivity?detection,vad)系統用于對輸入語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)信號(hao)進行活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)和非活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)的判斷(duan),其(qi)判斷(duan)出的活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)將(jiang)被送入后(hou)續的語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)處理(li)步(bu)驟(zou)。語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測系統是眾多(duo)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)相關應用,如,語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)喚醒(xing)、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)增強、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)編碼、語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)識(shi)別、說話(hua)人識(shi)別中至關重(zhong)要的前置步(bu)驟(zou),這些應用在(zai)很多(duo)場景(jing)(jing)當中對實時性(xing)(xing)要求很高,如視頻會議場景(jing)(jing)。因(yin)此(ci),語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)活(huo)(huo)性(xing)(xing)檢測系統就需(xu)要盡可能(neng)快地將(jiang)活(huo)(huo)性(xing)(xing)語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)幀(zhen)送給后(hou)續語(yu)(yu)音(yin)(yin)(yin)(yin)(yin)(yin)(yin)處理(li)步(bu)驟(zou)。

2、因此,如何提高語音(yin)活性檢(jian)測(ce)準確度,成(cheng)為本領域技術人員亟待(dai)解決的技術問題。


技術實現思路

1、本(ben)申請實(shi)施(shi)例提供了一(yi)種語音(yin)活性(xing)檢(jian)測方法(fa)、裝置、設備(bei)及介(jie)質,用于(yu)準(zhun)確(que)有效(xiao)地進(jin)行語音(yin)幀的活性(xing)檢(jian)測。

2、第一方面,本申請實施例提供了(le)一種語(yu)音(yin)活性檢(jian)測方法,所述方法包括:

3、根據待檢測語(yu)(yu)音(yin)(yin)信(xin)號(hao)的第(di)一(yi)語(yu)(yu)音(yin)(yin)幀和至少(shao)一(yi)個第(di)二語(yu)(yu)音(yin)(yin)幀,確定所述第(di)一(yi)語(yu)(yu)音(yin)(yin)幀是(shi)否為活(huo)性語(yu)(yu)音(yin)(yin)幀;

4、其中,所(suo)(suo)述(shu)(shu)第一語音(yin)幀(zhen)與所(suo)(suo)述(shu)(shu)第二語音(yin)幀(zhen)的接收時間(jian)差小于(yu)(yu)或等(deng)于(yu)(yu)預(yu)設時長,所(suo)(suo)述(shu)(shu)第一語音(yin)幀(zhen)與所(suo)(suo)述(shu)(shu)第二語音(yin)幀(zhen)的相似度大于(yu)(yu)或等(deng)于(yu)(yu)目標閾值。

5、第二(er)方面,本申請實施例還提供了(le)一種語音(yin)活性檢(jian)測裝置(zhi),所(suo)述裝置(zhi)包(bao)括:

6、獲(huo)取(qu)模塊,用于(yu)獲(huo)取(qu)待檢測語(yu)音信號的(de)第(di)一(yi)語(yu)音幀(zhen)和至少(shao)一(yi)個第(di)二語(yu)音幀(zhen),其中(zhong),所述(shu)(shu)(shu)第(di)一(yi)語(yu)音幀(zhen)與(yu)(yu)所述(shu)(shu)(shu)第(di)二語(yu)音幀(zhen)的(de)接收時間差小(xiao)于(yu)或等于(yu)預設時長,所述(shu)(shu)(shu)第(di)一(yi)語(yu)音幀(zhen)與(yu)(yu)所述(shu)(shu)(shu)第(di)二語(yu)音幀(zhen)的(de)相似度大于(yu)或等于(yu)目(mu)標閾值;

7、處理(li)模塊,用于根據(ju)待檢測語(yu)(yu)音(yin)(yin)信號的第(di)(di)一語(yu)(yu)音(yin)(yin)幀(zhen)和至少一個第(di)(di)二語(yu)(yu)音(yin)(yin)幀(zhen),確定所述第(di)(di)一語(yu)(yu)音(yin)(yin)幀(zhen)是否為活性(xing)語(yu)(yu)音(yin)(yin)幀(zhen)。

8、第三方(fang)面,本申請實(shi)施(shi)例還提供了一種(zhong)電(dian)子設備,所(suo)(suo)(suo)述電(dian)子設備至少(shao)包(bao)括處理(li)器(qi)和存儲器(qi),所(suo)(suo)(suo)述處理(li)器(qi)用于執行存儲器(qi)中(zhong)存儲的計算機(ji)程序時實(shi)現上述任一項所(suo)(suo)(suo)述的語音活(huo)性檢測(ce)方(fang)法的步(bu)驟。

9、第四方(fang)(fang)面,本申請實施(shi)例還提供了(le)一(yi)種計(ji)(ji)算機存儲介(jie)質(zhi),其存儲有可(ke)由電子設(she)備(bei)執(zhi)行的計(ji)(ji)算機程(cheng)序(xu),當所(suo)述程(cheng)序(xu)在所(suo)述電子設(she)備(bei)上(shang)運行時,使得所(suo)述電子設(she)備(bei)執(zhi)行上(shang)述任一(yi)項所(suo)述的語音活性檢(jian)測(ce)方(fang)(fang)法的步驟。

10、第五方面,本申請實(shi)施例還提供一(yi)種計(ji)算(suan)機(ji)程序產(chan)品,所(suo)(suo)述(shu)計(ji)算(suan)機(ji)程序產(chan)品被(bei)存儲在(zai)存儲介質中,所(suo)(suo)述(shu)計(ji)算(suan)機(ji)程序產(chan)品被(bei)至少一(yi)個處理(li)器執行時實(shi)現上述(shu)的語音活性檢測方法的步驟。

11、可(ke)以(yi)看(kan)出,在本申請實(shi)施例中(zhong),在確定待檢測(ce)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信號(hao)中(zhong)的第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)是否為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)時(shi),除(chu)了(le)考慮(lv)該第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)自(zi)身,還(huan)考慮(lv)了(le)待檢測(ce)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)信號(hao)中(zhong)與第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)接(jie)收時(shi)間比(bi)(bi)(bi)較接(jie)近(jin)且比(bi)(bi)(bi)較相似(si)的至(zhi)少一(yi)個第(di)(di)(di)二語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),由于接(jie)收時(shi)間接(jie)近(jin)且比(bi)(bi)(bi)較相似(si)的多個語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)之間通常屬性相同(tong),即通常均為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),或者均為非活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),因(yin)此(ci)在確定該第(di)(di)(di)一(yi)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)是否為活(huo)性語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen)時(shi),還(huan)考慮(lv)至(zhi)少一(yi)個第(di)(di)(di)二語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)幀(zhen),可(ke)以(yi)提高語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)活(huo)性檢測(ce)的準(zhun)確性。



技術特征:

1.一種語音活性檢(jian)測(ce)方法,其特(te)征在于(yu),所述方法包(bao)括(kuo):

2.根(gen)據權利要求1所(suo)述的方法(fa),其(qi)特征在于(yu),所(suo)述根(gen)據待檢(jian)測語音信(xin)號的第(di)一(yi)語音幀和至少一(yi)個第(di)二語音幀,確定所(suo)述第(di)一(yi)語音幀是否為活性語音幀,包括:

3.根據權利要求2所述的方法(fa),其特征在于,所述方法(fa)還包(bao)括:

4.根(gen)據權(quan)利要求3所(suo)述(shu)(shu)的方法,其特(te)征在于,所(suo)述(shu)(shu)確定(ding)所(suo)述(shu)(shu)第(di)(di)一語音幀的第(di)(di)一評價(jia)值和每(mei)個所(suo)述(shu)(shu)第(di)(di)二語音幀的第(di)(di)二評價(jia)值,包括:

5.根據(ju)權利(li)要求4所(suo)(suo)述(shu)(shu)的方法,其特征在于,所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)變換結(jie)果包括查(cha)詢(xun)向量和(he)第(di)(di)一(yi)(yi)(yi)(yi)(yi)鍵(jian)向量;所(suo)(suo)述(shu)(shu)根據(ju)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)變換結(jie)果確定(ding)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)語音(yin)幀的第(di)(di)一(yi)(yi)(yi)(yi)(yi)評(ping)價值(zhi),包括:根據(ju)所(suo)(suo)述(shu)(shu)查(cha)詢(xun)向量和(he)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)鍵(jian)向量,確定(ding)所(suo)(suo)述(shu)(shu)第(di)(di)一(yi)(yi)(yi)(yi)(yi)語音(yin)幀的第(di)(di)一(yi)(yi)(yi)(yi)(yi)評(ping)價值(zhi)。

6.根(gen)據權利(li)要(yao)求5所(suo)述(shu)的(de)方法,其特征在于,所(suo)述(shu)第二(er)(er)變換結果包(bao)括第二(er)(er)鍵向量(liang);針(zhen)對每(mei)個所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀,確(que)定(ding)每(mei)個所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀的(de)第二(er)(er)評(ping)價值,包(bao)括:根(gen)據所(suo)述(shu)查詢向量(liang)與所(suo)述(shu)第二(er)(er)鍵向量(liang),確(que)定(ding)所(suo)述(shu)第二(er)(er)語(yu)音(yin)幀的(de)第二(er)(er)評(ping)價值。

7.根(gen)(gen)據權利(li)要求(qiu)4所(suo)述(shu)的方法,其特(te)征在于,確定所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的第(di)(di)一(yi)(yi)(yi)特(te)征向(xiang)量(liang),包括(kuo):根(gen)(gen)據所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的值(zhi)向(xiang)量(liang)和所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)評價值(zhi),確定所(suo)述(shu)第(di)(di)一(yi)(yi)(yi)語(yu)(yu)(yu)音(yin)(yin)幀(zhen)的第(di)(di)一(yi)(yi)(yi)特(te)征向(xiang)量(liang)。

8.根據(ju)權利要(yao)求4所(suo)(suo)述的(de)方法,其(qi)特(te)征(zheng)在于,針對(dui)每個所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen),確定(ding)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)第(di)二(er)(er)(er)特(te)征(zheng)向(xiang)量,包括(kuo):根據(ju)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)值向(xiang)量和所(suo)(suo)述第(di)二(er)(er)(er)評價(jia)值,確定(ding)所(suo)(suo)述第(di)二(er)(er)(er)語(yu)音幀(zhen)的(de)第(di)二(er)(er)(er)特(te)征(zheng)向(xiang)量。

9.一種語(yu)音活性(xing)檢(jian)測裝(zhuang)置(zhi),其特征在于,所述裝(zhuang)置(zhi)包括:

10.一種電(dian)子設備,其(qi)特征在(zai)于,所(suo)述電(dian)子設備至少包括(kuo)處理器(qi)(qi)和存儲器(qi)(qi),所(suo)述處理器(qi)(qi)用于執行存儲器(qi)(qi)中(zhong)存儲的計算機程序(xu)時實現如權利(li)要(yao)求1-8任一項所(suo)述的語音活性檢(jian)測方法(fa)的步驟。

11.一種計(ji)算機存儲(chu)介質,其(qi)特征(zheng)在(zai)于(yu),其(qi)存儲(chu)有可由電子(zi)設備執行的計(ji)算機程(cheng)(cheng)序(xu),當(dang)所(suo)(suo)述(shu)程(cheng)(cheng)序(xu)在(zai)所(suo)(suo)述(shu)電子(zi)設備上運(yun)行時,使得所(suo)(suo)述(shu)電子(zi)設備執行權(quan)利要求1-8任一項所(suo)(suo)述(shu)的語音活性檢測方(fang)法的步驟(zou)。

12.一種計(ji)算機(ji)程序產(chan)(chan)品(pin),其特(te)征在(zai)于,所述(shu)計(ji)算機(ji)程序產(chan)(chan)品(pin)被(bei)存儲在(zai)存儲介質中(zhong),所述(shu)計(ji)算機(ji)程序產(chan)(chan)品(pin)被(bei)至少(shao)一個處理器(qi)執行(xing)時實現如(ru)權利(li)要求(qiu)1至7中(zhong)任一項所述(shu)的(de)語音活性檢測方法(fa)的(de)步驟。


技術總結
本申請實施例提供了一種語音活性檢測方法、裝置、設備及介質,用于準確有效地進行語音幀的活性檢測。由于在本申請實施例中,在確定待檢測語音信號中的第一語音幀是否為活性語音幀時,除了考慮該第一語音幀自身,還考慮了待檢測語音信號中與第一語音幀接收時間比較接近且比較相似的至少一個第二語音幀,由于接收時間接近且比較相似的多個語音幀之間通常屬性相同,即通常均為活性語音幀,或者均為非活性語音幀,因此在確定該第一語音幀是否為活性語音幀時,還考慮至少一個第二語音幀,可以進一步提高語音活性檢測的準確性。

技術研發人員:熊雪軍
受保護的技術使用者:馬上消費金融股份有限公司
技術研發日:
技術公布日:2024/9/19
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1