本申請(qing)涉及(ji)語音(yin)識別(bie)(bie)領域,特別(bie)(bie)是(shi)涉及(ji)一種多尺度語音(yin)情感(gan)識別(bie)(bie)方法、設備、介質及(ji)產(chan)品。
背景技術:
1、語音是(shi)人(ren)(ren)與人(ren)(ren)之間交流的(de)(de)關鍵媒(mei)介(jie),在每個人(ren)(ren)的(de)(de)日常(chang)生活中都(dou)扮演著重要(yao)的(de)(de)角(jiao)色。語音情感(gan)識別(speech?emotionrecognition,ser)旨(zhi)在預測(ce)語音中反映的(de)(de)情感(gan)。ser是(shi)各種智(zhi)能應用(yong)的(de)(de)基(ji)礎任(ren)務。例如,ser通過(guo)更(geng)好地理解(jie)用(yong)戶的(de)(de)意(yi)圖和狀態,為(wei)智(zhi)能機器(qi)人(ren)(ren)帶(dai)來更(geng)好的(de)(de)用(yong)戶體驗。因此,研究界對ser任(ren)務的(de)(de)越來越感(gan)興(xing)趣(qu)。
2、近年來(lai)(lai),受計算機視覺領(ling)域突飛猛進的(de)(de)發展啟發,在(zai)ser方面取(qu)得了很大的(de)(de)改進。標準的(de)(de)卷積神(shen)經(jing)網絡(convolutionalneuralnetworks,cnn)架構主要包括(kuo)特(te)征表示和注(zhu)(zhu)意(yi)力圖(tu)。一般來(lai)(lai)說,特(te)征表示通常學習(xi)固定尺度(du)的(de)(de)特(te)征來(lai)(lai)捕獲所有的(de)(de)信息特(te)征。此外,在(zai)局部(bu)固定尺度(du)特(te)征中(zhong),利(li)用注(zhu)(zhu)意(yi)力圖(tu)關注(zhu)(zhu)大部(bu)分情感信息。然而,情感在(zai)時變頻譜特(te)征中(zhong)表現為不同尺度(du)的(de)(de)變化。
3、典型的ser研究工(gong)作主要集中在語音情(qing)感信息的特(te)(te)(te)征(zheng)(zheng)表示(shi)上。將(jiang)深(shen)度(du)學(xue)習(xi)網(wang)絡(luo)用(yong)于(yu)學(xue)習(xi)特(te)(te)(te)征(zheng)(zheng)表示(shi),用(yong)于(yu)預測每個特(te)(te)(te)征(zheng)(zheng)段(duan)(duan)的情(qing)感標簽。然后,通過將(jiang)特(te)(te)(te)征(zheng)(zheng)段(duan)(duan)看作圖像,卷積網(wang)絡(luo)顯(xian)示(shi)出(chu)對ser特(te)(te)(te)征(zheng)(zheng)表示(shi)的巨大影響(xiang)(xiang)。最后,應用(yong)極限學(xue)習(xi)機(ji)(elm)、膠囊網(wang)絡(luo)和lstm等多種方法來融合來自所有特(te)(te)(te)征(zheng)(zheng)段(duan)(duan)的所有特(te)(te)(te)征(zheng)(zheng)表示(shi)。然而,大多數現有的cnn側重于(yu)固(gu)定尺度(du)的局部特(te)(te)(te)征(zheng)(zheng),而忽(hu)略了不同尺度(du)的影響(xiang)(xiang)。
4、隨著(zhu)深度(du)(du)卷(juan)積(ji)(ji)(ji)神(shen)經(jing)網絡(deep?convolutional?neural?networks,dcnn)的(de)(de)(de)發(fa)展,當在ser任務中將cnn擴展到跨多(duo)(duo)個卷(juan)積(ji)(ji)(ji)層時,它(ta)表(biao)現(xian)出顯著(zhu)的(de)(de)(de)增強學習特(te)征表(biao)示的(de)(de)(de)能力。然而,這(zhe)會導(dao)致(zhi)堆(dui)疊更多(duo)(duo)的(de)(de)(de)深度(du)(du)卷(juan)積(ji)(ji)(ji)對,并且需要(yao)消耗大量的(de)(de)(de)內存和計算資源,這(zhe)是構建dcnn的(de)(de)(de)主要(yao)缺(que)點(dian)。最(zui)近,基(ji)于注(zhu)意(yi)(yi)力的(de)(de)(de)模型(xing)在ser上取得了重(zhong)(zhong)大進展。例如(ru),通(tong)(tong)過卷(juan)積(ji)(ji)(ji)操作學習多(duo)(duo)頭注(zhu)意(yi)(yi)力圖,根據周圍信息(xi)選擇重(zhong)(zhong)要(yao)信息(xi)。進一步(bu)引(yin)入區域注(zhu)意(yi)(yi)力來(lai)計算不同范圍卷(juan)積(ji)(ji)(ji)的(de)(de)(de)重(zhong)(zhong)要(yao)性。此(ci)外(wai),引(yin)入通(tong)(tong)道(dao)(dao)加權模擬了跨維(wei)度(du)(du)情(qing)感(gan)的(de)(de)(de)相互作用來(lai)提取通(tong)(tong)道(dao)(dao)注(zhu)意(yi)(yi)力。卷(juan)積(ji)(ji)(ji)塊注(zhu)意(yi)(yi)力模塊(convolutional?blockattention?module,cbam)利用特(te)征圖中空(kong)間(jian)和通(tong)(tong)道(dao)(dao)維(wei)度(du)(du)之間(jian)的(de)(de)(de)語義相互依(yi)賴關系,建立跨通(tong)(tong)道(dao)(dao)和跨空(kong)間(jian)信息(xi)。因此(ci),cbam在將跨維(wei)度(du)(du)注(zhu)意(yi)(yi)力權重(zhong)(zhong)集成到輸入特(te)征方面表(biao)現(xian)出了巨大的(de)(de)(de)潛力。
5、與(yu)(yu)通(tong)(tong)道注意(yi)(yi)力(li)相比,坐標(biao)注意(yi)(yi)力(li)(coordinationattention,ca)將分方(fang)向(xiang)信息沿(yan)空間(jian)維度方(fang)向(xiang)嵌入到通(tong)(tong)道注意(yi)(yi)力(li)中(zhong),并選擇(ze)合適的(de)(de)通(tong)(tong)道降維比例,取(qu)得(de)了與(yu)(yu)通(tong)(tong)道注意(yi)(yi)力(li)相當的(de)(de)性能。盡(jin)管這種處理減輕了模型(xing)的(de)(de)計(ji)算負擔,但(dan)是在網絡結(jie)構(gou)上仍(reng)需(xu)降維,限制了現有注意(yi)(yi)力(li)的(de)(de)發(fa)展(zhan)。
6、通常,特(te)征(zheng)(zheng)表(biao)示(shi)用(yong)(yong)來學(xue)習固定尺(chi)度(du)的(de)特(te)征(zheng)(zheng),以(yi)此捕獲所有(you)的(de)信(xin)息(xi)特(te)征(zheng)(zheng)。在局部(bu)固定尺(chi)度(du)特(te)征(zheng)(zheng)中,利用(yong)(yong)注(zhu)意力關注(zhu)大部(bu)分情(qing)(qing)感信(xin)息(xi)。然而,情(qing)(qing)感在時(shi)頻譜圖特(te)征(zheng)(zheng)上表(biao)現(xian)為不同尺(chi)度(du)的(de)清晰度(du)變(bian)化。現(xian)有(you)卷積(ji)神經網(wang)絡(luo)在ser中的(de)局限(xian)性具(ju)體體現(xian)在以(yi)下(xia):情(qing)(qing)感的(de)時(shi)間跨(kua)度(du)和語調強(qiang)度(du)不同,大多(duo)數現(xian)有(you)的(de)cnn側重于(yu)固定尺(chi)度(du)的(de)局部(bu)特(te)征(zheng)(zheng),而忽(hu)略(lve)了不同尺(chi)度(du)的(de)影響;導致現(xian)有(you)的(de)多(duo)尺(chi)度(du)卷積(ji)網(wang)絡(luo)結構會存在無法(fa)高(gao)效關注(zhu)通道和空間注(zhu)意力,從(cong)而損失不同尺(chi)度(du)下(xia)的(de)重要情(qing)(qing)感信(xin)息(xi)問題。
7、因此,為提高多(duo)尺度(du)語音(yin)情感識(shi)別的識(shi)別準確(que)性和識(shi)別效率,亟需提供一種多(duo)尺度(du)語音(yin)情感識(shi)別方法。
技術實現思路
1、本申請的(de)目的(de)是提供一種多(duo)尺度語(yu)音(yin)情感(gan)識別方法、設備(bei)、介質及(ji)產(chan)品,能夠提高多(duo)尺度語(yu)音(yin)情感(gan)識別的(de)識別準確性和識別效率。
2、為(wei)實現上述目的,本申請(qing)提供了如下方案:
3、第一方面,本申請提供了一種多尺(chi)(chi)度(du)語(yu)音(yin)情(qing)感(gan)識別(bie)方法(fa),所述多尺(chi)(chi)度(du)語(yu)音(yin)情(qing)感(gan)識別(bie)方法(fa)包括(kuo):
4、基(ji)于加入高效多尺(chi)度(du)注意力(li)的多尺(chi)度(du)全局融合(he)感知(zhi)模型構(gou)建多尺(chi)度(du)語音情感識別模型;
5、獲取目(mu)標音頻(pin)的不同(tong)尺度(du)特征(zheng);
6、利用訓(xun)練好的(de)多尺度語音情感識別模型(xing)對目標音頻(pin)的(de)不同尺度特征進行情感類型(xing)識別。
7、可(ke)選地,所述(shu)多(duo)尺度語音情感識(shi)別模型(xing),具體(ti)包括(kuo):依次連接(jie)的特征提取(qu)層(ceng)(ceng)(ceng)(ceng)、第一(yi)跨空間(jian)(jian)多(duo)尺度塊(kuai)、第一(yi)最大(da)池化層(ceng)(ceng)(ceng)(ceng)、第二跨空間(jian)(jian)多(duo)尺度塊(kuai)、第二最大(da)池化層(ceng)(ceng)(ceng)(ceng)、第三跨空間(jian)(jian)多(duo)尺度塊(kuai)、卷積層(ceng)(ceng)(ceng)(ceng)、批歸一(yi)化層(ceng)(ceng)(ceng)(ceng)、全局感知融合塊(kuai)、全連接(jie)層(ceng)(ceng)(ceng)(ceng)以及分類輸出層(ceng)(ceng)(ceng)(ceng);
8、所(suo)述(shu)第(di)一跨(kua)(kua)空(kong)間多(duo)尺(chi)度塊(kuai)和(he)(he)所(suo)述(shu)第(di)二跨(kua)(kua)空(kong)間多(duo)尺(chi)度塊(kuai)均包括:3×3的(de)標(biao)準卷(juan)積層(ceng)(ceng)和(he)(he)5×5的(de)標(biao)準卷(juan)積層(ceng)(ceng)、在通道維度上(shang)的(de)特(te)征拼(pin)接層(ceng)(ceng)、殘差(cha)(cha)連接層(ceng)(ceng)、批(pi)歸(gui)一化層(ceng)(ceng)以及(ji)(ji)高效多(duo)尺(chi)度注意力;所(suo)述(shu)第(di)三跨(kua)(kua)空(kong)間多(duo)尺(chi)度塊(kuai)包括:3×3的(de)標(biao)準卷(juan)積層(ceng)(ceng)和(he)(he)5×5的(de)標(biao)準卷(juan)積層(ceng)(ceng)、在通道維度上(shang)的(de)特(te)征拼(pin)接層(ceng)(ceng)、殘差(cha)(cha)連接層(ceng)(ceng)以及(ji)(ji)批(pi)歸(gui)一化層(ceng)(ceng)。
9、可選地(di),所述第一跨空間多尺度(du)塊(kuai)的(de)輸入通道(dao)(dao)數為(wei)16,輸出通道(dao)(dao)數為(wei)32;
10、所述第二跨(kua)空間多尺度(du)塊的輸入通(tong)道數(shu)為32,輸出通(tong)道數(shu)為64;
11、所述第三跨(kua)空間多尺度塊的輸入(ru)通道(dao)數(shu)為64,輸出通道(dao)數(shu)為128。
12、可(ke)選(xuan)地,所述獲取目標(biao)音頻的不(bu)同尺度(du)特(te)征(zheng),具體包括:
13、對目(mu)標音頻進行(xing)預處理;所述預處理包括:分割以及填充;
14、將預處理(li)后目(mu)標音(yin)頻發(fa)送至(zhi)1×3的(de)空(kong)間卷積和3×1的(de)時間卷積進行不同尺(chi)度特征的(de)提取。
15、第(di)二方面,本(ben)申請提(ti)供了一種多(duo)尺(chi)度語(yu)(yu)音(yin)情(qing)(qing)感(gan)識別設(she)備,所(suo)述多(duo)尺(chi)度語(yu)(yu)音(yin)情(qing)(qing)感(gan)識別設(she)備包括:
16、模型(xing)構建模塊,用于基于加入(ru)高效多(duo)(duo)尺(chi)度注意力的(de)多(duo)(duo)尺(chi)度全局融合感(gan)知模型(xing)構建多(duo)(duo)尺(chi)度語音情感(gan)識別模型(xing);
17、不同尺(chi)度特(te)征獲(huo)取(qu)模(mo)塊,用于獲(huo)取(qu)目(mu)標音(yin)頻的不同尺(chi)度特(te)征;
18、情感(gan)類型識別(bie)模(mo)塊,用于利用訓練(lian)好的多(duo)尺(chi)度語音(yin)情感(gan)識別(bie)模(mo)型對目標音(yin)頻的不同尺(chi)度特征進行情感(gan)類型識別(bie)。
19、第(di)三(san)方面,本申請提供(gong)了(le)一種計算機設備,包括:存儲(chu)器(qi)、處(chu)(chu)理器(qi)以存儲(chu)在存儲(chu)器(qi)上(shang)并可在處(chu)(chu)理器(qi)上(shang)運行的(de)計算機程(cheng)序(xu),所(suo)述(shu)處(chu)(chu)理器(qi)執行所(suo)述(shu)計算機程(cheng)序(xu)以實現所(suo)述(shu)的(de)多(duo)尺度(du)語音情感(gan)識(shi)別方法。
20、第四方(fang)面(mian),本(ben)申(shen)請提供(gong)了一(yi)種計算(suan)機可(ke)讀存儲介質(zhi),其上存儲有計算(suan)機程序,該計算(suan)機程序被處理器執行(xing)時實現(xian)所述的多(duo)尺度語音情感(gan)識別方(fang)法(fa)。
21、第(di)三方面(mian),本申請提供了一種(zhong)計(ji)(ji)算機(ji)(ji)程序產品,包(bao)括計(ji)(ji)算機(ji)(ji)程序,該計(ji)(ji)算機(ji)(ji)程序被處理器(qi)執行(xing)時實現所述(shu)的(de)多尺度語音情感識別方法。
22、根(gen)據本(ben)申請提供(gong)的具體實(shi)施(shi)例,本(ben)申請公開了以下技術效果:
23、本申請提供了(le)一(yi)種多(duo)尺度(du)語(yu)音(yin)(yin)情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)識別(bie)方法、設(she)備、介質及產品,基于(yu)加(jia)(jia)入高(gao)(gao)效多(duo)尺度(du)注意力(efficient?multi-scaleattention,ema)的(de)多(duo)尺度(du)全局融(rong)合(he)感(gan)(gan)(gan)(gan)(gan)(gan)知(zhi)(zhi)模(mo)型(xing)mffas構建(jian)多(duo)尺度(du)語(yu)音(yin)(yin)情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)識別(bie)模(mo)型(xing),多(duo)尺度(du)全局融(rong)合(he)感(gan)(gan)(gan)(gan)(gan)(gan)知(zhi)(zhi)模(mo)型(xing)中(zhong)的(de)多(duo)尺度(du)全局融(rong)合(he)感(gan)(gan)(gan)(gan)(gan)(gan)知(zhi)(zhi)層有(you)助于(yu)擴大特征(zheng)的(de)感(gan)(gan)(gan)(gan)(gan)(gan)受野,增強跨(kua)通道(dao)維度(du)的(de)特征(zheng)混合(he),使網(wang)絡(luo)訓練(lian)效率更高(gao)(gao)。在(zai)多(duo)尺度(du)全局融(rong)合(he)感(gan)(gan)(gan)(gan)(gan)(gan)知(zhi)(zhi)模(mo)型(xing)中(zhong)加(jia)(jia)入ema,ema對網(wang)絡(luo)高(gao)(gao)層特征(zheng)產生(sheng)了(le)更好的(de)像素(su)級注意力,在(zai)長對話中(zhong),有(you)助于(yu)跟蹤(zong)情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)狀態隨(sui)時(shi)間(jian)的(de)變化,有(you)助于(yu)解決多(duo)種復(fu)雜情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)狀態下情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)差異變化導致的(de)識別(bie)精度(du)下降(jiang)問(wen)題,相(xiang)比傳統的(de)卷積(ji)神經(jing)網(wang)絡(luo)而言,提高(gao)(gao)了(le)多(duo)尺度(du)語(yu)音(yin)(yin)情(qing)(qing)(qing)感(gan)(gan)(gan)(gan)(gan)(gan)識別(bie)的(de)準(zhun)確性和識別(bie)效率。
1.一種多尺度(du)語音情感識(shi)別(bie)方法,其特征(zheng)在于,所述多尺度(du)語音情感識(shi)別(bie)方法包括:
2.根據權利要求(qiu)1所(suo)述的多(duo)(duo)尺(chi)(chi)度(du)語音(yin)情感(gan)識別方法,其特征在于(yu),所(suo)述多(duo)(duo)尺(chi)(chi)度(du)語音(yin)情感(gan)識別模型,具體包括:依次連(lian)接的特征提(ti)取層、第(di)一(yi)跨(kua)空間(jian)多(duo)(duo)尺(chi)(chi)度(du)塊、第(di)一(yi)最大池(chi)化層、第(di)二(er)跨(kua)空間(jian)多(duo)(duo)尺(chi)(chi)度(du)塊、第(di)二(er)最大池(chi)化層、第(di)三跨(kua)空間(jian)多(duo)(duo)尺(chi)(chi)度(du)塊、卷積層、批歸一(yi)化層、全(quan)局(ju)感(gan)知融合塊、全(quan)連(lian)接層以及分(fen)類輸出(chu)層;
3.根(gen)據(ju)權(quan)利(li)要求2所述(shu)的(de)多尺度語音情感識別方法,其特征在于,所述(shu)第一跨空間多尺度塊的(de)輸入(ru)通道(dao)數為16,輸出(chu)通道(dao)數為32;
4.根(gen)據權利要(yao)求1所(suo)述的多(duo)尺度(du)語音情(qing)感識(shi)別(bie)方法,其特(te)征在于,所(suo)述獲(huo)取目標(biao)音頻的不同尺度(du)特(te)征,具(ju)體包括(kuo):
5.一種多(duo)尺(chi)度語音(yin)情感(gan)識(shi)別(bie)(bie)設備,其特征在于,所述多(duo)尺(chi)度語音(yin)情感(gan)識(shi)別(bie)(bie)設備包括:
6.一(yi)種計(ji)算(suan)(suan)機設(she)備,包括:存(cun)儲(chu)器(qi)(qi)、處理器(qi)(qi)以存(cun)儲(chu)在存(cun)儲(chu)器(qi)(qi)上(shang)并(bing)可在處理器(qi)(qi)上(shang)運行的(de)計(ji)算(suan)(suan)機程序(xu),其特征在于,所(suo)(suo)述(shu)(shu)處理器(qi)(qi)執行所(suo)(suo)述(shu)(shu)計(ji)算(suan)(suan)機程序(xu)以實(shi)現權利要求(qiu)1-4中任一(yi)項所(suo)(suo)述(shu)(shu)的(de)多尺度語(yu)音情(qing)感識別方法。
7.一種計算機(ji)(ji)可讀存儲(chu)介質,其上存儲(chu)有計算機(ji)(ji)程序(xu),其特(te)征(zheng)在于(yu),該計算機(ji)(ji)程序(xu)被處理(li)器執行時實現權利(li)要求1-4中任(ren)一項所述的多尺度語音情(qing)感識別方法。
8.一種計(ji)算機程(cheng)序產品,包括計(ji)算機程(cheng)序,其(qi)特征在于(yu),該計(ji)算機程(cheng)序被處理器執行時實(shi)現權利要(yao)求1-4中任一項所述(shu)的多尺(chi)度語音情感識(shi)別方法。