本申(shen)請(qing)涉及人工智能,提供一種語音(yin)識別模型訓(xun)練(lian)、語音(yin)識別方法、裝置和電子設備(bei)。
背景技術:
1、利用人工智能(artificial?intelligence,ai)技術(shu)進行語(yu)(yu)(yu)音(yin)識(shi)別方法為一個重要研究方向。語(yu)(yu)(yu)音(yin)識(shi)別模(mo)型(xing)可采用編(bian)碼(ma)器(qi)(encoder)-解(jie)(jie)碼(ma)器(qi)(decoder)架構。編(bian)碼(ma)器(qi)負責(ze)語(yu)(yu)(yu)音(yin)的聲學特征(zheng)映射,解(jie)(jie)碼(ma)器(qi)負責(ze)語(yu)(yu)(yu)義信息的建模(mo)。采用編(bian)碼(ma)器(qi)(encoder)-解(jie)(jie)碼(ma)器(qi)(decoder)架構的主(zhu)流模(mo)型(xing)是transformer模(mo)型(xing),transformer模(mo)型(xing)是谷歌于(yu)2017年提(ti)出(chu)的基于(yu)自注意力(li)機制(zhi)的模(mo)型(xing)。
2、transformer模(mo)(mo)型(xing)中的(de)(de)編碼器和(he)解(jie)碼均包括多(duo)頭(tou)(tou)注意力機制,多(duo)頭(tou)(tou)注意力機制擴展了模(mo)(mo)型(xing)專(zhuan)注于不同位置的(de)(de)能力,但由于多(duo)個(ge)頭(tou)(tou)之間是相(xiang)互獨立(li)的(de)(de),獨立(li)的(de)(de)多(duo)個(ge)頭(tou)(tou),使得transformer模(mo)(mo)型(xing)的(de)(de)上下文語義建(jian)模(mo)(mo)能力更弱,這使得利用該(gai)模(mo)(mo)型(xing)識別的(de)(de)語音(yin)準確性(xing)不高。
技術實現思路
1、本申請(qing)實施例提供一種語(yu)音(yin)識(shi)(shi)別模型訓練、語(yu)音(yin)識(shi)(shi)別方法(fa)、裝置和電(dian)子(zi)設備,用于提高語(yu)音(yin)識(shi)(shi)別模型識(shi)(shi)別語(yu)音(yin)的準(zhun)確性。
2、第一(yi)方面(mian),本(ben)(ben)申(shen)請實施例(li)提(ti)供一(yi)種語(yu)音識(shi)(shi)別(bie)(bie)模(mo)型(xing)(xing)訓練方法,所(suo)(suo)述(shu)方法包括:通(tong)過第一(yi)語(yu)音識(shi)(shi)別(bie)(bie)模(mo)型(xing)(xing)的編碼器對樣本(ben)(ben)語(yu)音數據進(jin)行(xing)處(chu)(chu)理,得(de)(de)(de)到聲(sheng)學(xue)特(te)征數據;通(tong)過所(suo)(suo)述(shu)第一(yi)語(yu)音識(shi)(shi)別(bie)(bie)模(mo)型(xing)(xing)的解碼器對所(suo)(suo)述(shu)聲(sheng)學(xue)特(te)征數據進(jin)行(xing)處(chu)(chu)理,得(de)(de)(de)到預測文(wen)(wen)本(ben)(ben)數據;基于第一(yi)融合數據,確定(ding)總損失(shi)值,所(suo)(suo)述(shu)第一(yi)融合數據是對所(suo)(suo)述(shu)聲(sheng)學(xue)特(te)征數據和所(suo)(suo)述(shu)預測文(wen)(wen)本(ben)(ben)數據進(jin)行(xing)融合得(de)(de)(de)到的;基于所(suo)(suo)述(shu)總損失(shi)值,調整所(suo)(suo)述(shu)第一(yi)語(yu)音識(shi)(shi)別(bie)(bie)模(mo)型(xing)(xing)的模(mo)型(xing)(xing)參數,獲得(de)(de)(de)第二語(yu)音識(shi)(shi)別(bie)(bie)模(mo)型(xing)(xing)。
3、本申請實(shi)施例(li)中,由(you)于(yu)在計算總損失(shi)值(zhi)(zhi)時,考慮了融合(he)(he)數(shu)據,而融合(he)(he)數(shu)據又是基(ji)于(yu)編碼(ma)器(qi)(qi)(qi)的(de)(de)輸(shu)(shu)出(chu)和解碼(ma)器(qi)(qi)(qi)的(de)(de)輸(shu)(shu)出(chu)得(de)(de)到的(de)(de),因此(ci)基(ji)于(yu)總損失(shi)值(zhi)(zhi)調整語(yu)音(yin)(yin)識(shi)別(bie)(bie)模(mo)(mo)(mo)型(xing)(xing)(xing)的(de)(de)參數(shu),也(ye)就相當于(yu)結合(he)(he)編碼(ma)器(qi)(qi)(qi)的(de)(de)輸(shu)(shu)出(chu)和解碼(ma)器(qi)(qi)(qi)的(de)(de)輸(shu)(shu)出(chu)對語(yu)音(yin)(yin)識(shi)別(bie)(bie)模(mo)(mo)(mo)型(xing)(xing)(xing)進行(xing)了訓練,解碼(ma)器(qi)(qi)(qi)具有處理語(yu)義(yi)建模(mo)(mo)(mo)能(neng)力(li),而基(ji)于(yu)總損失(shi)值(zhi)(zhi)優化編碼(ma)器(qi)(qi)(qi)的(de)(de)模(mo)(mo)(mo)型(xing)(xing)(xing)參數(shu)時考慮了融合(he)(he)數(shu)據,這使(shi)得(de)(de)編碼(ma)器(qi)(qi)(qi)具有一(yi)定(ding)語(yu)義(yi)建模(mo)(mo)(mo)能(neng)力(li),從而可(ke)以(yi)優化編碼(ma)器(qi)(qi)(qi)的(de)(de)語(yu)義(yi)信息建模(mo)(mo)(mo)能(neng)力(li),也(ye)就使(shi)得(de)(de)語(yu)音(yin)(yin)識(shi)別(bie)(bie)模(mo)(mo)(mo)型(xing)(xing)(xing)能(neng)夠更準(zhun)確地進行(xing)語(yu)義(yi)識(shi)別(bie)(bie),也(ye)就可(ke)以(yi)提高該訓練出(chu)的(de)(de)語(yu)音(yin)(yin)識(shi)別(bie)(bie)模(mo)(mo)(mo)型(xing)(xing)(xing)識(shi)別(bie)(bie)語(yu)音(yin)(yin)的(de)(de)準(zhun)確性。
4、第(di)二方面,本申請實施例提供一種語(yu)音(yin)(yin)(yin)識別(bie)方法(fa),包括:獲取(qu)待識別(bie)的(de)目(mu)(mu)標語(yu)音(yin)(yin)(yin)數據;將所述(shu)目(mu)(mu)標語(yu)音(yin)(yin)(yin)數據輸(shu)入至(zhi)第(di)二語(yu)音(yin)(yin)(yin)識別(bie)模型(xing)(xing)中(zhong),獲得文(wen)本數據,其中(zhong),所述(shu)第(di)二語(yu)音(yin)(yin)(yin)識別(bie)模型(xing)(xing)通過本申請實施例提供的(de)語(yu)音(yin)(yin)(yin)識別(bie)模型(xing)(xing)訓練方法(fa)訓練得到。
5、第三方面,本(ben)申(shen)請實施例提(ti)供(gong)一(yi)種語(yu)(yu)音(yin)識(shi)(shi)(shi)別(bie)模(mo)(mo)型(xing)訓練(lian)裝置(zhi),所(suo)述(shu)裝置(zhi)包括:數(shu)(shu)(shu)(shu)(shu)(shu)據獲取模(mo)(mo)塊,用(yong)于通(tong)(tong)過(guo)第一(yi)語(yu)(yu)音(yin)識(shi)(shi)(shi)別(bie)模(mo)(mo)型(xing)的編碼器對(dui)樣本(ben)語(yu)(yu)音(yin)數(shu)(shu)(shu)(shu)(shu)(shu)據進(jin)行處(chu)理,得到(dao)聲(sheng)學(xue)特(te)征(zheng)數(shu)(shu)(shu)(shu)(shu)(shu)據;通(tong)(tong)過(guo)所(suo)述(shu)第一(yi)語(yu)(yu)音(yin)識(shi)(shi)(shi)別(bie)模(mo)(mo)型(xing)的解(jie)碼器對(dui)所(suo)述(shu)聲(sheng)學(xue)特(te)征(zheng)數(shu)(shu)(shu)(shu)(shu)(shu)據進(jin)行處(chu)理,得到(dao)預(yu)測文(wen)本(ben)數(shu)(shu)(shu)(shu)(shu)(shu)據;損失值確定模(mo)(mo)塊,用(yong)于基于第一(yi)融合數(shu)(shu)(shu)(shu)(shu)(shu)據,確定總損失值,所(suo)述(shu)第一(yi)融合數(shu)(shu)(shu)(shu)(shu)(shu)據是對(dui)所(suo)述(shu)聲(sheng)學(xue)特(te)征(zheng)數(shu)(shu)(shu)(shu)(shu)(shu)據和所(suo)述(shu)預(yu)測文(wen)本(ben)數(shu)(shu)(shu)(shu)(shu)(shu)據進(jin)行融合得到(dao)的;模(mo)(mo)型(xing)訓練(lian)模(mo)(mo)塊,用(yong)于基于所(suo)述(shu)總損失值,調(diao)整所(suo)述(shu)第一(yi)語(yu)(yu)音(yin)識(shi)(shi)(shi)別(bie)模(mo)(mo)型(xing)的模(mo)(mo)型(xing)參數(shu)(shu)(shu)(shu)(shu)(shu),獲得第二語(yu)(yu)音(yin)識(shi)(shi)(shi)別(bie)模(mo)(mo)型(xing)。
6、第四方(fang)(fang)面,本(ben)(ben)申(shen)請實施(shi)例提供一(yi)種語(yu)(yu)音識(shi)別(bie)裝(zhuang)置,包括:語(yu)(yu)音數(shu)(shu)據獲取模(mo)塊(kuai),用于獲取待(dai)識(shi)別(bie)的(de)(de)目標語(yu)(yu)音數(shu)(shu)據;語(yu)(yu)音數(shu)(shu)據處(chu)理(li)模(mo)塊(kuai),將所述目標語(yu)(yu)音數(shu)(shu)據輸入至第二(er)語(yu)(yu)音識(shi)別(bie)模(mo)型(xing)中(zhong),獲得文本(ben)(ben)數(shu)(shu)據,其中(zhong),第二(er)語(yu)(yu)音識(shi)別(bie)模(mo)型(xing)通過上述第一(yi)方(fang)(fang)面中(zhong)的(de)(de)語(yu)(yu)音識(shi)別(bie)模(mo)型(xing)訓練方(fang)(fang)法訓練得到。
7、第(di)五方(fang)(fang)面(mian),本(ben)申請實施例提供一(yi)(yi)(yi)種電(dian)子(zi)設(she)備,包(bao)括:至少(shao)一(yi)(yi)(yi)個處(chu)理(li)器(qi),以及與所(suo)(suo)述至少(shao)一(yi)(yi)(yi)個處(chu)理(li)器(qi)通(tong)信連接的(de)(de)存(cun)儲(chu)器(qi);其(qi)中,所(suo)(suo)述存(cun)儲(chu)器(qi)存(cun)儲(chu)有可被所(suo)(suo)述至少(shao)一(yi)(yi)(yi)個處(chu)理(li)器(qi)執行的(de)(de)指(zhi)令,所(suo)(suo)述至少(shao)一(yi)(yi)(yi)個處(chu)理(li)器(qi)通(tong)過(guo)執行所(suo)(suo)述存(cun)儲(chu)器(qi)存(cun)儲(chu)的(de)(de)指(zhi)令實現如第(di)一(yi)(yi)(yi)方(fang)(fang)面(mian)和(he)第(di)二方(fang)(fang)面(mian)中任一(yi)(yi)(yi)項所(suo)(suo)述的(de)(de)方(fang)(fang)法(fa)。
8、第(di)六方(fang)面,本申請實(shi)施例提供一種計(ji)(ji)算機程序(xu)產品,包含有計(ji)(ji)算機指令,當(dang)其在計(ji)(ji)算機上運行時,使得上述如第(di)一方(fang)面和(he)第(di)二方(fang)面中任一項所述的方(fang)法被實(shi)現。
9、第(di)七方(fang)面(mian),本申請(qing)實施例提供一種計算(suan)機可(ke)讀存儲(chu)介質(zhi),所(suo)(suo)述(shu)計算(suan)機可(ke)讀存儲(chu)介質(zhi)存儲(chu)有計算(suan)機指令,當所(suo)(suo)述(shu)計算(suan)機指令在計算(suan)機上(shang)運(yun)行(xing)時,使得計算(suan)機執行(xing)如第(di)一方(fang)面(mian)和第(di)二(er)方(fang)面(mian)中(zhong)任一項所(suo)(suo)述(shu)的方(fang)法。
1.一種語音識別模型(xing)訓練方法,其特征在于(yu),所述方法包括:
2.如權利要求1所(suo)(suo)述的(de)方法,其特(te)征(zheng)在(zai)于(yu),所(suo)(suo)述基(ji)于(yu)第一(yi)融(rong)合數據,確定總損失值(zhi),包括:
3.如(ru)權利(li)要求2所(suo)述(shu)的方法(fa),其特征在于(yu),基(ji)于(yu)所(suo)述(shu)第一損失(shi)值(zhi)與所(suo)述(shu)第二損失(shi)值(zhi),確定所(suo)述(shu)總損失(shi)值(zhi),包括:
4.如權(quan)利要求3所(suo)(suo)(suo)述(shu)的方(fang)法,其特(te)征在于,所(suo)(suo)(suo)述(shu)基于所(suo)(suo)(suo)述(shu)第一損(sun)失(shi)值(zhi)、所(suo)(suo)(suo)述(shu)第二損(sun)失(shi)值(zhi)和(he)所(suo)(suo)(suo)述(shu)第三損(sun)失(shi)值(zhi),確定所(suo)(suo)(suo)述(shu)總損(sun)失(shi)值(zhi),包(bao)括:
5.如權利要求4所述(shu)的方(fang)法(fa),其特征在于,基(ji)于所述(shu)第五損失(shi)值和所述(shu)第四損失(shi)值,確定所述(shu)總損失(shi)值包括:
6.如權利要(yao)求1-5任一項所述的方(fang)法,其(qi)特征在于(yu),所述樣(yang)(yang)本(ben)(ben)語(yu)音數(shu)據包(bao)括多幀樣(yang)(yang)本(ben)(ben)語(yu)音數(shu)據;所述對樣(yang)(yang)本(ben)(ben)語(yu)音數(shu)據進行處(chu)理,得到(dao)聲學特征數(shu)據,包(bao)括:
7.一種語音識別方法(fa),其特征在于,包(bao)括:
8.一種語(yu)音識別模型訓練裝置(zhi),其特(te)征在于,所述裝置(zhi)包括:
9.一(yi)種電子設備,其特(te)征在(zai)于,包括:
10.一種計(ji)算機可讀(du)存儲介質,其特征在于(yu),所(suo)述計(ji)算機可讀(du)存儲介質存儲有計(ji)算機指(zhi)令,當所(suo)述計(ji)算機指(zhi)令在計(ji)算機上(shang)運行時,使得計(ji)算機執行如權利要求1-7中任一項所(suo)述的方(fang)法。