中文字幕无码日韩视频无码三区

語音合成模型的訓練方法、語音合成方法及裝置與流程

文(wen)檔序號:39438844發(fa)布日期:2024-09-20 22:39閱讀:30來源:國知(zhi)局(ju)
語音合成模型的訓練方法、語音合成方法及裝置與流程

本申請涉(she)及語(yu)音(yin)處理,尤其(qi)涉(she)及一種語(yu)音(yin)合成模(mo)型的(de)訓練方法、語(yu)音(yin)合成方法及裝置。


背景技術:

1、基于深度學習技(ji)術的(de)不(bu)斷進(jin)步,推動了(le)語(yu)(yu)(yu)(yu)音(yin)(yin)合成技(ji)術(text-to-speech,tts)技(ji)術和應用的(de)不(bu)斷發(fa)展進(jin)步。tts技(ji)術利用深度網(wang)絡構建文本(ben)到語(yu)(yu)(yu)(yu)音(yin)(yin)的(de)轉換關(guan)系(xi),從而可以(yi)將輸入的(de)文本(ben)合成語(yu)(yu)(yu)(yu)音(yin)(yin)數據。在語(yu)(yu)(yu)(yu)音(yin)(yin)對(dui)話場景下,通(tong)常(chang)要求合成的(de)語(yu)(yu)(yu)(yu)音(yin)(yin)真實,且能夠與對(dui)話情境高度適配。


技術實現思路

1、本申請實施例(li)的(de)目的(de)提供一(yi)種模型(xing)的(de)訓練方法、語音合成方法及裝置,用于(yu)使(shi)合成的(de)語音更(geng)加真實,且能夠與對話(hua)情境高度適配。

2、為了實現上(shang)述目的,本申請實施例采用(yong)下述技(ji)術(shu)方(fang)案:

3、第(di)一(yi)方面,本申請實施例(li)提供一(yi)種語音合成(cheng)模(mo)型(xing)的訓練方法,包括:

4、通過(guo)語(yu)音(yin)(yin)(yin)合成(cheng)(cheng)模型的(de)骨架網(wang)絡,從樣(yang)本對(dui)(dui)話語(yu)音(yin)(yin)(yin)中提取第一(yi)對(dui)(dui)話風(feng)格特(te)征,以及基于所(suo)述第一(yi)對(dui)(dui)話風(feng)格特(te)征和對(dui)(dui)話文本的(de)音(yin)(yin)(yin)素序(xu)列進行語(yu)音(yin)(yin)(yin)合成(cheng)(cheng)處理,得(de)到(dao)所(suo)述對(dui)(dui)話文本的(de)第一(yi)合成(cheng)(cheng)語(yu)音(yin)(yin)(yin),所(suo)述對(dui)(dui)話文本為(wei)所(suo)述樣(yang)本對(dui)(dui)話語(yu)音(yin)(yin)(yin)的(de)文本;

5、通(tong)過所(suo)(suo)述語音合成模型(xing)的上文(wen)風(feng)(feng)格(ge)編碼網絡(luo),對所(suo)(suo)述樣(yang)本對話(hua)語音的上文(wen)對話(hua)語音進行對話(hua)風(feng)(feng)格(ge)提取,得到上文(wen)對話(hua)風(feng)(feng)格(ge)特征(zheng);

6、通過所述(shu)語音合(he)成模型的預測(ce)網絡,基于所述(shu)上文對(dui)話風(feng)格(ge)(ge)特(te)征(zheng)(zheng)、所述(shu)第(di)一(yi)對(dui)話風(feng)格(ge)(ge)特(te)征(zheng)(zheng)以及所述(shu)音素序列,對(dui)所述(shu)對(dui)話文本進行風(feng)格(ge)(ge)預測(ce),得到第(di)二(er)對(dui)話風(feng)格(ge)(ge)特(te)征(zheng)(zheng);

7、基于(yu)所述(shu)第一(yi)合(he)成(cheng)語(yu)音和所述(shu)第二對話風格特征,對所述(shu)語(yu)音合(he)成(cheng)模型進行優(you)化(hua)訓練。

8、第(di)二方面,本申請實施例提供(gong)一種語音合成方法,包括(kuo):

9、獲取待合成的目標對(dui)話文本的音(yin)素序列和所(suo)述目標對(dui)話文本的上(shang)文對(dui)話語音(yin);

10、對所(suo)述上文對話語(yu)音進行對話風格(ge)提取,得到上文對話風格(ge)特征;

11、基(ji)于所(suo)述上文(wen)對話(hua)風格特征(zheng)和所(suo)述音素(su)序列,對所(suo)述目(mu)標對話(hua)文(wen)本進(jin)行風格預測,得到(dao)所(suo)述目(mu)標對話(hua)文(wen)本的對話(hua)風格特征(zheng);

12、基于所(suo)述(shu)(shu)對話(hua)(hua)風(feng)格特(te)征和所(suo)述(shu)(shu)音(yin)素(su)序列進行語(yu)音(yin)合成(cheng)處理,得(de)到所(suo)述(shu)(shu)目標(biao)對話(hua)(hua)文本的合成(cheng)語(yu)音(yin)。第三方面,本申(shen)請實施例提供一種語(yu)音(yin)合成(cheng)模型(xing)的訓(xun)練裝置,包括:

13、第一合(he)成(cheng)(cheng)單元,用于通過語(yu)(yu)音合(he)成(cheng)(cheng)模型的(de)(de)骨架網絡,從樣本(ben)對(dui)(dui)話(hua)語(yu)(yu)音中提取(qu)第一對(dui)(dui)話(hua)風格(ge)特征(zheng),以及基(ji)于所(suo)述(shu)第一對(dui)(dui)話(hua)風格(ge)特征(zheng)和(he)對(dui)(dui)話(hua)文本(ben)的(de)(de)音素序列進行(xing)語(yu)(yu)音合(he)成(cheng)(cheng)處理,得到所(suo)述(shu)對(dui)(dui)話(hua)文本(ben)的(de)(de)第一合(he)成(cheng)(cheng)語(yu)(yu)音,所(suo)述(shu)對(dui)(dui)話(hua)文本(ben)為所(suo)述(shu)樣本(ben)對(dui)(dui)話(hua)語(yu)(yu)音的(de)(de)文本(ben);

14、第一(yi)提取單元,用于通過所述語(yu)音(yin)(yin)合成模(mo)型的上文風(feng)格(ge)編碼(ma)網絡,對所述樣本(ben)對話(hua)語(yu)音(yin)(yin)的上文對話(hua)語(yu)音(yin)(yin)進行對話(hua)風(feng)格(ge)提取,得到(dao)上文對話(hua)風(feng)格(ge)特征(zheng);

15、第一(yi)預(yu)測(ce)單元,用于通過所述(shu)語音(yin)合成模型(xing)的預(yu)測(ce)網絡(luo),基于所述(shu)上(shang)文對(dui)話(hua)風(feng)格特征、所述(shu)第一(yi)對(dui)話(hua)風(feng)格特征以及所述(shu)音(yin)素(su)序列,對(dui)所述(shu)對(dui)話(hua)文本進(jin)行風(feng)格預(yu)測(ce),得到第二對(dui)話(hua)風(feng)格特征;

16、訓練單(dan)元,用于基于所(suo)述(shu)(shu)第一合成語音和所(suo)述(shu)(shu)第二對話風(feng)格特征,對所(suo)述(shu)(shu)語音合成模(mo)型進行優(you)化訓練。

17、第四方面(mian),本申請實施例提供一(yi)種(zhong)語音合成裝置,包括:

18、獲取單元,用于獲取待合(he)成(cheng)的目(mu)標(biao)對話文(wen)本的音(yin)素序列和所述目(mu)標(biao)對話文(wen)本的上文(wen)對話語音(yin);

19、第(di)二(er)提(ti)取(qu)單(dan)元,用于對所(suo)述上文對話(hua)語音(yin)進(jin)行對話(hua)風格提(ti)取(qu),得到上文對話(hua)風格特征(zheng);

20、第二預測單(dan)元,用(yong)于(yu)基于(yu)所(suo)述上文(wen)(wen)對(dui)話(hua)(hua)風(feng)格特(te)征和所(suo)述音素序列,對(dui)所(suo)述目標(biao)(biao)對(dui)話(hua)(hua)文(wen)(wen)本(ben)進行(xing)風(feng)格預測,得(de)到所(suo)述目標(biao)(biao)對(dui)話(hua)(hua)文(wen)(wen)本(ben)的對(dui)話(hua)(hua)風(feng)格特(te)征;

21、第二合(he)成單元(yuan),用(yong)于基于所述(shu)對話風格特征和所述(shu)音(yin)素序列(lie)進行語音(yin)合(he)成處理,得到所述(shu)目標對話文(wen)本的合(he)成語音(yin)。

22、第(di)五方(fang)(fang)(fang)面(mian),本申請實(shi)施(shi)例提供一種電子設備,包括:處理(li)器(qi);用于存儲所述(shu)處理(li)器(qi)可執行指令(ling)的存儲器(qi);其中,所述(shu)處理(li)器(qi)被(bei)配置(zhi)為(wei)執行所述(shu)指令(ling),以(yi)實(shi)現如(ru)第(di)一方(fang)(fang)(fang)面(mian)所述(shu)的語音(yin)合成(cheng)模(mo)型(xing)的訓練(lian)方(fang)(fang)(fang)法;或(huo)者,所述(shu)處理(li)器(qi)被(bei)配置(zhi)為(wei)執行所述(shu)指令(ling),以(yi)實(shi)現如(ru)第(di)二方(fang)(fang)(fang)面(mian)所述(shu)的語音(yin)合成(cheng)方(fang)(fang)(fang)法。

23、第六方(fang)面,本申(shen)請實施例提(ti)供一種計算機可(ke)讀(du)存(cun)(cun)儲(chu)介質,當所(suo)(suo)述(shu)存(cun)(cun)儲(chu)介質中的(de)(de)(de)指令由電子(zi)設備(bei)(bei)的(de)(de)(de)處理器執行(xing)(xing)(xing)時(shi),使得電子(zi)設備(bei)(bei)能夠(gou)執行(xing)(xing)(xing)如第一方(fang)面所(suo)(suo)述(shu)的(de)(de)(de)語(yu)音(yin)合成模型(xing)的(de)(de)(de)訓練方(fang)法;或(huo)者(zhe),當所(suo)(suo)述(shu)存(cun)(cun)儲(chu)介質中的(de)(de)(de)指令由電子(zi)設備(bei)(bei)的(de)(de)(de)處理器執行(xing)(xing)(xing)時(shi),使得電子(zi)設備(bei)(bei)能夠(gou)執行(xing)(xing)(xing)如第二方(fang)面所(suo)(suo)述(shu)的(de)(de)(de)語(yu)音(yin)合成方(fang)法。

24、第(di)七方(fang)面,本申請實施例還提供一(yi)種(zhong)計(ji)(ji)(ji)算機(ji)程(cheng)(cheng)序(xu)產品(pin)(pin),所述(shu)計(ji)(ji)(ji)算機(ji)程(cheng)(cheng)序(xu)產品(pin)(pin)包括存儲了計(ji)(ji)(ji)算機(ji)程(cheng)(cheng)序(xu)的非瞬時性計(ji)(ji)(ji)算機(ji)可讀存儲介質(zhi),所述(shu)計(ji)(ji)(ji)算機(ji)程(cheng)(cheng)序(xu)可操作來(lai)使計(ji)(ji)(ji)算機(ji)執(zhi)行如第(di)一(yi)方(fang)面或(huo)(huo)者第(di)二(er)方(fang)面所述(shu)的方(fang)法中的部分或(huo)(huo)全部步驟。

25、本(ben)(ben)申請實施(shi)例采用的(de)(de)(de)(de)上(shang)述至少一(yi)(yi)個技術(shu)方案能夠(gou)(gou)達到(dao)以下有益(yi)效果(guo):采用具(ju)有骨架(jia)網(wang)(wang)(wang)(wang)絡(luo)(luo)、上(shang)文(wen)(wen)(wen)(wen)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)編碼(ma)網(wang)(wang)(wang)(wang)絡(luo)(luo)以及(ji)(ji)預測網(wang)(wang)(wang)(wang)絡(luo)(luo)的(de)(de)(de)(de)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)模型(xing)(xing),以及(ji)(ji)采用樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)、樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)的(de)(de)(de)(de)上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)以及(ji)(ji)樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)的(de)(de)(de)(de)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)文(wen)(wen)(wen)(wen)本(ben)(ben)的(de)(de)(de)(de)音(yin)(yin)(yin)(yin)(yin)素序(xu)列作(zuo)為(wei)訓(xun)(xun)(xun)練(lian)(lian)數據(ju);將(jiang)真人(ren)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)引(yin)入(ru)到(dao)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)模型(xing)(xing)的(de)(de)(de)(de)訓(xun)(xun)(xun)練(lian)(lian)過(guo)程中(zhong),通過(guo)骨架(jia)網(wang)(wang)(wang)(wang)絡(luo)(luo)從(cong)樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)中(zhong)提取表(biao)示對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)的(de)(de)(de)(de)第(di)一(yi)(yi)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng),在(zai)此基(ji)(ji)礎上(shang)結合(he)(he)(he)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)文(wen)(wen)(wen)(wen)本(ben)(ben)的(de)(de)(de)(de)音(yin)(yin)(yin)(yin)(yin)素序(xu)列為(wei)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)文(wen)(wen)(wen)(wen)本(ben)(ben)合(he)(he)(he)成(cheng)(cheng)相(xiang)應的(de)(de)(de)(de)第(di)一(yi)(yi)合(he)(he)(he)成(cheng)(cheng)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin),使得骨架(jia)網(wang)(wang)(wang)(wang)絡(luo)(luo)能夠(gou)(gou)充(chong)分學(xue)習樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)的(de)(de)(de)(de)真人(ren)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge),以及(ji)(ji)學(xue)習從(cong)文(wen)(wen)(wen)(wen)本(ben)(ben)到(dao)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)再到(dao)合(he)(he)(he)成(cheng)(cheng)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)的(de)(de)(de)(de)映(ying)射關系,從(cong)而(er)(er)具(ju)備對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)擬(ni)真能力(li),能夠(gou)(gou)用于為(wei)輸入(ru)的(de)(de)(de)(de)文(wen)(wen)(wen)(wen)本(ben)(ben)合(he)(he)(he)成(cheng)(cheng)高(gao)度擬(ni)近真人(ren)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)的(de)(de)(de)(de)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin);其(qi)次(ci),還(huan)利用上(shang)下文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)的(de)(de)(de)(de)匹(pi)配特(te)(te)點,將(jiang)樣(yang)(yang)本(ben)(ben)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)的(de)(de)(de)(de)上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)引(yin)入(ru)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)模型(xing)(xing)的(de)(de)(de)(de)訓(xun)(xun)(xun)練(lian)(lian)過(guo)程中(zhong),通過(guo)上(shang)文(wen)(wen)(wen)(wen)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)編碼(ma)網(wang)(wang)(wang)(wang)絡(luo)(luo)從(cong)上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)中(zhong)提取出(chu)上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng),而(er)(er)后通過(guo)預測網(wang)(wang)(wang)(wang)絡(luo)(luo)基(ji)(ji)于上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng)、第(di)一(yi)(yi)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng)以及(ji)(ji)音(yin)(yin)(yin)(yin)(yin)素序(xu)列對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)文(wen)(wen)(wen)(wen)本(ben)(ben)進行風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)預測,得到(dao)第(di)二對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng),使得第(di)一(yi)(yi)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng)能夠(gou)(gou)作(zuo)為(wei)標簽,輔助(zhu)(zhu)預測網(wang)(wang)(wang)(wang)絡(luo)(luo)的(de)(de)(de)(de)學(xue)習,使預測網(wang)(wang)(wang)(wang)絡(luo)(luo)在(zai)訓(xun)(xun)(xun)練(lian)(lian)過(guo)程中(zhong)能夠(gou)(gou)參考第(di)一(yi)(yi)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng),學(xue)習到(dao)如何為(wei)上(shang)文(wen)(wen)(wen)(wen)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)匹(pi)配出(chu)相(xiang)適應對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)的(de)(de)(de)(de)能力(li),從(cong)而(er)(er)具(ju)有對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)情(qing)景的(de)(de)(de)(de)感知能力(li),能夠(gou)(gou)輔助(zhu)(zhu)骨架(jia)網(wang)(wang)(wang)(wang)絡(luo)(luo)輸出(chu)與對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)情(qing)境(jing)高(gao)度適配的(de)(de)(de)(de)合(he)(he)(he)成(cheng)(cheng)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin);最(zui)后,基(ji)(ji)于第(di)一(yi)(yi)合(he)(he)(he)成(cheng)(cheng)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)和第(di)二對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)特(te)(te)征(zheng),對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)模型(xing)(xing)進行優化訓(xun)(xun)(xun)練(lian)(lian),從(cong)而(er)(er)使訓(xun)(xun)(xun)練(lian)(lian)出(chu)的(de)(de)(de)(de)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)模型(xing)(xing)能夠(gou)(gou)輸出(chu)擬(ni)近真人(ren)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)風(feng)(feng)(feng)(feng)(feng)格(ge)(ge)(ge)(ge)(ge)(ge)(ge)(ge)且與對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)情(qing)景高(gao)度適配的(de)(de)(de)(de)合(he)(he)(he)成(cheng)(cheng)語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin),適用于具(ju)有語(yu)(yu)(yu)音(yin)(yin)(yin)(yin)(yin)合(he)(he)(he)成(cheng)(cheng)需求的(de)(de)(de)(de)對(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)(dui)話(hua)(hua)(hua)(hua)場景。



技術特征:

1.一種語音(yin)合成模型的訓練(lian)方法,其(qi)特征在于,包括:

2.根(gen)據(ju)權利要求1所述(shu)的方法,其特征(zheng)(zheng)在(zai)于,所述(shu)上文(wen)對(dui)話風(feng)(feng)格特征(zheng)(zheng)包(bao)括(kuo)上文(wen)語音(yin)風(feng)(feng)格特征(zheng)(zheng),所述(shu)第一(yi)對(dui)話風(feng)(feng)格特征(zheng)(zheng)包(bao)括(kuo)第一(yi)語音(yin)風(feng)(feng)格特征(zheng)(zheng),所述(shu)第二(er)(er)對(dui)話風(feng)(feng)格特征(zheng)(zheng)包(bao)括(kuo)第二(er)(er)語音(yin)風(feng)(feng)格特征(zheng)(zheng)和第二(er)(er)韻律特征(zheng)(zheng);

3.根據權利(li)要求2所述的方法,其特(te)征在(zai)于(yu),所述韻律文本(ben)特(te)征包(bao)括所述音素序列中每(mei)個(ge)音素的韻律文本(ben)子特(te)征;

4.根據(ju)權利(li)要求(qiu)1所(suo)(suo)述(shu)的方法,其特征在于(yu),所(suo)(suo)述(shu)基于(yu)所(suo)(suo)述(shu)第(di)一對話(hua)風格特征和所(suo)(suo)述(shu)對話(hua)文本(ben)的音(yin)素序(xu)列進行語音(yin)合(he)成(cheng)(cheng)處理(li),得到(dao)所(suo)(suo)述(shu)對話(hua)文本(ben)的第(di)一合(he)成(cheng)(cheng)語音(yin),包(bao)括:

5.根(gen)據權利要求4所(suo)(suo)述(shu)(shu)(shu)的方(fang)法,其特(te)征在于(yu),所(suo)(suo)述(shu)(shu)(shu)基于(yu)所(suo)(suo)述(shu)(shu)(shu)頻譜(pu)特(te)征對所(suo)(suo)述(shu)(shu)(shu)音素特(te)征進行對齊處理(li),得到對齊音素特(te)征,包括:

6.根據(ju)權利(li)要求1所(suo)述(shu)的(de)方法,其特征(zheng)在于,所(suo)述(shu)基(ji)于所(suo)述(shu)第一合(he)成語(yu)音和所(suo)述(shu)第二對話風格特征(zheng),對所(suo)述(shu)語(yu)音合(he)成模型進行優化訓練,包括:

7.根據權利要求1所(suo)述(shu)(shu)的方(fang)法,其特征(zheng)在于,在通過所(suo)述(shu)(shu)語音(yin)合成模(mo)型(xing)的上(shang)文(wen)(wen)風(feng)格(ge)編碼網(wang)絡,對(dui)(dui)所(suo)述(shu)(shu)樣本對(dui)(dui)話語音(yin)的上(shang)文(wen)(wen)對(dui)(dui)話語音(yin)進行對(dui)(dui)話風(feng)格(ge)提(ti)取之前,所(suo)述(shu)(shu)方(fang)法還包(bao)括:

8.根據權利要(yao)求1至(zhi)7中任一項(xiang)所述(shu)的(de)(de)方法(fa),其(qi)特征在于(yu),所述(shu)樣本對話(hua)語(yu)(yu)音(yin)為從歷史對話(hua)中獲取的(de)(de)客服語(yu)(yu)音(yin),所述(shu)上文對話(hua)語(yu)(yu)音(yin)為所述(shu)客服語(yu)(yu)音(yin)的(de)(de)上文用(yong)戶(hu)語(yu)(yu)音(yin);

9.一種語音合成(cheng)方(fang)法,其特征在于,包括:

10.根據(ju)權利(li)要(yao)求(qiu)9所述的(de)方法,其特征(zheng)在(zai)于(yu),所述對話風格(ge)特征(zheng)包括語音(yin)風格(ge)特征(zheng)和韻律(lv)特征(zheng);

11.根(gen)據(ju)權利(li)要(yao)求10所述(shu)的方法,其特(te)(te)征(zheng)(zheng)在于,所述(shu)韻律(lv)文本(ben)特(te)(te)征(zheng)(zheng)包括所述(shu)音素序列中(zhong)每(mei)個(ge)音素的韻律(lv)文本(ben)子(zi)特(te)(te)征(zheng)(zheng);

12.根據權(quan)利(li)要(yao)求10所述的方法,其(qi)特(te)征(zheng)在于,所述韻律特(te)征(zheng)包括(kuo)音高特(te)征(zheng)與(yu)音量特(te)征(zheng)中的至(zhi)少一種以及音長特(te)征(zheng);

13.根據權(quan)利(li)要求12所(suo)(suo)述(shu)的方法,其特征在(zai)于,所(suo)(suo)述(shu)基于所(suo)(suo)述(shu)音長特征對所(suo)(suo)述(shu)音素特征進行對齊處理(li),得到對齊音素特征,包括:

14.根(gen)據權利(li)要求9至13中(zhong)任一項所(suo)(suo)述(shu)的方法(fa),其(qi)特征(zheng)在于(yu),在基于(yu)所(suo)(suo)述(shu)上文(wen)對話(hua)風(feng)格特征(zheng)和所(suo)(suo)述(shu)音素序列,對所(suo)(suo)述(shu)目(mu)標對話(hua)文(wen)本(ben)進行風(feng)格預(yu)測,得到所(suo)(suo)述(shu)目(mu)標對話(hua)文(wen)本(ben)的對話(hua)風(feng)格特征(zheng)之(zhi)前,所(suo)(suo)述(shu)方法(fa)還包(bao)括:

15.一種語音合成模型的訓(xun)練裝(zhuang)置,其特征在于,包(bao)括:

16.一種語音合成裝置,其特征(zheng)在于,包括:

17.一種電子設備,其特征在于,包括:

18.一種計算機(ji)可讀存(cun)儲介(jie)質(zhi),其特征在于,當所述(shu)存(cun)儲介(jie)質(zhi)中(zhong)的(de)(de)(de)(de)(de)指(zhi)令由(you)電子(zi)設備的(de)(de)(de)(de)(de)處(chu)理器(qi)(qi)執行(xing)(xing)時,使(shi)得(de)電子(zi)設備能(neng)夠執行(xing)(xing)如(ru)權利要求1至8中(zhong)任一項(xiang)所述(shu)的(de)(de)(de)(de)(de)語音合成(cheng)模型的(de)(de)(de)(de)(de)訓練方法;或(huo)者(zhe),當所述(shu)存(cun)儲介(jie)質(zhi)中(zhong)的(de)(de)(de)(de)(de)指(zhi)令由(you)電子(zi)設備的(de)(de)(de)(de)(de)處(chu)理器(qi)(qi)執行(xing)(xing)時,使(shi)得(de)電子(zi)設備能(neng)夠執行(xing)(xing)如(ru)權利要求9至14中(zhong)任一項(xiang)所述(shu)的(de)(de)(de)(de)(de)語音合成(cheng)方法。

19.一種計(ji)(ji)算機程(cheng)序(xu)產品,其特征在于,所述計(ji)(ji)算機程(cheng)序(xu)產品包(bao)括存(cun)(cun)儲了計(ji)(ji)算機程(cheng)序(xu)的(de)(de)非瞬時性計(ji)(ji)算機可讀存(cun)(cun)儲介質,所述計(ji)(ji)算機程(cheng)序(xu)可操作來使(shi)計(ji)(ji)算機執(zhi)行(xing)如權(quan)利要求1至(zhi)8中(zhong)(zhong)任(ren)一項(xiang)或者權(quan)利要求9至(zhi)14中(zhong)(zhong)任(ren)一項(xiang)所述的(de)(de)方法(fa)中(zhong)(zhong)的(de)(de)部分或全部步(bu)驟(zou)。


技術總結
本申請公開了一種語音合成模型的訓練方法、語音合成方法及裝置,用于使合成的語音更加真實,且能夠與對話情境高度適配。訓練方法包括:通過語音合成模型的骨架網絡,從樣本對話語音中提取第一對話風格特征,以及基于第一對話風格特征和對話文本的音素序列合成對話文本的第一合成語音,對話文本為樣本對話語音的文本;通過語音合成模型的上文風格編碼網絡從樣本對話語音的上文對話語音中提取上文對話風格特征;通過語音合成模型的預測網絡,基于上文對話風格特征、第一對話風格特征以及音素序列,對對話文本進行風格預測,得到第二對話風格特征;基于第一合成語音和第二對話風格特征,對語音合成模型進行優化訓練。

技術研發人員:喬宏利
受保護的技術使用者:馬上消費金融股份有限公司
技術研發日:
技術公布日:2024/9/19
網友(you)詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1