中文字幕无码日韩视频无码三区

車載空間增益語音合成方法、裝置、設備和存儲介質與流程

文檔(dang)序號:39594493發布日期:2024-10-11 13:00閱讀(du):4來源:國知(zhi)局
車載空間增益語音合成方法、裝置、設備和存儲介質與流程

本技術涉及語(yu)音合成(cheng),特別是涉及一種車載空間增益語(yu)音合成(cheng)方法、裝置、計(ji)算機設備和(he)存儲介質。


背景技術:

1、聽覺在人類生(sheng)活(huo)中有著非(fei)常重(zhong)要(yao)的(de)(de)意(yi)義。它通過感知(zhi)(zhi)周圍環境聲(sheng)(sheng)音(yin)(yin),從而做出(chu)相應(ying)的(de)(de)判斷與(yu)決策。人類的(de)(de)聽覺除了能感知(zhi)(zhi)聲(sheng)(sheng)音(yin)(yin)的(de)(de)強(qiang)度、音(yin)(yin)調(diao)和音(yin)(yin)色等(deng)主觀屬性外(wai),還能對聲(sheng)(sheng)源的(de)(de)方向(xiang)和距離(li)做出(chu)判斷。聲(sheng)(sheng)音(yin)(yin)的(de)(de)空間(jian)信息對聲(sheng)(sheng)音(yin)(yin)的(de)(de)感知(zhi)(zhi)有重(zhong)要(yao)意(yi)義。

2、隨著深度學習(xi)的應用(yong),語音(yin)合(he)成技術目前迅(xun)速發展。當前的空間立體聲方(fang)法(fa)大部(bu)(bu)分都使用(yong)多揚聲器創造多通道空間立體聲,但是在單(dan)麥(mai)克風場(chang)景當前的語音(yin)合(he)成系(xi)統(tong)大部(bu)(bu)分合(he)出的語音(yin)并不能創造空間感,影響播報效果與人的主觀感受。


技術實現思路

1、基于此,有必要針(zhen)對上述技術(shu)問題,提供(gong)一(yi)種車載空間(jian)增益語(yu)音合(he)成方(fang)法、裝置、計算機設備和存儲介質(zhi),能夠(gou)將空間(jian)信息(xi)(xi)引入單(dan)麥(mai)(mai)克(ke)風(feng)語(yu)音合(he)成,實現單(dan)麥(mai)(mai)克(ke)風(feng)下端到端并(bing)行空間(jian)信息(xi)(xi)語(yu)音合(he)成,解決(jue)目前在單(dan)麥(mai)(mai)克(ke)風(feng)場景當前的語(yu)音合(he)成系統大(da)部分合(he)出的語(yu)音并(bing)不能創造(zao)空間(jian)感(gan)(gan),影(ying)響播報效果與(yu)人的主觀感(gan)(gan)受(shou)的技術(shu)問題。

2、一(yi)方面,提供一(yi)種(zhong)車載(zai)空間增益語音(yin)合成(cheng)方法,所述方法包括:

3、提取車載空(kong)間(jian)(jian)內聽者或乘(cheng)客頭部的空(kong)間(jian)(jian)信息(xi)參數,構建(jian)空(kong)間(jian)(jian)函數庫;

4、獲取文本編碼(ma)特(te)征;

5、輸入空(kong)間參數信息,通過所述(shu)空(kong)間函(han)數庫提取空(kong)間特征;

6、將所述(shu)文本編碼特征與位(wei)置編碼、所述(shu)空間特征拼接后形(xing)成拼接編碼特征;

7、將所述拼(pin)接(jie)編碼(ma)特(te)(te)征(zheng)與空間增益編碼(ma)特(te)(te)征(zheng)輸入至解(jie)碼(ma)器(qi)進行(xing)解(jie)碼(ma)獲得合成語音梅(mei)爾譜特(te)(te)征(zheng);

8、將所述合(he)成語音梅爾譜特(te)征(zheng)輸(shu)入聲碼器,輸(shu)出合(he)成語音。

9、進(jin)一步(bu)的,所述獲取(qu)文(wen)本編(bian)碼特征步(bu)驟,包括:

10、輸(shu)入(ru)文本(ben)序列并(bing)將所述文本(ben)序列轉(zhuan)為音素序列;

11、將所述音素序(xu)列做(zuo)字符嵌入(ru)處理(li)并插入(ru)位置編(bian)碼后(hou),進行(xing)文本編(bian)碼輸出文本編(bian)碼特征(zheng)矩陣;

12、將所(suo)述(shu)(shu)文本(ben)編碼(ma)特(te)(te)征矩(ju)陣與所(suo)述(shu)(shu)空間(jian)函數庫中的空間(jian)特(te)(te)征拼接(jie)后進入(ru)變(bian)分預(yu)測器,進行待(dai)合成語音時(shi)長預(yu)測后輸(shu)出文本(ben)編碼(ma)特(te)(te)征。

13、進(jin)一步的,所述輸入文(wen)本(ben)序列并將所述文(wen)本(ben)序列轉為音素序列步驟,包括:

14、輸入文本序列;

15、將(jiang)所述(shu)文(wen)本序列經過文(wen)本正(zheng)則形成正(zheng)則表(biao)達式;

16、將(jiang)所述正則表達式(shi)經過字音(yin)轉換形成(cheng)漢(han)語;

17、將所述漢(han)語經(jing)過多音字分類和韻律預測轉為音素(su)序列(lie)。

18、進一(yi)步(bu)的,所(suo)(suo)述將(jiang)所(suo)(suo)述音素序(xu)列做字符(fu)嵌入(ru)處理并插入(ru)位(wei)置編碼(ma)(ma)后,進行文本編碼(ma)(ma)輸出(chu)文本編碼(ma)(ma)特(te)征矩陣(zhen)步(bu)驟(zou),包(bao)括:

19、定義一個字符列(lie)表;

20、將字符轉換為一位(wei)有效編碼,得到(dao)向量序(xu)列;

21、使用一維卷積學(xue)習所述向(xiang)量序(xu)列,獲得字符編(bian)碼(ma);

22、將所(suo)述(shu)音素序列通過字(zi)符編碼方式進行字(zi)符嵌入處理;

23、在進行字(zi)符嵌(qian)入處理后的音素序(xu)列中插入位置編碼;

24、輸入到(dao)編(bian)碼(ma)器中進行編(bian)碼(ma),輸出(chu)編(bian)碼(ma)后的(de)文本編(bian)碼(ma)特征矩(ju)陣。

25、進(jin)一步的,所述將(jiang)所述編(bian)(bian)碼器(qi)輸(shu)出的文本(ben)編(bian)(bian)碼特征矩(ju)陣與所述空間函(han)數庫中的空間特征拼接后進(jin)入變分預(yu)(yu)測(ce)器(qi),進(jin)行待合成語音時長預(yu)(yu)測(ce)后輸(shu)出文本(ben)編(bian)(bian)碼特征步驟,包(bao)括:

26、將(jiang)所述文本編碼特(te)征矩陣輸(shu)入(ru)時長(chang)(chang)預測(ce)器進行(xing)時長(chang)(chang)預測(ce)并輸(shu)出時長(chang)(chang)預測(ce)結果;

27、根(gen)據(ju)所述(shu)時長(chang)預測(ce)結果輸入至(zhi)長(chang)度調(diao)整器中進行時長(chang)調(diao)整獲得(de)待(dai)合(he)成(cheng)幀長(chang),對待(dai)合(he)成(cheng)幀長(chang)進行復制,相同文本音素(su)復制兩次;

28、將(jiang)所述長(chang)度調整器(qi)(qi)的輸(shu)出結(jie)果(guo)(guo)分(fen)別輸(shu)入基頻預測(ce)器(qi)(qi)和能(neng)量預測(ce)器(qi)(qi)中,輸(shu)出預測(ce)結(jie)果(guo)(guo),根據預測(ce)結(jie)果(guo)(guo)對待(dai)合成幀長(chang)進(jin)行復制;

29、將所述(shu)長度(du)調整器的(de)輸出結果輸入(ru)至預(yu)測(ce)器中,進(jin)行時長預(yu)測(ce)處理;

30、將所(suo)述(shu)(shu)基頻(pin)預測器(qi)、所(suo)述(shu)(shu)能量(liang)預測器(qi)和所(suo)述(shu)(shu)預測器(qi)的輸出結果進行(xing)特征拼接后(hou)輸出文本編碼特征。

31、進(jin)一步(bu)的(de),所述(shu)將(jiang)所述(shu)拼接(jie)編(bian)碼(ma)(ma)特征(zheng)(zheng)與(yu)空(kong)間(jian)增益(yi)編(bian)碼(ma)(ma)特征(zheng)(zheng)輸(shu)入至解碼(ma)(ma)器(qi)進(jin)行解碼(ma)(ma)獲得合(he)成語(yu)音梅(mei)爾譜特征(zheng)(zheng)步(bu)驟(zou),包括:

32、在(zai)解(jie)碼器中(zhong)輸(shu)入(ru)所述(shu)空間函數庫中(zhong)的(de)空間特征中(zhong)用于(yu)合成語(yu)音的(de)空間信息參數,所述(shu)解(jie)碼器生(sheng)成梅爾頻譜圖(tu)并將梅爾頻譜圖(tu)拆分后得到空間增益頻譜;

33、使用(yong)參數或神(shen)經聲碼器(qi)將(jiang)所述空間增(zeng)益(yi)(yi)頻譜轉換(huan)為增(zeng)益(yi)(yi)音頻,合成空間增(zeng)益(yi)(yi)語(yu)音。

34、進(jin)一步的(de),所(suo)述(shu)(shu)在解(jie)碼器中輸入(ru)所(suo)述(shu)(shu)空(kong)間(jian)函(han)數(shu)庫(ku)中的(de)空(kong)間(jian)特征中用于合成(cheng)語(yu)音的(de)空(kong)間(jian)信息參數(shu),所(suo)述(shu)(shu)解(jie)碼器生成(cheng)梅爾頻(pin)譜(pu)(pu)圖并將梅爾頻(pin)譜(pu)(pu)圖拆(chai)分后得到空(kong)間(jian)增(zeng)益(yi)頻(pin)譜(pu)(pu)步驟,包括:

35、將輸(shu)入的空(kong)間(jian)信息(xi)參數(shu)送入頭相關傳遞函數(shu);

36、通過建好的空間(jian)(jian)函(han)數(shu)(shu)(shu)庫(ku)輸出上一(yi)步的空間(jian)(jian)特(te)征,結合空間(jian)(jian)信息(xi)參數(shu)(shu)(shu)查找對應的頭(tou)(tou)(tou)相關傳(chuan)遞(di)函(han)數(shu)(shu)(shu)庫(ku)中(zhong)的頭(tou)(tou)(tou)相關傳(chuan)遞(di)函(han)數(shu)(shu)(shu)系數(shu)(shu)(shu),進行卷積濾(lv)波;若輸入(ru)的空間(jian)(jian)信息(xi)參數(shu)(shu)(shu)在空間(jian)(jian)函(han)數(shu)(shu)(shu)庫(ku)中(zhong)無(wu)對應的頭(tou)(tou)(tou)相關傳(chuan)遞(di)函(han)數(shu)(shu)(shu),則(ze)使用兩個(ge)相近的頭(tou)(tou)(tou)相關傳(chuan)遞(di)函(han)數(shu)(shu)(shu)插值求(qiu)得(de);

37、將上一步的輸出(chu)結果輸入(ru)線(xian)性層輸出(chu)空間特征(zheng)映射序列,獲取空間提取特征(zheng);

38、在解碼器中輸(shu)入初始化梅爾(er)譜特(te)征,與位置(zhi)編碼特(te)征拼(pin)接(jie),與所述(shu)空間提取特(te)征拼(pin)接(jie),輸(shu)入多(duo)頭注意(yi)力(li)進(jin)行(xing)注意(yi)力(li)計算;

39、經過丟失層(ceng)與兩層(ceng)一維卷積和線性層(ceng),輸出(chu)預測梅(mei)爾譜與空間拼接特征形成梅(mei)爾頻譜圖;

40、將梅爾頻譜圖中的(de)空間(jian)特征拆分(fen)得到空間(jian)增益頻譜。

41、進一(yi)步的,在(zai)將所述(shu)文(wen)本編(bian)碼特征與位置編(bian)碼、所述(shu)空間特征拼接后形成拼接編(bian)碼特征步驟(zou)之前(qian),還包括:

42、進行文本(ben)與(yu)對應音(yin)頻、空間特征對齊訓練;

43、將所述(shu)空間(jian)函數(shu)庫中提取的(de)空間(jian)特征(zheng)與所述(shu)文本編碼特征(zheng)拼接(jie),輸(shu)入變分適(shi)配器進(jin)行時(shi)(shi)長(chang)預(yu)測,并輸(shu)出(chu)時(shi)(shi)長(chang)預(yu)測結果;

44、所述時長預測結(jie)果與編(bian)碼位(wei)置特征(zheng)拼接后輸入解(jie)碼器,于頻譜與所述空(kong)間(jian)特征(zheng)特征(zheng)拼接進行對齊訓練,得到空(kong)間(jian)增益語音合成(cheng)模(mo)型。

45、進一步(bu)(bu)的(de),所述使用空(kong)間(jian)(jian)(jian)提(ti)取(qu)器通過頭相關傳遞函(han)數(shu)提(ti)取(qu)車載空(kong)間(jian)(jian)(jian)內(nei)聽(ting)者或乘客頭部的(de)空(kong)間(jian)(jian)(jian)信息參數(shu),構建(jian)空(kong)間(jian)(jian)(jian)函(han)數(shu)庫步(bu)(bu)驟(zou),包括:

46、在車載空(kong)間內確定聽者(zhe)或(huo)乘客頭部的(de)分布區域;

47、根據(ju)聽者或(huo)乘客頭部(bu)的(de)分布區域坐標,設(she)置(zhi)一中心點并建立頭相關(guan)(guan)球坐標系,設(she)置(zhi)所(suo)述頭相關(guan)(guan)球坐標系中的(de)一點至(zhi)中心點的(de)空間(jian)信息參(can)數(shu)包括仰角(jiao)θ、水平角(jiao)和距離(li)r;

48、使(shi)用頭(tou)相關傳遞函數(shu)在自由場情(qing)況下(xia)從聲源(yuan)到(dao)雙耳的頻域聲學傳遞函數(shu)表達人體結構(gou)對聲波的綜合(he)濾波效果(guo);

49、使用(yong)真人(ren)或仿(fang)真人(ren)進行頭(tou)相關(guan)傳遞函數值的(de)測量;

50、通(tong)過實(shi)驗測量、數值(zhi)計算及頭相關傳遞函(han)數建(jian)模(mo)方(fang)法(fa)構建(jian)空(kong)間(jian)函(han)數庫。

51、進(jin)一步(bu)(bu)的,所述使(shi)用真人或仿真人進(jin)行頭相(xiang)關傳遞函數值的測量步(bu)(bu)驟,包(bao)括:

52、在消聲(sheng)室(shi)中進行測量,使用真人(ren)或仿真人(ren)作為被測對象(xiang)位于坐(zuo)標(biao)原(yuan)點(dian),揚聲(sheng)器(qi)布置在以坐(zuo)標(biao)原(yuan)點(dian)為球心的球面;

53、通過固(gu)定(ding)被(bei)測(ce)對(dui)象(xiang)的(de)(de)位置(zhi),改變揚聲器(qi)與測(ce)量對(dui)象(xiang)之(zhi)間(jian)的(de)(de)相對(dui)位置(zhi),測(ce)量不(bu)同空間(jian)方向的(de)(de)頭(tou)相關傳遞函(han)數的(de)(de)參數;

54、揚(yang)聲器(qi)產(chan)生(sheng)測(ce)量信號,位于雙(shuang)耳(er)處(chu)的傳聲器(qi)撿拾(shi)雙(shuang)耳(er)聲壓信號;按所述頭相關(guan)傳遞函數(shu)的公式計算頻域的頭相關(guan)傳遞函數(shu)值。

55、另一(yi)方面,提供了一(yi)種車載空間增益語音合成裝置,所述裝置包括(kuo):

56、空間(jian)提取器,用于提取車載空間(jian)內聽者或乘客頭(tou)部的空間(jian)特征(zheng);

57、文本(ben)編碼特(te)征(zheng)獲(huo)取模塊,用(yong)于獲(huo)取文本(ben)編碼特(te)征(zheng);

58、空間(jian)函(han)數(shu)庫管(guan)理(li)模塊,用于(yu)根據空間(jian)特(te)征構建空間(jian)函(han)數(shu)庫,并(bing)在輸(shu)入空間(jian)參(can)數(shu)信(xin)息時通過(guo)所述空間(jian)函(han)數(shu)庫提(ti)取空間(jian)特(te)征;

59、編碼(ma)器,用于將所述文本編碼(ma)特(te)征(zheng)與位(wei)置編碼(ma)、所述空間特(te)征(zheng)拼(pin)接后(hou)形(xing)成(cheng)拼(pin)接編碼(ma)特(te)征(zheng);

60、解碼器,用于將所(suo)述(shu)拼接編(bian)碼特征與空間增益(yi)編(bian)碼特征進(jin)行解碼獲得合成語(yu)音梅爾(er)譜特征;

61、聲碼器,用于將所述合(he)成(cheng)語音(yin)梅爾(er)譜特征轉化輸(shu)出合(he)成(cheng)語音(yin)。

62、再一(yi)方面,提供(gong)了一(yi)種計(ji)(ji)(ji)算(suan)機(ji)設備,包括存(cun)儲(chu)器、處(chu)(chu)理器及存(cun)儲(chu)在(zai)存(cun)儲(chu)器上并可在(zai)處(chu)(chu)理器上運行(xing)的計(ji)(ji)(ji)算(suan)機(ji)程(cheng)序,所述處(chu)(chu)理器執行(xing)所述計(ji)(ji)(ji)算(suan)機(ji)程(cheng)序時實現以下(xia)步驟:

63、提取車載空(kong)間(jian)內聽者(zhe)或(huo)乘客(ke)頭部的空(kong)間(jian)信息(xi)參數,構建空(kong)間(jian)函數庫(ku);

64、獲(huo)取文(wen)本編碼特(te)征(zheng);

65、輸入空間(jian)參數(shu)(shu)信息,通過所述空間(jian)函數(shu)(shu)庫提(ti)取空間(jian)特征;

66、將所述文本編碼(ma)特(te)征(zheng)(zheng)與位置編碼(ma)、所述空間特(te)征(zheng)(zheng)拼接(jie)后形成拼接(jie)編碼(ma)特(te)征(zheng)(zheng);

67、將所述拼接編碼特征與空(kong)間增益編碼特征輸入至(zhi)解碼器進(jin)行解碼獲得合(he)成語音(yin)梅爾譜特征;

68、將所述(shu)合成(cheng)語音(yin)梅爾(er)譜(pu)特征(zheng)輸(shu)入聲(sheng)碼(ma)器,輸(shu)出合成(cheng)語音(yin)。

69、又一方面(mian),提供了一種計算機可讀存儲(chu)介(jie)質,其(qi)上(shang)存儲(chu)有計算機程序,所述計算機程序被處理器執行時實現以下步(bu)驟:

70、提取車載空(kong)(kong)間內聽者或(huo)乘客頭(tou)部的空(kong)(kong)間信息(xi)參數,構建空(kong)(kong)間函數庫(ku);

71、獲取文本(ben)編碼特征(zheng);

72、輸入空(kong)(kong)間(jian)(jian)參數(shu)信息,通過所述空(kong)(kong)間(jian)(jian)函數(shu)庫(ku)提取空(kong)(kong)間(jian)(jian)特(te)征;

73、將所(suo)述(shu)文本編(bian)碼特(te)征(zheng)與位置編(bian)碼、所(suo)述(shu)空(kong)間特(te)征(zheng)拼接(jie)后形成拼接(jie)編(bian)碼特(te)征(zheng);

74、將(jiang)所述拼接編碼(ma)特征(zheng)與空間增益編碼(ma)特征(zheng)輸入至解碼(ma)器進行解碼(ma)獲得合(he)成語音梅爾(er)譜特征(zheng);

75、將所(suo)述(shu)合(he)成(cheng)語音梅(mei)爾(er)譜(pu)特(te)征輸入(ru)聲(sheng)碼器(qi),輸出(chu)合(he)成(cheng)語音。

76、上述車載空間(jian)增益語(yu)音合(he)成方(fang)法、裝(zhuang)置、計算機設備和存儲(chu)介質,通(tong)過使用(yong)端到端并(bing)行(xing)語(yu)音合(he)成引入(ru)空間(jian)參(can)數幫(bang)助合(he)成語(yu)音,實現單麥克(ke)風空間(jian)增益合(he)成;而(er)且通(tong)過空間(jian)參(can)數輔助提(ti)升合(he)成語(yu)音合(he)成效果,提(ti)升可(ke)懂度(du)和感受度(du),能創造空間(jian)感。

當前第1頁1 2 
網友詢問(wen)留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1