中文字幕无码日韩视频无码三区

具有神經轉換器的端到端流式語音翻譯的制作方法

文檔序號:39576882發布日期:2024-10-11 12:39閱讀(du):6來源(yuan):國知局
具有神經轉換器的端到端流式語音翻譯的制作方法


背景技術:

1、自動語(yu)(yu)(yu)音識別(asr)系統和(he)其它語(yu)(yu)(yu)音處(chu)理(li)系統用(yong)于(yu)處(chu)理(li)和(he)解(jie)碼音頻數(shu)據以(yi)檢測語(yu)(yu)(yu)音話語(yu)(yu)(yu)(例如,單詞,短語(yu)(yu)(yu)和(he)/或句子(zi))。然后,在諸如基于(yu)搜索的(de)查詢、語(yu)(yu)(yu)音到文(wen)本(ben)的(de)轉錄、語(yu)(yu)(yu)言(yan)翻(fan)譯(yi)(yi)等各種(zhong)下游任務(wu)中使(shi)用(yong)經處(chu)理(li)的(de)音頻數(shu)據。特別地,針(zhen)對語(yu)(yu)(yu)言(yan)翻(fan)譯(yi)(yi),通常使(shi)用(yong)被(bei)配置為(wei)執行從源語(yu)(yu)(yu)言(yan)到目標語(yu)(yu)(yu)言(yan)的(de)、文(wen)本(ben)到文(wen)本(ben)翻(fan)譯(yi)(yi)的(de)單獨的(de)語(yu)(yu)(yu)言(yan)翻(fan)譯(yi)(yi)模塊。

2、傳(chuan)統(tong)的(de)(de)(de)(de)(de)asr系統(tong)接(jie)收源語(yu)(yu)(yu)(yu)言(yan)的(de)(de)(de)(de)(de)輸(shu)(shu)(shu)入音(yin)(yin)頻(pin)(即,源音(yin)(yin)頻(pin)),并(bing)且輸(shu)(shu)(shu)出輸(shu)(shu)(shu)入音(yin)(yin)頻(pin)中識別的(de)(de)(de)(de)(de)口語(yu)(yu)(yu)(yu)話(hua)語(yu)(yu)(yu)(yu)的(de)(de)(de)(de)(de)基于文本的(de)(de)(de)(de)(de)轉(zhuan)(zhuan)錄(lu)(lu)。值得注意的(de)(de)(de)(de)(de)是,基于文本的(de)(de)(de)(de)(de)轉(zhuan)(zhuan)錄(lu)(lu)以與輸(shu)(shu)(shu)入音(yin)(yin)頻(pin)相同(tong)的(de)(de)(de)(de)(de)源語(yu)(yu)(yu)(yu)言(yan)輸(shu)(shu)(shu)出。因此(ci),如果用戶想要將(jiang)輸(shu)(shu)(shu)入音(yin)(yin)頻(pin)翻(fan)(fan)譯成新語(yu)(yu)(yu)(yu)言(yan),則(ze)必須首先使用asr系統(tong)將(jiang)輸(shu)(shu)(shu)入音(yin)(yin)頻(pin)進行轉(zhuan)(zhuan)錄(lu)(lu)。然后,隨(sui)后將(jiang)轉(zhuan)(zhuan)錄(lu)(lu)作為(wei)(wei)輸(shu)(shu)(shu)入應用于機(ji)器(qi)翻(fan)(fan)譯系統(tong),該機(ji)器(qi)翻(fan)(fan)譯系統(tong)將(jiang)源語(yu)(yu)(yu)(yu)言(yan)中產生(sheng)的(de)(de)(de)(de)(de)第一轉(zhuan)(zhuan)錄(lu)(lu)翻(fan)(fan)譯為(wei)(wei)所期(qi)望的(de)(de)(de)(de)(de)目標語(yu)(yu)(yu)(yu)言(yan)中的(de)(de)(de)(de)(de)、新生(sheng)成的(de)(de)(de)(de)(de)并(bing)且經翻(fan)(fan)譯的(de)(de)(de)(de)(de)第二轉(zhuan)(zhuan)錄(lu)(lu)。值得注意的(de)(de)(de)(de)(de)是,目前需要生(sheng)成與源音(yin)(yin)頻(pin)語(yu)(yu)(yu)(yu)言(yan)不同(tong)的(de)(de)(de)(de)(de)目標語(yu)(yu)(yu)(yu)言(yan)的(de)(de)(de)(de)(de)轉(zhuan)(zhuan)錄(lu)(lu)的(de)(de)(de)(de)(de)這種順(shun)序/級聯處理是計算密集型的(de)(de)(de)(de)(de),并(bing)且可能會導致不期(qi)望的(de)(de)(de)(de)(de)延遲。

3、鑒于(yu)上(shang)述情況,目前需要(yao)用于(yu)執行語音翻譯服務的改進的系統和(he)方(fang)法。本文要(yao)求(qiu)保護的主題(ti)不(bu)限于(yu)解決任(ren)何缺點或者僅(jin)在諸如上(shang)述環境(jing)中操作的實(shi)(shi)施例(li)。相反,提供此背景僅(jin)用于(yu)說明(ming)一個示(shi)范(fan)性(xing)技術(shu)領域(yu),本文中所(suo)描述的一些實(shi)(shi)施例(li)是可以(yi)實(shi)(shi)踐的。


技術實現思路

1、所公(gong)開(kai)的(de)實施例包括(kuo)用(yong)于構(gou)建和(he)訓練端到端自動(dong)語音翻(fan)譯模型以及用(yong)于執行直接語音翻(fan)譯的(de)系(xi)統(tong)、方法和(he)設備。

2、一些(xie)公(gong)開的系統被配(pei)(pei)(pei)置(zhi)(zhi)為(wei)生成訓練數(shu)(shu)(shu)據(ju)(ju)集(ji),該(gai)訓練數(shu)(shu)(shu)據(ju)(ju)集(ji)包(bao)(bao)括音(yin)頻(pin)數(shu)(shu)(shu)據(ju)(ju)集(ji)和文本數(shu)(shu)(shu)據(ju)(ju)集(ji),音(yin)頻(pin)數(shu)(shu)(shu)據(ju)(ju)集(ji)包(bao)(bao)括第(di)一語(yu)(yu)(yu)言(yan)的口語(yu)(yu)(yu)話語(yu)(yu)(yu),文本數(shu)(shu)(shu)據(ju)(ju)集(ji)包(bao)(bao)括第(di)二語(yu)(yu)(yu)言(yan)的轉(zhuan)錄(lu)標(biao)簽。文本數(shu)(shu)(shu)據(ju)(ju)集(ji)中(zhong)包(bao)(bao)括的轉(zhuan)錄(lu)標(biao)簽與口語(yu)(yu)(yu)話語(yu)(yu)(yu)相對應(ying)。所公(gong)開的系統還包(bao)(bao)括或者被配(pei)(pei)(pei)置(zhi)(zhi)為(wei)獲得(i)基于神(shen)經(jing)轉(zhuan)換器(transducer)的端到(dao)端自(zi)動語(yu)(yu)(yu)音(yin)翻譯(yi)(ast)模(mo)型,該(gai)神(shen)經(jing)轉(zhuan)換器至(zhi)少包(bao)(bao)括一個(ge)聲學編碼(ma)器,該(gai)聲學編碼(ma)器被配(pei)(pei)(pei)置(zhi)(zhi)為(wei)接收(shou)和編碼(ma)音(yin)頻(pin)數(shu)(shu)(shu)據(ju)(ju),(ii)預測網(wang)(wang)(wang)絡,該(gai)預測網(wang)(wang)(wang)絡被集(ji)成在端到(dao)端ast模(mo)型中(zhong)的神(shen)經(jing)轉(zhuan)換器的并(bing)行模(mo)型架構中(zhong),并(bing)且(qie)被配(pei)(pei)(pei)置(zhi)(zhi)為(wei)基于先前的轉(zhuan)錄(lu)標(biao)簽輸出(chu)來預測后續(xu)的語(yu)(yu)(yu)言(yan)標(biao)記,以及(iii)與聲學編碼(ma)器和預測網(wang)(wang)(wang)絡串(chuan)聯集(ji)成的聯合層。該(gai)聯合層被配(pei)(pei)(pei)置(zhi)(zhi)為(wei)組合來自(zi)聲學編碼(ma)器的聲學編碼(ma)器輸出(chu)和來自(zi)預測網(wang)(wang)(wang)絡的預測輸出(chu)。

3、所公(gong)開的(de)(de)系(xi)統(tong)還被配(pei)置為將訓(xun)練數據集應用(yong)于端(duan)到端(duan)ast模型,以配(pei)置端(duan)到端(duan)ast模型來生成第一語言(yan)的(de)(de)輸入(ru)音頻數據的(de)(de)第二語言(yan)的(de)(de)轉錄(lu),使得神經(jing)轉換器(qi)學習多(duo)個時間處理路徑。

4、一些(xie)公開(kai)的實(shi)施(shi)例還指向(xiang)端(duan)(duan)到端(duan)(duan)的自動語音(yin)翻(fan)譯模(mo)型,其(qi)被(bei)(bei)配(pei)(pei)置(zhi)為(wei)接收第一語言的輸(shu)(shu)入音(yin)頻(pin)(pin)并且(qie)生成第二語言的輸(shu)(shu)入音(yin)頻(pin)(pin)的轉錄(lu)。在這樣(yang)的實(shi)施(shi)例中(zhong),端(duan)(duan)到端(duan)(duan)自動語音(yin)翻(fan)譯模(mo)型包(bao)(bao)括(kuo)(kuo)聲學(xue)(xue)編(bian)碼(ma)(ma)器,該聲學(xue)(xue)編(bian)碼(ma)(ma)器包(bao)(bao)括(kuo)(kuo)多(duo)個(ge)時間處(chu)(chu)理路(lu)徑,這些(xie)多(duo)個(ge)時間處(chu)(chu)理路(lu)徑被(bei)(bei)配(pei)(pei)置(zhi)為(wei)接收和(he)編(bian)碼(ma)(ma)輸(shu)(shu)入音(yin)頻(pin)(pin)數據。輸(shu)(shu)入音(yin)頻(pin)(pin)數據包(bao)(bao)括(kuo)(kuo)特定數目(mu)的幀(zhen),特定數目(mu)的幀(zhen)被(bei)(bei)配(pei)(pei)置(zhi)為(wei)被(bei)(bei)分成不同(tong)幀(zhen)集。每(mei)個(ge)時間處(chu)(chu)理路(lu)徑被(bei)(bei)配(pei)(pei)置(zhi)為(wei)根據輸(shu)(shu)入音(yin)頻(pin)(pin)數據中(zhong)包(bao)(bao)括(kuo)(kuo)的一個(ge)或(huo)多(duo)個(ge)不同(tong)幀(zhen)集的特定組合來處(chu)(chu)理特定數目(mu)的幀(zhen)。聲學(xue)(xue)編(bian)碼(ma)(ma)器被(bei)(bei)配(pei)(pei)置(zhi)為(wei)輸(shu)(shu)出針對每(mei)個(ge)不同(tong)幀(zhen)集的中(zhong)間特征表(biao)示。

5、本文所述的(de)(de)(de)端(duan)(duan)到(dao)端(duan)(duan)自(zi)(zi)(zi)動語音翻(fan)譯模型還包括預(yu)(yu)測(ce)(ce)網(wang)(wang)絡(luo),該(gai)預(yu)(yu)測(ce)(ce)網(wang)(wang)絡(luo)與(yu)端(duan)(duan)到(dao)端(duan)(duan)ast模型中的(de)(de)(de)聲(sheng)學編(bian)碼器集(ji)成在并行模型架構(gou)中。預(yu)(yu)測(ce)(ce)網(wang)(wang)絡(luo)被(bei)配置為基于先(xian)前的(de)(de)(de)轉(zhuan)(zhuan)錄標簽輸(shu)出來(lai)預(yu)(yu)測(ce)(ce)后(hou)續語言標記(ji)。端(duan)(duan)到(dao)端(duan)(duan)自(zi)(zi)(zi)動語音翻(fan)譯模型還包括與(yu)端(duan)(duan)到(dao)端(duan)(duan)ast模型中的(de)(de)(de)聲(sheng)學編(bian)碼器和預(yu)(yu)測(ce)(ce)網(wang)(wang)絡(luo)串(chuan)聯集(ji)成的(de)(de)(de)聯合層(ceng)。聯合層(ceng)被(bei)配置為組(zu)合來(lai)自(zi)(zi)(zi)預(yu)(yu)測(ce)(ce)網(wang)(wang)絡(luo)的(de)(de)(de)預(yu)(yu)測(ce)(ce)輸(shu)出和來(lai)自(zi)(zi)(zi)神經轉(zhuan)(zhuan)換器的(de)(de)(de)神經轉(zhuan)(zhuan)換器輸(shu)出。

6、一些所公開的(de)(de)(de)(de)(de)(de)實(shi)施例(li)(li)還指(zhi)向用于(yu)使(shi)用基于(yu)神經(jing)轉換(huan)器的(de)(de)(de)(de)(de)(de)端到端自(zi)動(dong)(dong)語(yu)音翻(fan)譯模(mo)型執行(xing)直接語(yu)音翻(fan)譯的(de)(de)(de)(de)(de)(de)系統和(he)方法(fa)。在這些實(shi)施例(li)(li)中(zhong)(zhong),系統被(bei)(bei)配(pei)(pei)置為(wei)獲得(de)自(zi)動(dong)(dong)語(yu)音翻(fan)譯模(mo)型,該(gai)(gai)自(zi)動(dong)(dong)語(yu)音翻(fan)譯模(mo)型包括(i)聲(sheng)(sheng)學(xue)編(bian)碼器、(ii)預(yu)測(ce)網(wang)絡、以及(iii)聯合(he)層。聲(sheng)(sheng)學(xue)編(bian)碼器被(bei)(bei)配(pei)(pei)置為(wei)接收和(he)編(bian)碼輸入音頻數據(ju)(ju),該(gai)(gai)音頻數據(ju)(ju)包括特(te)定數目的(de)(de)(de)(de)(de)(de)幀(zhen)(zhen)(zhen),特(te)定數目的(de)(de)(de)(de)(de)(de)幀(zhen)(zhen)(zhen)被(bei)(bei)配(pei)(pei)置為(wei)被(bei)(bei)分成不同的(de)(de)(de)(de)(de)(de)幀(zhen)(zhen)(zhen)集。每個時間處(chu)理路徑(jing)被(bei)(bei)配(pei)(pei)置為(wei)根據(ju)(ju)輸入音頻數據(ju)(ju)中(zhong)(zhong)包括的(de)(de)(de)(de)(de)(de)不同幀(zhen)(zhen)(zhen)集的(de)(de)(de)(de)(de)(de)特(te)定組(zu)合(he)來處(chu)理特(te)定數目的(de)(de)(de)(de)(de)(de)幀(zhen)(zhen)(zhen)。聲(sheng)(sheng)學(xue)編(bian)碼器被(bei)(bei)配(pei)(pei)置為(wei)輸出針對每個不同幀(zhen)(zhen)(zhen)集的(de)(de)(de)(de)(de)(de)中(zhong)(zhong)間特(te)征表示。

7、預測(ce)網絡(luo)與端到端自(zi)動語(yu)(yu)音(yin)翻譯(yi)(yi)模型(xing)中的神經編(bian)(bian)碼(ma)器(qi)(qi)集成(cheng)在并行(xing)模型(xing)架構中。預測(ce)網絡(luo)被配置為(wei)基于(yu)先前的轉錄標(biao)簽輸(shu)出來(lai)(lai)預測(ce)后(hou)續(xu)的語(yu)(yu)言標(biao)記。聯合層在端到端的自(zi)動語(yu)(yu)音(yin)翻譯(yi)(yi)模型(xing)中與聲學編(bian)(bian)碼(ma)器(qi)(qi)和預測(ce)網絡(luo)串(chuan)聯集成(cheng)。聯合層被配置為(wei)組合來(lai)(lai)自(zi)預測(ce)網絡(luo)的預測(ce)輸(shu)出和來(lai)(lai)自(zi)聲學編(bian)(bian)碼(ma)器(qi)(qi)的聲學編(bian)(bian)碼(ma)器(qi)(qi)輸(shu)出。

8、在(zai)(zai)獲得(de)自(zi)動(dong)語(yu)(yu)音翻譯(yi)模型(xing)之后,系(xi)統被(bei)配置(zhi)為(wei)標(biao)(biao)識(shi)用以生成輸(shu)(shu)(shu)入音頻(pin)(pin)(pin)數(shu)(shu)(shu)據(ju)的(de)(de)(de)(de)轉錄數(shu)(shu)(shu)據(ju)的(de)(de)(de)(de)目標(biao)(biao)輸(shu)(shu)(shu)出(chu)語(yu)(yu)言(yan),并且標(biao)(biao)識(shi)與輸(shu)(shu)(shu)入音頻(pin)(pin)(pin)數(shu)(shu)(shu)據(ju)相關聯的(de)(de)(de)(de)源輸(shu)(shu)(shu)入語(yu)(yu)言(yan)。在(zai)(zai)確定(ding)源輸(shu)(shu)(shu)入語(yu)(yu)言(yan)和目標(biao)(biao)輸(shu)(shu)(shu)出(chu)語(yu)(yu)言(yan)是不同的(de)(de)(de)(de)語(yu)(yu)言(yan)后,系(xi)統動(dong)態地選擇多個處理路(lu)徑中的(de)(de)(de)(de)特定(ding)時(shi)間(jian)處理路(lu)徑,通過(guo)(guo)該(gai)路(lu)徑將源輸(shu)(shu)(shu)入語(yu)(yu)言(yan)的(de)(de)(de)(de)輸(shu)(shu)(shu)入音頻(pin)(pin)(pin)數(shu)(shu)(shu)據(ju)轉換(huan)為(wei)目標(biao)(biao)輸(shu)(shu)(shu)出(chu)語(yu)(yu)言(yan)的(de)(de)(de)(de)轉錄數(shu)(shu)(shu)據(ju)。隨(sui)后,系(xi)統被(bei)配置(zhi)為(wei)通過(guo)(guo)至少使用特定(ding)的(de)(de)(de)(de)時(shi)間(jian)處理路(lu)徑將輸(shu)(shu)(shu)入音頻(pin)(pin)(pin)數(shu)(shu)(shu)據(ju)轉換(huan)為(wei)轉錄數(shu)(shu)(shu)據(ju)而從源輸(shu)(shu)(shu)入語(yu)(yu)言(yan)的(de)(de)(de)(de)輸(shu)(shu)(shu)入音頻(pin)(pin)(pin)數(shu)(shu)(shu)據(ju)生成目標(biao)(biao)輸(shu)(shu)(shu)出(chu)語(yu)(yu)言(yan)的(de)(de)(de)(de)轉錄。

9、提供(gong)本概(gai)述以便以簡化形式介紹將在(zai)(zai)以下詳細描述中進一(yi)步描述的(de)一(yi)些(xie)概(gai)念。本概(gai)述不(bu)旨(zhi)在(zai)(zai)標(biao)識所(suo)要求保護(hu)的(de)主題(ti)的(de)關鍵特征或者必(bi)要特征,也不(bu)旨(zhi)在(zai)(zai)用(yong)于幫助(zhu)確定所(suo)要求保護(hu)的(de)主題(ti)的(de)范圍。

10、另外的(de)特(te)(te)征(zheng)和優點(dian)將(jiang)在下(xia)(xia)面的(de)描(miao)述中闡(chan)述,并且部分地(di)將(jiang)從(cong)描(miao)述中清楚,或者(zhe)可以通(tong)過(guo)(guo)本(ben)(ben)(ben)(ben)文教導的(de)實(shi)(shi)踐而獲知。本(ben)(ben)(ben)(ben)發明(ming)的(de)特(te)(te)征(zheng)和優點(dian)可以通(tong)過(guo)(guo)所(suo)附(fu)權(quan)利要求中特(te)(te)別指出的(de)儀器(qi)和組合來(lai)實(shi)(shi)現和獲得(de)。本(ben)(ben)(ben)(ben)發明(ming)的(de)特(te)(te)征(zheng)將(jiang)從(cong)以下(xia)(xia)描(miao)述和所(suo)附(fu)權(quan)利要求中變得(de)更加明(ming)顯,或者(zhe)可以通(tong)過(guo)(guo)下(xia)(xia)文所(suo)述的(de)本(ben)(ben)(ben)(ben)發明(ming)的(de)實(shi)(shi)踐來(lai)學習。



技術特征:

1.一種用于訓練基(ji)于神經轉(zhuan)換器的端(duan)到端(duan)自動(dong)語(yu)音翻譯(ast)模型的方(fang)法,所述方(fang)法包括:

2.根據權利(li)要求1所述(shu)的方法,還包括:

3.根(gen)據(ju)權利要(yao)求(qiu)1所述的方(fang)法,其中(zhong)所述端(duan)到(dao)端(duan)ast模型還(huan)包括(kuo):

4.根據權利要求(qiu)1所(suo)(suo)(suo)述(shu)的(de)方法,其中(zhong)所(suo)(suo)(suo)述(shu)預測(ce)(ce)網絡(luo)被預先訓(xun)練為基于(yu)第一語(yu)言(yan)的(de)先前轉錄(lu)標(biao)簽(qian)來預測(ce)(ce)所(suo)(suo)(suo)述(shu)第一語(yu)言(yan)的(de)所(suo)(suo)(suo)述(shu)后(hou)續(xu)語(yu)言(yan)標(biao)記。

5.根據權利要求1所(suo)述(shu)(shu)(shu)的(de)方法,其中(zhong)所(suo)述(shu)(shu)(shu)訓練數(shu)(shu)據集(ji)中(zhong)包括的(de)所(suo)述(shu)(shu)(shu)音頻數(shu)(shu)據集(ji)包括增(zeng)強語(yu)言話(hua)語(yu),使得所(suo)述(shu)(shu)(shu)轉錄標簽(qian)與(yu)所(suo)述(shu)(shu)(shu)增(zeng)強語(yu)言話(hua)語(yu)相對應。

6.一(yi)種基于神經(jing)轉換器的(de)端(duan)到(dao)端(duan)自動語音(yin)翻譯(ast)模(mo)型,被配置為接(jie)收第一(yi)語言的(de)輸入音(yin)頻(pin)數據(ju)并且(qie)生成第二語言的(de)所述輸入音(yin)頻(pin)數據(ju)的(de)轉錄,所述端(duan)到(dao)端(duan)ast模(mo)型包括:

7.一種用于(yu)(yu)使用基于(yu)(yu)神經轉換器的端(duan)到端(duan)自動語(yu)音(yin)翻譯(ast)模型來執(zhi)行直接語(yu)音(yin)翻譯的方法(fa),所述方法(fa)包括:

8.根(gen)據權利要求7所(suo)述的(de)方法,還包括(kuo):

9.根據權(quan)利(li)要求7所(suo)述(shu)的方(fang)法,其中所(suo)述(shu)ast模型被配置(zhi)為基于所(suo)述(shu)輸(shu)入音頻數(shu)據的上(shang)下文(wen)來自(zi)動標識所(suo)述(shu)目(mu)標輸(shu)出(chu)語言(yan)。

10.根據權利要(yao)求7所述的方(fang)法,還包括:

11.根據權利要求10所(suo)述(shu)(shu)的(de)(de)(de)方法,其中每個時(shi)間(jian)(jian)處(chu)理(li)路徑(jing)與不同(tong)語(yu)(yu)言(yan)之間(jian)(jian)的(de)(de)(de)翻(fan)譯(yi)所(suo)需的(de)(de)(de)不同(tong)的(de)(de)(de)單詞(ci)重新(xin)排(pai)序量相關聯(lian),并且(qie)其中所(suo)述(shu)(shu)特(te)定時(shi)間(jian)(jian)處(chu)理(li)路徑(jing)基(ji)于(yu)所(suo)述(shu)(shu)源輸入(ru)語(yu)(yu)言(yan)與所(suo)述(shu)(shu)目標輸出(chu)語(yu)(yu)言(yan)之間(jian)(jian)的(de)(de)(de)翻(fan)譯(yi)所(suo)需的(de)(de)(de)所(suo)述(shu)(shu)單詞(ci)重新(xin)排(pai)序量而被動態(tai)選擇。

12.根據(ju)權利要求7所述的(de)方法,還(huan)包括:

13.根據權利(li)要(yao)求12所(suo)述的方法,還包括(kuo):

14.根據權利要求(qiu)13所述的方(fang)法,還包括(kuo):


技術總結
本公開實施例涉及提供了針對獲得、訓練和使用基于神經轉換器的端到端AST模型的系統和方法。該端到端AST模型至少包括(i)配置為接收和編碼音頻數據的聲學編碼器,(ii)與端到端AST模型中的聲學編碼器集成在并行模型架構中的預測網絡,以及(iii)與聲學編碼器和預測網絡串聯集成的聯合層。端到端的AST模型配置為生成第一語言的輸入音頻數據的第二語言的轉錄,使得聲學編碼器學習多個時間處理路徑。

技術研發人員:李錦宇,薛健,M·J·珀斯特,王培棟
受保護的技術使用者:微軟技術許可有限責任公司
技術研發日:
技術公布日:2024/10/10
網友詢(xun)問(wen)留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1