語音合成方法、裝置及設備的制造方法
【技術領域】
[0001]本發明涉及計算機領域,尤其涉及一種語音合成方法、裝置及設備。
【背景技術】
[0002]語音合成是通過機械的、電子的方法產生人造語音的技術,它是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的語音輸出的技術。目前的語音合成技術多是采用基于隱馬爾科夫模型(以下簡稱HMM)的參數合成技術(以下簡稱HTS),該HTS語音合成技術在訓練階段,對訓練數據進行決策樹聚類和HMM建模,得到聚類HMM以及決策樹。在語音合成階段,利用決策樹將待合成文本的語境信息進行決策,得到對應的聲學信息,即譜和基頻特征參數,包括譜和基頻特征參數本身及其差分、二階差分等動態特征,之后,根據聲學信息的差分等動態特征生成平滑的特征參數序列,最后將生成的特征參數序列輸入聲碼器獲得合成語音。該HTS語音合成技術,其基于差分的動態特征生成動態參數過程,會為生成的特征參數序列帶來過平滑現象,該過平滑現象導致所合成的語音音質低、節奏單調平淡。
【發明內容】
[0003]本發明解決的技術問題之一是提供語音合成方法、裝置及設備,從而提供高音質、自然流暢的語音。
[0004]根據本發明一方面的一個實施例,提供了一種語音合成方法,其中,包括:
[0005]獲取待處理文本的語境信息;
[0006]根據所述語境信息利用時長預測模型確定語音時長,所述時長預測模型是基于長短時記憶神經網絡訓練得到;
[0007]根據所述語境信息及所述語音時長,利用譜和基頻預測模型確定譜和基頻特征參數;
[0008]根據所述譜和基頻特征參數得到合成語音。
[0009]可選地,獲取待處理文本的語境信息具體包括:
[0010]獲取待處理文本音子級語境信息。
[0011]可選地,還包括:
[0012]對獲取的所述語境信息進行降維處理。
[0013]可選地,所述譜和基頻預測模型是基于深度神經網絡訓練得到。
[0014]可選地,所述深度神經網絡包括:長短時記憶神經網絡。
[0015]根據本發明另一方面的一個實施例,提供了一種語音合成裝置,包括:
[0016]用于獲取待處理文本的語境信息的單元;
[0017]用于根據所述語境信息利用時長預測模型確定語音時長的單元,所述時長預測模型是基于長短時記憶神經網絡訓練得到;
[0018]用于根據所述語境信息及所述語音時長,利用譜和基頻預測模型確定譜和基頻特征參數的單元;
[0019]用于根據所述譜和基頻特征參數得到合成語音的單元。
[0020]可選地,用于獲取待處理文本語境信息的單元具體用于:
[0021 ] 獲取待處理文本音子級語境信息。
[0022]可選地,還包括:
[0023]用于對獲取的所述語境信息進行降維處理的單元。
[0024]可選地,所述譜和基頻預測模型是基于深度神經網絡訓練得到。
[0025]可選地,所述深度神經網絡包括:長短時記憶神經網絡。
[0026]根據本發明的另一方面的一個實施例,還提供了一種計算機設備,包括前述語音合成裝置。
[0027]由于本實施例中在獲取待處理文本的語境信息后,利用基于長短時記憶神經網絡訓練得到的時長預測模型,確定出待處理文本的語音時長,并利用譜和基頻預測模型確定出待處理文本的譜和基頻,從而根據該確定的譜和基頻得到合成的語音,本實施例簡化了語音合成步驟,通過基于長短時記憶神經網絡訓練得到的時長預測模型可以避免動態參數生成環境帶來的過平滑現象,從而提供合成高音質、自然流暢的語音。
[0028]本領域普通技術人員將了解,雖然下面的詳細說明將參考圖示實施例、附圖進行,但本發明并不僅限于這些實施例。而是,本發明的范圍是廣泛的,且意在僅通過后附的權利要求限定本發明的范圍。
【附圖說明】
[0029]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
[0030]圖1是根據本發明一個實施例的語音合成方法的流程圖。
[0031]圖2是根據本發明另一個實施例的語音合成方法的流程圖。
[0032]圖3是根據本發明一個實施例的語音合成裝置的框圖。
[0033]圖4是根據本發明另一個實施例的語音合成裝置的框圖。
[0034]圖5是根據本發明一個實施例的基于深度神經網絡訓練時長預測模型示意圖。
[0035]圖6是根據本發明一個實施例的基于深度神經網絡訓練譜和基頻預測模型示意圖。
[0036]附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0037]下面結合附圖對本發明作進一步詳細描述。
[0038]圖1是根據本發明一個實施例的語音合成方法的流程圖。本發明中的方法主要通過計算機設備中的操作系統或處理控制器來完成。將操作系統或處理控制器稱為語音合成裝置。該計算機設備包括但不限于以下中的至少一個:用戶設備、網絡設備。用戶設備包括但不限于計算機、智能手機、PDA等。網絡設備包括但不限于單個網絡服務器、多個網絡服務器組成的服務器組或基于云計算的由大量計算機或網絡服務器構成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。
[0039]如圖1中所示,該語音合成方法主要包括如下步驟:
[0040]S100、獲取待處理文本的語境信息;
[0041]獲取待處理文本的語境信息,即為獲取待合成語音的文本的語境信息,獲取的語境信息包括但不限于:待處理文本中每個文字的聲韻母、聲調、停頓等等。
[0042]其中,與現有技術中只能處理狀態級的語境信息相比,本申請實施例獲取的該語境信息既可以為音子級,也可以為比音子級更小的狀態級,所述音子級為所獲取的語境信息最小級別為拼音的聲韻母;所述比音子級更小的狀態級為所獲取的語境信息最小級為各聲韻母的子片段,也就是,除包含拼音的聲韻母外,還將整個拼音分為若干片段,確定每個聲韻母所在的片段,例如,確定每個聲韻母是位于頭部或中部等等。
[0043]獲取待處理文本的語境信息,可通過對待處理文本進行分析得到,具體分析方法本實施例對此不做具體限制。
[0044]S110、根據所述語境信息利用時長預測模型確定語音時長;
[0045]其中,所述時長預測模型是基于深度神經網絡訓練得到。所述深度神經網絡包括但不限于:長短時記憶神經網絡。如圖5中所示為基于深度神經網絡訓練時長預測模型示意圖,在訓練時長預測模型時,使用深度神經網絡直接根據訓練數據的語境信息和時長之間的映射關系建立時長預測模型(以下簡稱建模),也就是在訓練時長預測模型時,將訓練數據的語境信息作為輸入參數,將訓練數據的時長作為輸出參數,利用深度神經網絡的多層非線性特性可以學習到輸入參數與輸出參數之間復雜的映射關系,例如異或關系等,從而可以訓練得到具有較高精度的時長預測模型。
[0046]另外,使用長短時記憶神經網絡訓練時長預測模型與現有技術HTS的時長預測相比有以下區別:HTS中的時長預測只是對時長特征本身進行建模,而不能像HTS對譜和基頻那樣加入動態差分特征,這樣預測得到的時長和前后輸出的時長不具有相關性;而長短時記憶神經網絡其自動使用前后輸出的時長的建模特性,使得預測得到的時長和前后輸入參數有相關性,反映到人的聽感上就是合成語音更加流暢自然。
[0047]本實施例利用基于深度神經網絡訓練得到的時長預測模型,以待處理文本的語境信息作為該模型的輸入參數,從而確定出待處理文本合成語音后的語音時長,即,確定待處理文本所持續的幀數,通常5毫秒為一幀。
[0048]S120、根據所述語境信息及所述語音時長,利用譜和基頻預測模型確定譜和基頻特征參