專利名稱:一種基于分布式自然韻律優化本地合成方法
技術領域:
本發明涉及一種基于分布式自然韻律優化本地合成方法,屬于語音合成應用領域,主要應用于手機等電子產品的合成系統中,提升語音合成的韻律表現,降低網絡流量。
背景技術:
隨著信息化的發展,語音合成應用越來越多,但語音合成的效果也受到一些硬件條件的限制,導致更好的合成效果無法再應用產品上體現,如硬件設備空間有限、網絡環境不穩定、用戶流量限制等。增加訓練庫的大小,可以提升合成語音效果,但存儲資源會增加,放到終端設備上比較困難,如果使用網絡云調用的方式,在網絡環境不好的情況下,合成響應比較慢,同時下載語音數據,會造成用戶流量比較大。也可以使用分布式的方式,解決流量問題,即合成文本分析前端在服務器運行,合成后端在本地,同時減少了流量、也減少了本地資源大小,但后端效果完全依賴于本地資源。
發明內容
本發明技術解決問題克服現有技術的硬件設備空間有限、網絡環境不穩定以及用戶流量限制等不足,提供一種基于分布式自然韻律優化本地合成方法,具有節省碼流率、提升合成語音韻律效果的優點。本發明技術解決方案一種基于分布式自然韻律優化本地合成方法,包括合成文本前端信息和語音韻律信息提取、低碼率網絡傳輸、及本地合成器解析與合成三個步驟;第一步,利用錄音數據或服務器合成器獲得文本韻律信息和合成語音的部分參數信息,并進行編碼,用于網絡傳輸;所述參數信息包含基頻,時長和頻譜信息,其中基頻和時長信息在網絡端生成;具體實現如下(I)如果沒有錄音數據,則文本輸入到服務器合成系統,文本前端信息和基頻、時長信息均能夠利用服務器合成系統生成,由于服務器端相對于終端設備有更多的運算和存儲空間,服務器端能夠配置最好的語音合成系統,從而獲得更準確的前端和基頻、時長信息;(2)如果是已有的錄音數據,則分為以下三步進行提取(2.1)合成文本前端信息根據錄音數據獲取,先生成相應的韻律文本,再轉換為語音對應的標注文本;(2. 2)時長信息通過發音人已有的合成模型進行狀態時長切分,時長信息為音素的狀態時長,每個音素包含5個狀態,時長信息提前生成,不用等到待合成時再生成;基頻信息利用STRAIGHT工具生成,或者使用人工標注的基頻,之后按照音素對應的狀態為單位,進行基頻靜態參數均值和一階動態參數均值的計算。計算以幀為單位,5ms一幀,其中基頻靜態參數為當前幀H)的對數值,即lfO,一階動態參數為后一幀的IfO減去前一幀的lfO,差值除以2,基頻靜態參數均值是對一個狀態下所有濁音幀對應基頻靜態參數總和的平均,一階動態參數均值是對一個狀態下所有濁音幀對應基頻一階動態參數總和的平均;(2.3)將提取得到的合成文本前端信息輸出到文本文件中,而基頻、時長信息整合到二進制文件中用于網絡傳輸;第二步,低碼率網絡傳輸將第一步生成的合成文本前端信息的文本文件和基頻、時長的二進制文件通過網絡方式傳輸到終端設備上,如手機、車載設備等;第三步,終端設備接收到網絡數據后,利用本地合成器解析與合成,具體步驟為:(3.1)本地合成器接收到合成文本前端信息進行文本解析后,采用傳統參數生成方法,由本地合成模型決策得到文本對應的頻譜信息;(3.2)由網絡傳輸得到二進制文件,解碼后得到相應的狀態時長與基頻均值數據,根據MLPG (Maximum Likelihood Parameter Generation)算法生成基頻數值,結合上述生成的頻譜參數,利用本地參數合成器完成合成,輸出合成語音數據。步驟三(3.2)是在解碼得到相應的狀態時長數據后,對原合成模型決策所得的狀態時長進行替換,使得本地合成的語音在時長分布上與自然語音保持一致。步驟三(3.2)所述的MLPG算法即為,在基頻參數生成中,使用解碼后的基頻均值數據對原合成模型決策所得的基頻均值進行替換,之后基于狀態進行解參,得到每一幀對應的基頻數值,最后使用替換后的時長、MLPG算法得到的基頻結合本地頻譜進行參數合成,MLPG算法計算公式如下:
權利要求
1.一種基于分布式自然韻律優化本地合成方法,其特征在于包括:合成文本前端信息和語音韻律信息提取、低碼率網絡傳輸、及本地合成器解析與合成三個步驟; 第一步,利用錄音數據或服務器合成器獲得文本韻律信息和合成語音的部分參數信息,并進行編碼,用于網絡傳輸;所述參數信息包含基頻,時長和頻譜信息,其中基頻和時長信息在網絡端生成;具體實現如下: (1)如果沒有錄音數據,則文本輸入到服務器合成系統,文本前端信息和基頻、時長信息均能夠利用服務器合成系統生成,由于服務器端相對于終端設備有更多的運算和存儲空間,服務器端能夠配置最好的語音合成系統,從而獲得更準確的前端和基頻、時長信息; (2)如果是已有的錄音數據,則分為以下三步進行提取: (2.1)合成文本前端信息根據錄音數據獲取,先生成相應的韻律文本,再轉換為語音對應的標注文本; (2.2)時長信息通過發音人已有的合成模型進行狀態時長切分,時長信息為音素的狀態時長,每個音素包含5個狀態,時長信息提前生成,不用等到待合成時再生成; 基頻信息利用STRAIGHT工具生成,或者使用人工標注的基頻,之后按照音素對應的狀態為單位,進行基頻靜態參數均值和一階動態參數均值的計算。計算以幀為單位,5ms—幀,其中基頻靜態參數為當前幀H)的對數值,即lfO,一階動態參數為后一幀的IfO減去前一幀的lfO,差值除以2,基頻靜態參數均值是對一個狀態下所有濁音幀對應基頻靜態參數總和的平均,一階動態參數均值是對一個狀態下所有濁音幀對應基頻一階動態參數總和的平均; (2.3)將提取得到的合成文本前端信息輸出到文本文件中,而基頻均值、時長信息整合到二進制文件中用于網絡傳輸; 第二步,低碼率網絡傳輸 將第一步生成的合成文本前端信息的文本文件和基頻均值、時長的二進制文件通過網絡方式傳輸到終端設備上; 第三步,終端設備接收到網絡數據后,利用本地合成器解析與合成,具體步驟為: (3.1)本地合成器接收到合成文本前端信息進行文本解析后,采用傳統參數生成方法,由本地合成模型決策得到文本對應的頻譜信息; (3.2)由網絡傳輸得到二進制文件,解碼后得到相應的狀態時長與基頻均值數據,根據MLPG (Maximum Likelihood Parameter Generation)算法生成基頻數值,結合上述生成的頻譜參數,利用本地參數合成器完成合成,輸出合成語音數據。
2.根據權利要求1所述的一種基于分布式自然韻律優化本地合成方法,其特征在于:所述步驟三(3.2)是在解碼得到相應的狀態時長數據后,對原合成模型決策所得的狀態時長進行替換,使得本地合成的語音在時長分布上與自然語音保持一致。
3.根據權利要求1所述的一種基于分布式自然韻律優化本地合成方法,其特征在于:步驟三(3.2)所述的MLPG算法即為,在基頻參數生成中,使用解碼后的基頻均值數據對原合成模型決策所得的基頻均值進行替換,之后基于狀態進行解參,得到每一幀對應的基頻數值,最后使用替換后的時長、MLPG算法得到的基頻結合本地頻譜進行參數合成, MLPG算法計算公式如下: arg max log P{WC 10,Z)
全文摘要
一種基于分布式自然韻律優化本地合成效果的方法,用于低碼率傳輸自然語音韻律信息并在本地合成,包括以下步驟由錄音數據或者服務器級別的合成系統,生成合成文本的前端標注信息和語音韻律信息。然后通過網絡的方式將信息下載到本地,本地使用這些信息結合后端系統合成。由于使用了更好的前端信息和后端韻律參數,提升了本地合成的韻律,從而提高本地合成效果。同時由于基頻和時長占用的數據量很少,相比傳統網絡合成方式響應速度更快和流量更少。
文檔編號G10L13/10GK103077705SQ201210585840
公開日2013年5月1日 申請日期2012年12月30日 優先權日2012年12月30日
發明者郜靜文, 殷翔, 孫見青, 江源, 劉艷茹, 袁武文, 張鑫, 孫夢娟, 趙志偉, 吳曉如 申請人:安徽科大訊飛信息科技股份有限公司