專利名稱:基音波形信號發生設備、基音波形信號發生方法及程序的制作方法
技術領域:
本發明涉及一種基音波形信號發生設備、基音波形信號發生方法及程序。
下面將根據生成人類語音的過程來說明基音及共振峰。人類語音的生成過程通過振動聲帶部分,首先生成包含脈沖序列的聲音。該脈沖以特定于單詞的每一音素的給定周期生成,該周期稱為“基音”。脈沖的頻譜分布于較寬的頻帶中,同時在基音的整倍數間隔處排列有相對強的頻譜成分。
接下來,隨著脈沖通過聲帶,脈沖在由聲帶和舌頭的形狀所形成的空間中被濾波。濾波生成了僅強調脈沖中某一頻率成分的聲音。(即,產生了共振峰。)上面是語音生成過程。
在聲帶生成的脈沖中需強調的頻率成分隨著聲帶和舌頭移動而改變。如果該變化與單詞相聯系,則形成了語音。因此在需要語音合成的情況下,如果聲帶的濾波特性得到模擬,則在理論上可以得到具有帶有自然感覺的語音質量的合成語音。
由于實際上人類的聲帶實際上非常復雜,所以對于普通計算機可達到的能力而言,模擬人類聲帶及其困難。因此要在將聲帶簡化至一定程度的模型的假設下進行人類聲帶的模擬。進一步,盡管基音在某種程度上可以被看作周期恒定,然而基音易于受到人類感覺或意識的影響,并在現實中輕微波動。用計算機模擬基音的這種變化幾乎是不可能的。
現有的使用語音的基音及共振峰的方案在實現具有自然真實語音質量的語音合成時非常困難。
有一種語音合成方案稱為“主體系統”。該方案通過對實際的人類語音的每一音素及基音進行分類,并通過將這些波形以與文本等匹配的方式聯結而實現語音合成,從而建立數據庫。由于該方案使用了實際的人類語音的波形,所以獲得了通過模擬無法得到的自然真實的語音質量。
但是,生成的人類語音有相當多樣的模式,再加上情緒表達則幾近無限。因此,需要存入數據庫的波形的數量將變得很龐大。所以需要一種壓縮數據庫中的數據量的方案。
作為壓縮數據庫中數據量的方案,已經提出了一種方案,在沒有代表文本等中需表示的原始音素的波形的情況下,選擇一個能夠與該音素最近似的音素。
因為即使這種方案的實現依然使得數據庫的數據量非常大,且該方案通過非自然地聯結不應在第一場合使用的音素而合成語音,所以產生了合成的語音因聯結質量差而不自然的問題。
為此,將一種對要存入數據庫的各波形進行壓縮的方案用作壓縮數據庫中的數據量的方案。可以想到的壓縮波形的方案是將波形轉換為頻譜,并除去由于掩蔽效應而令人類難以聽到的成分。這種方案用于壓縮技術中,如MP3(MPEG 1音頻層3)、ATRAC(適應轉換聲學編碼)和AAC(高級音頻編碼)。
但是,前面所述的基音的波動引起一個問題。
人類生成的語音的頻譜具有相對較強的、以與基音的倒數相等的間隔排列的頻譜。如果語音沒有基音波動,則上述的使用掩蔽效應的壓縮可以有效地完成。但是因為基音隨說話者的感情和意識(情緒)而波動,所以在相同的說話者說出具有多個基音的相同詞(音素)的情況下,基音間隔并不通常保持恒定。如果以多個基音對人類實際發出的語音進行采樣以分析該頻譜,則上述相對較強的頻譜不會出現在分析結果中,且使用基于該頻譜的掩蔽效應的壓縮不能保證有效的壓縮。
為了達到這個目標,根據本發明的第一個方面的基音波形信號發生設備的特征為包含濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
基音波形信號發生設備可以進一步包括濾波系數確定裝置(102,5),其根據基音信號和語音信號的參考頻率確定濾波器的濾波系數,在這種情況下,濾波器可以根據濾波系數確定裝置的決定來改變它的濾波系數。
相位調整裝置可以通過對于所述基音信號的每一單位周期進行語音信號分割而確定每一所述片斷,且相位調整裝置可以對于每一所述片斷進行相移,使相位成為根據通過將所述語音信號相移至不同相位而得到的信號與所述基音信號之間的相關度而得到的相位。
相位調整裝置可以有相位確定裝置(102,8),其對于所述基音信號的每一單位周期進行語音信號分割而確定每一所述片斷,且對于每一所述片斷,在根據將所述語音信號相移至不同相位而得到的信號與所述基音信號之間的相關度而進行相移后確定相位;和裝置(102,9),其將每一所述片斷偏移至所述相位確定裝置確定的相位,并將每一所述片斷的幅度乘以一個常數以改變幅度。
該常數是例如這樣的值使各片斷的幅度的有效值成為共同常數值基音波形信號發生裝置可以進一步根據該常數及采樣信號的采樣數目,生成基音波形信號。
相位調整裝置可以以這樣的方式將語音信號分割為片斷使得用于所述濾波器提取的基音信號的時刻實質上變為0的點成為所述片斷的起點。
根據本發明的第二個方面的基音波形信號發生設備的特征為語音的基音被確定(102,7);根據確定的基音的值,語音信號被分割為包含語音信號的單位基音的片斷(102,8);以及通過在每一片斷中調整語音信號的相位而將所述語音信號處理為基音波形信號(102,9)。
根據本發明的第三個方面的基音波形信號發生方法設備的特征為通過對輸入的語音信號進行濾波而提取基音信號(102,6);根據提取的基音信號而將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位(102,7,8,9);根據經過相位調整的每一片斷中的相位來確定采樣長度,并通過以采樣長度一致地完成采樣而生成采樣信號(102,11);和基于調整結果和所述采樣長度的值,從所述采樣信號中生成基音波形信號(102,15)。
根據本發明的第四個方面的計算機可讀記錄介質的特性為記錄了用于使計算機可以完成如下功能的程序濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
根據本發明的第五個方面的嵌于載波中的計算機數據信號的特征為提供使計算機可以完成如下功能的程序濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
根據本發明的第六個方面的程序的特征是使計算機可以完成如下功能濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
圖2是框圖,其顯示了
圖1中基音波形提取系統的操作流程。
圖3(a)和(b)顯示了相移前語音數據的波形,圖3(c)描繪了基音波形數據的波形圖。
圖4(a)是由現有技術得到的語音頻譜的例子,圖4(b)是由根據本發明的實施例的基音波形提取系統得到的基音波形數據頻譜的例子。
圖5(a)是一個由子頻帶數據代表的波形的例子,該子頻帶數據是從代表由現有方案獲得的語音的語音數據中得到的;圖5(b)是由子頻帶數據代表的波形的例子,該子頻帶數據是從根據本發明實施例的基音波形提取系統中獲得的基音波形數據中得到的。
圖6是框圖,其顯示了根據本發明的第二實施例的基音波形提取系統的結構。
計算機102包括處理器,其包含CPU(中央處理單元)、DSP(數字信號處理器)等;易失性存儲器,其包含RAM(隨機存儲器)等;非易失性存儲器,其包含硬盤單元等;輸入部分,其包含鍵盤等;和輸出部分,其包含CRT(陰極射線管)等。計算機102有預先存儲的基音波形提取程序,并通過執行該基音波形提取程序而完成下面要介紹的過程。(第一實施例操作)接下來,將參考圖2討論基音波形提取程序的操作。圖2顯示了圖1中基音波形提取系統的操作流程。
當用戶將記錄了代表語音波形的語音數據的記錄介質放入記錄介質驅動器101,并指示計算機啟動基音波形提取程序時,計算機102開始基音波形提取程序的過程。
然后,計算機102首先通過記錄介質驅動器101從記錄介質讀取語音數據(圖2的步驟1)。注意,這里假設語音數據為經過PCM(脈沖編碼調制)的數字信號的形式,且語音數據代表以比語音的基音充分短的給定周期進行采樣的語音。
接下來,計算機102通過對來自記錄介質的語音數據進行濾波而生成經濾波的語音數據(基音信號)(步驟S2)。假設基音信號由采樣間隔與語音數據的采樣間隔完全相同的數字形式的數據組成。
計算機102根據下面將要討論的基音長度以及基音信號瞬時值變為0的時間(過零時間),通過執行反饋過程而確定用來生成基音信號的濾波的特性。
即,計算機102對讀取的語音數據執行例如對數倒頻譜分析或基于自相關函數的分析,從而確定該語音數據代表的語音的參考頻率,并得到參考頻率的倒數的絕對值(即基音長度)(步驟S3)。(作為選擇,計算機102也可以通過既執行對數倒頻譜分析又執行基于自相關函數的分析而確定兩個參考頻率,并得到這兩個參考頻率的倒數的絕對值的均值,作為基音長度。)特別地,在對數倒頻譜分析中,首先將讀取的語音數據的強度轉換為與原始值的對數實質上相等的值(對數的底是任意的),并且通過快速傅立葉變換方法(或其它任一種可以生成代表離散變量的傅立葉變換結果的數據的方法)得到經過值轉換的語音數據的頻譜(即對數倒頻譜)。然后,給出對數倒頻譜的峰值的這些頻率中的最小值被指定為參考頻率。
特別地,在基于自相關函數的分析中,首先通過使用讀取的語音數據確定自相關函數r(l),該函數由等式1的右側代表。然后,在使自相關函數r(l)的傅立葉變換得到的結果的函數(周期圖)達到峰值的那些頻率中,將超過預定的最低限值得最小值確定為參考頻率。(注意,N是語音數據的總采樣數,x(α)是從語音數據開頭開始的第α個采樣的值。)r(l)=1NΣt=0N-l-1{x(t+1)·x(t)}····(1)]]>同時,計算機102確定一個時刻,在該時刻基音信號的過零時間來到(步驟84)。然后,計算機102確定基音長度與基音信號的過零周期之間是否相差一預定的量或者更多(步驟S5),并且當確定沒有相差預定的量或更多時,計算機102執行上面介紹的濾波,濾波特性為帶通濾波器,中心頻率是過零周期的倒數(步驟S6)。相反,當確定他們相差預定的量或者更多時,執行上面介紹的濾波,濾波特性為帶通濾波器,中心頻率是基音長度的倒數(步驟S7)。在兩種情況中,希望濾波的導通帶寬應使通帶的上限一直落在語音數據代表的語音的參考頻率的二倍之內。
接下來,計算機102在生成的基音信號的單位周期(例如,一個周期)的邊界到達到時刻(特別地,基音信號過零點時刻),分割從記錄介質讀取的語音數據(步驟S8)。然后,對于分割得到的每一個片斷,得到通過在該片斷中不同地改變語音數據的相位而得到的片斷與該片斷中的基音信號之間的相關度,并將提供最高相關度的語音數據的相位確定為該片斷中語音數據的相位(步驟S9)。然后,對語音數據的片斷進行相移,使它們相互充分同相(步驟S10)。
特別的,計算機102對于每一片斷得到一個值cor,它由例如等式2的右側表示,對于每一種情況,代表相位的φ(其中φ是非負整數)發生不同的變化。然后,將使cor值最大化的φ的值Ψ確定為代表該片斷中語音數據的相位的值。結果,為該片斷確定了使基音信號的相關度最大化的相位值。然后,計算機102將片斷中的語音數據相移(-Ψ)。(注意,n是片斷中的采樣總數,f(β)是片斷中從語音數據開頭開始的第β個采樣,g(γ)是片斷中從基音信號開頭開始的第γ個采樣。)cor=Σi=1n{f(i-φ)·g(i)}······(2)]]>圖3(c)顯示了以上述方式對語音數據進行相移得到的數據(基音波形數據)所代表的波形的一個例子。在圖3(a)中顯示的相移前的語音數據的波形中,由于圖3(b)中顯示的基音波動的影響,由“#1”和“#2”代表的兩個片斷具有互不相同的相位。通過比較,由基音波形數據代表的波的片斷#1和#2消除了基音波動的影響,如圖3(c)所示,且相位相同。如圖3(a)所示,各片斷的起點值接近0。
希望片斷的時間長度應約為一個基音。片斷越長,片斷中的采樣數變得越大,于是產生了這樣的問題基音波形的數據量增加或采樣間隔增加,造成基音波形數據代表的語音不準確。
接下來,計算機102通過對每一片斷,將基音波形數據乘以比例常數而改變幅度,并生成幅度改變后的基音波形數據(步驟S11)。在步驟S11中,還生成比例常數數據,代表在哪一片斷中乘以比例常數的何值。
與語音數據相乘的比例常數以這種方式確定使基音波形數據的各片斷的幅度的有效值成為共同的常值。即以這樣的方式常值為J,計算機102將常值J除以K得到值(J/K),其中K是基音波形數據的片斷的幅度的有效值。這個值(J/K)是要在該片斷中相乘的比例常數。如此為基音波形數據的每一片斷確定比例常數。
然后,計算機102再次對幅度改變后的基音波形數據的各片斷進行采樣(重采樣)。進一步,還生成了表示每一片斷的原始采樣數的采樣數目數據(步驟S12)。
假設計算機102以這種方式執行重采樣基音波形數據的各片斷中的采樣數目之間近似相等,且同一片斷中的采樣是等間隔的。
接下來,計算機102生成數據(內插數據),它代表要內插到經重采樣的基音波形數據的采樣中的值(步驟S13)。經重采樣的基音波形數據和內插數據組成內插后的基音波形數據。計算機102可以使用拉格朗日內插法或格里高利-牛頓內插法實現內插。
然后,計算機102輸出生成的比例常數數據、采樣數目數據和內插后的基音波形數據(步驟S14)。
拉格朗日內插法或格里高利-牛頓內插法都是可以將波形的諧波成分壓縮至相對較少的內插方法。兩種方法在用于兩點間內插的函數上不同,這兩種方法的諧波成分的量依待內插的采樣值而不同。
所以,為了有效使用這兩種方法,計算機102可以同時使用兩種方法,以進一步減少基音波形數據的諧波失真。
特別地,計算機102首先生成數據(拉格朗日內插數據),該數據代表拉格朗日內插法要內插到重采樣后的基音波形數據的采樣中的值。重采樣后的基音波形數據和拉格朗日內插數據組成拉格朗日內插后的基音波形。
同時,計算機102生成數據(格里高利-牛頓內插數據),該數據代表格里高利-牛頓內插法要內插到重采樣后的基音波形數據的采樣中的值。重采樣后的基音波形數據和格里高利-牛頓內插數據組成格里高利-牛頓內插后的基音波形。
接下來,計算機102通過快速傅立葉變換方法(或其它任一種可以生成代表離散變量的傅立葉變換結果的數據的方法),得到拉格朗日內插后的基音波形數據的頻譜以及格里高利-牛頓內插后的基音波形的頻譜。
接下來,根據拉格朗日內插后的基音波形數據的頻譜以及格里高利-牛頓內插后的基音波形的頻譜,計算機102確定拉格朗日內插后的基音波形數據和格里高利-牛頓內插后的基音波形中哪一個具有較小的諧波失真。
對基音波形數據的每一片斷進行重采樣可能在每一片斷的波形內部引起失真。盡管計算機102通過將諧波成分最小化的多種方法對基音波形數據進行內插并從中選擇,但最終包含在由計算機102輸出的基音波形數據中的諧波成分的量被抑制小。
計算機102可以獲得等于或大于參考頻率的二倍的成分的有效值,并將獲得的有效值中較小的一個確定為具有較小諧波失真的基音波形數據的頻譜,其中所述參考頻率是對于每一拉格朗日內插后的基音波形數據的頻譜以及格里高利-牛頓內插后的基音波形數據的頻譜的參考頻率。
然后,計算機102隨基音波形數據輸出生成的比例常數數據和采樣數目數據,該基音波形數據是拉格朗日內插后的基音波形數據和格里高利-牛頓內插后的基音波形數據中諧波失真較小的一個。
對將從計算機102輸出的基音波形數據片斷的單位基音的長度和幅度進行標準化,并消除基音波動的影響。因此,從基音波形數據的頻譜中得到表示共振峰的尖峰,使共振峰可以以高精確度從基音波形數據中提取出來。
特別的,未消除基音波動的語音數據的頻譜由于基音波動,沒有清楚的峰且分布廣闊,例如圖4(a)所示。
相反,通過使用該基音波形提取系統,從具有如圖4(a)所示的頻譜的語音數據中生成基音波形數據,則該基音波形數據的頻譜變為例如圖4(b)所示。如圖所示,基音波形數據的頻譜包含清楚的共振峰。
從未消除基音波動的語音數據中得到的子頻帶數據(即,代表在該語音數據代表的單獨共振峰成分的強度中根據時間的變化的數據)顯示了由于基音波動而引起的復雜的波形,它在短時期內重復變化,例如圖5(a)所示。
通過對比,從代表了如圖4(b)所示的頻譜的語音數據中得到的子頻帶數據顯示的波形包括許多DC成分且變化較小,例如圖5(b)所示。
圖5(a)(或圖5(b))中的“BND0”曲線顯示了由語音數據(或基音波形數據)代表的語音的參考頻率成分的強度中根據時間的變化。曲線“BNDk”(其中k是從1到8的整數)顯示了由語音數據(或基音波形數據)代表的語音的第(k+1)諧波成分的強度中根據時間的變化。
因為從計算機102輸出的基音波形數據中消除了基音波動的影響,所以共振峰成分高度再現地從基音波形中提取出來。即可以容易地從代表來自同一說話者的語音的基音波形數據中提取基本相同的共振峰成分。因此,在使用例如電碼本的方法壓縮語音的情況下,可以方便地使用在多種機會中得到的說話者的共振峰數據的混合。
進一步,可以使用采樣數目數據確定基音波形數據的每一片斷的原始時間長度,且可以使用比例常數數據確定基音波形數據的每一片斷的原始幅度。因此可以通過還原基音波形數據的每一片斷的長度和幅度,方便地還原原始語音數據。
基音波形提取系統的結構不限于上面的說明。
例如,計算機102可以通過通訊電路,如電話電路、專用電路或衛星電路,從外界獲得語音數據。在這種情況,計算機102應具有通訊控制部分,該部分包含例如調制解調器或DSU(數據服務單元)等。在這種情況下,不需要記錄介質驅動器101。
計算機102可以具有聲音采集器,它包含麥克風、AF(音頻)放大器、采樣器、A/D(模數)轉換器和PCM編碼器等。聲音采集器應通過放大代表麥克風采集的語音的語音信號,完成對語音信號的采樣及A/D轉換,并將采樣的語音信號進行PCM調制,從而得到語音數據。計算機102獲得到語音數據不必必須是PCM信號。
計算機102可以通過通訊電路向外界提供比例常數數據、采樣數目數據和基音波形數據。在這種情況,計算機102也應有包含調制解調器、DSU等的通訊控制部分。
計算機102可以通過記錄介質驅動器101,將比例常數數據、采樣數目數據和基音波形數據寫在置于記錄介質驅動器101中的記錄介質上。作為選擇,它也可以寫在包含硬盤單元等的外部存儲設備上。在這種情況下,計算機102應具有控制電路,如硬盤控制器。
由計算機102執行的內插方法不限于拉格朗日內插和格里高利-牛頓內插,而可以是其它方法。計算機102可以以三種或更多種方法對語音數據進行內插,并將諧波失真最小的選為基音波形數據。計算機102可以有單獨的內插部分,用來以單一類型的方法對語音數據進行內插,并直接將數據作為基音波形數據處理。
進一步,計算機102不必將語音數據的幅度度的有效值設置得相互相等。
計算機102可以不執行對數倒頻譜分析或基于自相關函數的分析,在這種情況下,由對數倒頻譜分析和基于自相關函數的分析之一而得到的參考頻率的倒數應直接作為基音長度。
由計算機102相移的語音數據的每一片斷中的語音數據量不必是(-Ψ);例如,計算機102可以在每一片斷中將語音數據相移(-Ψ+δ),其中δ是對于代表初相的各片斷所公用的實數。計算機102分割語音數據的語音信號的位置不必再基音信號過零的時刻,而可以是例如基音信號變為一個非零的預定值的時刻。
如果初相α是0且在基音信號過零時刻分割語音數據,則每一片斷的起點的值變得接近0,從而通過將語音數據分割為單獨片斷而使包括在每一片斷中的噪聲量變小。
計算機102不必是專用系統,而可以是個人電腦等。基音波形提取程序可以從存儲基音波形提取程序的介質(CD-ROM、MO、軟盤等)安裝入計算機102,或者基音波形提取程序可以上載到通訊電路的電子布告欄(BBS)并通過通訊電路分發。載波可以與代表基音波形提取程序的信號進行調制,獲得的調制波可以被傳送,且接受該調制波的設備可以通過對調制波進行解調而恢復基音波形提取程序。
隨著基音波形提取程序在OS的控制下以與其它應用程序相同的方式啟動,并由計算機102執行,可以執行上述過程。在OS共享部分上述過程的情況下,可以從記錄介質中存儲的基音波形提取程序中除去控制該過程的部分。(第二實施例)圖6顯示了根據本發明的第二實施例的基音波形提取系統的結構。如圖所示,基音波形提取系統包含語音輸入部分1、對數倒頻譜分析部分2、自相關分析部分3、權重計算部分4、BPF系數計算部分5、BPF(帶通濾波器)6、過零分析部分7、波形相關分析部分8、相位調整部分9、幅度固定部分10、基音信號固定部分11、內插部分12A和12B、傅立葉變換部分13A和13B、波形選擇部分14和基音波形輸出部分15。
語音輸入部分1包含例如類似第一實施例中的記錄介質驅動器101的記錄介質驅動器等。
語音輸入部分1輸入代表語音的波形的語音數據,并將其提供至對數倒頻譜分析部分2、自相關分析部分3、BPF6、波形相關分析部分8和幅度固定部分10。
注意,語音數據的形式為PCM調制的數字信號,且代表以比語音的基音充分短的給定周期進行采樣的語音。
對數倒頻譜分析部分2、自相關分析部分3、權重計算部分4、BPF系數計算部分5、BPF(帶通濾波器)6、過零分析部分7、波形相關分析部分8、相位調整部分9、幅度固定部分10、基音信號固定部分11、內插部分12A、內插部分12B、傅立葉變換部分13A、傅立葉變換部分13B、波形選擇部分14和基音波形輸出部分15中的每一個由專用電子電路或DSP或CPU等組成。
可以由相同的DSP或CPU執行對數倒頻譜分析部分2、自相關分析部分3、權重計算部分4、BPF系數計算部分5、BPF(帶通濾波器)6、過零分析部分7、波形相關分析部分8、相位調整部分9、幅度固定部分10、基音信號固定部分11、內插部分12A、內插部分12B、傅立葉變換部分13A、傅立葉變換部分13B、波形選擇部分14和基音波形輸出部分15的所有或一些功能。
基音波形提取系統通過使用對數倒頻譜分析和基于自相關函數的分析,確定基音的長度。
即,對數倒頻譜分析部分2首先對語音輸入部分1提供的語音數據進行對數倒頻譜分析,以確定該語音數據代表的語音的參考頻率,生成表示該確定的參考頻率的數據,并將其提供給權重計算部分4。
特別地,由于語音數據是從語音輸入部分1提供的,所以對數倒頻譜部分2首先將該語音數據的強度轉換為與原始值的對數實質上相等的值。(對數的底可以任選。)接下來,對數倒頻譜分析部分2通過快速傅立葉變換方法(或其它任一種可以生成代表離散變量的傅立葉變換結果的數據的方法)得到經過值轉換的語音數據的頻譜(即對數倒頻譜)。
然后,將給出對數倒頻譜的峰值的那些頻率中的最小值確定為參考頻率,生成代表確定的參考頻率的數據,并將該數據提供給權重計算部分4。
同時,當語音輸入部分1提供語音數據時,自相關分析部分3根據語音數據的波形的自相關函數,確定語音數據代表的語音的參考頻率,生成代表確定的參考頻率的數據,并將其提供給權重計算部分4。
特別地,當語音輸入部分1提供語音數據時,自相關分析部分3首先確定前面提到的自相關函數r(l)。然后,在給出自相關函數r(l)的傅立葉變換得到的結果的周期圖的峰值的那些頻率中,將超過預定的低限值的最小值確定為參考頻率,生成代表確定的參考頻率的數據,并將其提供給權重計算部分4。
由于總共提供了兩條代表參考頻率的數據,對數倒頻譜分析部分2和自相關分析部分3各提供一條,所以權重計算部分4獲得由這兩條數據代表的參考頻率的倒數的絕對值的均值。然后,生成代表所得值的數據(即平均基音長度),并將其提供給BPF系數計算部分5。
隨著權重計算部分4提供代表平均基音長度的數據且過零分析部分7提供以后將討論的過零信號,BPF系數計算部分5確定基音長度、基音信號及過零周期之間是否相差一預定量或者更多。當確定它們沒有這么多時,控制BPF6的頻率特性,將過零周期的倒數設置為中心頻率(BPF6的通帶的中心頻率)。反過來,當確定它們相差該預定量或者更多時,控制BPF6的頻率特性,將平均基音長度的倒數設為中心頻率。
BPF6實現中心頻率可變的FIR(有限沖擊響應)型濾波器的功能。
特別地,BPF6根據BPF系數計算部分5的控制設置它的中心頻率。然后,語音輸入部分1提供的語音數據被濾波,且濾波后的語音數據(基音信號)被提供給過零分析部分7和波形相關分析部分8。基音信號包含的數據的數字形式的采樣間隔與語音數據的采樣間隔實質上相同。
希望BPF6的帶寬應使BPF6的通帶的上限總是落在代表語音數據的語音的參考頻率的二倍之內。
過零分析部分7確定BPF6提供的基音信號的瞬時值變為0的時刻(過零時間),且向BPF系數計算部分5提供代表確定的時刻的信號(過零信號)。以這種方式確定語音數據的基音的長度。
注意,過零分析部分7可以確定基音信號的瞬時值變為非零的預定值的時刻,并向BPF系數計算部分5提供代表確定的時間的信號,取代過零信號。
波形相關分析部分8從語音輸入部分1得到語音數據,并從波形相關分析部分8得到基音信號,它在基音信號的單位周期(例如一個周期)的邊界到來時分割語音。然后,對于由分割形成的每一片斷,得到通過在該片斷中不同地改變語音數據的相位的片斷和該片斷中的基音信號之間的相關度,且將提供最高相關度的語音數據的相位確定為該片斷中語音數據的相位。以這種方式為每一片斷確定語音數據的相位。
特別地,對于每一片斷,波形相關分析部分8確定例如前面提到的值Ψ,生成代表值Ψ的數據并將其提供給相位調整部分9,作為代表該片斷中語音數據的相位的相位數據。希望片斷相位的時間長度應約為一個基音。
當語音輸入部分1提供語音數據,且波形相關分析部分8提供代表語音數據的每一片斷的相位Ψ的數據時,相位調整部分9通過對各片斷中的語音數據的相位移相(-Ψ),將相位設置為互相相等。然后,將相移后的語音數據(即基音波形數據)提供給幅度固定部分10。
接下來,在相位調整部分9提供基音波形數據時,幅度固定部分10通過對每一片斷將基音波形數據與比例常數相乘而改變幅度,并將幅度改變后的基音波形數據提供給基音信號固定部分11。進一步,還生成了比例常數數據,并將其提供給基音波形輸出部分15,該比例常數數據指示在哪一片斷中乘以比例常數的何值。以這種方式確定與語音數據相乘的比例常數。假設與語音數據相乘的比例常數的確定使得基音波形數據的各片斷的幅度的有效值變為共同的常值。
在幅度固定部分10提供幅度改變后的基音波形數據時,基音信號固定部分11再次對幅度改變后的基音波形數據的各片斷進行采樣(重采樣),并將重采樣的基音波形數據提供給內插部分12A和12B。
進一步,基音信號固定部分11生成指示每一片斷的原始采樣數的采樣數目數據,并將其提供給基音波形輸出部分15。
假設基音信號固定部分11以這樣的方式執行重采樣基音波形數據的各片斷中的采樣數變得互相近似相等,且同一片斷中的采樣間距相等。
內插部分12A和12B使用兩種類型的內插方法,實現對基音波形數據的內插。
即,在基音信號固定部分11提供重采樣時,內插部分12A生成數據,該數據代表拉格朗日內插法要內插到重采樣后的基音波形數據的采樣中的值,并將該數據(拉格朗日內插數據)與重采樣的基音波形數據一起提供給傅立葉變換部分13A和波形選擇部分14。重采樣的基音波形數據和拉格朗日內插數據組成拉格朗日內插后的基音波形數據。
同時,內插部分12B生成數據(格里高利-牛頓內插數據),該數據代表格里高利-牛頓內插法要內插到基音信號固定部分11提供的基音波形數據的采樣中的值,并將該數據與重采樣的基音波形數據一起提供給傅立葉變換部分13B和波形選擇部分14。重采樣的基音波形數據和格里高利-牛頓內插數據組成格里高利-牛頓內插后的基音波形數據。
在內插部分12A(或12B)提供拉格朗日內插后的基音波形數據(或格里高利-牛頓內插后的基音波形數據)時,傅立葉變換部分13A(或13B)通過快速傅立葉變換方法(或其它任一種可以生成代表離散變量的傅立葉變換結果的數據的方法)得到該基音波形數據的頻譜。然后,代表獲得到頻譜的數據被提供給波形選擇部分14。
當內插部分12A和12B提供了代表相同語音的內插后的基音波形數據,且傅立葉變換部分13A和13B提供了那些基音波形數據的頻譜時,波形選擇部分根據提供的頻譜,確定拉格朗日內插后的基音波形數據和格里高利-牛頓內插后的基音波形數據中哪一個的諧波失真較小。然后,將拉格朗日內插后的基音波形數據和格里高利-牛頓內插后的基音波形數據中被確定為諧波失真較小的一個被提供給基音波形輸出部分15。
當幅度固定部分10提供比例常數數據,基音信號固定部分11提供采樣數目數據且波形選擇部分14提供基音波形數據時,基音波形輸出部分輸出這三條互相關聯的數據。
將要從基音波形輸出部分15輸出的基音波形數據片斷的單位基音的長度和幅度也被標準化,且消除了基音波動的影響。因此,從基音波形數據的頻譜中得到表示共振峰的尖峰,使共振峰可以以高精確度從基音波形數據中提取出來。
因為從基音波形輸出部分15輸出的基音波形數據中消除了基音波動的影響,所以以高精確度從基音波形數據中提取出共振峰成分。
進一步,可以使用采樣數目數據確定基音波形的每一片斷的原始時間長度,且可以使用比例常數數據確定基音波形數據的每一片斷地原始幅度。
基音波形提取系統的結構也不限于上面的說明。
例如,語音輸入部分1可以通過通訊電路,如電話電路、專用電路或衛星電路從外界獲得語音數據。在這種情況,語音輸入部分1應具有通訊控制部分,該部分包含例如調制解調器或DSU等。
語音輸入部分1可以具有聲音采集器,它包含麥克風、AF放大器、采樣器、A/D轉換器和PCM編碼器等。聲音采集器通過放大代表麥克風采集的語音的語音信號,完成對語音信號的采樣及A/D轉換,并將采樣的語音信號進行PCM調制,從而應得到語音數據。語音輸入部分1獲得的語音數據不必是PCM信號。
基音波形輸出部分15可以通過通訊電路向外界提供比例常數數據、采樣數數據和基音波形數據。在這種情況,基音波形輸出部分15應有包含調制解調器、DSU等的通訊控制部分。
基音波形輸出部分15可以將比例常數數據、采樣數數據和基音波形數據寫在外部記錄介質或包含硬盤單元等的外部存儲設備上。在這種情況下,基音波形輸出部分15應具有記錄介質驅動器和控制電路,如硬盤控制器。
內插部分12A和12B實現的內插不限于拉格朗日內插和格里高利-牛頓內插方法,而可以是其它方法。基音波形提取系統可以以三種或更多種方法對語音數據進行內插,并將諧波失真最小的選為基音波形數據。
進一步,基音波形提取系統可以有單一的內插部分,用來以單一類型的方法對語音數據進行內插,并直接將數據作為基音波形數據處理。在這種情況下,基音波形提取系統既不需要傅立葉變換部分13A或13B,也不需要波形選擇部分14。
進一步,基音波形提取系統不必將語音數據的幅度度的有效值設置得相互相等。因此,幅度固定部分10不是必需的結構,且相位調整部分9可以立即將經相移的語音數據提供給基音信號固定部分11。
該基音波形提取系統不必有對數倒頻譜分析部分2(或自相關分析部分3),在這種情況下,權重計算部分4可以直接將對數倒頻譜分析部分2(或自相關分析部分3)得到的參考頻率的倒數作為平均基音長度。
過零分析部分7可以提供來自BPF6的基音信號,將其作為BPF系數計算部分5的過零信號。
如上所述,本發明實現了一種基音波形信號發生設備及基音波形信號發生方法,可以準確地確定基音中包含波動的語音的頻譜。
本發明不限于上述實施例,可以作出多種改進及應用。
根據巴黎公約,本專利申請要求2001年8月31日向日本專利局提交的日本專利申請的優先權,并且該日本專利申請的內容在此引入作為參考。
權利要求
1.一種基音波形信號發生設備,其特征在于包括濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
2.根據權利要求1所述的基音波形信號發生設備,進一步包括濾波系數確定裝置(102,5),其根據所述基音信號和所述語音信號的參考頻率確定所述濾波器的濾波系數,且其中所述濾波器根據所述濾波系數確定裝置的決定來改變它的濾波系數。
3.根據權利要求1所述的基音波形信號發生設備,其中所述相位調整裝置通過對于所述基音信號的每一單位周期進行語音信號分割而確定每一所述片斷,且相位調整裝置可以對于每一所述片斷進行相移,使相位成為根據通過將所述語音信號相移至不同相位而得到的信號與所述基音信號之間的相關度而得到的相位。
4.根據權利要求1所述的基音波形信號發生設備,其中所述相位調整裝置包括相位確定裝置(102,8),其對于所述基音信號的每一單位周期進行語音信號分割而確定每一所述片斷,且對于每一所述片斷,在根據將所述語音信號相移至不同相位而得到的信號與所述基音信號之間的相關度而進行相移后確定相位;和裝置(102,9),其將每一所述片斷偏移至所述相位確定裝置確定的相位,并將每一所述片斷的幅度乘以一個常數以改變幅度。
5.根據權利要求4所述的基音波形信號發生設備,其中所述常數是這樣的值使各片斷的幅度的有效值成為共同常數值。
6.根據權利要求5所述的基音波形信號發生設備,其中所述基音波形信號發生裝置進一步根據所述常數及所述采樣信號的采樣數目,生成所述基音波形信號。
7.根據權利要求1所述的基音波形信號發生設備,其中所述相位調整裝置以這樣的方式將所述語音信號分割為所述片斷使得用于所述濾波器提取的基音信號的時刻實質上變為0的點成為所述片斷的起點。
8.一種基音波形信號發生設備,其特征為語音的基音被確定(102,7);根據確定的基音的值,語音信號被分割為包含語音信號的單位基音的片斷(102,8);以及通過在每一片斷中調整語音信號的相位而將所述語音信號處理為基音波形信號(102,9)。
9.一種基音波形信號發生方法,其特征為通過對輸入的語音信號進行濾波而提取基音信號(102,6);根據提取的基音信號而將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位(102,7,8,9);根據經過相位調整的每一片斷中的相位來確定采樣長度,并通過以采樣長度一致地完成采樣而生成采樣信號(102,11);和基于調整結果和所述采樣長度的值,從所述采樣信號中生成基音波形信號(102,15)。
10.一種計算機可讀記錄介質,記錄了用于使計算機可以完成如下功能的程序濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
11.一種計算機數據信號,其嵌于載波中,并代表了使計算機可以完成如下功能的程序濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
12.一種程序,使計算機可以完成如下功能濾波器(102,6),通過對輸入語音信號進行濾波而提取基音信號;相位調整裝置(102,7,8,9),根據由所述濾波器提取的基音信號將所述語音信號分割為片斷,并根據與每一片斷中的基音信號的相關度而調整相位;采樣裝置(102,11),根據由所述相位調整裝置進行相位調整的每一片斷中的相位來確定采樣長度,并通過與采樣長度一致地實現采樣而生成采樣信號;和基音波形信號發生裝置(102,15),基于所述相位調整裝置的調整結果以及所述采樣長度的值,從所述采樣信號中生成基音波形信號。
全文摘要
計算機對語音數據進行濾波,并根據濾波結果過零的時刻確定基音長度。只要從語音數據的對數倒頻譜提取的基音長度與周期圖的偏差不超過預定量,就將濾波的通帶的中央頻率控制為與根據過零時間確定的基音長度的倒數相等的值。接下來,計算機根據濾波結果,將語音數據分割為片斷的單元基音,并將各片斷的相位和采樣數設為常數,以消除基音波動的影響。然后,通過多種方法對獲得的基音波形數據進行內插,且將其中諧波成分較少的數據與表示每一片斷的原始采樣數目及幅度的數據一起輸出。
文檔編號G10L19/08GK1473325SQ02802825
公開日2004年2月4日 申請日期2002年8月30日 優先權日2001年8月31日
發明者佐藤寧 申請人:株式會社建伍