專利名稱:波形信號分析、基音探測以及句子探測的方法和設備的制作方法
技術領域:
本發明的領域本發明涉及用于對波形信號進行分析的方法和設備及其在基音探測上的應用。另外,本發明還涉及用于探測語音中的基音的系統和方法。此方式,本發明還涉及用于探測聲音信號中的句子的設備和方法。
本發明的背景所有的聲音都可被分解成一系列的簡單振蕩。這些簡單振蕩具有一個頻譜和時間分布。
最經常使用的波形分析方法是付里葉時頻變換(FTT)。然而,FTT當被用于諧聲分析和基音探測時具有其局限。
諧聲對于人類的聽覺是非常重要的。它包括了人的語音的元音聲、人的唱歌音、鳥叫聲、多數的動物叫聲、以及多數的音樂聲。諧聲不僅悅耳,而且還攜帶有我們所需的信息。
圖11以時間-能量曲線的形式顯示了諧聲的一個例子,它是從一個男人的元音“u”的聲音中取中的。
與圖11所示的采用時間-能量曲線的方式不同的一種分析和描述聲音的一種方法,是采用其頻率-能量頻譜,如利用FTT從其時間-能量曲線所獲得的頻譜。諧聲的頻譜的特點,在于它包括有若干窄峰。這表明諧聲的總能量的一個很大部分集中在與這些峰相對應的頻率上。另外,諧聲的頻譜的峰的格局在短時間內比較穩定。換言之,其主要的頻率分量在頻率和能量上均保持穩定。如果一段聲音的頻譜的峰的格局迅速地改變,則該頻譜所對應的不是諧聲而是噪音爆破音。
由于諧聲的頻譜需要從一段聲音(例如從一個FTT窗口)獲得,它代表了該段聲音的全局特征。這意味著一個頻譜難于使我們檢驗該段聲音的更為詳細的特征,且探測和測量具有迅速的改變的聲音(諸如爆破音)的能力因而受到了限制。
諧聲的時間-能量曲線(波形)具有如下特征1)首先,諧聲可被分成彼此幾乎相等的部分,如圖12所示。在此,“幾乎”意味著不完整相等,因而我們說諧聲具有“偽”周期性。這些部分中的最短者被稱為“基音”,它是諧聲的基本聲調。所以諧聲也被稱為“基音聲”。如果一段聲音中的基音彼此嚴格相同(即在頻譜中聲音的所有能量都在峰頻率上且所有的峰的寬度均為零),則該聲音將變得不動聽、不清晰且令人感覺枯燥。這顯示出,基音之間的“偽周期性”或小的改變,雖然似乎是隨機的,但卻不是沒有意義的,相反地,它對于我們的聽覺是重要的,因為它使諸如人類語音中的元音的諧聲能夠與背景聲或噪音相區分。
2)正常的人類語音的基音頻率限于一定的范圍,即在一個最小基音頻率與一個最大基音頻率之間的范圍。
3)諧聲應該具有足夠的持續時間。例如,人類語音的一個元音應該具有例如至少五個基音的持續時間。
4)人類語音中的諧聲應該具有高于其周圍聲音的能量。例如,人類語音的元音的聲音能量高于其相鄰的輔音(摩擦音、爆破音、鼻音等)。
這些特征中的某些被用于本發明的諧聲探測和基音探測方法中。
人類語音中的基音的探測,對于語音識別是非常重要的。
為了探測諧聲和基音,本發明的發明人對一種波形部分比較方法進行了測試,如以下所述的。波形部分比較(WSC)方法WSC方法采用了原始的波形流作為輸入數據。首先,它借助例如零交點法把該波形流分成小的段。隨后,它把當前的段與具有與當前段相同的寬度的一個相鄰的段進行比較,如圖13(a)和(b)所示。根據該比較的結果,利用相似性評分,而探測諧聲,且具有最高的相似性評分的相似的段的寬度被確定為基音。
這種段比較是通過計算兩個段之間的點與點的差而進行的。
然而,該WSC方法具有其問題,這些問題影響了從聲音信號探測基音。這些問題包括1)低頻干擾當一個元音聲與一個比較強的低頻振蕩耦合時,段比較的結果將受到嚴重的影響,如圖14(a)-14(c)中的例子所示。從圖14(a)-(c)的例子可見,WSC方法未能探測出基音,因為具有W0寬度的段與具有寬度W1的其右側相鄰的段相差太大。顯然,這種大的差別是由于加到原來的聲音上的低頻振蕩造成的在實際中,交流電源經常造成這樣的問題,因為它把50Hz的低頻振蕩加到探測或記錄的聲音上。2)雙重基音寬度錯誤有時,兩個基音段被探測為一個基音,因而探測到的基音的寬度被加倍。有時基音的寬度甚至被增大了兩倍。
圖14(c)顯示的例子也是雙倍基音寬度錯誤問題的一個例子,如圖15所示。3)高而窄的小段移動錯誤當一個元音聲由某些窄而高的小段組成,且在相鄰的基音段中的這些窄而高的段的位置發生了移動,則比較的結果將受到嚴重的影響,如圖16的例子所示。這是由于在峰附近的兩個段中的曲線之間的差由于信號電平的急劇改變而變得很大,如圖16中的Pi和Pi所示。峰越窄,誤差越大。
本發明的概述本發明的第一個目的,是提供一種采用波-三角變換(WTT)來分析波形信號的方法。
本發明的第二個目的,是提供采用WTT來分析波形信號的一種設備。
本發明的第三個目的,是提供利用WTT來探測聲音信號中的基音的一種方法。
本發明的第四個目的,是提供利用WTT來探測聲音信號中的基音的一種設備。
本發明的第五個目的,是提供用于探測聲音信號中的句子的一種方法。
本發明的第六個目的,是提供用于探測聲音信號中的句子的一種設備。
在本發明的第一個方面,提供了一種用于分析波形信號的一種方法,包括一個頂點探測步驟,用于探測波形信號的波形的一組頂點;以及一個三角提取步驟,用于根據頂點探測步驟所探測到的一組頂點來提取一組三角。
在本發明的第二個方面,提供了一種用于分析波形信號的設備,包括一個頂點探測裝置,用于探測該波形信號的波形的一組頂點;以及一個三角提取裝置,用于根據該頂點探測裝置所探測到的該組頂點來提取一組三角。
在本發明的第三個方面,提供了用于分析波形信號的一種系統,包括一個信號探測裝置,用于探測作為模擬信號的該波形信號;一個模擬/數字轉換裝置,用于把該模擬波形信號轉換成數字波形信號;一個頂點探測裝置,用于探測該數字波形信號的波形中的一組頂點;以及一個三角提取裝置,用于根據該頂點探測裝置探測到的該組頂點來提取一組三角。
在本發明的第四個方面,提供了用于分析波形信號的一種系統,包括信號再現裝置,用于從一個記錄介質再現該波形信號;一個頂點探測裝置,用于探測該波形信號的波形的一組頂點;以及一個三角提取裝置,用于根據該頂點探測裝置所探測到的該組頂點來提取一組三角。
在本發明的第五個方面,提供了用于探測聲音信號中的基音的一種方法,包括一個波-三角變換(WTT)步驟,用于對該聲音信號進行波-三角變換;一個能量-寬度譜計算步驟,用于計算該聲音信號的一個能量-寬度譜;一個候選鏈合峰確定步驟,用于根據所述能量-寬度譜計算步驟所計算出的能量-寬度譜來確定一個候選鏈合峰;以及一個周期性確定和評價步驟,用于確定和評價所述候選鏈合峰中的這些三角的周期性。
在本發明的第六個方面,提供了用于探測聲音信號中的基音的一種設備,包括一個波-三角變換(WTT)部分,用于對該聲音信號進行波-三角變換;一個能量-寬度譜計算裝置,用于計算該聲音信號的一個能量-寬度譜;一個候選鏈合峰確定裝置,用于根據所述能量-寬度譜計算裝置計算出的能量-寬度譜來確定一個候選鏈合峰;以及一個周期性確定和評價裝置,用于確定和評價所述候選鏈合峰中的三角的周期性。
在本發明的第七個方面,提供了用于探測聲音信號中的句子的一種方法,包括一個基音-噪音探測步驟,用于探測該聲音信號中的基音段、噪音段和高頻噪音段;
一個段結合步驟,用于把該基音段、噪音段、和高頻噪音段結合成一系列的詞段和間隙;一個句子間隙確定步驟,用于確定一組句子間隙,從而在每對相鄰的句子間隙之間限定一個候選句子區;一個句子評分步驟,用于為各個候選句子區計算一個得分;以及一個句子確定步驟,用于根據該句子評分步驟的結果確定該候選句子區是否是一個句子。
在本發明的第八個方面,提供了用于探測聲音信號中的句子的一種設備,包括一個基音-噪音探測部分,用于探測該聲音信號中包含的基音段、噪聲段、以及高頻噪音段;一個段結合裝置,用于把這些基音段、噪音段和高頻噪音段結合成一系列的詞段和間隙;一個句子間隙確定裝置,用于確定一組句子間隙,以在各對相鄰的句子間隙之間限定一個候選句子區;一個句子評分裝置,用于為每一個候選句子區計算一個得分;以及一個句子確定裝置,用于根據該句子評分裝置獲得的得分來確定各個候選句子區是否是一個句子。
本發明的附圖的簡要描述從以下結合附圖對本發明的最佳實施例所進行的詳細描述,本發明的其他特征、優點和實施例將變得顯而易見。在附圖中圖1用于說明三角及其表征參數;圖2顯示了一段波形信號及其頂點的例子;圖3用于說明如何從波形信號提取三角;圖4(a)-4(c)用于說明為波形信號產生平滑點的處理;圖5顯示了用于從波形信號提取三角的WTT處理的一個最佳實施例的流程圖;圖6顯示了本發明的一種WTT設備的一個最佳實施例的設置;圖7是一個能量-寬度-時間圖,顯示了利用本發明的WTT方法從一段聲音信號提取的三角;圖8顯示了本發明的WTT設備的另一最佳實施例的設置;圖9顯示了本發明的一種WTT系統的一個最佳實施例的設置;圖10用于說明分割波形信號的一種方法;圖11顯示了一個男人發出的元音“u”的語音信號的一段波形;圖12用于顯示圖11所示的語音信號中的基音;圖13(a)和13(b)用于說明用于探測語音信號中的基音的傳統波形段比較(WSC)方法;圖14(a)至14(c)用于說明在傳統的WSC方法中出現的低頻振蕩錯誤;圖15用于顯示當采用傳統的基音探測方法時出現的雙基音錯誤;圖16用于顯示當采用傳統的基音探測方法時出現的高而窄的小段偏移錯誤;圖17在其上部顯示了一個中國男人發出的元音“u”的波形,并在該波形的下方顯示了對該波形的WTT分析的結果,該結果被表示為在與三角的寬度對應的不同高度處顯示的三角;圖18在其上部顯示了一個日本女子發出的元音“ou”的波形,它是具有弱的基音頻率的元音的一個例子;圖18還顯示了利用WTT處理從該波形提取的三角;圖19顯示了本發明的基音探測設備的一個最佳實施例;圖20是顯示圖19所示的基音探測設備的實施例的操作的流程圖;圖21顯示了圖18的上部所示的語音信號的能量-寬度譜;圖22顯示了本發明的用于確定和評價候選鏈合峰的三角的周期性的處理的一個最佳實施例;圖23顯示了本發明的候選峰探測處理的一個實施例;圖24顯示了本發明的周期性確定和評價單元的一個實施例的設置;圖25顯示了對圖18所示的語音信號進行本發明的基音探測的結果;圖26顯示了為圖18所示的語音信號探測到的最高三角鏈(MHTC);圖27a是顯示本發明的用于構造一個候選MHTC的處理的一個最佳實施例的流程圖;圖27b詳細顯示了按照本發明的一個實施例如何構造一個候選MHTC;圖28是顯示本發明的用于構造一個候選MHTC的處理的另一最佳實施例的流程圖;圖29a顯示了在圖29b的上部顯示的語音信號的能量-寬度譜;圖29b在其上部顯示了包含元音的語音信號的另一個例子的波形,并在該圖的下部顯示了利用WTT從該語音信號提取的三角;圖30a顯示了圖30b的上部顯示的語音信號的能量-寬度譜;圖30b在其上部顯示了具有強的基音頻率的語音信號的一個例子的波形,并在該圖的下部顯示了利用WTT處理從該波形提取的三角;圖31a在其上部顯示了被探測為高頻噪音段的語音信號的一個例子的波形,并在該圖的下部顯示了利用WTT處理從該波形提取的三角;圖31b顯示了圖31a的上部顯示的高頻噪音語音信號的能量-寬度譜;圖32a在其上部顯示了被探測為噪音段的語音信號的一個例子的波形,并在該圖的下部顯示了利用WTT處理從該波形提取的三角;圖32b顯示了圖32a的上部所示的噪音語音信號的能量-寬度譜;圖33顯示了本發明的一個實施例的基音探測設備的操作結果,其中聲音信號被分成了基音段、高頻噪音段、噪音段、以及靜音段;圖34是顯示根據本發明的一個實施例的句子探測處理的流程圖;圖35是顯示根據本發明的一個實施例的圖34的步驟S3404的處理的流程圖;圖36是顯示根據本發明的一個實施例的圖34的步驟S3406的處理的流程圖;圖37是顯示根據本發明的一個實施例的圖34的步驟S3408的處理的流程圖;圖38是顯示根據本發明的一個實施例的圖35的步驟S3504的處理的流程圖,用于判定當前的段是否是一個適當的切割段;
圖39是框圖,顯示了根據本發明的一個實施例的句子探測設備的設置。
最佳實施例的詳細描述波-三角變換(WTT)一個三角的定義如圖1所示,如從圖1可見,一個三角具有以下的參數-其起點或開始時刻(iTime),它代表了一個三角開始的時刻;-其頂點時刻(iCenterTime),它代表了一個三角的頂點(峰)的時刻;-其結束點或結束時刻,它代表了一個三角結束的時刻;-其高度(nSwing),它代表了從一個三角的頂點到其底邊-即連接三角的開始點(iTime)至結束點的直線-的距離;一個三角的高度(nSwing)既可以是正的也可以是負的;-寬度(nWidth),它代表了從一個三角的開始時刻至結束時刻的時間。
為了確定一個三角,只需要確定這些參數中的某些參數。例如,對于一個三角,如果其開始時刻(iTime)、頂點時刻(iCenterTime)、高度(nSwing)和結束時刻已知,則該三角得到確定。同樣地,一個三角可以由其開始時刻(iTime)、頂點時刻(iCenterTime)、高度(nSwing)和寬度(nWidth)確定,或由其高度、結束時刻、頂點時刻和寬度確定,等等。從一個波形提取三角的波-三角變換(WTT)圖5顯示了本發明的WTT處理的一個實施例,它包括以下的步驟步驟S51探測波形信號的所有頂點圖2顯示了一個示例性的波形,用于說明頂點探測的處理。有兩種頂點正的頂點和負的頂點。一個曲線的一個正的頂點是該曲線上的這樣一個點,即該點高于其兩側的該曲線上的所有鄰近點;一個負的頂點是該曲線的這樣的一個點,即該點低于其兩側的該曲線上的所有鄰近點。“鄰近點”指的是足夠地接近目標點的那些點。同樣地,我們也可以把正(負)的頂點定義為這樣一個點,即該點是在一個包括該點的一個范圍內的最高(低)的點。步驟S52提取三角圖3顯示了如何從一組頂點提取三角。如圖3所示,為每一個頂點都提取一個三角。對于一個正的頂點,例如頂點k,提取出一個正的三角。首先,計算出一個投影高度,該投影高度是從頂點k至連接與其相鄰的兩個頂點的直線的投影線的長度。隨后,頂點k的三角被確定為具有該投影高度的一半的高度(nSwing)、位于頂點k處的頂點時刻、位于其左鄰近頂點(k’)處的開始時刻(iTime)、以及位于其右鄰近頂點(k″)處的結束時刻。
對于一個負的頂點,例如頂點k’,其相應的三角能夠通過探測頂點k’的投影高度而以類似的方式得到確定;但由于頂點k’是一個負頂點,其投影高度是一個負的投影高度,且頂點k’的三角的高度也是負的。步驟S53產生平滑點對于每一個頂點,都產生一個平滑點,它位于該頂點的投影線的中點,如圖4(b)所示。所有頂點的平滑點對應于一個新的且平滑化的波形,如圖4(c)所示。步驟S54判定這些平滑點是否對應于一個具有足夠高的能量的波該判定可以以不同的方式進行。作為一個例子,這些方式中的一種是通過把所提取的三角的最小寬度與一個寬度閾值進行比較,并把所提取的三角中最高的三角的高度與一個高度閾值相比較,該寬度閾值被設定為接近普通的人耳所能夠聽見的最長的聲音波長(最低的頻率),且如果該最小三角寬度大于該閾值,且最高的三角的高度小于該高度閾值,則判定在提取該組三角后所生成的那一組平滑點所對應的波不具有足夠的能量。該寬度閾值的優選取值范圍為140-180個取樣(在每秒11025個取樣的取樣速率下),在本實施例中的取值為160個取樣。該高度閾值的優選取值范圍在PCM格式的Wav文件中為10-100,且本實施例中取為20。
采用這種判定方式的理由,是諧波的能量與其頻率的平方成正比,且普通的波可以被分解為多個諧波之和。
或者,所提取的三角的最短或平均寬度也可以與另一預定的值相比較以判定該最短或平均的三角寬度是否大于該預定的值。如果“是”,則判定這些平滑點所對應的波不具有足夠高的能量。
在判定這些平滑點不對應于具有足夠高能量的波時,WTT處理終結;提取的三角可以被保存,以進行隨后的處理(步驟S56)。
另一方面,如果判定平滑點對應于具有足夠高能量的波,WTT處理進行到步驟S55,在那里這些平滑點將受到下一級的三角提取,如以下所述的。步驟S55探測平滑點中的頂點對于平滑點,探測出正和負的頂點,其中一個正的頂點是高于其相鄰的平滑點的一個點;而一個負的頂點是低于其相鄰的平滑點的一個點。如果一個平滑點高于(低于)其相鄰的平滑點之一而低于(高于)其相鄰的平滑點中的另一個,則它既不是正頂點也不是負頂點。
隨后,對于如此確定的平滑點中的頂點,重復步驟S52至S54,從而完成第二級三角的提取。
圖6顯示了本發明的波-三角變換系統(以下也稱為“WTT系統”)的第一實施例,它適合于對聲頻/聲音信號進行三角提取。本發明的波-三角變換系統的工作將在以下結合圖6進行描述。
如圖6所示,本發明的波-三角變換系統包括一個波-三角變換部分100(以下也稱為“WTT部分”)100。諸如人類語音(包括元音和輔音)、歌唱聲、鳥叫聲、動物叫聲、音樂聲、自然界中的聲音、噪音等的聲音,被一個麥克風108轉換成模擬電信號。一個A/D轉換器107把來自麥克風108的模擬電信號轉換成數字信號。來自A/D轉換器107的數字信號被送到頂點探測單元101或通過一個讀取/寫入單元109而被存儲在存儲器單元106中。
存儲器單元106可以用一個硬盤、軟盤、ROM、磁帶、或任何其他適當的存儲設備來實現。
波-三角變換部分100的頂點探測單元101接收來自A/D轉換器107的數字信號或通過讀取/寫入單元109接收來自存儲器單元106的數字信號, 并探測所接收的數字信號中的頂點,如以上結合圖2所描述的。
在實際的應用中,可以在該頂點探測單元之前設置一個輸入信號分割單元和一個區段選擇單元。該輸入信號分割單元把輸入的聲音信號分成區段。區段選擇單元選擇適當的區段并把它們送到該WTT部分。例如,該區段選擇單元可選擇具有足夠的能量的區段,如以下更為詳細描述的。
根據頂點探測單元101所探測到的頂點,本發明的WTT部分100的一個三角提取單元102進行三角提取,如結合圖3所描述的。三角提取單元102提取的三角可以被存儲在一個三角存儲單元(未顯示)中,或作為WTT部分100的輸出而被輸出以進行進一步的處理,諸如下文所述的基音探測。這些從數字信號直接提取的三角被稱為“第一級三角”。
提取的三角可以作為WTT部分100的輸出而送出,也可以存到一個存儲裝置中(如圖8所示的三角存儲單元105)。
如上所述,一個三角由其開始時刻(iTime)、頂點時刻(iCenterTime)、結束時刻、寬度(nWidth)等所表征。一個三角具有從其開始時刻延伸至其結束時刻的底邊,且該底邊與時間軸平行。換言之,一個三角可以用其開始時刻(iTime)、高度(nSwing)、頂點時刻(iCenterTime)、以及寬度(nWidth)確定(或同樣地用其開始時刻(iTime)、高度(nSwing)、頂點時刻(iCenterTime)、以及結束時刻確定;等等)。因而,作為一個具體的實施例,三角的存儲/再現可以通過存儲/再現三角的開始時刻(iTime)、高度(nSwing)、頂點時刻(iCenterTime)、以及寬度(nWidth)(或開始時刻、高度、頂點、以及結束時刻)等等而得到實現。
回到圖6,根據三角提取單元102提取的三角,一個平滑點生成單元103為頂點探測單元101所探測到的每一個頂點確定一個平滑點,如以上結合圖4(a)至4(c)所描述的。對于每一個頂點,一個平滑點得到確定-它是該頂點投影線的中點,如圖4(b)所示。所有的頂點的平滑點對應于一個新的且被平滑化的波,如圖4(c)所示。
因此,對于該數字信號的所有頂點,產生了一組平滑點。該組平滑點對應于一個新的波形,該新的波形與頂點探測單元101從A/D轉換器107或讀取/寫入單元109接收到的數字信號相比得到了平滑。
隨后,一個能量水平確定單元104判定與該組平滑點對應的波形的能量水平是否低于一個預定的值。
能量水平的判定可以用各種方式實現。例如,它可以用上述的結合步驟54描述的方式實現,且能量水平確定單元104能夠以各種方式進行這樣的判定。
作為一個例子,且作為這些方式中的一種,能量水平確定單元104可計算這些三角中的最短或平均寬度,并把該最短或平均三角寬度與一個預定的閾值相比較。
例如,對于人類語音的處理,該預定的閾值可以近似對應于人類語音中最長波長(最低頻率)的聲音分量的周期。
如果能量水平確定單元104判定最短或平均三角寬度大于該預定值,則判定這些平滑點所對應的波不具有足夠高的能量。
當能量水平確定單元104判定這些平滑點所對應的波不具有足夠高的能量時,WTT部分100終止WTT提取處理。
另一方面,如果能量水平確定單元104判定這些平滑點對應的波具有足夠高的能量時,頂點探測單元101對所有這些平滑點進行頂點探測并從這些平滑點獲得了第二組頂點,且三角提取單元102根據頂點探測單元101從這些平滑點探測的這些第二組頂點進行三角提取。即,WTT部分100對這些平滑點進行了第二級的三角提取,且一組第二級的三角得到提取并作為WTT部分的輸出而得到輸出。
三角提取單元102所提取的第二級的三角,象第一級的三角一樣,可以被存儲在一個三角存儲單元(如圖8所示的三角存儲單元105)中,或作為WTT部分100的輸出而被輸出,以進行進一步的處理,如以下所要描述的。
在第二級的三角提取之后,平滑點生成單元103為這些頂點(第二組頂點)產生新的一組(第二組)平滑點,且能量水平確定單元104判定與該第二組平滑點對應的波的能量是否大于該預定的閾值。如果該判定的結果是“是”,則由頂點探測單元101、三角提取單元102和平滑點生成單元103進行的WTT處理將得到重復;如果該判定的結果是“否”,則WTT處理結束。
以此方式,第一、第二、第三、……級的三角得到提取,直到能量水平確定單元104判定一組平滑點所對應的波不具有足夠高的能量。
圖7顯示了WTT處理的結果的一個例子,其中WTT被施加于一個日本女子發出的“Wu”聲的聲音波形。
在圖7的上部,顯示了原始的聲波,其中水平軸表示了時間且縱軸表示了能量。
在圖7的下部,從該聲波提取的三角得到了顯示。注意對于圖7的下部,縱軸既表示了能量又表示了三角的寬度,即一個三角的底邊沿著縱向方向所在的位置表示了三角的寬度,而三角的高對應于該三角的能量,因而具有相同的寬度的三角的底邊位于圖7的下部中沿著縱向方向的相同位置處。
圖8顯示了本發明的WTT系統的第二實施例。如圖8所示,WTT系統的第二實施例包括一個WTT部分100’,它與圖6所示的第一實施例中的WTT部分100相同,只是WTT部分100’的能量水平確定單元104被設置在平滑點生成單元103之前。另外,圖8中顯示了一個三角存儲單元105,用于存儲所提取的三角。
在WTT部分100’的WTT處理期間,在三角提取單元102進行了三角提取之后,能量水平確定單元104估計由平滑點生成單元103產生的平滑點所代表的能量水平。作為一個具體的實施例,能量水平確定單元104計算這些三角的最短或平均寬度,并把該最短或平均寬度與一個預定的閾值相比較。對于人類聲音處理,該閾值可以對應于例如普通的人耳所能夠聽見的最長的聲音波長(最低頻率)的周期。
如果能量水平確定單元104判定這些三角的最短或平均寬度等于或大于該預定閾值,則判定將要由平滑點生成單元103產生的平滑點所代表的能量水平不夠高,且WTT處理結束。
另一方面,如果能量水平確定單元104判定這些三角的最短或平均寬度小于該預定閾值,則WTT處理繼續進行,以提取下一級的三角;平滑點生成單元103為三角提取單元102從其提取了一個三角的每一個頂點產生一個平滑點,從而獲得一組平滑點;且頂點探測單元101對該組平滑點進行頂點探測。在此之后,三角提取單元102為該組平滑點提取下一級的三角。所提取的三角可以作為WTT部分100′的輸出而輸出,也可被存到三角存儲單元105。
圖9顯示了本發明的WTT系統的另一實施例,其中一個輸入信號分割單元111和一個區段選擇單元112被設置在A/D轉換器107與WTT部分100之間。
輸入信號分割單元111把輸入信號分割成區段。區段選擇單元112選擇適當的區段并把選定的區段送到WTT部分100。
圖10顯示了根據本發明的一個實施例的輸入信號分割單元111的處理。根據一個實施例,輸入信號分割單元111首先獲得一個范圍(例如在本發明的一個實施例中為147個取樣的一個范圍)內的平均能量,從而獲得如圖10所示的一個積分能量曲線。隨后,該輸入信號分割單元把該能量曲線與一個靜音閾值相比較,并確定能量低于該閾值的區段為靜音段且能量高于該閾值的區段為用于隨后的處理的信號區段。
隨后,區段選擇單元112只選擇信號區段以進行隨后的處理。
當然,用于把輸入信號分割成靜音段和用于隨后的處理的信號區段的其他方法也可以被用于實施本發明。
在人類語音識別的場合,通常的人類語音包含元音、輔音、停頓、和停止,因而其能量曲線或多或少地與圖10所示的情況類似,其中元音和輔音對應于具有較高能量的區段,且停頓和停止對應于具有較低能量的區段。作為元音的主要分量,基音(pitch)只存在于具有較高能量的區段中。因而通過把輸入信號分成區段且只把具有足夠高能量的區段提供給WTT部分以進行基音探測-如在本發明的一個實施例中所設置的,基音探測的效率能夠得到提高。
應該理解的是,雖然結合用于聲波WTT處理的實施例對本發明的WTT系統進行了描述,本發明的WTT系統也可應用于其他任何波形信號的處理,諸如壓力/力信號、光信號、等等,且圖6、8和9中顯示的麥克風108可被一個壓力/力傳感器、一個光電轉換器等所取代。當然,本發明的WTT系統也可被用于電信號的WTT處理,其中麥克風108可被適當的電探測單元(例如電壓計或電流計)所取代。
所以,一般地說,本發明的WTT系統可對所有波形物理量進行WTT處理。它包括了用于把一種原始物理量(聲音、力、光等)轉換成模擬電信號的一個轉換器單元(例如麥克風108等)或用于產生模擬電信號的電學量(電壓或電流)的電檢測器,這些模擬量將要受到WTT處理;以及,一個A/D轉換器107,用于把該模擬信號轉換成數字信號。本發明的基音探測方法和設備考慮到以上在背景描述部分中所述的WSC方法的問題,本發明人測試了所謂的“基音寬度三角鏈”(PWTC)方法,用于利用WTT來探測基音,如以下所述。
圖17在其上部顯示了一個中國男人發出的元音“u”的波形,并在其下部以在與三角的寬度相應的不同的縱向位置處顯示的三角的形式,顯示了對該波形的WTT分析的結果。
通過深入的研究,本發明人發現,在從漢語以及很多其他語言的很多元音(諸如“a”、“e”、“i”、“u”等)提取的三角的分布中,一種三角分布的特征,即所謂的“基音寬度三角鏈”(PWTC),對于從聲音信號探測基音來說是具有意義的。
圖17顯示了所示的原始聲波的PWTC。
本發明人已經發現,PWTC具有以下的特性1)PWTC中的每一個三角的寬度彼此近似;2)PWTC中的三角表征了基音頻率的振蕩,因而PWTC的三角的寬度就近似于基音的寬度;3)PWTC中的三角具有足夠大的高度,且它們的高度接近于PWTC中與它們相鄰的三角的高度;4)PWTC中的三角具有正/負交錯性和級聯的特性。交錯的意思是一個正三角(諸如圖17中的三角Ti)的高度的絕對值近似等于其最接近的負三角(諸如圖17中所示的三角Ti+1)的高度的絕對值。級聯的意思是三角Ti的頂點時刻(iCenterTime)近似等于三角Ti+1的起始時刻(Ti和Ti+1具有相反的極性,即如果Ti是正三角,則Ti+1是負三角,且反之亦然),且三角Ti的開始時刻加上其寬度近似等于三角Ti+1的頂點時刻,即Ti.iTime+Ti.nWidth≈Ti+1.iCenterTime。
借助這些特征,可以判定一個三角是否屬于PWTC。因此,對于很多元音,很容易探測它們的基音。通過實驗,本發明人已經發現,這種PWTC法對于本發明人測試過的幾乎所有的漢語元音都非常成功,其正確基音探測率幾乎達100%。
PWTC法改善了基音探測的效率,然而,它在很多情況下卻失敗了。例如,當從具有背景噪音的語音中探測基音(這是日常生活中的語音基音探測中通常遇到的情況)時,以及從漢語以外的某些語言(例如英語或日語)的語音探測基音的場合等,PWTC法都未能給出令人滿意的結果。
通常的漢語元音傾向于比英語和日語的元音長。換言之,英語和日語的元音的基音頻率的分量傾向于比漢語語音的基音頻率的分量弱,因而難于甚至不可能探測到英語或日語中的PWTC。本發明人相信這是PWTC法在上述場合下未能探測出基音的主要原因之一。
圖18在其上部顯示了一個日本女子發出的元音“ou”的波形,它是具有弱的基音頻率的元音的一個例子;圖18還在該圖的下部顯示了用WTT從該波形提取的三角。
如圖18所示,基音寬度三角鏈(PWTC)在某些區域變弱甚至斷開。通過對不同語言的各種元音的WTT結果的深入研究,本發明人發現,具有弱基音的元音具有如下特征1)在弱基音部分中,能量主要分布在某些窄的三角上,這些三角的寬度小于PWTC中的三角的寬度,因而這些窄的三角都具有較大的高度;2)在這些具有弱的基音頻率分量的元音中,基音寬度的周期性仍然存在-即使是在其中PWTC很弱或斷開的區域中也仍然存在,但這種周期性由這些窄的三角的高的變化的周期性所反映,而不是由基音頻率分量本身所反映。由于三角的高度對應于能量,所以窄的三角的高度的變化的這種周期性被稱為“能量周期性”;3)具有這種能量周期性的基音多出現在具有較大的高頻分量的元音中,諸如“a”、“e”中。
借助這些研究和考慮,本發明人設計了本發明的基音探測方法和設備。
圖19顯示了本發明的基音探測設備的一個最佳實施例。
如圖19所示,如上所述的一個輸入信號分割單元111把輸入的聲音信號分割成區段;如上所述的一個區段選擇單元112為本發明的基音探測設備1900選擇適當的區段。輸入信號分割單元111可以采用如上所述的靜音段/信號區段方法或其他適當的方法來對輸入的所要探測的聲音信號進行分割。區段選擇單元112根據例如區段的能量水平來選擇區段。
本發明的基音探測設備1900包括如上所述的本發明的WTT部分100,用于對區段選擇單元112選擇的聲音信號的區段進行WTT變換;一個能量-寬度譜計算單元1901,用于根據WTT部分100的WTT變換的結果獲得一個能量-寬度譜;一個候選鏈合峰確定單元1902,用于在能量-寬度譜計算單元1901獲得的能量-寬度譜中確定一個候選鏈合峰;一個周期性確定和評價單元1903,用于確定和評價該候選鏈合峰的周期性;以及,一個基音確定單元1905,用于根據該周期性確定和評價單元1903的確定和評價結果來確定聲音信號的基音。圖19所示的基音探測設備的實施例的操作將在以下描述。
圖20是顯示圖19所示的基音探測設備的實施例的操作的流程圖。
如圖20所示,在步驟S2001,區段選擇單元112選定的聲音信號的一個區段被WTT部分100進行WTT變換。
隨后,在步驟S2003,能量-寬度譜計算單元1901計算當前的信號區段的一個能量-寬度譜。
具體地,作為一種實際的措施,能量-寬度譜計算單元1901把一個區段的信號進一步分割成子區段,并為每一個子區段計算能量-寬度譜。這些子區段可具有相同的長度,也可以具有不同的長度。
圖21顯示了圖18的上部所示的語音信號的一個能量-寬度譜。在圖21中,縱坐標表示了三角的寬度(注意縱坐標的標度不是線性的),且橫坐標表示了具有相同的寬度的三角的總能量。在圖21中,縱坐標的單位是取樣周期。對于圖21的例子,取樣頻率是11025/秒,因而縱坐標的單位是1/11025秒。因此,在如圖18所示的能量-寬度譜中位于寬度14的線代表了具有14個取樣周期的寬度的所有三角的能量之和。
一個子區段的長度也可以被設定為比人類語音中最長的基音長的一個值。例如,子區段的長度的下限可以是11025取樣/秒的速率下的640個取樣,或640/11025=0.0580秒。該子區段的上限可以是不同的。但優選的是子區段的長度的上限在0.0580至0.2900秒的范圍內,即為下限的一至五倍。更長的子區段長度將使處理減慢。
通常,取樣頻率就是A/D轉換器107的取樣速率。然而,本發明不限于1/11025秒的取樣周期。進一步地,本發明可采用任何其他的寬度單位來構造能量-寬度譜,如本領域的技術人員所能夠理解的。更高的取樣速率,即在給定的時間中更多的取樣,將使處理速度減慢并將使譜中的峰的分離變得精細。另一方面,可以采用一種峰結合處理來減小需要進一步處理的峰的數目,如以下所要描述的。
在圖21中所示的用于計算當前的子區段的能量-寬度譜的處理的例子中,譜中的各個峰的長度(高度)是通過對該峰的所有三角的高度求和而計算出來的。對于在當前子區段的邊界處的三角,只有它在當前的子區段內的寬度的部分對求和有貢獻。因而譜中各峰的能量可用以下公式計算E=∑(Ti的高度的絕對值)×(Ti在當前子區段內的寬度)/(Ti的寬度)其中Ti表示當前子區段內具有該峰的寬度的三角,且求和是對Ti(i=1,2,……)進行的。對于在該子區段內的不在該子區段的邊界上的三角,Ti在該子區段內的寬度=Ti的寬度。但對于在邊界上的三角,Ti在該子區段內的寬度是該三角的底邊在當前子區段內的部分的長度。
回到圖20,在步驟S2005,候選鏈合峰確定單元1902確定能量-寬度譜計算單元1901所獲得的能量-寬度譜中的一個候選鏈合峰。該候選鏈合峰是這樣的一個峰,即1)該峰具有大于Wcpmin的寬度,其中Wcpmin的值優選地是在5-9的范圍內;且2)該峰的能量在具有大于Wcpmin的寬度的所有峰中是最大的。
在一個實施例中,取Wcpmin=7。
隨后,在步驟S2007,周期性確定和評價單元1903確定候選鏈合峰確定單元1902是否確定了一個候選鏈合峰。如果在該子區段中未能確定候選鏈合峰,則判定在該子區段中不存在基音(步驟S2011),且處理進行到步驟S2019,以判定當前的子區段是否是該區段中的最后一個子區段。
如果在步驟S2007判定在該子區段中存在有一個候選鏈合峰,處理進行到步驟S2009,在那里周期性確定和評價單元1903對該候選鏈合峰中的三角的周期性進行評價,如以下所述的。
在此之后,在步驟S2013,基音確定單元1905判定該候選鏈合峰是否呈現出足夠好的周期性,如以下所要描述的。如果步驟S2013的結果是“是”,基音確定單元1905判定當前子區段包含一個基音(步驟S2015),且其基音是候選鏈合峰中的三角的周期性的步長;隨后處理進行到步驟S2019。如果步驟S2013的結果是“否”,則基音確定單元1905判定當前子區段不包含基音(步驟S2017),且處理進行到步驟S2019。
在步驟S2019,能量-寬度譜計算單元1901判定當前子區段是否當前的區段中的最后一個子區段。如果步驟S2019的結果是“是”,該區段的基音探測處理結束。如果步驟S2019為“否”,處理進行到步驟S2021,在那里能量-寬度譜計算單元1901開始處理下一個子區段。
圖24顯示了周期性確定和評價單元1903一個實施例的構成,且圖22更為詳細地顯示了圖20的步驟S2009中的用于評價和確定候選鏈合峰的三角的周期性的處理的一個實施例。
在圖24所示的實施例中,周期性確定和評價單元1903包括一個候選峰探測單元1910,用于探測能量-寬度譜計算單元1901獲得的能量-寬度譜中的候選峰;以及,一個最大高度三角鏈(MHTC)確定和評分單元1911,用于為每一個候選峰從候選鏈合峰中的三角確定一個候選最大高度三角鏈(候選MHTC),并用于對各個候選MHTC和對候選鏈合峰進行評分處理。
MHTC是候選鏈合峰中的三角的一個子集。MHTC具有以下的特征1)如果在當前子區段中存在有基音,則MHTC中的三角的寬度應該小于或等于基音寬度。在MHTC中的三角的寬度等于基音寬度的情況下,候選鏈合峰本身就是MHTC。
2)MHTC中的三角的高度(對于MHTC中的負三角則為其高度的絕對值)一般應該大于在一個基音寬度范圍內的候選鏈合峰內的鄰近三角的高度。
3)MHTC內的兩個相鄰的三角之間的高度差應該足夠地小。
4)MHTC內的三角之間的間隔應該穩定,即Ti.iTime-Ti-1.iTime≈Ti+1iTime-Ti.iTime其中Ti(i=1,2,……)代表了MHTC中的三角,且iTime是Ti的起始時刻。
MHTC的確定和評分將在以下作更為詳細的步驟。
圖22顯示了圖24的周期性確定和評價單元1903的用于評價和確定候選鏈合峰的三角的周期性的處理的一個最佳實施例。
如圖22所示,在步驟S2202,候選峰探測單元1910探測能量-寬度譜計算單元1901所獲得的能量-寬度譜中的候選峰。
圖23顯示了步驟S2202中的候選峰探測處理的一個實施例。
如圖23所示,在步驟S2302,候選峰探測單元1910選擇譜中的一個峰。隨后,在步驟S2304,判定當前峰中的三角的寬度是否在以下范圍Wpmin≤峰的三角的寬度≤Wpmax其中Wpmin優選地在15-30(單位為1/11025秒,如上所述)的范圍內,且在本實施例中被選擇為20;Wpmax優選地在150-180(單位為1/11025秒,如上所述)的范圍內,且在本實施例中被選擇為160。
如果判定該峰的三角的寬度W不在Wpmin<W<Wpmax的范圍內,則當前峰不被當作候選峰(步驟S2308),且處理進行到步驟S2312以判定當前峰是否是譜中的最后一個峰。
如果判定該峰的三角的寬度W處于范圍Wpmin<W<Wpmax內,處理進行到步驟S2306,在那里判定當前峰的能量(該峰的高度)是否大于在圖20的步驟S2005探測到的候選鏈合峰的能量的一個預定的百分比。該預定百分比的一個優選取值范圍是1%-5%,且在本實施例中的取值為2%。如果步驟S2306的結果是“是”,則該峰被作為一個候選峰(步驟S2310),且處理進行到步驟S2312;如果步驟S2306的結果是“否”,則當前峰不被當作一個候選峰(步驟S2308),且處理進行到步驟S2312。
在步驟S2312,判定當前峰是否譜中的最后一個峰。如果步驟S2312的結果是“否”,譜中的下一個峰得到選擇(步驟S2314),且處理隨后返回到步驟S2304。如果步驟S2312的結果是“是”,探測候選峰的處理結束。
回到圖22,在步驟S2202的候選峰探測之后,候選峰探測單元1910在步驟S2204判定在步驟S2202是否確定了至少一個候選峰。如果步驟S2204的結果是“否”,則處理進行到步驟S2216,在那里對該候選鏈合峰進行評分處理。
如果步驟S2204的結果是“是”,處理進行到步驟S2206,在那里MHTC確定和評分單元1911取一個候選峰。隨后MHTC確定和評分單元1911為當前候選峰構造一個候選MHTC并為給當前候選峰構造的該候選MHTC計算一個得分(步驟S2208)。構造一個候選MHTC的處理將在以下進行詳細描述。
隨后,在步驟S2212,判定當前候選峰是否是能量-寬度譜中的最后一個候選峰。如果步驟S2212的結果是“否”,處理進行到步驟S2214,在那里候選峰探測單元1910取下一個候選峰并為其計算評分,且隨后處理進行到步驟S2208,以為該下一個候選峰構造一個候選MHTC。如果步驟S2212的結果是“是”,處理進行到步驟S2216。
在步驟S2216,MHTC確定和評分單元1911為該候選鏈合峰計算一個得分。在此之后,處理進行到步驟S2218,在那里基音確定單元1905判定在步驟S2208為所有候選峰計算的所有得分和在步驟S2216為候選鏈合峰計算的得分中的最高得分是否等于或大于一個預定的閾值Pt。Pt的一個優選取值范圍為150-500,且在本實施例中取Pt=200。如果步驟S2218的結果是“否”,處理進行到步驟S2220,在那里基音確定單元1905確定在當前子區段中沒有基音,且用于當前子區段的基音探測處理結束。另一方面,如果步驟S2218的結果是“是”,處理進行到步驟S2222,在那里基音確定單元1905判定具有最高得分的峰是基音峰,且用于當前子區段的基音探測處理結束。
然而,應該理解的是,候選鏈合峰的三角的周期性可以利用圖22中具體說明的處理以外的處理來進行評價。另外,周期性確定和評價單元1903能夠以如圖21所示的方式以外的方式實施。適合于評價和確定候選鏈合峰中的三角的周期性的所有方法和設置都處于本發明的精神和范圍。
如上所述,在一個最佳實施例中,進行了一種峰結合處理以把兩個或更多的相鄰峰結合成一個單個的峰。
由于取樣周期的存在,能量-寬度譜是一個分立的譜,且兩個相鄰的峰之間的最小間隔是一個取樣周期。
通過把彼此相距足夠近的峰結合成一個單個的峰,候選峰的數目得到減小,且基音探測處理的效率能夠得到提高。
在一個最佳實施例中,對于其所對應的寬度為nPeak的一個峰,寬度在nPeak/6+2的范圍內的所有峰都被結合到該峰中。即,其中的峰被結合的寬度范圍隨著被結合至的峰的高度而變。
如上所述,MHTC具有以下特征1)如果在當前子區段中存在有基音,則MHTC中的三角的寬度應該小于或等于基音寬度。在MHTC中的三角的寬度等于基音寬度的情況下,候選鏈合峰本身就是MHTC。
2)MHTC中的三角的高度(對于MHTC中的負三角則為其高度的絕對值)一般應該大于在一個基音寬度范圍內的候選鏈合峰內的鄰近三角的高度。
3)MHTC內的兩個相鄰的三角之間的高度差應該足夠地小。
4)MHTC內的三角之間的間隔應該穩定,即Ti.iTime-Ti-1.iTime≈Ti+1iTime-Ti.iTime其中Ti(i=1,2,……)代表了MHTC中的三角,且iTime是Ti的起始時刻。
這些特征被用于對所構造的一個候選MHTC進行評分。
圖27a顯示了圖22的步驟S2208中的用于為當前候選峰構造一個候選MHTC并為該候選MHTC計算一個得分的處理的一個最佳實施例。
如圖27a所示,在步驟S2704,MHTC確定和評分單元1911選擇候選鏈合峰中的、在從起始位置起一個候選峰的步長(即該峰內的三角的寬度)的范圍內的、具有最大高度的三角并用它作為構造候選MHTC的起始三角。
在步驟S2706,MHTC確定和評分單元1911確定候選鏈合峰中的這樣一些三角-即這些三角中的每一個距該起始三角的距離大致為當前候選峰中的三角的寬度的一個整數倍,且MHTC確定和評分單元1911用所有所確定的這些三角來構造一個候選MHTC。由于候選鏈合峰中的三角是級聯的,如果一個以上的三角包含了距該起始三角(諸如距該起始三角的起始時刻)的距離為當前候選峰中的三角的寬度的一個整數倍的同一位置,則這些三角中其起始時刻最接近該位置的一個三角被選擇作為候選MHTC的三角。或者,也可以選擇這些三角中具有最大高度的一個三角來作為候選MHTC的三角。
在此,如以上為PWTC所說明的,級聯的意思是三角Ti的頂點(iCenterTime)等于三角Ti+1的起始時刻(iTime)(Ti和Ti+1具有相反的極性,即如果Ti是正三角,則Ti+1是負三角,反之亦然)且三角Ti的起始時刻加上其寬度等于三角Ti+1的頂點時刻,即Ti.iTime+Ti.nWidth==Ti+1.iCenterTime。
如果在離起始三角當前候選峰的三角的寬度的一個整數倍的位置沒有找到候選鏈合峰中的一個三角,則為該位置記錄一個“缺陷”。缺陷對候選MHTC的得分沒有正的貢獻。
圖27b顯示了如何根據本發明的一個實施例來構造一個候選MHTC。
如圖27b所示,根據本發明的一個實施例,對于具有寬度26的一個示例性候選峰,為了找到用于構造一個候選MHTC的一個起始三角,找到了一個第一三角(三角1),它的起始點(iTime1)在從當前子區段的起始時刻(iStar)至iStar+26(候選峰的步長)+5的區域內,且它具有該范圍內的所有三角中最大的(正)高度,且它具有wp0-(wp0/6+2)與wp0+(wp0/6+2)之間的范圍內的寬度,其中wp0是候選鏈合峰的寬度。
在找到了滿足上述要求的第一三角之后,尋找一個第二三角(三角2),該第二三角的起始點在第一三角的起始點(iTime1)與iTime1+26之間的范圍內,該第二三角具有在第一三角的起始點(iTime1)與iTime1+26之間的區域內的所有三角中的正的最大高度,且該第二三角具有在wp1-(wp1/6+2)與wp1+(wp1/6+2)之間的寬度,其中wp1是第一三角的寬度。
隨后,在找到了滿足上述要求的第二三角之后,尋找一個第三三角,該第三三角具有在第二三角的起始點(iTime2)與iTime2+26之間的起始點,具有在第二三角的起始點(iTime2)與iTime2+26之間的區域內的所有三角中的正的最大高度,并具有在wp2-(wp2/6+2)與wp2+(wp2/6+2)之間的寬度,其中wp2是第二三角的寬度。
因而通過重復該步驟,獲得了一系列的三角,它們各自在26的范圍內具有正的最大的高度。隨后該一系列的三角被作為一個候選MHTC并對其進行評分(如以下所述)。
作為一個替換實施例,利用上述處理,找到各自在候選峰的寬度中具有最大絕對高度的負三角,且這些負三角被用來構造一個候選MHTC。且該候選MHTC得到評分。
作為一個進一步的替換實施例,利用上述處理,找到各自具有在其附近候選峰的寬度的范圍內的最大高度的正的三角,并找到各自具有在其附近候選峰的寬度的范圍內的最大絕對高度的負三角,且這些正三角和這些負三角分別構成一個候選MHTC。且這兩個候選MHTC的每一個都得到評分。在這兩個候選MHTC中,具有較高得分的一個得到選擇,以進行隨后的處理。
在候選MHTC的所有三角都被確定且候選MHTC已經利用找到的三角而得到構成之后,在步驟S2708,MHTC確定和評分單元1911對該候選MHTC的周期性進行評分,從而評價該候選MHTC是否可作為MHTC而被接受。
有各種方法可被用來對候選MHTC進行評分。以下描述本發明人采用的一種示例性的評分處理。
在該示例性處理中,首先,對于候選MHTC中的各個三角Ti,計算出一個第一得分1000×Min(Ti.nSwing,Ti-1.nSwing)/Max(Ti.nSwing,Ti-1.nSwing)其中Ti.nSwing是候選MHTC中的三角Ti的高度,且Ti-1.nSwing是候選MHTC中Ti的左(或右)相鄰三角(Ti-1)的高度。Min(Ti.nSwing,Ti-1.nSwing)是Ti.nSwing與Ti-1.nSwing中的較小者,且Max(Ti.nSwing,Ti-1.nSwing)是Ti.nSwing與Ti-1.nSwing中的較大者。如果應該出現在MHTC中的一個三角未出現,即出現了一個缺陷,則上述得分被置為0。
隨后對候選MHTC中的所有三角Ti計算平均得分s=∑1000×Min(Ti.nSwing,Ti-1.nSwing)/Max(Ti.nSwing,Ti-1.nSwing)/nChainStep其中nChainStep是MHTC中包含的步數(一步=候選峰中的一個三角的寬度)。
最后,計算一個得分Score=s×(nChainStep-nStepFlaw)/nChainStep)×(nChainLen/nSSegLen)其中nStepFlaw是當前子區段中的缺陷的總數,nChainLen是該候選MHTC的長度(從該候選MHTC的最左邊的三角至該候選MHTC的最右邊的三角的距離),且nSSegLen是當前子區段的長度。
在對當前候選峰的候選MHTC進行了評分之后,處理進行到圖22所示的步驟S2212。
在另一最佳實施例中,在圖22的步驟S2208中的MHTC構造和評分處理中,MHTC確定和評分單元1911不是只選擇候選鏈合峰中的在從起始位置起一個步長范圍內具有最大高度的三角并用其作為構造候選MHTC的起始三角,而是在候選鏈合峰中在從起始位置起一個候選峰步長(寬度)的范圍內選擇具有足夠的高度的多個三角,通過利用每一個選定的三角作為起始三角,而為每一個起始三角構造一個候選MHTC,為構造的每一個候選MHTC進行評分,并選擇具有最大得分的候選MHTC作為該當前候選峰的候選MHTC。
圖28顯示了這樣一個最佳實施例的流程圖。如圖28所示,步驟S2804、S2806和S2808分別與步驟S2704、S2706和S2708相對應。在步驟S2810,該處理判定選擇過的起始三角的數目是否達到了一個預定的數目N,在該數目N優選地在1-3的范圍內。如果步驟S2810的結果是“否”,則處理進行到步驟S2814,在那里具有下一個高度的三角被選作起始三角。隨后,處理返回到步驟S2806以為當前候選峰構造一個新的候選MHTC。另一方面,如果步驟S2810的結果是“是”,則處理進行到步驟S2816,在那里具有最高得分的候選MHTC被選擇為當前候選峰的候選MHTC。
在此實施例中,步驟S2216的用于對候選鏈合峰進行評分的處理與上述的相同,即步驟S2216的處理與步驟S2208的得分處理相同,但評分是對候選鏈合峰的三角而不是對一個構造的候選MHTC的三角進行的。換言之,候選鏈合峰中的所有三角組成的序列被作為步驟S2216的評分處理的候選MHTC。
圖25顯示了對圖18所示的聲音信號進行的本發明的基音探測的結果,且圖26顯示了探測到的MHTC。
在圖18和25所示的例子中,候選鏈合峰被確定為具有寬度為10的三角的峰,且探測到了三個候選峰,它們分別具有19、26和38的寬度。
在一個最佳實施例中,對于確定候選鏈合峰和候選峰,彼此足夠接近的峰被結合成一個單個的峰,如上所述。在一個最佳實施例中,對于具有高nPeak的一個峰,在其周圍nPeak/6+2的范圍內的所有峰都被結合到該峰中。在這樣的峰結合處理之后,在寬度19附近的兩個峰被結合成了在寬度19處的一個單個的峰,且在寬度38附近的兩個峰被結合成了在38處的一個單個的峰,且在10處的幾個峰被結合成了在寬度10處的一個峰。
這樣的峰結合處理顯著地減小了所要測試的峰的數目并大大地改善了基音探測的效率。對于圖19和25所示的例子,候選峰的數目被限制在3個。
隨后,周期性確定和評價單元1903為每一個候選峰構造一個候選MHTC,并為每一個候選峰計算一個得分,如以上在步驟S2208中描述的。作為一種替換最佳實施例,周期性確定和評價單元1903包括一個候選峰預篩選單元,該單元進行一種預篩選處理,其中具有太小而不能成為基音寬度的三角寬度的候選峰(即該候選峰的寬度與候選鏈合峰的寬度過于接近)被放棄。然而,應該注意的是,候選峰的寬度太短而不能成為基音寬度,并不意味著候選鏈合峰的寬度(它比候選峰的寬度更短)不能成為基音寬度。其原因在于如果一個候選峰要成為基音峰,其寬度必需比候選鏈合峰的寬度大得多。
所以,如圖25所示,在寬度19處的候選峰在預篩選處理中被判定為太短而不能成為基音寬度,并被從MHTC構造和評分處理放棄。這進一步改善了基音探測的效率。
圖29b在其上部顯示了具有強的基音頻率的一個語音信號例子的波形,并在其下部顯示了用WTT從該波形提取出的三角;且圖29a顯示了圖29b的上部所示的該聲音信號的能量-寬度譜。如圖29a所示,該候選鏈合峰被確定為處于寬度38,且通過用該候選鏈合峰中的三角構造候選MHTC,對于候選鏈合峰本身獲得了669的最大得分。該得分高于基音探測的閾值。
因而該候選鏈合峰本身被探測為基音峰。
圖30b在其上部顯示了包含元音的一個語音信號的另一個例子,并在其下部顯示了用WTT從該語音信號提取的三角;且圖30a顯示了圖30b的上部所示的語音信號的能量-寬度譜。如圖30a所示,在寬度10處找到了候選鏈合峰,且通過用候選鏈合峰中的三角構造候選MHTC,為寬度為大約27的峰獲得了一個最大得分641。該得分高于基音探測的閾值。所以寬度27處的候選峰被探測為基音峰。
圖31a在其上部顯示了一個聲音信號段的例子的波形,該語音信號被探測為高頻噪音段,圖31a還在其下部顯示了用WTT從該波形提取的三角。圖31b顯示了圖31a的上部所示的高頻噪音聲音信號的能量-寬度譜。如圖31b所示,該信號只在高頻具有高的峰,且在基音頻率區中只有非常低的能量。所以對于該信號未能發現高于閾值的候選峰。因而該信號段被探測為一個高頻噪音段。
圖32a在其上部顯示了一個聲音信號段的一個例子的波形,該聲音信號段被探測為一個噪音段。圖32a還在其下部顯示了用WTT從該波形提取的三角。圖32b顯示了圖32a的上部所示的噪音聲音信號的能量-寬度譜。如圖32b所示,雖然在基音寬度的范圍中有峰存在,但這些峰均沒有等于或高于閾值的得分。因而該信號段被探測為噪音段。
圖33中顯示了根據本發明的一個實施例的基音探測設備的一個結果。如圖33所示,標為RV的條所顯示的是輸入信號分割單元111的結果,該條的上方的值所表示的是各信號區段的信號電平。標為HPN的條所表示的是根據本發明的基音探測設備進行的基音探測處理的結果,且它顯示出輸入的聲音信號被分成為基音段、高頻噪音段、噪音段和靜音段。
如圖33所示,本發明的基音探測設備所處理的一個聲音信號被分成了靜音段、高頻噪音段、基音段和噪音段。被如此分割的該聲音信號被輸入到圖39所示的本發明的句子探測設備3900。如圖39所示,句子探測設備3900的段結合單元3901把由高頻噪音段、基音段、噪音段組成的非靜音部分轉換成由詞段、間隙段和輔音段組成的非靜音部分。
詞段是包含基音的段。如果一個詞段的任何部分不包含基音,則該部分要從詞段中除去,因而在詞段中的各處總是出現有基音。
輔音段是包含高頻噪音的段。由于在人類語音中輔音必須與具有基音的元音一起出現,因而高頻噪音段只有緊跟在一個基音(詞)段之后或剛好在其之前才可以是一個輔音段,否則它將被認為是非輔音的高頻噪音段。
間隙段是既不是基音段又不是輔音段的段。所以兩個基音之間的既不是基音段又不是輔音段的段都被確定為間隙段。另外,如果在兩個相鄰的基音段之間未探測到任何間隙段,則在這兩個相鄰的基音段之間加入一個寬度為零的間隙段,以便判定在該寬度為零的間隙的位置是否應該做兩個句子之間的分離。
圖39顯示了根據本發明的句子探測設備的一個實施例的設置;該實施例包括一個根據本發明的基音探測部分、一個段結合單元3901、一個句子間隙探測單元3902、一個句子評分單元3903、以及一個句子判定單元3904。
雖然在圖39中未顯示,一個輸入信號分割單元和一個區段選擇單元(如圖19所示的輸入信號分割單元111和區段選擇單元112)可被用來把輸入的聲音信號分割成靜音區段和信號區段,并選擇信號區段以由句子探測設備的隨后的級進行處理。
以下將結合圖34-38來詳細描述圖39所示的根據本發明的一個實施例的句子探測設備的每一個部分的工作。
圖34顯示了根據本發明的一個實施例的探測句子處理的流程圖。如圖34所示,在句子探測處理開始之后,根據本發明的一個實施例的基音探測設備(諸如以上描述的基音探測設備100或100′)進行基音探測(步驟S3402)。如以上所描述的,借助本發明的基音探測處理,輸入的聲音信號被分成了基音段、噪音段、高頻噪音段、以及靜音段,如圖33中標為“HPN”的條所示。
隨后,處理進行到步驟S3404,在那里段結合單元3901進行段結合處理,如以下所詳細描述的。
圖35是顯示由段結合單元3901進行的根據本發明的一個實施例的圖34的步驟S3404的處理的流程圖。
參見圖35,在圖34的步驟S3404的處理開始之后,判定當前的段(基音段、高頻噪音段、噪音或靜音段)是否最后一個段(步驟S3502)。如果步驟S3502的結果是“是”,則流程進行到步驟S3512,在那里判定所要處理的文檔是否結束。如果步驟S3512的是“是”,則最后一個間隙被寫入且步驟S3404的處理結束。如果步驟S3512的結果是“否”,則處理進入等候狀態(步驟S3516)。
另一方面,如果步驟S3502的結果是“否”,處理進行到步驟S3504,在那里判定當前的段是否是一個適當的分割段。
圖38顯示了根據本發明的一個實施例的用于判定當前的段是否一個適當的分割段的處理的流程圖。在圖38所示的實施例中,首先判定當前的段是否是一個基音部分(步驟S3802)。如果“是”,則判定當前的段不是一個分割段(步驟S3804),且處理進行到圖35的步驟S3518。如果步驟S3802的結果是“否”,則判定當前的段是否一個靜音段(步驟S3806)。
如果步驟S3806的結果是“是”,則判定當前段的寬度是否大于一個閾值L1=m_nMinBreakSVWidth(步驟S3808)。如果步驟S3808的結果是“否”,則當前段被判定為不是一個分割段(步驟S3812),且處理進行到圖35的步驟S3518。另一方面,如果步驟S3808的結果是“是”,則當前段被判定為是一個分割段(步驟S3822),且處理進行到圖35的步驟S3506。
如果步驟S3806的結果是“否”,則判定當前段是否是一個噪音段(步驟S3810)。
如果步驟S3810的結果是“是”,則判定當前段的長度是否大于一個閾值L2(步驟S3816)。如果“是”,則當前段被判定為是一個分割段(步驟S3822),且處理進行到圖35的步驟S3506。
如果步驟S3816的結果是“否”,則當前段被判定為不是一個分割段(步驟S3820),且處理進行到圖35的步驟S3518。
如果步驟S3810的結果是“否”,表明當前段是一個高頻噪音段,則判定該當前段的長度是否大于一個閾值L3(步驟S3814)。如果“是”,則當前段被判定為是一個分割段(步驟S3822),且處理進行到圖35的步驟S3506。
如果步驟S3814的結果是“否”,則當前段被判定為不是一個分割段(步驟S3818),且處理進行到圖35的步驟S3518。
在另一實施例中,采用了另一種處理來進行步驟S3504的判斷一當前段是否是一個分割段的處理。在該實施例中,先判定當前的段是否是基音段;如“是”,則不是分割段;如“否”,則判斷當前段的長度是否大于一個值L4=m_nMaxConsHLength/2。如當前段的長度大于L4,則是分割段;如不大于L4,則判斷當前段是否是靜音段,如“是”,則其不是分割段,如“否”,則判斷其是否高頻噪音段;如是高頻噪聲,則不是分割段。如不是高頻噪音段,則判斷其長度是否大于L1;如其長度大于L1,則其是分割段,否則就不是分割段。
L4的一個優選取值范圍是1000-4000個取樣(在11025取樣/秒的取樣速率下),且在本實施例中取L4=3000個取樣。
L1的一個優選取值范圍是200-1000個取樣,且在本實例中取L1=610。
返回到圖35,當在步驟S3504當前段被判定為不是一個分割段時,處理進行到步驟S3518,且當前段的下一個段被取作當前段以進行處理,且隨后處理進行到步驟S3502。
當在步驟S3504當前段被判定為是一個分割段時,處理進行到步驟S3506,在那里前一個分割段被寫入。
隨后處理進行到步驟S3508,在那里判定當前的分割段與前一個分割段之間的每一個高頻噪音段是否是一個輔音段。
有兩種輔音前輔音和后輔音。前輔音是在一個基音之前的一個輔音,且后輔音是在一個基音之后的一個輔音。
在本發明的一個實施例中,根據從一個高頻噪音段至與其最近的一個基音段的距離(時間),來判定該高頻噪音段是否是一個輔音段。具體地,在一個實施例中,從高頻噪音段的起始點至最近的基音段的起始點的時間,得到了測量,并與一個閾值D進行比較。如果該時間大于或等于D,則該高頻噪音段被判定為一個非輔音高頻噪音段。另一方面,如果該時間小于D,則該高頻噪音段被判定為一個輔音段。
D的一個優選取值范圍是300-800個取樣(在11025取樣/秒的速率下),且在本實施例中取D=600個取樣。
隨后,圖35的處理進行到步驟S3510,以通過計算前一個分割段與當前分割段之間的詞(基音)和輔音段的總長度與前一個分割段與當前分割段之間的其余的段的總長度的比值,來判定前一個分割段與當前的分割段之間的區域是否應該整個被作為一個間隙。
當一個人講話時,在一個句子的持續時間里,詞(基音)和輔音的總長度應該占據該持續時間的一個足夠大的部分。換言之,在一個句子的持續時間中,詞段與輔音段的總長度與其余段的總長度的比值應該大于一定的值。
因而在圖35的步驟S3510,前一個分割段與當前分割段之間的區域中的基音段與輔音段的和得到計算,該區域中基音與輔音段之外的段的和得到計算,且基音與輔音段的和與基音與輔音段之外的段的和的比值得到計算。隨后,該比值被與一個閾值TA進行比較以判定該比值是否大于等于TA。如果該比值大于或等于TA,則該區域被判定為是一個詞區。如果該比值小于TA,則前一個分割段與當前分割段之間的該區域整個地被判定為一個間隙。
TA的一個優選取值范圍為0.8-1.2,且在本實施例中取TA=1.0。
在步驟S3510之后,處理返回到步驟S3502。
回到圖34,在步驟S3404之后,處理進行到步驟S3406,在那里句子間隙確定單元3902確定一組句子間隙。
圖36是流程圖,用于顯示由句子間隙確定單元3902進行的根據本發明的一個實施例的圖34的步驟S3406的處理。
如圖36所示,在步驟S3406的處理開始之后,為在圖35的步驟S3510確定的每一個間隙計算一個權。
為了計算一個當前間隙的權,首先判定在該間隙之前與之后是否都有一個基音。
如果在該隙之前和之后都存在一個基音,則計算maxP=這兩個基音中的最大的基音,以及minP=這兩個基音中的最小的基音;如果該隙的寬度=0,則該間隙的權=(MIN_SPECTRUM_RANGE×4)×(maxP-minP)/minP且如果該間隙的寬度≠0,則該間隙的權=nWidth+((nWidth×(maxP-minP))/minP其中nWidth是該間隙的寬度,且MIN_SPECTRUM_RANGE是如上所述的能量-寬度譜的范圍。在一個實施例中,MIN_SPECTRUM_RANGE被取為640個取樣。也可以采用其他的MIN_SPECTRUM_RANGE值。
如果在該間隙之前或之后沒有基音,則該間隙的權=該間隙的寬度由此,為每一個間隙計算出了一個權。
隨后,處理進行到步驟S3603,在那里句子間隙確定單元3902檢查這些間隙中的一個間隙的寬度是否大于一個閾值TW,其中TW=m_nMaxSentenceCutW,TW的一個優選取值范圍是3000-6000個取樣(速率為11025取樣/秒),且在本實施例中取TW=4000個取樣。
如果沒有找到寬度大于TW的間隙,則處理進行到步驟S3604,在那里處理等候將要到來的輸入信號。
另一方面,如果在步驟S3603找到了寬度大于TW的一個間隙,則該間隙被當作一個截止間隙且處理進行到步驟S3605,在那里判定從開始位置至該截止間隙的區域的長度是否大于一個閾值TL1,其中
TL1=m_nMaxSentenceLengthTL1的一個優選取值范圍是個取樣(11025取樣/秒),且在本實施例中取TL1=88000個取樣。
如果步驟S3605的結果是“否”,則處理返回。如果步驟S3605的結果是“是”,則處理進行到步驟S3610,在那里判定在開始位置與該截止間隙之間的區域中是否存在一個間隙。
如果步驟S3610的結果是“否”,則處理返回。如果步驟S3610的結果是“是”,則處理進行到步驟S3615,在那里從所找到的間隙中選擇具有最大的權(在步驟S3602計算出的權)的一個間隙作為當前的間隙。
如果在步驟S3610中只找到了一個間隙,則它在步驟S3615被選擇為當前的間隙。
隨后,在步驟S3620,判定該當前間隙是否是一個分割間隙。
在本發明的一個實施例中,在步驟S3620的處理中,判定該當前間隙的寬度是否大于Max(TWD1,TWD2),其中TWD1=m_nMaxSentenceCutW是將要被探測為一個分割間隙的間隙的下限,且TWD2=m_nMaxSentenceCutWRatio×截止間隙的寬度如果該結果是“否”,則當前的間隙被判定為不是一個分割間隙,且處理返回。
TWD1的一個優選取值范圍為3000-6000個取樣(11025取樣/秒),且在本實施例中取TWD1=4000個取樣。TWD2的一個優選取值范圍是當前的截止間隙寬度的60%-95%,且在本實施中取TWD2=80%×(當前截止間隙的寬度)。
另一方面,如果步驟S3620的結果是“是”,表明當前的間隙是一個分割間隙,則處理進行到步驟S3625,在那里判定從開始位置到該分割間隙的部分和從該分割間隙到截止位置的部分是否應該被進一步分割。
在本發明的一個實施例中,判定從開始位置到該分割間隙的部分和從該分割間隙到截止間隙的部分中的每一個是否大于一個閾值TL2,其中TL2=m_nMaxSentenceLengthTL2的一個優選取值范圍是35000-55000個取樣(11025取樣/秒),且在本實施例中取TL2=44000個取樣。
如果這兩個部分都小于TL2,則該分割間隙被作為一個句子間隙,且處理返回。如果這兩個部分中的一個大于TL2且另一個小于TL2,則該分割間隙被作為一個句子間隙,且這兩個部分中大于TL2的一個部分受到從步驟S3610至S3625的處理。借助這樣的遞歸處理,從開始位置到截止間隙的區域中的所有句子間隙都被探測出。
隨后,通過以當前的截止間隙作為開始位置,處理返回到步驟S3603且從步驟S3603至步驟S3625的處理以及該遞歸處理(如需要的話)得到重復,直到輸入的聲頻文檔結束。探測到的每一個分割間隙和截止間隙被作為一個句子間隙。這樣,在當前的聲頻文檔中確定了一組句子間隙,該組句子間隙包括了所有的分割間隙和截止間隙,且每對相鄰的句子間隙之間的區域被作為一個候選句子區。
這些候選句子區-其每一個都作為相鄰的一對句子間隙之間的區域而得到確定-將受到判定,以確定其每一個是一個句子、一段音樂或語音、 還是一段噪音,如以下所描述的。
回到圖4,在其中所有的句子間隙和候選句子區得到確定的步驟S3406之后,處理進行到步驟S3408,在那里句子評分單元3903為每一個候選句子區計算出一個得分,如以下結合圖37所描述的。
如圖37所示,在步驟S3702,為當前的候選句子區計算一個得分,其中每一個候選句子區的得分根據以下的原則計算1)如果一個候選句子區中的所有基音段的總長度較大,則該候選句子區的得分較高;2)如果一個候選句子區中的所有基音的總能量較高,則該候選句子區的得分將較高,因為在人類講話中大部分的能量通常都在基音中。
現在描述根據本發明的一個實施例的用于對一個候選句子區進行評分以判定它是否是一個真正的句子的一種處理。
首先,對一個候選句子區中的所有詞段(各具有基音的段),計算(1)a11=∑(段長度);(2)a12=∑(基音長度×段長度);(3)a13=∑(基音得分×段長度),其中該基音得分為如圖22的步驟S2208或步驟S2216所計算的得分;(4)a14=∑(段的能量×段的長度),其中該能量由圖19所示的輸入信號分割單元111確定;其次,對于該候選句子區中的所有間隙段計算,計算(1)b11=∑(段長度);(2)b12=∑(段的能量×段的權),其中段的能量由圖19所示的輸入信號分割單元111確定且段的權如上所述地計算出(圖36的步驟S3602);第三,對于該候選句子區中的所有輔音段,計算(1)c11=∑(段長度)(2)c12=∑(段的能量×段的長度),其中該能量由圖19所示的輸入信號分割單元111確定;第四,計算nEnergyScore=a14/(a14+b12+c12)最后,計算該候選句子區的得分nScore=a13×nEnergyScore/(a11+b11)在為每一個候選句子區計算出一個得分之后,句子判定單元3904把該得分與一個閾值TS=m_nSentenceThreshold進行比較(步驟S3704)。
TS的一個優選取值范圍為60-150,且在本實施例中取75=80。如果該得分大于或等于該閾值,則該候選句子區被判定為是一個句子或一個音樂/語音區(步驟S3706)。否則,如果該得分小于該閾值,則該候選句子區被判定為不是一個句子(步驟S3708)。
作為一個替換實施例,采用了兩個預定的閾值TS1和TS2,其中O<TS2<TS1。。且為每一個候選句子區計算出一個得分被與TS1和TS2相比較。如果該得分≥TS1,則相應的候選句子區被判定為是一個句子。如果TS1>得分≥TS2,則相應的候選句子區被判定為是一個音樂/語音區。如果得分<TS2,則相應的候選句子區被判定為是一個噪音區。
作為一個進一步的替換實施例,對于每一個探測的句子,檢查剛好在其之前的段是否是一個輔音段。如果是,則該輔音段被包括到該句子中。這是由于在人類講話中在一個句子之前的輔音可能具有非常低的能量。
圖33中顯示了根據本發明的一個實施例的句子探測的結果。在圖33中,標為W_G的條是根據本發明的一個實施例的句子間隙確定單元3902的結果。另外,標為“Senten”的條是根據本發明的一個實施例的句子探測設備的最后結果。
雖然在以上的描述中為基音探測只選擇了一個候選鏈合峰,但在本發明的范圍內也可以選擇一個以上的候選鏈合峰并對每一個選定的候選鏈合峰進行如上所述的基音探測處理,如本領域的技術人員所能夠理解的。
雖然術語“能量-寬度譜”被用在本說明書中,應該注意的是也可以采用其他能夠反映具有相同寬度的三角的高度之和的變量。且在本說明書中,即使譜中的峰的高度的標度實際上不與能量成正比,也仍然使用了術語“能量-寬度譜”。
應該理解的是,用于MHTC的得分處理不限于在此具體描述的例子。且在不脫離本發明的精神和范圍的前提下可以采用能夠反映MHTC的周期性的任何評分方法。
權利要求
1.用于分析波形信號的一種方法,包括一個頂點探測步驟,用于探測該波形信號的波形的一組頂點;以及一個三角提取步驟,用于按照頂點探測步驟探測到的該組頂點提取一組三角。
2.根據權利要求1的方法,進一步包括一個平滑點計算步驟,用于根據頂點探測步驟探測到的該組頂點計算一組平滑點。
3.根據權利要求2的方法,進一步包括從該組平滑點探測一組新的頂點;以及根據從該組平滑點探測到的該組新的頂點提取三角。
4.根據權利要求3的方法,進一步包括根據從該組平滑點探測的頂點計算下一組平滑點。
5.根據權利要求2的方法,進一步包括一個能量水平確定步驟,用于確定所提取的一組三角的能量水平是否高于一個預定的值。
6.根據權利要求5的方法,進一步包括如果在該能量水平確定步驟確定當前一組提取的三角的能量水平高于該預定值,根據探測到的一個當前一組頂點計算當前一組平滑點;從該當前一組平滑點探測下一組頂點;根據該下一組頂點提取下一組三角;以及如果該能量水平確定步驟確定該當前一組三角的能量水平不高于該預定值,停止計算該當前一組平滑點。
7.根據權利要求1的方法,其中為每一個頂點提取一個三角。
8.根據權利要求7的方法,其中一個三角具有與時間軸平行地延伸的一條底邊并具有一個高度。
9.根據權利要求8的方法,其中一個三角的底邊的左端位于為之提取該三角的當前的頂點的左邊最鄰近頂點的時刻,且該三角的底邊的右端位于當前頂點的右邊的最鄰近頂點的時刻,且該三角的高等于從當前頂點至連接該左邊最鄰近頂點和右邊最鄰近頂點的直線的投影線的長度的一半。
10.根據權利要求9的方法,進一步包括一個平滑點計算步驟,用于從一組頂點計算出一組平滑點,其中為每一個頂點都計算出一個平滑點,且為一個頂點計算出的一個平滑點位于該頂點的所述投影線的大體中點處。
11.根據權利要求10的方法,進一步包括從該組平滑點探測下一組頂點;以及根據從該組平滑點探測出的該下一組頂點而提取三角。
12.根據權利要求9的方法,進一步包括根據該下一組頂點計算下一組平滑點。
13.根據權利要求9的方法,進一步包括一個能量水平確定步驟,用于確定所提取的一組三角的能量水平是否高于一個預定的值。
14.根據權利要求13的方法,進一步包括如果在該能量水平確定步驟確定當前一組提取的三角的能量水平高于該預定值,根據探測到的當前一組頂點計算當前一組平滑點;從該當前一組平滑點探測下一組頂點;根據該下一組頂點提取下一組三角;以及如果該能量水平確定步驟確定該當前一組三角的能量水平不高于該預定值,停止計算該當前一組平滑點。
15.根據權利要求10的方法,進一步包括一個能量水平確定步驟,用于判定所提取的一組三角的能量水平是否高于一個預定的值。
16.根據權利要求15的方法,進一步包括如果在該能量水平確定步驟中判定所提取的前一組三角的能量水平高于該預定的值,從前一組平滑點探測當前一組頂點;根據該當前組頂點提取一個當前一組的三角;根據該當前一組的頂點計算當前一組的平滑點;以及如果在該能量水平確定步驟判定該前一組的三角的能量水平不高于該預定值,停止探測一當前一組的頂點。
17.根據權利要求13的方法,其中該能量水平確定步驟根據三角的寬度和高度確定一組三角的能量水平。
18.根據權利要求13的方法,其中該能量水平確定步驟根據該組三角的最小寬度和最大高度確定一組三角的能量水平。
19.根據權利要求15的方法,該能量水平確定步驟根據這些三角的寬度確定一組三角的能量水平。
20.根據權利要求15的實施例,其中該能量水平確定步驟根據一組三角的寬度和高度來確定這些三角的能量水平。
21.根據權利要求10的方法,進一步包括從上一組平滑點探測當前組的頂點;根據該當前組的頂點提取當前組的三角;以及根據該當前組的頂點計算當前組的平滑點。
22.根據權利要求17的方法,其中該能量水平確定步驟根據一組三角的平均寬度和高度來確定這些三角的能量水平。
23.根據權利要求19的方法,其中該能量水平確定步驟根據一組三角的平均寬度和高度來確定這些三角的能量水平。
24.根據權利要求17的方法,其中該能量水平確定步驟根據一組三角中的最小寬度和最大高度來確定這些三角的能量水平。
25.根據權利要求19的方法,其中該能量水平確定步驟根據一組三角中的最小寬度和最大高度來確定這些三角的能量水平。
26.根據權利要求1-25中的任何一項的方法,進一步包括一個信號分割和選擇步驟,用于把該波形信號分割成區段、選擇適合于進行分析的區段、并把選定的區段送到該頂點探測裝置。
27.根據權利要求26的方法,其中該信號分割和選擇步驟根據這些區段的能量水平來選擇這些區段。
28.根據權利要求1-27中的任何一項的方法,進一步包括以下步驟探測模擬信號形式的波形信號;以及把該模擬波形信號轉換成數字信號。
29.根據權利要求1-27中的任何一項的方法,進一步包括以下步驟從一種記錄介質再現該波形信號。
30.用于分析一種波形信號的一種設備,包括頂點探測裝置,用于探測波形信號的波形的一組頂點;以及三角提取裝置,用于根據頂點探測裝置所探測到的該組頂點來提取一組三角。
31.根據權利要求30的設備,包括一個平滑點計算裝置,用于根據頂點探測裝置探測到的該組頂點計算一組平滑點。
32.根據權利要求31的設備,其中該頂點探測裝置從該組平滑點探測一組頂點;且該三角提取裝置根據從該組平滑點探測到的該組頂點來提取三角。
33.根據權利要求32的設備,其中該平滑點計算裝置根據從該組平滑點探測到的頂點來計算下一組的平滑點。
34.根據權利要求31的設備,進一步包括一個能量水平確定裝置,用于確定提取的一組三角的能量水平是否高于一個預定的值。
35.根據權利要求34的設備,其中如果該能量水平確定裝置判定所提取的當前一組三角的能量水平高于該預定值,則該平滑點計算裝置根據所探測到的當前的一組頂點來計算當前的一組平滑點;該頂點探測裝置從從該當前一組平滑點探測下一組的頂點;且該三角提取裝置根據該下一組頂點而提取下一組的三角,且如果能量水平確定裝置判定該當前一組三角的能量水平不高于該DY值,則該平滑點計算裝置停止計算當前一組平滑點。
36.根據權利要求30的設備,其中為每一個頂點提取一個三角。
37.根據權利要求36的設備,其中一個三角具有與時間軸平行地延伸的一條底邊并具有一個高度。
38.根據權利要求32的設備,其中一個三角的底邊的左端位于為之提取該三角的當前的頂點的左邊最鄰近頂點的時刻,且該三角的底邊的右端位于當前頂點的右邊的最鄰近頂點的時刻,且該三角的高度等于從當前頂點至連接該左邊最鄰近頂點和該右邊最鄰近頂點的直線的投影線的長度的一半。
39.根據權利要求38的設備,進一步包括一個平滑點計算裝置,用于從一組頂點計算出一組平滑點,其中該平滑點計算裝置為每一個頂點都計算出一個平滑點,且為一個頂點計算出的一個平滑點位于該頂點的所述投影線的大體中點處。
40.根據權利要求39的設備,其中該頂點探測裝置還從該組平滑點探測下一組頂點;且該三角提取裝置根據該下一組頂點而提取三角。
41.根據權利要求38的設備,其中該平滑點計算裝置根據該下一組頂點計算下一組平滑點。
42.根據權利要求38的設備,進一步包括一個能量水平確定裝置,用于判定所提取的一組三角的能量水平是否高于一個預定值。
43.根據權利要求42的設備,其中如果該能量水平確定裝置判定所提取的當前一組三角的能量水平高于該預定值,則該平滑點計算裝置根據所探測到的當前的一組頂點來計算當前的一組平滑點;該頂點探測裝置從該當前一組平滑點探測下一組的頂點;且該三角提取裝置根據該下一組頂點而提取下一組的三角,且如果能量水平確定裝置判定該當前一組三角的能量水平不高于該預定值,則該平滑點計算裝置停止計算當前一組平滑點。
44.根據權利要求39的設備,進一步包括一個能量水平確定裝置,用于判定所提取的一組三角的能量水平是否高于一個預定值。
45.根據權利要求44的設備,其中如果該能量水平確定裝置判定前一組提取的三角的能量水平高于該預定值,則該頂點探測裝置從前一組平滑點探測當前的一組頂點;該三角提取裝置根據該當前一組頂點提取當前一組三角;且該平滑點計算裝置根據該當前一組頂點而計算當前一組平滑點;且如果該能量水平確定裝置判定該前一組三角的能量水平不高于該預定值,則該頂點探測裝置停止探測當前一組頂點。
46.根據權利要求34或42的設備,其中該能量水平確定裝置根據三角的寬度和高度確定一組三角的能量水平。
47.根據權利要求34或42的設備,其中該能量水平確定裝置根據三角的最小寬度和最大高度確定一組三角的能量水平。
48.根據權利要求44的設備,其中該能量水平確定裝置根據該組三角的寬度和高度確定該組三角的能量水平。
49.根據權利要求44的設備,其中該能量水平確定裝置根據從當前一組頂點提取的三角的最小寬度和最大高度確定該組三角的能量水平。
50.根據權利要求31或39的設備,其中該頂點探測裝置從前一組平滑點探測當前一組頂點;該三角提取裝置根據該當前一組頂點來提取當前一組三角;且該平滑點計算裝置根據該當前一組頂點來計算當前一組平滑點。
51.根據權利要求46的設備,其中該能量水平確定裝置根據該組三角的平均寬度和高度來確定該組三角的能量水平。
52.根據權利要求48的設備,其中該能量水平確定裝置根據該組三角的平均寬度和高度來確定該組三角的能量水平。
53.根據權利要求46的設備,其中該能量水平確定裝置根據該組三角的最小寬度和最大高度來確定該組三角的能量水平。
54.根據權利要求48的設備,其中該能量水平確定裝置根據該組三角的最小寬度和最大高度來確定該組三角的能量水平。
55.根據權利要求30的設備,進一步包括一個信號探測裝置,用于探測模擬信號形式的波形信號;一個模擬/數字轉換裝置,用于把該模擬波形信號轉換成數字波形信號。
56.根據權利要求30的設備,進一步包括信號再現裝置,用于從一個記錄介質再現該波形信號。
57.用于探測聲音信號中的基音的一種方法,包括一個波-三角變換(WTT)步驟,用于對該聲音信號進行波-三角變換;一個能量-寬度譜計算步驟,用于計算該聲音信號的一個能量-寬度譜;一個候選鏈合峰確定步驟,用于根據所述能量-寬度譜計算步驟所計算出的該能量-寬度譜來確定一個候選鏈合峰;以及一個周期性確定和評價步驟,用于確定和評價所述候選鏈合峰中的三角的周期性。
58.根據權利要求57的方法,其中該WTT步驟包括一個頂點探測步驟,用于探測該聲音信號的波形的一組頂點;以及一個三角提取步驟,用于根據該頂點探測步驟探測到的該組頂點來提取一組三角。
59.根據權利要求57的方法,其中該WTT步驟進一步包括一個平滑點計算步驟,用于根據該頂點探測步驟探測到的一組頂點來計算一組平滑點。
60.根據權利要求57的方法,其中為每一個頂點提取一個三角,該三角具有與時間軸平行地延伸的一條底邊并具有一個高度,三角的底邊的左端位于為之提取該三角的當前的頂點的左邊最鄰近頂點的時刻,且該三角的底邊的右端位于當前頂點的右邊的最鄰近頂點的時刻,且該三角的高度等于從當前頂點至連接該左邊最鄰近頂點和右邊最鄰近頂點的直線的投影線的長度的一半。
61.根據權利要求60的方法,該WTT步驟進一步包括一個平滑點計算步驟,用于從一組頂點計算出一組平滑點,其中為每一個頂點都計算出一個平滑點,且為一個頂點計算出的一個平滑點位于該頂點的所述投影線的大體中點處。
62.根據權利要求60的方法,其中該WTT步驟進一步包括一個能量水平確定步驟,用于確定所提取的一組三角的能量水平是否高于一個預定值。
63.根據權利要求62的方法,其中該WTT步驟進一步包括如果在該能量水平確定步驟確定當前一組提取的三角的能量水平高于該預定值,根據探測到的當前一組頂點計算當前一組平滑點;從該當前一組平滑點探測下一組頂點;根據該下一組頂點提取下一組三角;以及如果該能量水平確定步驟確定該當前一組三角的能量水平不高于該預定值,停止計算該當前一組平滑點。
64.根據權利要求61的方法,其中該WTT步驟進一步包括一個能量水平確定步驟,用于判定所提取的一組三角的能量水平是否高于一個預定的值。
65.根據權利要求64的方法,其中該WTT步驟進一步包括如果在該能量水平確定步驟中判定所提取的前一組三角的能量水平高于該預定的值,從前一組平滑點探測當前一組頂點;根據該當前組頂點提取當前組的三角;根據該當前組的頂點計算當前組的平滑點;以及如果在該能量水平確定步驟判定該前一組的三角的能量水平不高于該預定值,停止探測一當前組的頂點。
66.根據權利要求62-65中的任何一項的方法,其中該能量水平確定步驟根據一組三角的寬度和高度來確定該組三角的能量水平。
67.根據權利要求62-65中的任何一項的方法,其中該能量水平確定步驟根據一組三角的最小寬度和最大高度來確定該組三角的能量水平。
68.根據權利要求62-65中的任何一項的方法,其中該能量水平確定步驟根據一組三角的平均寬度和高度來確定該組三角的能量水平。
69.根據權利要求62-65中的任何一項的方法,其中該能量水平確定步驟根據一組三角的最小寬度和最大高度來確定該組三角的能量水平。
70.根據權利要求57-65中的任何一項的方法,其中能量-寬度譜計算步驟包括通過把具有能量-寬度譜中的一個峰所在的寬度的三角的絕對高度相加來計算該峰的能量。
71.根據權利要求57-65中的任何一項的方法,其中能量-寬度譜計算步驟包括把該聲音信號分割成子區段;以及為每一個子區段計算該能量-寬度譜。
72.根據權利要求57-65和71中的任何一項的方法,其中能量-寬度譜計算步驟包括通過把具有相同寬度的三角的絕對高度相加,來計算該聲音信號的能量-寬度譜。
73.根據權利要求71的實施例,其中該能量-寬度譜計算步驟包括按照如下公式計算聲音信號的一個子區段的能量-寬度譜的一個峰的能量E=∑(Ti的高度的絕對值)×(Ti在該子區段內的寬度)/(Ti的寬度)其中Ti代表具有該子區段中的該峰所對應的寬度的三角,且求和是對Ti(i=1,2,……)進行的。
74.根據權利要求57-65和71中的任何一項的方法,其中該候選鏈合峰確定步驟包括通過從該能量-寬度譜選出這樣的一個峰,即該峰對應于大于一個最小鏈合峰寬度的一個寬度且在所有對應于大于所述最小鏈合峰寬度的寬度的峰中具有最大的能量,并把該選出的峰作為一個候選鏈合峰,而確定一個候選鏈合峰。
75.根據權利要求74的方法,其中該周期性確定和評價步驟包括判定該候選鏈合峰確定步驟是否確定出了一個候選鏈合峰。
76.根據權利要求74的方法,其中當該候選鏈合峰確定步驟未確定出候選鏈合峰時,判定在該聲音信號中不存在有基音。
77.根據權利要求71的方法,其中該周期性確定和評價步驟包括以下步驟探測該能量-寬度譜中的候選峰;為在該候選峰探測步驟中探測到的一個候選峰構造一個候選最大高度三角鏈;為該候選最大高度三角鏈計算一個得分;以及為該候選鏈合峰計算一個得分。
78.根據權利要求77的方法,其中探測能量-寬度譜中的候選峰的該步驟包括判定該能量-寬度譜中的一個峰的三角的寬度是否大于或等于一個最小候選峰寬度并小于等于一個最大候選峰寬度;以及判定該峰的能量水平是否大于或等于該候選鏈合峰的一個預定的百分比。
79.根據權利要求78的方法,進一步包括以下步驟當判定該能量-寬度譜中的一個峰的三角的寬度大于或等于一個最小候選峰寬度并小于或等于一個最大候選峰寬度且該峰的能量水平大于或等于該候選鏈合峰的一個預定百分比時,判定該峰是一個候選峰。
80.根據權利要求77的方法,進一步包括以下步驟把處于一個足夠小的范圍內的多個峰結合成一個峰。
81.根據權利要求80的方法,其中所述足夠小的范圍是根據在所述范圍內的最高候選峰的位置和高度來確定的。
82.根據權利要求81的方法,其中所述范圍隨著在所述范圍內探測到的最高的候選峰的高度而增大。
83.根據權利要求78的方法,進一步包括以下步驟把一個峰的寬度與該候選鏈合峰的寬度相比較且當該峰的寬度與該候選鏈合峰的寬度相比不夠大時把該峰排除在候選峰之外。
84.根據權利要求80的方法,進一步包括把一個結合的候選峰的寬度與候選鏈合峰相比較且當該結合的候選峰的寬度與候選鏈合峰的寬度相比不夠大時放棄該結合的候選峰。
85.根據權利要求77的方法,其中為在候選峰探測步驟中探測到的候選峰構造一個候選最大高度三角鏈的步驟包括在該候選鏈合峰中選擇一個三角-該三角在近似等于所述候選峰的寬度的一個范圍內具有最大高度;在該候選鏈合峰中確定一些三角-這些三角中的每一個距所述具有最大高度的三角的距離近似為該候選峰的寬度的一個整數倍;用該具有最大高度的三角和在上述三角確定步驟中確定的三角構成該候選峰的候選最大高度三角鏈。
86.根據權利要求85的方法,其中該候選最大高度三角鏈的該得分是根據在候選最大高度三角鏈中的三角的高度的一致性而計算的。
87.根據權利要求86的方法,其中該候選最大高度三角鏈的該得分是根據該候選最大高度三角鏈的長度而計算的。
88.根據權利要求87的方法,其中該候選最大高度三角鏈的該得分是根據該候選最大高度三角鏈中的缺少的三角的數目來計算的。
89.根據權利要求77的方法,其中該候選鏈合峰的該得分是根據該候選鏈合峰中的三角的高度的一致性來計算的。
90.根據權利要求77的方法,其中該候選鏈合峰的該得分是根據該候選鏈合峰的長度來計算的。
91.根據權利要求77的方法,其中該候選鏈合峰的該得分是根據該候選鏈合峰中缺少的三角的數目來計算的。
92.根據權利要求77的方法,進一步包括根據該比較步驟的結果來判定在當前子區段中是否存在有基音以及當判定在當前子區段中有基音時確定候選鏈合峰與候選峰中的哪一個峰是與基音對應的峰的步驟。
93.根據權利要求79的方法,進一步包括當判定最高得分大于該閾值得分時判定在當前子區段中存在有基音且獲得了最高得分的候選峰或候選鏈合峰對應于該基音的步驟。
94.根據權利要求57的方法,進一步包括根據該周期性確定和評價步驟的結果判定在該聲音信號中是否存在有基音以及當判定在該聲音信號中有基音時判定候選峰與候選鏈合峰中的哪一個峰與該基音相對應的步驟。
95.根據權利要求57-65中的任何一項的方法,進一步包括一個輸入信號分割步驟,用于把一個輸入信號分割成區段;以及一個區段選擇步驟,用于選擇要送到所述設備的輸入信號的區段。
96.根據權利要求95的方法,其中該輸入信號分割步驟包括探測所要探測的信號的能量-時間曲線與一個能量閾值的交點;以及利用這些交點把該信號分割成區段。
97.根據權利要求95的方法,其中該輸入信號分割步驟包括計算所述聲音信號在一個預定的時間間隔上的平均值并用該平均能量作為該聲音信號在該時間間隔上的能量。
98.根據權利要求97的方法,其中該能量閾值被適當地選擇,從而使具有低于該能量閾值的區段不包含任何有意義的聲音信號。
99.根據權利要求95的方法,其中該區段選擇步驟包括只選擇具有足夠能量的區段以將其送到所述設備。
100.根據權利要求99的方法,其中該區段選擇步驟包括通過把一個區段的最高能量值與一個閾值相比較并只在該區段中的最高能量值大于該閾值時才把該區段送至所述設備。
101.根據權利要求57-100中的任何一項的方法,進一步包括探測作為模擬信號的波形信號;以及把該模擬波形信號轉換成數字波形信號。
102.根據權利要求57-100中的任何一項的方法,進一步包括從一個記錄介質再現該波形信號。
103.用于探測一個聲音信號中的基音的一種設備,包括用于對該聲音信號進行波-三角變換的一個波-三角變換部分;能量-寬度譜計算裝置,用于計算該聲音信號的一個能量-寬度譜;一個候選鏈合峰確定裝置,用于根據所述能量-寬度譜計算裝置所計算出的能量-寬度譜來確定一個候選鏈合峰;以及一個周期性確定和評價裝置,用于確定和評價所述候選鏈合峰中的三角的周期性。
104.根據權利要求103的設備,其中該波-三角變換部分包括一個頂點探測裝置,用于探測該聲音信號的波形的一組頂點;以及一個三角提取裝置,用于根據該頂點探測裝置所探測到的該組頂點來提取一組三角。
105.根據權利要求104的設備,其中該波-三角變換部分進一步包括一個平滑點計算裝置,用于根據該頂點探測裝置所探測到的一組頂點來計算一組平滑點。
106.根據權利要求103的設備,其中為每一個頂點提取一個三角,該三角具有與時間軸平行地延伸的一條底邊并具有一個高度,該三角的底邊的左端位于為之提取該三角的當前的頂點的左邊最鄰近頂點的時刻,且該三角的底邊的右端位于當前頂點的右邊的最鄰近頂點的時刻,且該三角的高度等于從當前頂點至連接該左邊最鄰近頂點和該右邊最鄰近頂點的直線的投影線的長度的一半。
107.根據權利要求106的設備,該波-三角變換部分進一步包括一個平滑點計算裝置,用于從一組頂點計算出一組平滑點,其中該平滑點計算裝置為每一個頂點都計算出一個平滑點,且為一個頂點計算出的一個平滑點位于該頂點的所述投影線的大體中點處。
108.根據權利要求107的設備,其中該波-三角變換部分進一步包括一個能量水平確定裝置,用于判定所提取的一組三角的能量水平是否高于一個預定的值。
109.根據權利要求108的設備,其中在該波-三角變換部分中如果該能量水平確定裝置判定所提取的當前一組三角的能量水平高于該預定值,則該平滑點計算裝置根據所探測到的當前的一組頂點來計算當前的一組平滑點;該頂點探測裝置從從該當前一組平滑點探測下一組的頂點;且該三角提取裝置根據該下一組頂點而提取下一組的三角,且如果能量水平確定裝置判定該當前一組三角的能量水平不高于該DY值,則該平滑點計算裝置停止計算當前一組平滑點。
110.根據權利要求107的設備,其中該波-三角變換部分進一步包括一個能量水平確定裝置,用于判定所提取的一組三角的能量水平是否高于一個預定的值。
111.根據權利要求110的設備,其中在該波-三角變換部分中如果該能量水平確定裝置判定前一組提取的三角的能量水平高于該預定值,則該頂點探測裝置從前一組平滑點探測當前的一組頂點;該三角提取裝置根據該當前一組頂點提取當前一組三角;且該平滑點計算裝置根據該當前一組頂點而計算當前一組平滑點;且如果該能量水平確定裝置判定該前一組三角的能量水平不高于該預定值,則該頂點探測裝置停止探測當前一組頂點。
112.根據權利要求108-111中的任何一項的設備,其中該能量水平確定裝置根據一組三角的寬度和高度來確定該組三角的能量水平。
113.根據權利要求108-111中的任何一項的設備,其中該能量水平確定裝置根據一組三角的寬度和高度來確定該組三角的能量水平。
114.根據權利要求108-111中的任何一項的設備,其中該能量水平確定裝置根據該組三角的平均寬度來確定該組三角的能量水平。
115.根據權利要求108-111中的任何一項的設備,其中該能量水平確定裝置根據一組三角的最小寬度和最大高度來確定該組三角的能量水平。
116.根據權利要求103-111中的任何一項的設備,其中該能量-寬度譜計算裝置通過把具有聲音信號的能量-寬度譜中的一個峰所在寬度的三角的絕對高度相加,而計算出該峰的能量。
117.根據權利要求103-11中的任何一項的設備,其中該能量-寬度譜計算裝置把該聲音信號分割成子區段并為每一個子區段計算能量-寬度譜。
118.根據權利要求103-11和117中的任何一項的設備,其中該能量-寬度譜計算裝置通過把具有相同的寬度的三角的絕對高度相加而計算該聲音信號的能量-寬度譜。
119.根據權利要求117的設備,其中該能量-寬度譜計算裝置按照如下公式計算該聲音信號的一個子區段的能量-寬度譜的一個峰的能量E=∑(Ti的高度的絕對值)×(Ti在該子區段內的寬度)/(Ti的寬度)其中Ti代表具有該子區段中的該峰的寬度的三角,且求和是對Ti(i=1,2,……)進行的。
120.根據權利要求103-111和117中的任何一項的設備,其中該候選鏈合峰確定裝置根據所述能量-寬度譜計算裝置計算出的該能量-寬度譜并通過從該能量-寬度譜中選擇具有如下特征的峰來確定一個候選鏈合峰-即該峰1)對應于大于一個最小候選峰寬度的寬度;且2)在對應于大于所述最小候選峰寬度的所有峰中具有最大的能量。
121.根據權利要求120的設備,其中該周期性確定和評價裝置確定該候選鏈合峰確定裝置是否確定了一個候選鏈合峰。
122.根據權利要求120的設備,其中當該候選鏈合峰確定裝置沒有確定任何候選鏈合峰時確定在該聲音信號中沒有基音。
123.根據權利要求117的設備,其中該周期性確定和評價裝置進一步包括一個候選峰探測裝置,用于探測該能量-寬度譜中的候選峰;以及一個候選最大高度三角鏈構造和評分裝置,用于用該候選鏈合峰中的三角為所述候選峰探測裝置所探測到的一個候選峰構造一個候選最大高度三角鏈、為該候選最大高度三角鏈計算一個得分、并為該候選鏈合峰計算一個得分。
124.根據權利要求123的設備,其中該候選峰探測裝置進一步包括用于判定該能量-寬度譜中的一個峰的三角的寬度是否大于或等于一個最小候選峰寬度并小于或等于于一個最大候選峰寬度的裝置;以及用于判定該峰的能量水平是否大于或等于該候選鏈合峰的一個預定的百分比的裝置。
125.根據權利要求124的設備,其中當判定該能量-寬度譜中的一個峰的三角的寬度大于或等于該最小候選峰寬度并小于或等于該最大候選峰寬度且該峰的能量水平大于或等于該候選鏈合峰的該預定百分比時,該候選峰探測裝置把該峰探測為一個候選峰。
126.根據權利要求123的設備,進一步包括一個候選峰結合裝置,用于把在一個足夠小的范圍內的探測到的多個候選峰結合成一個候選峰。
127.根據權利要求126的設備,其中所述足夠小的范圍是根據在所述范圍內探測到的最高的候選峰所對應的寬度和位置而確定的。
128.根據權利要求127的設備,其中所述范圍隨著在所述范圍中探測到的最高候選峰所對應的寬度的增大而增大的。
129.根據權利要求123的設備,進一步包括峰預篩選裝置,用于通過把一個結合的峰所對應的寬度與該候選鏈合峰所對應的寬度相比較并在該結合峰所對應的寬度與該候選鏈合峰的寬度相比不夠大時放棄該峰。
130.根據權利要求126的設備,進一步包括峰預篩選裝置,用于通過把一個峰所對應的寬度與該候選鏈合峰所對應形成寬度相比較并在該峰所對應的寬度與該候選鏈合峰的寬度相比不夠大時放棄該峰。
131.根據權利要求123的設備,其中該候選最大高度三角鏈構造和評分裝置通過以下處理而為該候選峰探測裝置所探測到的候選峰構造一個候選最大高度三角鏈在該候選鏈合峰中在大體為所述候選峰的寬度的一個范圍內選擇具有近似最大高度的一個第一三角;在該候選鏈合峰中確定這樣一些三角-即這些三角每一個都與所述第一三角相距大約為該候選峰的寬度的一個整數倍的距離;以及用該第一三角和在所述確定步驟中確定的這些三角來構成該候選最大高度三角鏈。
132.根據權利要求131的設備,其中該候選最大高度三角鏈構造和評分裝置根據該候選最大高度三角鏈中的三角的高度的一致性來計算該候選最大高度三角鏈的該得分。
133.根據權利要求132的設備,其中該候選最大高度三角鏈構造和評分裝置根據候選最大高度三角鏈的長度來計算該候選最大高度三角鏈的該得分。
134.根據權利要求133的設備,其中該候選最大高度三角鏈構造和評分裝置根據該候選最大高度三角鏈中缺少的三角的數目來計算該候選最大高度三角鏈的該得分。
135.根據權利要求123的設備,其中該候選最大高度三角鏈構造和評分裝置根據該候選鏈合峰中的三角的高度來計算該候選最大高度三角鏈的該得分。
136.根據權利要求123的設備,其中該候選最大高度三角鏈構造和評分裝置根據該候選鏈合峰的長度來計算該候選最大高度三角鏈的該得分。
137.根據權利要求123的設備,其中該候選最大高度三角鏈構造和評分裝置根據該候選鏈合峰中的缺少的三角的數目來計算該候選最大高度三角鏈的該得分。
138.根據權利要求123的設備,進一步包括一個基音確定裝置,用于根據該比較裝置的結果來判定在當前的子區段中是否存在基音,并用于當判定在當前子區段中存在有基音時確定候選峰與候選鏈合峰中的哪一個峰是與基音相對應的峰。
139.根據權利要求125的設備,進一步包括一個基音確定裝置,該基音確定裝置用于判定所計算出的得分中的最高得分是否高于或等于一個得分閾值,且當該最高得分高于或等于該得分閾值時確定在當前的子區段中存在有基音且為其獲得了該最高得分的候選峰或候選鏈合峰所對應的寬度就是基音的寬度。
140.根據權利要求103的設備,進一步包括一個基音確定裝置,該基音確定裝置用于根據該周期性確定和評價裝置的結果來判定在該聲音信號中是否存在有基音,并用于當判定在該聲音信號中存在有基音時判定候選峰與候選鏈合峰中的哪一個峰是與該基音相對應的峰。
141.根據權利要求103-111中的任何一項的設備,進一步包括一個輸入信號分割裝置,用于把輸入信號分割成區段;以及一個區段選擇裝置,用于選擇將要送至所述部分的輸入信號區段。
142.根據權利要求141的設備,其中該輸入信號分割裝置包括用于探測該輸入信號的能量-時間曲線與一個能量閾值的交點的裝置;以及用于利用這些交點把該輸入信號分割成區段的裝置。
143.根據權利要求141的設備,其中該輸入信號分割裝置包括用于計算所述聲音信號在一個預定的時間間隔上的平均值并用該平均能量作為該聲音信號在該時間間隔上的能量的裝置。
144.根據權利要求143的設備,其中該能量閾值被適當地選擇,從而使具有低于該能量閾值的區段不包含任何有意義的聲音信號。
145.根據權利要求141的設備,其中該區段選擇裝置只選擇具有足夠的能量的區段以將其送至所述設備。
146.根據權利要求145的設備,其中該區段選擇裝置通過把一個區段中的最高能量值與一個能量閾值相比較并只當該區段中的最高能量大于該閾值時把該區段送至所述設備而對該區段進行選擇。
147.根據權利要求103-146中的任何一項的設備,進一步包括用于探測作為模擬信號的該波形信號的裝置;以及用于把該模擬波形信號轉換成數字波形信號的裝置。
148.根據權利要求103-146中的任何一項的設備,進一步包括用于從一個記錄介質再現該波形信號的裝置。
149.用于從聲音信號探測句子的一種方法,包括一個基音-噪聲探測步驟,用于探測包含在該聲音信號中的基音段、噪音段、以及高頻噪音段;一個段結合步驟,用于把該基音段、噪音段、以及高頻噪音段結合成由詞段和間隙所組成的一個序列;一個句子間隙確定步驟,用于確定一組句子間隙,以在每一對相鄰的句子間隙之間限定一個候選句子區;一個句子評分步驟,用于為至少一個候選句子區中的每一個候選句子區計算一個得分;一個句子確定步驟,用于根據該句子評分步驟的結果來判定所述至少一個候選句子區中的至少一個候選句子區是否是一個句子。
150.根據權利要求149的方法,其中所述基音-噪聲探測步驟進一步包括如權利要求116-128所限定的處理。
151.根據權利要求149的方法,其中所述段結合步驟進一步包括把所述基音-噪聲探測步驟探測到的基音段、噪音段和高頻噪音段結合成基音段、輔音段和間隙。
152.根據權利要求151的方法,其中該段結合步驟進一步包括尋找一個截止段;確定在從一個開始位置至該截止段的一個區域中的輔音段;計算該區域中的基音段與輔音段的長度的總和與該區域中除了基音段與輔音段以外的部分的長度的總和的比值;把該比值與一個比值閾值相比較;在該比值小于該閾值的情況下把所述區域設定為一個間隙。
153.根據權利要求149的方法,其中該句子間隙確定步驟進一步包括為每一個間隙計算一個權;尋找具有大于一個第一閾值的寬度的一個間隙并將該間隙作為一個分割間隙;當在從一個開始位置至該分割間隙的區域中有一個間隙時,根據所述間隙的權來判定所述間隙是否可作為一個分割間隙;以及把所有所確定的分割間隙和截止間隙都取作句子間隙。
154.根據權利要求153的方法,其中所述間隙是否可被作為一個分割間隙還取決于所述間隙的寬度。
155.根據權利要求153的方法,其中所述間隙是否可被作為一個分割間隙還取決于所述區域的長度,且當所述區域的長度短于一個第二閾值時判定所述間隙不能被作為一個分割間隙。
156.根據權利要求155的方法,進一步包括a)當所述間隙被判定為是一個分割間隙時,判定從該開始位置至所述分割間隙的子區域的長度是否大于或等于一個第三閾值;b)當判定所述子區域的長度大于或等于所述第三閾值時,判定在該子區域中是否存在有至少一個間隙;以及c)當判定在該子區域中存在有至少一個間隙時,判定該至少一個間隙是否是一個分割間隙。
157.根據權利要求155的方法,進一步包括a)當所述間隙被判定為是一個分割間隙時,判定從該開始位置至所述分割間隙的子區域的長度是否大于或等于一個第三閾值;b)當判定所述子區域的長度大于或等于所述第三閾值時,判定在該子區域中是否存在有至少一個間隙;以及c)當判定在該子區域中存在有至少一個間隙時,判定該至少一個間隙是否是一個分割間隙。
158.根據權利要求156或157的方法,其中在步驟c)該至少一個間隙是否是一個分割間隙是根據該間隙的權和寬度而確定的。
159.根據權利要求156或157的方法,其中當在步驟b)判定在該子區域中存在有一個以上的間隙時,則在步驟c)該一個以上的間隙中的每一個間隙是否是一個分割間隙是按照間隙的權減小的順序來進行判定的。
160.根據權利要求155的方法,其中當在所述區域中找到了一個以上的間隙時,這些間隙中的每一個按照間隙的權降低的順序得到選擇以判定選出的間隙是否是一個分割間隙。
161.根據權利要求153的方法,其中一個間隙的權取決于在該間隙之前和之后是否有基音存在以及該間隙的寬度。
162.根據權利要求149的方法,其中該句子評分步驟進一步包括為每一個候選句子區以這樣的方式計算所述得分-即使得該候選句子區中的基音段的總長度越大則為該候選句子區計算出的所述得分就越大且該候選句子區中的所有基音的總能量越大則為該候選句子區計算出的所述得分就越大。
163.根據權利要求149的方法,其中所述基音-噪聲探測步驟包含如權利要求116-161中的任何一項所限定的處理。
164.用于從一個聲音信號探測一個句子的一種設備,包括一個基音-噪聲探測部分,用于探測該聲音信號中包含的基音段、噪音段、以及高頻噪音段;一個段結合裝置,用于把所述基音段、噪音段、以及高頻噪音段結合成一系列的詞段和間隙;一個句子間隙確定裝置,用于確定一組句子間隙以在每一對相鄰的句子間隙之間限定一個候選句子區;一個句子評分裝置,用于為所述候選句子區中的每一個候選句子區計算一個得分;以及一個句子確定裝置,用于根據該句子評分裝置的結果來判定所述候選句子區中的每一個候選句子區是否是一個句子。
165.根據權利要求164的設備,其中所述基音-噪聲探測部分包含如權利要求103-147中的任何一項所限定的設備。
全文摘要
本發明提供了一種獨特的波-三角變換(WTT)方法,用于對波形信號進行變換處理。本發明還提供了基于WTT處理的基音檢測方法和設備以及用于檢測聲音信號中的句子的句子檢測方法和設備。本發明的基音探測設備和方法可以有效地探測聲音信號中的基音。在該WTT處理中,輸入的波形信號(諸如聲音信號)被變換成一系列的三角,由這些三角構造了一種能量-寬度譜。對于包含語音的聲音信號,其所變換出的三角在該能量-寬度譜中的分布通常具有特定的模式。通過對這種特定的模式進行分析,可以判定在該聲音信號中是否存在有基音。具體地,對該能量-寬度譜中的一種候選鏈合峰中的三角的周期性進行確定和評價,可以判定基音的存在。
文檔編號G01R29/00GK1430204SQ0114530
公開日2003年7月16日 申請日期2001年12月31日 優先權日2001年12月31日
發明者朱連山, 于濤 申請人:佳能株式會社