音頻信號的參數化重構的制作方法
【專利摘要】編碼系統(400)將N聲道音頻信號(X)(其中,N≥3)編碼為單聲道下混信號(Y)連同干上混參數和濕上混參數(C,P)。在解碼系統(200)中,去相關部分(101)基于下混信號輸出(N?1)聲道去相關信號(Z);干上混部分(102)根據基于干上混參數而確定的干上混系數(C)線性地映射下混信號;濕上混部分(103)基于濕上混參數并且在已知中間矩陣屬于預定義矩陣類的情況下填充所述中間矩陣,通過將中間矩陣乘以預定義矩陣來獲得濕上混系數(P),以及根據濕上混系數線性地映射去相關信號;以及組合部分(104)組合來自上混部分的輸出以獲得與要被重構的信號對應的重構信號(X)。
【專利說明】
音頻信號的參數化重構
[0001] 相關申請的交叉引用
[0002] 本申請要求2013年10月21日提交的美國臨時專利申請No. 61/893,770、2014年4月 3日提交的美國臨時專利申請No . 61 /974,544、以及2014年8月15日提交的美國臨時專利申 請No. 62/037,693的優先權,每一專利申請的全部內容特此通過引用并入。
技術領域
[0003] 本文中公開的發明一般涉及音頻信號的編碼和解碼,并且特別地涉及多聲道音頻 信號從下混信號和相關聯的元數據的參數化重構。
【背景技術】
[0004] 包括多個揚聲器的音頻回放系統被頻繁地用于再現由多聲道音頻信號所表示的 音頻場景,其中,多聲道音頻信號的相應聲道在相應的揚聲器上被回放。多聲道音頻信號可 能例如已經由多個聲換能器被記錄或者可能已通過音頻制作設備被產生。在許多情形下, 對于將音頻信號傳輸到回放設備存在帶寬限制,和/或對于將音頻信號存儲在計算機存儲 器中或者便攜式存儲設備上存在有限的空間。存在用于音頻信號的參數化編碼以便減少所 需要的帶寬或存儲大小的音頻編碼系統。在編碼器側,這些系統通常將多聲道音頻信號下 混為下混信號(其通常是單聲道(一個聲道)或立體聲(兩個聲道)下混),并且提取通過比如 水平差異(level difference)和互相關的參數描述聲道的性質的邊信息(side information)。下混和邊信息然后被編碼,并且被發送到解碼器側。在解碼器側,在邊信息 的參數的控制下從下混重構(即,近似)多聲道音頻信號。
[0005] 鑒于可供用于回放多聲道音頻內容(包括針對終端用戶家庭中的這些終端用戶的 新興部分)的范圍廣泛的不同類型的設備和系統,需要新的、替代的方式以高效地對多聲道 音頻內容進行編碼,以便減少帶寬要求和/或存儲所需的存儲器大小、和/或便于解碼器側 的多聲道音頻信號的重構。
【附圖說明】
[0006] 在以下,將參照附圖且更詳細地描述示例實施例,其中:
[0007] 圖1是根據示例實施例的用于基于單聲道下混信號以及相關聯的干(dry)上混參 數和濕(wet)上混參數重構多聲道音頻信號的參數化重構部分的一般化框圖;
[0008] 圖2是根據示例實施例的包括圖1中描繪的參數化重構部分的音頻解碼系統的一 般化框圖;
[0009] 圖3是根據示例實施例的用于將多聲道音頻信號編碼為單聲道下混信號和相關聯 的元數據的參數化編碼部分的一般化框圖;
[0010] 圖4是根據示例實施例的包括圖3中描繪的參數化編碼部分的音頻編碼系統的一 般化框圖;
[0011] 圖5-11示出根據示例實施例的通過下混聲道表示11.1聲道音頻信號的替代方式;
[0012] 圖12-13示出根據示例實施例的通過下混聲道表示13.1聲道音頻信號的替代方 式;以及
[0013] 圖14-16示出根據示例實施例的通過下混聲道表示22.2聲道音頻信號的替代方 式。
[0014] 所有的附圖都是示意性的,并且一般僅示出為了闡明本發明所必要的部分,而其 它部分則可以被省略或者僅僅被建議。
【具體實施方式】
[0015] 如本文中所使用的,音頻信號可以是純音頻信號、視聽信號或多媒體信號的音頻 部分或者與元數據組合的這些中的任何一個。
[0016] 如本文中所使用的,聲道是與預定義/固定的空間位置/方位或未定義的空間位置 (諸如"左"或"右")相關聯的音頻信號。
[0017] I.概述
[0018] 根據第一方面,示例實施例提出了用于重構音頻信號的音頻解碼系統以及方法和 計算機程序產品。根據第一方面的提出的解碼系統、方法和計算機程序產品一般可以共享 相同的特征和優點。
[0019] 根據示例實施例,提供了一種用于重構N聲道音頻信號的方法,其中,N多3。所述方 法包括:對單聲道下混信號或攜載用于重構更多音頻信號的數據的多聲道下混信號的聲道 連同相關聯的干上混參數和濕上混參數一起進行接收;將具有多個(N個)聲道的第一信號 (其被稱為干上混信號)計算為所述下混信號的線性映射,其中,作為計算所述干上混信號 的一部分,一組干上混系數被應用于所述下混信號;基于所述下混信號產生(N-I)聲道去相 關信號;將具有多個(N個)聲道的另一信號(其被稱為濕上混信號)計算為所述去相關信號 的線性映射,其中,作為計算所述濕上混信號的一部分,一組濕上混系數被應用于所述去相 關信號的聲道;以及組合所述干上混信號和濕上混信號以獲得與要被重構的N聲道音頻信 號對應的多維重構信號。所述方法進一步包括:基于接收的干上混參數確定所述一組干上 混系數;基于接收的濕上混參數并且在已知具有比接收的濕上混參數的數量多的元素的中 間矩陣屬于預定義矩陣類(class)的情況下,填充所述中間矩陣;以及通過將所述中間矩陣 與預定義矩陣相乘來獲得所述一組濕上混系數,其中,所述一組濕上混系數對應于從所述 相乘得到的矩陣并且包括比所述中間矩陣中的元素的數量多的系數。
[0020] 在該示例實施例中,用于重構N聲道音頻信號的濕上混系數的數量大于接收的濕 上混參數的數量。通過利用預定義矩陣和預定義矩陣類的知曉(knowledge)以從接收的濕 上混參數獲得濕上混系數,可以減少使得能夠重構N聲道音頻信號所需要的信息量,從而允 許減少從編碼器側連同下混信號一起傳輸的元數據的量。通過減少參數化重構所需要的數 據量,可以減少N聲道音頻信號的參數化表示的傳輸所需的帶寬和/或存儲這樣的表示所需 的存儲器大小。
[0021] (N-I)聲道去相關信號用于增加收聽者所感知到的重構的N聲道音頻信號的內容 的維度。(N-I)聲道去相關信號的聲道可以具有至少大致與單聲道下混信號相同的頻譜,或 者可以具有與單聲道下混信號的頻譜的重新縮放(rescale)/規范化的版本對應的頻譜,并 且可以連同單聲道下混信號一起形成N個至少大致互不相關的聲道。為了提供N聲道音頻信 號的聲道的忠實重構,去相關信號的聲道的每一個優選地具有它被收聽者感知為類似于下 混信號的這樣的性質。因此,盡管可以將互不相關的信號與來自例如白噪聲的給定頻譜合 成,但是去相關信號的聲道優選地通過處理下混信號來導出,例如包括將相應的全通濾波 器應用于下混信號或者組合下混信號的部分,以便保留下混信號的盡可能多的性質(尤其 是局部平穩的性質),包括下混信號的相對更細微的、心理聲學制約的性質,諸如音色。
[0022] 組合濕上混信號和干上混信號可以包括將來自濕上混信號的相應聲道的音頻內 容添加到干上混信號的相應的對應聲道的音頻內容,諸如基于每一個采樣或每一個變換系 數加性混合(additive mixing)。
[0023] 預定義矩陣類可以與對于該類中的所有矩陣都有效的至少一些矩陣元素的已知 性質(諸如矩陣元素中的一些之間的某些關系,或者一些矩陣元素為零)相關聯。這些性質 的知曉允許基于比中間矩陣中的矩陣元素的全部數量少的濕上混參數來填充中間矩陣。解 碼器側至少具有它基于較少的濕上混參數計算所有矩陣元素所需的元素的性質以及這些 元素之間的關系的知曉。
[0024] 干上混信號是下混信號的線性映射意指干上混信號是通過將第一線性變換應用 于下混信號而獲得的。該第一變換將一個聲道當作輸入并且提供N個聲道作為輸出,并且干 上混系數是定義該第一線性變換的定量性質的系數。
[0025] 濕上混信號是去相關信號的線性映射意指濕上混信號是通過將第二線性變換應 用于去相關信號而獲得的。該第二變換將N-I個聲道當作輸入并且提供N個聲道作為輸出, 并且濕上混系數是定義該第二線性變換的定量性質的系數。
[0026] 在示例實施例中,接收所述濕上混參數可以包括接收N(N_l)/2個濕上混參數。在 本示例實施例中,填充所述中間矩陣可以包括基于接收的N(N_l)/2個濕上混參數并且在已 知所述中間矩陣屬于預定義矩陣類的情況下獲得(N-I) 2個矩陣元素的值。這可以包括立即 將濕上混參數的值作為矩陣元素插入,或者以合適的方式對濕上混參數進行處理以導出矩 陣元素的值。在本示例實施例中,所述預定義矩陣可以包括N(N-I)個元素,并且所述一組濕 上混系數可以包括N(N-I)個系數。例如,接收所述濕上混參數可以包括接收至多Ν(Ν-1)/2 個可獨立分配的濕上混參數,和/或接收的濕上混參數的數量可以不多于用于重構N聲道音 頻信號的濕上混系數的數量的一半。
[0027] 要理解,當將濕上混信號的聲道形成為去相關信號的聲道的線性映射時省略來自 去相關信號的聲道的貢獻對應于將具有值零的系數應用于該聲道,即,省略來自聲道的貢 獻不影響作為線性映射的部分而應用的系數的數量。
[0028] 在示例實施例中,填充所述中間矩陣可以包括利用接收的濕上混參數作為所述中 間矩陣中的元素。由于接收的濕上混參數在沒有進行任何進一步處理的情況下被用作中間 矩陣中的元素,所以可以降低填充中間矩陣以及獲得上混系數所需的計算的復雜度,從而 允許N聲道音頻信號的計算更高效的重構。
[0029] 在示例實施例中,接收所述干上混參數可以包括接收(N-I)個干上混參數。在本示 例實施例中,所述一組干上混系數可以包括N個系數,并且所述一組干上混系數基于接收的 (N-I)個干上混參數并且基于所述一組干上混系數中的系數之間的預定義關系而確定。例 如,接收所述干上混參數可以包括接收至多(N-I)個可獨立分配的干上混參數。例如,所述 下混信號可根據預定義規則作為要被重構的N聲道音頻信號的線性映射而獲得,并且所述 干上混系數之間的預定義關系可以基于所述預定義規則。
[0030] 在示例實施例中,所述預定義矩陣類可以是以下中的一個:下三角矩陣或上三角 矩陣,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素為零;對稱矩陣,其中,該類 中的所有矩陣的已知性質包括(主對角線的任一側的)預定義矩陣元素是相等的;以及正交 矩陣和對角矩陣的乘積,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素之間的 已知關系。換句話說,所述預定義矩陣類可以是下三角矩陣類、上三角矩陣類、對稱矩陣類、 或正交矩陣和對角矩陣的乘積類。以上類中的每一個的共同性質是其維度少于矩陣元素的 全部數量。
[0031] 在示例實施例中,所述下混信號可以根據預定義規則作為要被重構的N聲道音頻 信號的線性映射而獲得。在本示例實施例中,所述預定義規則可以對預定義下混操作進行 定義,并且所述預定義矩陣可以基于跨越所述預定義下混操作的核空間的向量。例如,所述 預定義矩陣的行或列可以是形成預定義下混操作的核空間的基(例如,正交基)的向量。
[0032] 在示例實施例中,對所述單聲道下混信號連同相關聯的干上混參數和濕上混參數 一起進行接收可以包括對所述下混信號的時間段或時間/頻率片(tile)連同與該時間段或 時間/頻率片相關聯的干上混參數和濕上混參數一起進行接收。在本示例實施例中,所述多 維重構信號可以對應于要被重構的N聲道音頻信號的時間段或時間/頻率片。換句話說,所 述N聲道音頻信號的重構在至少一些示例實施例中可以一次一個時間段或時間/頻率片地 執行。音頻編碼/解碼系統通常例如通過將合適的濾波器組應用于輸入的音頻信號來將時 間-頻率空間分成時間/頻率片。時間/頻率片一般意指時間-頻率空間的與時間間隔/段和 頻率子帶對應的一部分。
[0033] 根據示例實施例,提供了一種音頻解碼系統,所述音頻解碼系統包括第一參數化 重構部分,所述第一參數化重構部分被配置為基于第一單聲道下混信號以及相關聯的干上 混參數和濕上混參數重構N聲道音頻信號,其中,N>3。所述第一參數化重構部分包括第一 去相關部分,所述第一去相關部分被配置為接收所述第一下混信號并且基于此而輸出第一 (N-1)聲道去相關信號。所述第一參數化重構部分還包括第一干上混部分,所述第一干上混 部分被配置為:接收干上混參數和下混信號;基于所述干上混參數確定第一組干上混系數; 以及輸出通過根據所述第一組干上混系數線性地映射所述第一下混信號而計算的第一干 上混信號。換句話說,通過將所述單聲道下混信號乘以相應系數來獲得第一干上混信號的 聲道,所述相應系數可以是干上混系數本身,或者可以是可經由干上混系數控制的系數。所 述第一參數化重構部分進一步包括第一濕上混部分,所述第一濕上混部分被配置為:接收 濕上混參數和第一去相關信號;基于接收的濕上混參數并且在已知具有比接收的濕上混參 數的數量多的元素的第一中間矩陣屬于第一預定義矩陣類的情況下(即,通過利用已知為 對于預定義矩陣類中的所有矩陣成立的某些矩陣元素的性質),填充所述第一中間矩陣;通 過將所述第一中間矩陣與第一預定義矩陣相乘來獲得第一組濕上混系數,其中,所述第一 組濕上混系數對應于從所述相乘得到的矩陣并且包括比所述第一中間矩陣中的元素的數 量多的系數;以及輸出通過根據所述第一組濕上混系數線性地映射所述第一去相關信號 (即,通過利用濕上混系數形成去相關信號的聲道的線性組合)而計算的第一濕上混信號。 所述第一參數化重構部分還包括第一組合部分,所述第一組合部分被配置為接收所述第一 干上混信號和第一濕上混信號,并且組合這些信號以獲得與要被重構的N維音頻信號對應 的第一多維重構信號。
[0034] 在示例實施例中,所述音頻解碼系統可以進一步包括第二參數化重構部分,所述 第二參數化重構部分可獨立于第一參數化重構部分操作,并且被配置為基于第二單聲道下 混信號以及相關聯的干上混參數和濕上混參數重構犯聲道音頻信號,其中,犯多2。犯=2或 N2多3例如可以成立。在本示例實施例中,所述第二參數化重構部分可以包括第二去相關部 分、第二干上混部分、第二濕上混部分以及第二組合部分,并且所述第二參數化重構部分的 所述部分可以類似于所述第一參數化重構部分的對應部分被配置。在本示例實施例中,所 述第二濕上混部分可以被配置為利用屬于第二預定義矩陣類的第二中間矩陣和第二預定 義矩陣。所述第二預定義矩陣類和第二預定義矩陣可以分別與第一預定義矩陣類和第一預 定義矩陣不同或相等。
[0035] 在示例實施例中,所述音頻解碼系統可以適于基于多個下混聲道以及相關聯的干 上混參數和濕上混參數重構多聲道音頻信號。在本示例實施例中,所述音頻解碼系統可以 包括:多個重構部分,所述多個重構部分包括參數化重構部分,所述參數化重構部分可操作 為基于相應的下混聲道以及相應的相關聯的干上混參數和濕上混參數獨立地重構相應的 多組音頻信號聲道;和控制部分,所述控制部分被配置為接收信令,所述信令指示與多聲道 音頻信號的聲道到由相應的下混聲道所表示的、并且對于下混聲道中的至少一些由相應的 相關聯的干上混參數和濕上混參數所表示的多組聲道的劃分對應的所述多聲道音頻信號 的編碼格式。在本示例實施例中,所述編碼格式可以進一步對應于用于基于相應的濕上混 參數獲得與相應的多組聲道中的至少一些相關聯的濕上混系數的一組預定義矩陣。可選 地,所述編碼格式可以進一步對應于指示相應的中間矩陣基于相應的多組濕上混參數而將 被如何填充的一組預定義矩陣類。
[0036] 在本示例實施例中,所述解碼系統可以被配置為響應于接收的指示第一編碼格式 的信令而使用所述多個重構部分的第一子集來重構所述多聲道音頻信號。在本示例實施例 中,所述解碼系統可以被配置為響應于接收的指示第二編碼格式的信令而使用所述多個重 構部分的第二子集來重構所述多聲道音頻信號,并且所述重構部分的第一子集和第二子集 中的至少一個可以包括所述第一參數化重構部分。
[0037] 根據多聲道音頻信號的音頻內容的組成、用于從編碼器側到解碼器側的傳輸的可 用帶寬、收聽者所感知的所需的回放質量和/或在解碼器側重構的音頻信號的所需的保真 度,最適合的編碼格式在不同的應用和/或時段之間可以不同。通過對多聲道音頻信號支持 多種編碼格式,本示例實施例中的音頻解碼系統允許編碼器側利用更特別適合于當前情況 的編碼格式。
[0038] 在示例實施例中,所述多個重構部分可以包括單聲道重構部分,所述單聲道重構 部分可操作為基于其中至多單個音頻聲道已被編碼的下混聲道獨立地重構單個音頻聲道。 在本示例實施例中,所述重構部分的第一子集和第二子集中的至少一個可以包括所述單聲 道重構部分。所述多聲道音頻信號的一些聲道對于收聽者所感知到的多聲道音頻信號的總 體印象可能是特別重要的。通過利用單聲道重構部分來單獨地將例如這樣的聲道編碼在它 自己的下混聲道中,而其它聲道則在其它下混聲道中被一起參數化編碼,可以增加重構的 多聲道音頻信號的保真度。在一些示例實施例中,多聲道音頻信號的一個聲道的音頻內容 可以具有與多聲道音頻信號的其它聲道的音頻內容不同的類型,并且可以通過利用以下的 編碼格式來增加重構的多聲道音頻信號的保真度:在該編碼格式中,該聲道被單獨地編碼 在它自己的下混聲道中。
[0039] 在示例實施例中,所述第一編碼格式可以對應于從比第二編碼格式數量少的下混 聲道重構所述多聲道音頻信號。通過利用較少數量的下混聲道,可以減少從編碼器側到解 碼器側的傳輸所需的帶寬。通過利用較多數量的下混聲道,可以增加重構的多聲道音頻信 號的保真度和/或感知的音頻質量。
[0040] 根據第二方面,示例實施例提出了用于對多聲道音頻信號進行編碼的音頻編碼系 統以及方法和計算機程序產品。根據第二方面的提出的編碼系統、方法和計算機程序產品 一般可以共享相同的特征和優點。而且,以上對于根據第一方面的解碼系統、方法和計算機 程序產品的特征呈現的優點對于根據第二方面的編碼系統、方法和計算機程序產品的對應 特征一般可以是有效的。
[0041] 根據示例實施例,提供了一種用于將N聲道音頻信號編碼為單聲道下混信號和元 數據的方法,所述元數據適合于所述音頻信號從下混信號和基于所述下混信號而確定的 (N-I)聲道去相關信號的參數化重構,其中,N多3。所述方法包括:接收所述音頻信號;根據 預定義規則將單聲道下混信號計算為所述音頻信號的線性映射;以及確定一組干上混系數 以便定義近似所述音頻信號的下混信號的線性映射(例如,在僅下混信號可供用于重構的 假設下經由最小均方誤差近似)。所述方法進一步包括基于接收的所述音頻信號的協方差 和通過所述下混信號的線性映射近似的所述音頻信號的協方差之間的差確定中間矩陣,其 中,所述中間矩陣在被乘以預定義矩陣時對應于一組濕上混系數,所述一組濕上混系數定 義作為所述音頻信號的參數化重構的一部分的所述去相關信號的線性映射,并且其中,所 述一組濕上混系數包括比所述中間矩陣中的元素的數量多的系數。所述方法進一步包括將 下混信號連同可從其導出所述一組干上混系數的干上混參數以及濕上混參數一起輸出,其 中,所述中間矩陣具有比輸出的濕上混參數的數量多的元素,并且其中,假如所述中間矩陣 屬于預定義矩陣類,則所述中間矩陣由輸出的濕上混參數唯一地定義。
[0042] 解碼器側的音頻信號的參數化重構副本包括作為一個貢獻的通過下混信號的線 性映射形成的干上混信號、以及作為另一貢獻的通過去相關信號的線性映射形成的濕上混 信號。所述一組干上混系數定義下混信號的線性映射,而所述一組濕上混系數定義去相關 信號的線性映射。通過輸出比濕上混系數的數量少的并且基于預定義矩陣和預定義矩陣類 可從其導出濕上混系數的濕上混參數,可以減少被發送到解碼器側以使得能夠重構N聲道 音頻信號的信息量。通過減少參數化重構所需要的數據量,可以減少N聲道音頻信號的參數 化表示的傳輸所需的帶寬和/或存儲這樣的表示所需的存儲器大小。
[0043] 所述中間矩陣可以基于接收的音頻信號的協方差和通過下混信號的線性映射近 似的音頻信號的協方差之間的差(例如對于補充通過下混信號的線性映射近似的音頻信號 的協方差的、通過去相關信號的線性映射獲得的信號的協方差)而確定。
[0044] 在示例實施例中,確定所述中間矩陣可以包括確定中間矩陣使得通過由所述一組 濕上混系數定義的所述去相關信號的線性映射獲得的信號的協方差近似于接收的所述音 頻信號的協方差和通過所述下混信號的線性映射近似的所述音頻信號的協方差之間的差, 或者與該差基本上一致。換句話說,所述中間矩陣可以被確定為使得作為通過下混信號的 線性映射形成的干上混信號與通過去相關信號的線性映射形成的濕上混信號的和而獲得 的音頻信號的重構副本完全地或至少近似地恢復接收的音頻信號的協方差。
[0045] 在示例實施例中,輸出所述濕上混參數可以包括輸出至多N(N_l)/2個可獨立分配 的濕上混參數。在本示例實施例中,所述中間矩陣可以具有(N-I) 2個矩陣元素,并且假如所 述中間矩陣屬于預定義矩陣類,則所述中間矩陣可以由輸出的濕上混參數唯一地定義。在 本示例實施例中,所述一組濕上混系數可以包括N(N-I)個系數。
[0046] 在示例實施例中,所述一組干上混系數可以包括N個系數。在本示例實施例中,輸 出所述干上混參數可以包括輸出至多N-I個干上混參數,并且所述一組干上混系數可使用 所述預定義規則從所述N-I個干上混參數導出。
[0047] 在示例實施例中,確定的一組干上混系數可以定義與所述音頻信號的最小均方誤 差近似對應的所述下混信號的線性映射,即,在一組下混信號的線性映射當中,確定的一組 干上混系數可以定義最小均方意義上最佳近似音頻信號的線性映射。
[0048] 根據示例實施例,提供了一種音頻編碼系統,所述音頻編碼系統包括參數化編碼 部分,所述參數化編碼部分被配置為將N聲道音頻信號編碼為單聲道下混信號和元數據,所 述元數據適合于所述音頻信號從下混信號和基于所述下混信號而確定的(N-I)聲道去相關 信號的參數化重構,其中,N多3。所述參數化編碼部分包括:下混部分,所述下混部分被配置 為接收所述音頻信號,并且根據預定義規則將單聲道下混信號計算為所述音頻信號的線性 映射;以及第一分析部分,所述第一分析部分被配置為確定一組干上混系數以便定義近似 所述音頻信號的下混信號的線性映射。所述參數化編碼部分進一步包括第二分析部分,所 述第二分析部分被配置為基于接收的所述音頻信號的協方差和通過所述下混信號的線性 映射近似的所述音頻信號的協方差之間的差確定中間矩陣,其中,所述中間矩陣在被乘以 預定義矩陣時對應于一組濕上混系數,所述一組濕上混系數定義作為所述音頻信號的參數 化重構的一部分的所述去相關信號的線性映射,其中,所述一組濕上混系數包括比所述中 間矩陣中的元素的數量多的系數。所述參數化編碼部分被進一步配置為將下混信號連同可 從其導出所述一組干上混系數的干上混參數以及濕上混參數一起輸出,其中,所述中間矩 陣具有比輸出的濕上混參數的數量多的元素,并且其中,假如所述中間矩陣屬于預定義矩 陣類,則所述中間矩陣由輸出的濕上混參數唯一地定義。
[0049] 在示例實施例中,所述音頻編碼系統可以被配置為提供多個下混聲道以及相關聯 的干上混參數和濕上混參數的形式的多聲道音頻信號的表示。在本示例實施例中,所述音 頻編碼系統可以包括:多個編碼部分,所述多個編碼部分包括參數化編碼部分,所述參數化 編碼部分可操作為基于相應的多組音頻信號聲道獨立地計算相應的下混聲道和相應的相 關聯的上混參數。在本示例實施例中,所述音頻編碼系統可以進一步包括控制部分,所述控 制部分被配置為確定與所述多聲道音頻信號的聲道到要由相應的下混聲道所表示的、并且 對于下混聲道中的至少一些要由相應的相關聯的干上混參數和濕下混參數所表示的多組 聲道的劃分對應的所述多聲道音頻信號的編碼格式。在本示例實施例中,所述編碼格式可 以進一步對應于用于計算所述相應的下混聲道中的至少一些的一組預定義規則。在本示例 實施例中,所述音頻編碼系統可以被配置為響應于確定的編碼格式為第一編碼格式而使用 所述多個編碼部分的第一子集來對所述多聲道音頻信號進行編碼。在本示例實施例中,所 述音頻編碼系統可以被配置為響應于確定的編碼格式為第二編碼格式而使用所述多個編 碼部分的第二子集來對所述多聲道音頻信號進行編碼,并且所述編碼部分的第一子集和第 二子集中的至少一個可以包括所述第一參數化編碼部分。在本示例實施例中,所述控制部 分可以例如基于用于將多聲道音頻信號的編碼版本傳輸到解碼器側的可用帶寬、基于多聲 道音頻信號的聲道的音頻內容和/或基于指示期望的編碼格式的輸入信號來確定編碼格 式。
[0050] 在示例實施例中,所述多個編碼部分可以包括單聲道編碼部分,所述單聲道編碼 部分可操作為在下混聲道中獨立地對至多單個音頻聲道進行編碼,并且所述編碼部分的第 一子集和第二子集中的至少一個可以包括所述單聲道編碼部分。
[0051] 根據示例實施例,提供了一種計算機程序產品,所述計算機程序產品包括具有用 于執行所述第一方面和第二方面的方法中的任何一個的指令的計算機可讀介質。
[0052] 根據示例實施例,在所述第一方面和第二方面的方法、編碼系統、解碼系統和計算 機程序產品中的任何一個中,N=3或N=4可以成立。
[0053] 進一步的示例實施例在從屬權利要求中被定義。注意,示例實施例包括特征的所 有組合,即使在互不相同的權利要求中被記載。
[0054] II.示例實施例
[0055] 在將參照圖3和圖4描述的編碼器側,單聲道下混信號Y根據以下方程被計算為N聲 道音頻信號Χ=[Χ1··· Χη]Τ的線性映射:
[0056]
(1)
[0057]其中,(1η(η = 1,···,Ν)是由下混矩陣D表示的下混系數。在將參照圖1和圖2描述的 解碼器側,N聲道音頻信號的參數化重構根據以下方程執行:
[0058]
Ρ)
[0059] 其中,οη(η = 1,···,Ν)是由矩陣干上混矩陣C表示的干上混系數,pn,k(n=l,…,N,k =1,…N-1)是由濕上混矩陣P表示的濕上混系數,并且zk(k=l,"_,N-l)是基于下混信號Y 而產生的(N-I)聲道去相關信號Z的聲道。如果每個音頻信號的聲道被表示為行,則原始音 頻信號X的協方差矩陣可以被表達為R=XX t,并且重構的音頻信號/的協方差矩陣可以被表 達為ft = MT。要注意,如果例如音頻信號被表示為包括復值變換系數的行,則可以例如考 慮XXl其中,X#是矩陣X的復共輒轉置)的實數部分,而不是XX T。
[0060] 為了提供原始音頻信號X的忠實重構,對于由方程(2)給出的重構來說可能有利的 是恢復(reinstate)全協方差,即,可能有利的是利用干上混矩陣C和濕上混矩陣P使得
[0061]
(3)
[0062] -種方法是首先通過對以下正規方程(normal equation)進行求解來找到給出最 小二乘意義上的最佳可能的"干"上混的干上混矩陣C:
[0063]
(4)
[0064] 對于通過矩陣C求解方程(4),以下方程成立:
[0065]
[0066] 假定去相關信號Z的聲道是互不相關的,并且全部都具有等于單聲道下混信號Y的 能量的相同能量I |Y| I2,則可以根據以下方程來對正定缺失(missing)協方差AR進行因子 分解:
[0067] (6)
[0068] 可以通過利用求解方程(4)的干上混矩陣C和求解方程(6)的濕上混矩陣P來根據 方程(3)恢復全協方差。方程(1)和(4)隱含對于非退化下混矩陣D而言,DCYY t = YYt,并且從 而
[0069] (7)
[0070] 方程(5)和(7)隱含 D(Xo-X) =DCY-Y = O 并且
[0071] DAR = O. (8)
[0072]因此,缺失協方差AR具有秩N-I,并且實際上可以通過利用具有N-I個互不相關的 聲道的去相關信號Z來提供。方程(6)和(8)隱含DP = 0,使得求解方程(6)的濕上混矩陣P的 列可以從跨越下混矩陣D的核空間的向量構造。用于找到合適的濕上混矩陣P的計算因此可 以被移至該較低維數的空間。
[0073]令V是包含下混矩陣D的核空間(即,向量V的線性空間,其中Dv = 0)的正交基的、大 小為N(N-I)的矩陣。對于N=2、N=3和N=4的這樣的預定義矩陣V的示例分別是:
[0074;
[0075] 在由V給出的基中,缺失協方差可以被表達為Rv = V1X AR)V。為了找到求解方程(6) 的濕上混矩陣P,因此可以首先通過對Rv = HHt進行求解來找到矩陣H,并然后按照P = VH/| |Y I獲得p,其中,I |y| I是單聲道下混信號γ的能量的平方根。可以按照P=VH〇/| |y| I獲得其 它合適的上混矩陣p,其中,〇是正交矩陣。可替代地,可以通過單聲道下混信號Y的能量I Iy 2來重新縮放缺失協方差Rv,并且改為對以下方程進行求解:
[0076]
UU)
[0077] 其中,H=HrI |Y| I,并且按照以下方程獲得P:
[0078] P = VHr. (11)
[0079]當Hr的項被量化并且期望的輸出具有靜音(silent)聲道時,如以上所述的預定義 矩陣V的性質可能是不方便的。作為示例,對于N = 3,對于(9)的第二個矩陣更好的選擇將 是:
[0080]
(12)
[0081]幸運的是,只要矩陣V的列是線性獨立的,就可以丟棄這些列成對正交的要求。對 于Δ R = VRvVM^A望的解Rv然后通過Rv=Wt(AR)W與= V(VTV"(V的偽逆)來獲得。
[0082]矩陣Rv是大小為(N-I)2的正半定矩陣,并且存在找到對于方程(10)的解、得到維數 為Ν(Ν-1)/2的相應矩陣類(即,在所述相應矩陣類中,矩陣由Ν(Ν-1)/2個矩陣元素唯一地定 義)內的解的若干方法。可以例如通過利用以下來獲得解:
[0083] a · Cho I e sky因子分解,得到下三角Hr ;
[0084] b.正平方根,得到對稱正半定Hr;或
[0085] c.極分解(polar),得到形式Hr = OΛ的Hn,其中,0是正交的,并且Λ是對角的。 [0086] 而且,存在選項a)和b)的規范化版本,在這些版本中,Hr可以被表達為Hr= ΛΗο,其 中,Λ是對角的,并且Ho的全部對角元素都等于一。以上的替代方案a、b和c提供了不同矩陣 類(即,下三角矩陣、對稱矩陣以及對角矩陣和正交矩陣的乘積)中的解Hr。如果Hr所屬于的 矩陣類在解碼器側是已知的,即,如果已知Hr屬于例如根據以上替代方案a、b和c中的任何 一個的預定義矩陣類,則可以僅基于Hr的N(N_l)/2個元素來填充Hr。如果同樣矩陣V在解碼 器側是已知的,例如,如果已知V是(9)中給出的矩陣中的一個,則然后可以經由方程(11)來 獲得根據方程(2)進行重構所需要的濕上混矩陣P。
[0087] 圖3是根據示例實施例的參數化編碼部分300的一般化框圖。該參數化編碼部分 300被配置為將N聲道音頻信號X編碼為單聲道下混信號Y和適合于根據方程(2)的音頻信號 X的參數化重構的元數據。參數化編碼部分300包括下混部分301,該下混部分301接收音頻 信號X,并且根據預定義規則將單聲道下混信號Y計算為音頻信號X的線性映射。在本示例實 施例中,下混部分301根據方程(1)計算下混信號Y,其中,下混矩陣D是預定義的并且對應于 預定義規則。第一分析部分302確定干上混矩陣C所表示的一組干上混系數,以便定義近似 音頻信號X的下混信號Y的線性映射。該下混信號Y的線性映射在方程(2)中由CY表示。在本 示例實施例中,根據方程(4)來確定N個干上混系數C,使得下混信號Y的線性映射CY對應于 音頻信號X的最小均方近似。第二分析部分303基于接收的音頻信號X的協方差矩陣和通過 下混信號Y的線性映射CY近似的音頻信號的協方差矩陣之間的差來確定中間矩陣Hr。在本 示例實施例中,協方差矩陣是分別由第一處理部分304和第二處理部分305計算的,并然后 被提供給第二分析部分303。在本示例實施例中,中間矩陣Hr根據上述對方程(10)進行求解 的方法b確定,從而得到對稱的中間矩陣Hr。如方程(1)和(I 1)中所指示的,中間矩陣Hr在被 乘以預定義矩陣V時經由一組濕上混參數P來定義作為解碼器側的音頻信號X的參數化重構 的一部分的、去相關信號Z的線性映射PZ。在本示例實施例中,對于情況N = 3,中間矩陣V是 (9)中的第二個矩陣,并且對于情況N = 4,是(9)中的第三個矩陣。參數化編碼部分300將下 混信號Y連同干上混參數€以及濕上混參數聲一起輸出。在本示例實施例中,N個干上混系數 C中的N-I個是干上混參數??,而剩余的一個干上混系數可經由方程(7)從干上混參數€導出 (如果預定義下混矩陣D已知的話)。由于中間矩陣Hr屬于對陣矩陣類,所以它由它的(N-I) 2 個元素中的Ν(Ν_1)/2個唯一地定義。在本示例實施例中,中間矩陣Hr的元素中的Ν(Ν_1)/2 個因此是濕上混參數F:?在已知中間矩陣Hr是對稱的情況下,可從濕上混參數|5導出中間矩 陣Hr的其余部分。
[0088] 圖4是根據示例實施例的、包括參照圖3描述的參數化編碼部分300的音頻編碼系 統400的一般化框圖。在本示例實施例中,例如由一個或多個聲換能器401記錄的或者由音 頻制作設備401產生的音頻內容是以N聲道音頻信號X的形式提供的。正交鏡像濾波器(QMF) 分析部分402將音頻信號X逐個時間段地變換到QMF域中以供時間/頻率片的形式的音頻信 號X的參數化編碼部分300的處理。由參數化編碼部分300輸出的下混信號Y被QMF合成部分 403從QMF域變換回去,并且被變換部分404變換到修正離散余弦變換(MDCT)域中。量化部分 405和406分別對干上混參數f和濕上混參數朽?行量化。例如,可以利用0.1或0.2(無量綱) 的步長大小的均勾量化,接著進行哈夫曼編碼的形式的熵編碼。具有步長大小0.2的較粗略 的量化可以例如被利用以節省傳輸帶寬,而具有步長大小0.1的較精細的量化可以例如被 利用以改善解碼器側的重構的保真度。MDCT變換的下混信號Y以及量化的干上混參數^和濕 上混參數然后被復用器407組合成比特流B,以供傳輸到解碼器側。音頻編碼系統400還可 以包括核心編碼器(圖4中未示出),該核心編碼器被配置為在下混信號Y被提供給復用器 407之前使用感知音頻編解碼器(諸如Dolby Digital或MPEG AAC)對下混信號Y進行編碼。
[0089] 圖1是根據示例實施例的、被配置為基于單聲道下混信號Y以及相關聯的干上混參 數6和濕上混參數#來重構N聲道音頻信號X的參數化重構部分100的一般化框圖。該參數化 重構部分100適于根據方程(2)(即,使用干上混參數C和濕上混參數P)執行重構。然而,代替 接收干上混參數C和濕上混參數P本身,可從其導出干上混參數C和濕上混參數P的干上混參 數6和濕上混參數辦皮接收。去相關部分101接收下混信號Y,并且基于此而輸出(N-I)聲道去 相關信號Z= [zm]T。在本示例實施例中,通過對下混信號Y進行處理(包括將相應的全 通濾波器應用于下混信號Y)來導出去相關信號Z的聲道,以便提供與下混信號Y不相關的、 并且具有在頻譜上類似于下混信號Y而且也被收聽者感知為類似于下混信號Y的音頻內容 的音頻內容的聲道。(N-I)聲道去相關信號Z用于增加收聽者所感知到的N聲道音頻信號X的 重構版本f的維度。在本示例實施例中,去相關信號Z的聲道具有至少大致與單聲道下混信 號Y的頻譜相同的頻譜,并且連同單聲道下混信號Y-起形成N個至少大致互不相關的聲道。 干上混部分102接收干上混參數^和下混信號Y。在本示例實施例中,干上混參數^與N個干 上混系數C中的頭N-I個一致,而剩余的干上混系數基于由方程(7)給出的干上混系數C之間 的預定義關系來確定。干上混部分102輸出通過根據所述一組干上混系數C線性地映射下混 信號Y而計算的并且由方程(2)中的CY表示的干上混信號。濕上混部分103接收濕上混參數# 和去相關信號Z。在本示例實施例中,濕上混參數麥是根據方程(10)在編碼器側確定的中間 矩陣Hr的N(N_l)/2個元素。在本示例實施例中,在已知中間矩陣Hr屬于預定義矩陣類(即,它 是對稱的)并且利用該矩陣的元素之間的對應關系的情況下,濕上混部分103填充中間矩陣 Hr的剩余元素。濕上混部分103然后通過利用方程(11)(即,通過將中間矩陣Hr乘以預定義矩 陣V(即,對于情況N = 3,(9)中的第二個矩陣,以及對于情況N = 4,(9)中的第三個矩陣))來 獲得一組濕上混系數P。因此,N(N-I)個濕上混系數P從接收的Ν(Ν-1)/2個可獨立分配的濕 上混參數聲導出。濕上混部分103輸出通過根據所述一組濕上混系數P線性地映射去相關信 號Z而計算的并且由方程(2)中的PZ表示的濕上混信號。組合部分104接收干上混信號CY和 濕上混信號PZ,并且組合這些信號以獲得與要被重構的N聲道音頻信號X對應的第一多維重 構信號之在本示例實施例中,組合部分104通過根據方程⑵將干上混信號CY的相應聲道的 音頻內容與濕上混信號PZ的相應聲道進行組合來獲得重構信號f的相應聲道。
[0090] 圖2是根據示例實施例的音頻解碼系統200的一般化框圖。該音頻解碼系統200包 括參照圖1描述的參數化重構部分100。接收部分201(例如,包括解復用器)接收從參照圖4 描述的音頻編碼系統400傳輸的比特流B,并且從比特流B提取下混信號Y以及相關聯的干上 混參數和濕上混參數F。在下混信號Y使用感知音頻編解碼器(諸如Dolby Digital或MPEG AAC)被編碼在比特流B中的情況下,音頻解碼系統200可以包括核心解碼器(圖2中未示出), 該核心解碼器被配置為當下混信號Y被從比特流B提取時對該下混信號Y進行解碼。變換部 分202通過執行逆MDCT來變換下混信號Y,并且QMF分析部分203將下混信號Y變換到QMF域 中,以供時間/頻率片的形式的下混信號Y的參數化重構部分100的處理。去量化部分204和 205在將干上混參數^和濕上混參數蘆供給到參數化重構部分100之前將干上混參數€和濕 上混參數蘆例如從熵編碼格式去量化。如參照圖4描述的,量化可能已經被以兩個不同的步 長大小(例如,0.1或0.2)中的一個執行。所利用的實際步長大小可以是預定義的,或者可以 例如經由比特流B從編碼器側用信號通知給音頻解碼系統200。在一些示例實施例中,干上 混系數C和濕上混系數P可以分別從已經在相應的去量化部分204和205中的干上混參數之和 濕上混參數F導出,該去量化部分204和205可以可選地被認為分別是干上混部分102和濕上 混部分103的一部分。在本示例實施例中,由參數化重構部分100輸出的重構音頻信號f在被 作為音頻解碼系統200的輸出提供以供在多揚聲器系統207上回放之前被QMF合成部分206 從QMF域變換回去。
[0091]圖5-11示出根據示例實施例的通過下混聲道表示11.1聲道音頻信號的替代方式。 在本示例實施例中,11.1聲道音頻信號包括以下聲道:左(L)、右(R)、中心(C)、低頻效果 (LFE)、左側(LS)、右側(RS)、左后(LB)、右后(RB)、頂部左前(TFL)、頂部右前(TFR)、頂部左 后(TBL)和頂部右后(TBR),這些在圖5-11中由大寫字母指示。表示11.1聲道音頻信號的替 代方式對應于替代地將聲道劃分為多組聲道,每一組由單個下混信號(可選地由相關聯的 濕上混參數和干上混參數)表示。多組聲道中的每一組到其相應的單聲道下混信號(和元數 據)的編碼可以獨立地并且并行地執行。類似地,相應的多組聲道從其相應的單聲道下混信 號的重構可以獨立地并且并行地執行。
[0092] 要理解,在參照圖5-11(以及以下還參照圖13-16)描述的示例實施例中,沒有一個 重構聲道可以包括來自多于一個的下混聲道以及從該單個下混信號導出的任何去相關信 號的貢獻,即,來自多個下混聲道的貢獻在參數化重構期間不被組合/混合。
[0093]在圖5中,聲道LS、TBL和LB形成由單個下混聲道Is(及其相關聯的元數據)所表示 的聲道組501。參照圖3描述的參數化編碼部分300可以以N = 3被利用,以通過單個下混聲道 Is以及相關聯的干上混參數和濕上混參數來表示三個音頻聲道LS、TBL和LB。假定預定義矩 陣V和中間矩陣Hr的預定義矩陣類(兩者都與在參數化編碼部分300中執行的編碼相關聯) 在解碼器側是已知的,則參照圖1描述的參數化重構部分100可以被利用以從下混信號Is以 及相關聯的干上混參數和濕上混參數重構三個聲道LS、TBL和LB。類似地,聲道RS、TBR和RB 形成由單個下混聲道rs所表示的聲道組502,并且參數化編碼部分300的另一實例可以與第 一編碼部分并行地被利用以通過單個下混聲道rs以及相關聯的干上混參數和濕上混參數 表示三個聲道RS、TBR和RB。而且,假定預定義矩陣V和中間矩陣Hr所屬于的預定義矩陣類 (兩者都與參數化編碼部分300的第二實例相關聯)在解碼器側是已知的,則參數化重構部 分100的另一實例可以與第一參數化重構部分并行地被利用以從下混信號rs以及相關聯的 干上混參數和濕上混參數重構三個聲道RS、TBR和RB。另一聲道組503僅包括由下混聲道I所 表示的兩個聲道L和TFL。這兩個聲道到下混聲道I以及相關聯的濕上混參數和干上混參數 的編碼可以分別由與參照圖3和圖1描述的編碼部分和重構部分類似的編碼部分和重構部 分執行,但是是針對N = 2。另一聲道組504僅包括由下混聲道Ife所表示的單個聲道LFE。在 該情況下,不需要下混,并且下混聲道If e可以是聲道LFE本身,可選地被變換到MDCT域中 和/或使用感知音頻編解碼器被編碼。
[0094]在圖5-11中被利用以表示11.1聲道音頻信號的下混聲道的總數有所變化。例如, 圖5中所示的示例利用6個下混聲道,而圖7中的示例利用10個下混聲道。不同的下混配置可 以適合于不同的情形,例如取決于用于傳輸下混信號和相關聯的上混參數的可用帶寬、和/ 或對11.1聲道音頻信號的重構應當達到的忠實程度的要求。
[0095]根據示例實施例,參照圖4描述的音頻編碼系統400可以包括多個參數化編碼部 分,該參數化編碼部分包括參照圖3描述的參數化編碼部分300。音頻編碼系統400可以包括 控制部分(圖4中未示出),該控制部分被配置為從與圖5-11中所示的11.1聲道音頻信號的 相應劃分對應的編碼格式的集合確定/選擇用于11.1聲道音頻信號的編碼格式。該編碼格 式進一步對應于用于計算相應的下混聲道的一組預定義規則(其中的至少一些可以一致)、 用于中間矩陣Hr的一組預定義矩陣類(其中的至少一些可以一致)、以及用于基于相應的相 關聯的濕上混參數來獲得與相應的多組聲道中的至少一些相關聯的濕上混系數的一組預 定義矩陣V(其中的至少一些可以一致)。根據本示例實施例,音頻編碼系統被配置為使用所 述多個編碼部分的適合于確定的編碼格式的子集來對11.1聲道音頻信號進行編碼。如果例 如確定的編碼格式對應于圖1中所示的11.1聲道的劃分,則編碼系統可以利用被配置用于 通過相應的單個下混聲道表示相應的多組3個聲道的2個編碼部分、被配置用于通過相應的 單個下混聲道表示相應的多組2個聲道的2個編碼部分、以及被配置用于將相應的單個聲道 表示為相應的單個下混聲道的2個編碼部分。所有的下混信號以及相關聯的濕上混參數和 干上混參數可以被編碼在同一個比特流B中,以供傳輸到解碼器側。要注意,伴隨下混聲道 的元數據(即,濕上混參數和濕上混參數)的緊湊格式可以被編碼部分中的一些利用,而在 至少一些示例實施例中,其它元數據格式可以被利用。例如,編碼部分中的一些可以輸出全 部數量的濕上混系數和干上混系數,而不是濕上混參數和干上混參數。還設想以下實施例: 在這些實施例中,一些聲道被編碼以供利用少于N-I個去相關聲道(或者甚至根本不利用去 相關)進行重構,并且在這些實施例中用于參數化重構的元數據因此可以采取不同的形式。 [0096]根據示例實施例,參照圖2描述的音頻解碼系統200可以包括對應的多個重構部 分,該重構部分包括參照圖1描述的用于重構由相應的下混信號所表示的11.1聲道音頻信 號的相應的多組聲道的參數化重構部分100。音頻解碼系統200可以包括被配置為從編碼器 側接收指示確定的編碼格式的信令的控制部分(圖2中未示出),并且音頻解碼系統200可以 利用所述多個重構部分的適當子集以從接收的下混信號以及相關聯的干上混參數和濕上 混參數重構11.1聲道音頻信號。
[0097] 圖12-13示出根據示例實施例的通過下混聲道表示13.1聲道音頻信號的替代方 式。13.1聲道音頻信號包括以下聲道:左屏幕(LSCRN)、左寬(LW)、右屏幕(RSCRN)、右寬 (RW)、中心(C)、低頻效果(LFE)、左側(LS)、右側(RS)、左后(LB)、右后(RB)、頂部左前(TFL)、 頂部右前(TFR)、頂部左后(TBL)和頂部右后(TBR)。將相應的聲道組編碼為相應的下混聲道 可以由如以上參照圖5-11描述的獨立并行地操作的相應的編碼部分執行。類似地,基于相 應的下混聲道和相關聯的上混參數對相應的聲道組的重構可以由獨立并行地操作的相應 的重構部分執行。
[0098] 圖14-16示出根據示例實施例的通過下混聲道表示22.2聲道音頻信號的替代方 式。22.2聲道音頻信號包括以下聲道:低頻效果I(LFEl)、低頻效果2(LFE2)、底部前中 (BFC)、中心(C)、頂部前中(TFC)、左寬(LW)、底部左前(BFL)、左(L)、頂部左前(TFL)、頂側左 (TSL)、頂部左后(TBL)、左側(LS)、左后(LB)、頂部中心(TC)、頂部中后(TBC)、中后(CB)、底 部右前(BFR)、右(R)、右寬(RW)、頂部右前(TFR)、頂側右(TSR)、頂部右后(TBR)、右側(RS)和 右后(RB)。圖16中所示的22.2聲道音頻信號的劃分包括聲道組1601,其包括四個聲道。參照 圖3描述的、但是以N = 4實現的參數化編碼部分300可以被利用以將這些聲道編碼為下混信 號以及相關聯的濕上混參數和干上混參數。類似地,參照圖1描述的、但是以N = 4實現的參 數化重構部分100可以被利用以從下混信號以及相關聯的濕上混參數和干上混參數重構這 些聲道。
[0099] III.等同、擴展、替代和其它
[0100] 在研究以上描述之后,本公開的進一步的實施例對于本領域技術人員將變得清 楚。即使目前的描述和附圖公開了實施例和示例,但本公開也不限于這些具體示例。在不脫 離由隨附權利要求限定的本公開的范圍的情況下,可以進行許多修改和變型。在權利要求 中出現的任何附圖標記都不應被理解為限制它們的范圍。
[0101] 另外,對公開的實施例的變型可以由技術人員在實施本公開時從附圖、公開和所 附權利要求的研究來理解和實現。在權利要求中,詞語"包括"不排除其它元件或步驟,并且 不定冠詞"一個"不排除多個。僅有的某些措施在互不相同的從屬權利要求中被記載的事實 并不表明這些措施的組合不能被用于獲利。
[0102] 在上文中公開的設備和方法可以被實現為軟件、固件、硬件或其組合。在硬件實現 中,在以上描述中提及的功能單元之間的任務的劃分不一定對應于劃分成物理單元;相反, 一個物理組件可以具有多個功能,并且一個任務可以由若干物理組件合作執行。某些組件 或全部組件可以被實現為由數字信號處理器或微處理器執行的軟件,或者被實現為硬件或 專用集成電路。這樣的軟件可以分發在計算機可讀介質上,該計算機可讀介質可以包括計 算機存儲介質(或非暫時性介質)和通信介質(或暫時性介質)。如本領域技術人員公知的, 術語計算機存儲介質包括以存儲信息(諸如計算機可讀指令、數據結構、程序模塊或其它數 據)的任何方法或技術實現的易失性和非易失性、可移動和不可移動介質兩者。計算機存儲 介質包括但不限于RAM、ROM、EEPROM、閃速存儲器或其它存儲器技術、⑶-ROM、數字多功能盤 (DVD)或其它光盤存儲、磁盒、磁帶、磁盤存儲或其它磁存儲設備、或者可以被用于存儲期望 信息并且可以被計算機訪問的任何其它介質。此外,技術人員公知的是,通信介質通常包含 計算機可讀指令、數據結構、程序模塊、或調制數據信號(諸如載波或其它輸送機制)中的其 它數據,并且包括任何信息遞送介質。
【主權項】
1. 一種用于重構N聲道音頻信號(X)的方法,其中,3,所述方法包括: 對單聲道下混信號(Y)連同相關聯的干上混參數和濕上混參數(泛聾)一起進行接收; 將干上混信號計算為所述下混信號的線性映射,其中,一組干上混系數(C)被應用于所 述下混信號; 基于所述下混信號產生(N-I)聲道去相關信號(Z); 將濕上混信號計算為所述去相關信號的線性映射,其中,一組濕上混系數(P)被應用于 所述去相關信號的聲道;W及 組合所述干上混信號和濕上混信號W獲得與要被重構的N聲道音頻信號對應的多維重 構信號(!), 其中,所述方法進一步包括: 基于接收的干上混參數確定所述一組干上混系數; 基于接收的濕上混參數并且在已知具有比接收的濕上混參數的數量多的元素的中間 矩陣屬于預定義矩陣類的情況下,填充所述中間矩陣;W及 通過將所述中間矩陣與預定義矩陣相乘來獲得所述一組濕上混系數,其中,所述一組 濕上混系數對應于從所述相乘得到的矩陣并且包括比所述中間矩陣中的元素的數量多的 系數。2. 根據權利要求1所述的方法,其中,接收所述濕上混參數包括接收N(N-l)/2個濕上混 參數,其中,填充所述中間矩陣包括基于接收的N(N-l)/2個濕上混參數并且在已知所述中 間矩陣屬于預定義矩陣類的情況下獲得(N-I)2個矩陣元素的值,其中,所述預定義矩陣包 括N(N-I)個元素,并且其中,所述一組濕上混系數包括N(N-I)個系數。3. 根據權利要求1或2所述的方法,其中,填充所述中間矩陣包括利用接收的濕上混參 數作為所述中間矩陣中的元素。4. 根據前面的權利要求中的任何一項所述的方法,其中,接收所述干上混參數包括接 收(N-I)個干上混參數,其中,所述一組干上混系數包括N個系數,并且其中,所述一組干上 混系數基于接收的(N-I)個干上混參數并且基于所述一組干上混系數中的系數之間的預定 義關系而確定。5. 根據前面的權利要求中的任何一項所述的方法,其中,所述預定義矩陣類是W下中 的一個: 下=角矩陣或上=角矩陣,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素 為零; 對稱矩陣,其中,該類中的所有矩陣的已知性質包括預定義矩陣元素是相等的;W及 正交矩陣和對角矩陣的乘積,其中,該類中的所有矩陣的已知性質包括預定義矩陣元 素之間的已知關系。6. 根據前面的權利要求中的任何一項所述的方法,其中,所述下混信號能夠根據預定 義規則作為要被重構的N聲道音頻信號的線性映射而獲得,其中,所述預定義規則對預定義 下混操作進行定義,并且其中,所述預定義矩陣基于跨越所述預定義下混操作的核空間的 向量。7. 根據前面的權利要求中的任何一項所述的方法,其中,對所述單聲道下混信號連同 相關聯的干上混參數和濕上混參數一起進行接收包括對所述下混信號的時間段或時間/頻 率片連同相關聯的干上混參數和濕上混參數一起進行接收,并且其中,所述多維重構信號 對應于要被重構的N聲道音頻信號的時間段或時間/頻率片。8. -種音頻解碼系統(200),所述音頻解碼系統(200)包括第一參數化重構部分(100), 所述第一參數化重構部分(100)被配置為基于第一單聲道下混信號(Y) W及相關聯的干上 混參數和濕上混參數()重構N聲道音頻信號(X),其中,N>3,所述第一參數化重構部分 包括: 第一去相關部分(101),所述第一去相關部分(101)被配置為接收第一下混信號并且基 于此而輸出第一 (N-I)聲道去相關信號(Z); 第一干上混部分(102),所述第一干上混部分(102)被配置為: 接收干上混參數()和下混信號, 基于所述干上混參數確定第一組干上混系數(C),W及 輸出通過根據所述第一組干上混系數線性地映射所述第一下混信號而計算的第一干 上混信號; 第一濕上混部分(103),所述第一濕上混部分(103)被配置為: 接收濕上混參數(F )和第一去相關信號, 基于接收的濕上混參數并且在已知具有比接收的濕上混參數的數量多的元素的第一 中間矩陣屬于第一預定義矩陣類的情況下,填充所述第一中間矩陣, 通過將所述第一中間矩陣與第一預定義矩陣相乘來獲得第一組濕上混系數(P),其中, 所述第一組濕上混系數對應于從所述相乘得到的矩陣并且包括比所述第一中間矩陣中的 元素的數量多的系數,W及 輸出通過根據所述第一組濕上混系數線性地映射所述第一去相關信號而計算的第一 濕上混信號;和 第一組合部分(104),所述第一組合部分(104)被配置為接收所述第一干上混信號和第 一濕上混信號,并且組合運些信號W獲得與要被重構的N聲道音頻信號對應的第一多維重 構信號(f),9. 根據權利要求8所述的音頻解碼系統,進一步包括第二參數化重構部分,所述第二參 數化重構部分能夠獨立于第一參數化重構部分操作,并且被配置為基于第二單聲道下混信 號W及相關聯的干上混參數和濕上混參數重構化聲道音頻信號,其中,化>2,所述第二參數 化重構部分包括第二去相關部分、第二干上混部分、第二濕上混部分W及第二組合部分,所 述第二參數化重構部分的所述部分類似于所述第一參數化重構部分的對應部分被配置,其 中,所述第二濕上混部分被配置為利用屬于第二預定義矩陣類的第二中間矩陣和第二預定 義矩陣。10. 根據權利要求8或9所述的音頻解碼系統,其中,所述音頻解碼系統適于基于多個下 混聲道W及相關聯的干上混參數和濕上混參數重構多聲道音頻信號,其中,所述音頻解碼 系統包括: 多個重構部分,所述多個重構部分包括參數化重構部分,所述參數化重構部分能夠操 作為基于相應的下混聲道W及相應的相關聯的干上混參數和濕上混參數獨立地重構相應 的多組音頻信號聲道;和 控制部分,所述控制部分被配置為接收信令,所述信令指示與多聲道音頻信號的聲道 到由相應的下混聲道所表示的、并且對于下混聲道中的至少一些由相應的相關聯的干上混 參數和濕上混參數所表示的多組聲道(501-504)的劃分對應的所述多聲道音頻信號的編碼 格式,所述編碼格式進一步對應于用于基于相應的相關聯的濕上混參數獲得與相應的多組 聲道中的至少一些相關聯的濕上混系數的一組預定義矩陣, 其中,所述解碼系統被配置為響應于接收的指示第一編碼格式的信令而使用所述多個 重構部分的第一子集來重構所述多聲道音頻信號,其中,所述解碼系統被配置為響應于接 收的指示第二編碼格式的信令而使用所述多個重構部分的第二子集來重構所述多聲道音 頻信號,并且其中,所述重構部分的第一子集和第二子集中的至少一個包括所述第一參數 化重構部分。11. 根據權利要求10所述的音頻解碼系統,其中,所述多個重構部分包括單聲道重構部 分,所述單聲道重構部分能夠操作為基于其中至多單個音頻聲道已被編碼的下混聲道獨立 地重構單個音頻聲道,并且其中,所述重構部分的第一子集和第二子集中的至少一個包括 所述單聲道重構部分。12. 根據權利要求10或11所述的音頻解碼系統,其中,所述第一編碼格式對應于從比第 二編碼格式數量少的下混聲道重構所述多聲道音頻信號。13. -種用于將N聲道音頻信號(X)編碼為單聲道下混信號(Y)和元數據的方法,所述元 數據適合于所述音頻信號從下混信號和基于所述下混信號而確定的(N-I)聲道去相關信號 (Z)的參數化重構,其中,3,所述方法包括: 接收所述音頻信號; 根據預定義規則將單聲道下混信號計算為所述音頻信號的線性映射; 確定一組干上混系數(C) W便定義近似所述音頻信號的下混信號的線性映射; 基于接收的所述音頻信號的協方差和通過所述下混信號的線性映射近似的所述音頻 信號的協方差之間的差確定中間矩陣,其中,所述中間矩陣在被乘W預定義矩陣時對應于 一組濕上混系數(P),所述一組濕上混系數(P)定義作為所述音頻信號的參數化重構的一部 分的所述去相關信號的線性映射,其中,所述一組濕上混系數包括比所述中間矩陣中的元 素的數量多的系數;W及 將下混信號連同能夠從其導出所述一組干上混系數的干上混參數及濕上混參 數起輸出,其中,所述中間矩陣具有比輸出的濕上混參數的數量多的元素,并且其 中,假如所述中間矩陣屬于預定義矩陣類,則所述中間矩陣由輸出的濕上混參數唯一地定 義。14. 根據權利要求13所述的方法,其中,確定所述中間矩陣包括確定中間矩陣使得通過 由所述一組濕上混系數定義的所述去相關信號的線性映射獲得的信號的協方差近似于接 收的所述音頻信號的協方差和通過所述下混信號的線性映射近似的所述音頻信號的協方 差之間的差。15. 根據權利要求13或14所述的方法,其中,輸出所述濕上混參數包括輸出至多N(N- 1)/2個濕上混參數,其中,所述中間矩陣具有(N-I)2個矩陣元素,并且假如所述中間矩陣屬 于預定義矩陣類,則所述中間矩陣由輸出的濕上混參數唯一地定義,并且其中,所述一組濕 上混系數包括N( N-I)個系數。16. 根據權利要求13至15中的任何一項所述的方法,其中,所述一組干上混系數包括N 個系數,并且其中,輸出所述干上混參數包括輸出至多N-I個干上混參數,所述一組干上混 系數能夠使用所述預定義規則從所述N-I個干上混參數導出。17. 根據權利要求13至16中的任何一項所述的方法,其中,確定的一組干上混系數定義 與所述音頻信號的最小均方誤差近似對應的所述下混信號的線性映射。18. -種音頻編碼系統(400),所述音頻編碼系統(400)包括參數化編碼部分(300),所 述參數化編碼部分(300)被配置為將N聲道音頻信號(X)編碼為單聲道下混信號(Y)和元數 據,所述元數據適合于所述音頻信號從下混信號和基于所述下混信號而確定的(N-I)聲道 去相關信號(Z)的參數化重構,其中,N>3,所述參數化編碼部分包括: 下混部分(301),所述下混部分(301)被配置為接收所述音頻信號,并且根據預定義規 則將單聲道下混信號計算為所述音頻信號的線性映射; 第一分析部分(302),所述第一分析部分(302)被配置為確定一組干上混系數(C) W便 定義近似所述音頻信號的下混信號的線性映射;W及 第二分析部分(303),所述第二分析部分(303)被配置為基于接收的所述音頻信號的協 方差和通過所述下混信號的線性映射近似的所述音頻信號的協方差之間的差確定中間矩 陣,其中,所述中間矩陣在被乘W預定義矩陣時對應于一組濕上混系數(P),所述一組濕上 混系數(P)定義作為所述音頻信號的參數化重構的一部分的所述去相關信號的線性映射, 其中,所述一組濕上混系數包括比所述中間矩陣中的元素的數量多的系數, 其中,所述參數化編碼部分被配置為將下混信號連同能夠從其導出所述一組干上混系 數的干上混參數(C )W及濕上混參數:(> )一起輸出,其中,所述中間矩陣具有比輸出的濕 上混參數的數量多的元素,并且其中,假如所述中間矩陣屬于預定義矩陣類,則所述中間矩 陣由輸出的濕上混參數唯一地定義。19. 根據權利要求18所述的音頻編碼系統,其中,所述音頻編碼系統適于提供多個下混 聲道W及相關聯的干上混參數和濕上混參數的形式的多聲道音頻信號的表示,其中,所述 音頻編碼系統包括: 多個編碼部分,所述多個編碼部分包括參數化編碼部分,所述參數化編碼部分能夠操 作為基于相應的多組音頻信號聲道獨立地計算相應的下混聲道和相應的相關聯的上混參 數; 控制部分,所述控制部分被配置為確定與所述多聲道音頻信號的聲道到要由相應的下 混聲道所表示的、并且對于下混聲道中的至少一些要由相應的相關聯的上混參數所表示的 多組聲道(501-504)的劃分對應的所述多聲道音頻信號的編碼格式,所述編碼格式進一步 對應于用于計算所述相應的下混聲道中的至少一些的一組預定義規則, 其中,所述音頻編碼系統被配置為響應于確定的編碼格式為第一編碼格式而使用所述 多個編碼部分的第一子集來對所述多聲道音頻信號進行編碼,其中,所述音頻編碼系統被 配置為響應于確定的編碼格式為第二編碼格式而使用所述多個編碼部分的第二子集來對 所述多聲道音頻信號進行編碼,并且其中,所述編碼部分的第一子集和第二子集中的至少 一個包括所述第一參數化編碼部分。20. 根據權利要求19所述的音頻編碼系統,其中,所述多個編碼部分包括單聲道編碼部 分,所述單聲道編碼部分能夠操作為在下混聲道中獨立地對至多單個音頻聲道進行編碼, 并且其中,所述編碼部分的第一子集和第二子集中的至少一個包括所述單聲道編碼部分。21. -種計算機程序產品,所述計算機程序產品包括具有用于執行根據權利要求1至7 和13至17中的任何一項所述的方法的指令的計算機可讀介質。22. 根據權利要求1至7和13至17中的任何一項所述的方法、根據權利要求8至12中的任 何一項所述的音頻解碼系統、根據權利要求18至20中的任何一項所述的音頻編碼系統、或 根據權利要求21所述的計算機程序產品,其中,N=3或N=4。
【文檔編號】G10L19/008GK105917406SQ201480057568
【公開日】2016年8月31日
【申請日】2014年10月21日
【發明人】L·維勒莫斯, H-M·萊托恩, H·普恩哈根, T·赫馮恩
【申請人】杜比國際公司