雙耳音頻處理的制作方法
【技術領域】
[0001] 本發明設及雙耳擅染(binauralrendering),并且尤其但不完全設及用于音頻處 理應用的頭部相關的雙耳傳遞函數數據的通信和處理。
【背景技術】
[0002] 隨著數字信號表示和通信已日益取代模擬表示和通信,各種源信號的數字編碼在 過去數十年已變得越來越重要。例如,諸如語音和音樂之類的音頻內容越來越多地W數字 內容編碼為基礎。此外,隨著例如環繞立體聲和家庭影院設置成為流行,音頻消費已日益成 為一種包絡(enveloping)S維體驗。
[0003] 已研制音頻編碼格式來提供日益有能力的、多樣的和靈活的音頻服務,并且尤其 已研制支持空間音頻服務的音頻編碼格式。
[0004] 如同DTS和Do化yDigital之類的眾所周知的音頻編碼技術產生編碼的多通道音 頻信號,其將空間圖像表示為圍繞著收聽者被放置在固定位置上的許多通道。對于與對應 于多通道信號的設置不同的揚聲器設置來說,空間圖像將是次最優的。并且,基于通道的音 頻編碼系統通常不能應付不同數量的揚聲器。
[0005] (IS0/IECMPEG-D)M陽GSurround(環繞)提供一種多通道音頻編碼工具,其允許 現有的基于單聲道或基于立體聲的編碼器被擴展至多通道音頻應用。圖1舉例說明MPEG Surround系統的元素的示例。使用通過原始的多通道輸入的分析而獲得的空間參數,MPEG Surround解碼器通過單聲道或立體聲信號的受控上混(upmix)W獲得多通道輸出信號而 能夠重新創建空間圖像。
[0006] 由于多通道輸入信號的空間圖像被參數化,所WMPEGSurround允許利用不使用 多通道揚聲器設置的擅染設備來解碼同一個多通道比特流。示例是在耳機上的虛擬環繞立 體聲再現,其被稱為MPEGSurround雙耳解碼處理。在該種模式中,在使用普通耳機的同時 能夠提供逼真的環繞立體聲體驗。另一示例是較高階多通道輸出例如7. 1通道至較低階設 置例如5. 1通道的修剪(pruning)。
[0007] 實際上,隨著越來越多的再現格式變得可用于主流消費者,用于擅染空間聲音的 擅染配置的變化和靈活性近年來已顯著增加。該要求音頻的靈活表示。隨著MPEGSurround 編解碼器的引入,已采取重要的步驟。然而,仍然針對例如ITU5. 1揚聲器設置之類的特定 揚聲器設置來產生和發送音頻。沒有規定通過不同的設置和通過非標準(即,靈活的或用戶 定義的)揚聲器設置的再現。實際上,具有使得音頻編碼和表示日益獨立于特定的預定和標 稱的揚聲器設置的愿望。日益優選的是;能夠在解碼器/擅染側上執行針對多種多樣的不 同的揚聲器設置的靈活適配(adaptation)。
[0008] 為了提供更靈活的音頻的表示,MPEG標準化了稱為"SpatialAudio化ject Coding(空間音頻對象編碼)"(IS(VIECMPEG-DSAOC)的格式。與諸如DTS、Do化yDigital 和MPEGSurround之類的多通道音頻編碼系統形成對比,SAOC提供個別音頻對象而非音頻 通道的有效編碼。而在MPEGSurround中,每一個揚聲器通道能夠被視為源自聲音對象的 不同混合,SAOC使得在解碼器側上可利用的個別聲音對象用于如圖2所示的交互操縱。在SA0C中,多個聲音對象和參數化數據一起被編碼到單聲道或立體聲縮混(downmix)中,該 允許聲音對象在擅染側上被提取,從而允許個別音頻對象可用于例如由終端用戶進行的操 縱。
[0009] 實際上,與MPEGSurround相類似,SA0C也創建單聲道或立體聲縮混。另外,計算 和包括對象參數。在解碼器側上,用戶可W操縱該些參數來控制個別對象的不同特征諸如 位置、水平、均衡乃至應用諸如混響之類的效果。圖3舉例說明使得用戶能夠控制在SA0C 比特流中包含的個別對象的交互界面。借助于擅染矩陣,個別聲音對象被映射到揚聲器通 道上。
[0010] 除了僅再現通道之外,SA0C還通過發送音頻對象而允許更靈活的方案并且尤其允 許更多的基于擅染的適應性(adapt油ility)。假定空間被揚聲器充分覆蓋,則該允許解碼 器側將音頻對象放置在空間中的任意位置上。該樣,在所發送的音頻與再現或擅染設置之 間沒有關系,因此能夠使用任意的揚聲器設置。該對于例如其中揚聲器幾乎從不位于預定 位置上的典型起居室中的家庭影院設置而言是有利的。在SA0C中,在解碼器側上決定在聲 音場景中該些對象被放置在什么地方,該從藝術的角度來看時常不是所希望的。SA0C標準 確實提供在比特流中發送默認擅染矩陣的方式,該消除解碼器責任。然而,所提供的方法依 賴于固定的再現設置或依賴于未指明語法。因而,SA0C沒有提供規范的手段來完全發送音 頻場景而與揚聲器設置無關。并且,SA0C不太適合于(notwellequipped)彌散性信號分 量的忠實擅染。雖然具有包括所謂的MultichannelBackground化ject(多通道背景對 象)(MB0)來捕獲漫聲的可能性,但是該個對象被束縛于一個特定的揚聲器配置。
[0011] 由3DAudioAlliance(音頻聯盟)(3DAA)正在研制用于3D音頻的音頻格式的 另一規范,其中3DAA是工業聯盟。3DAA致力于研制"將有助于從當前的揚聲器饋送范例至 靈活的基于對象的方案的轉變"的用于3D音頻的傳輸的標準。在3DAA中,將定義允許將遺 留的多通道縮混連同個別聲音對象一起傳輸的比特流格式。另外,包括對象定位數據。在 圖4中舉例說明生成3DAA音頻流的原理。
[0012] 在3DAA方案中,單獨地在擴展流中接收聲音對象,并且可W從多通道縮混中提取 該些聲音對象。由此產生的多聲道縮混與個別可用的對象一起進行擅染。
[0013] 該些對象可W由所謂的詞干(stem)組成。該些詞干基本上是分組(縮混)的軌道 (track)或對象。因此,對象可W由包裝在詞干中的多個子對象組成。在3DAA中,利用音頻 對象的選擇,能夠發送多通道參考混合(referencemix)。3DAA發送針對每一個對象的3D 位置數據。該些對象隨后能夠使用3D位置數據來提取。可供選擇地,可W發送逆的混合矩 陣,其描述該些對象與參考混合之間的關系。
[0014] 根據3DAA的描述,通過給每一個對象分配角度和距離,很可能發送聲音場景信 息,其指示相對于例如默認的前進方向應該將該對象放置在什么地方。因而,針對每一個對 象,發送位置信息。該對于點源來說是有用的,但是其無法描述廣源(widesource)(例如, 如同合唱或歡呼)或彌漫性聲場(諸如周圍環境)。當從參考混合中提取所有的點源時,周圍 的多聲道混合保留。與SA0C相類似,3DAA中的殘留物被固定于特定的揚聲器設置。
[00巧]因而,SA0C和3DAA方案二者并入能夠在解碼器側上個別操縱的個別音頻對象的 傳輸。該兩種方案之間的不同在于;SA0C通過相對于縮混提供表征音頻對象的參數來提供 有關該些音頻對象的信息(即,W致在解碼器側上從縮混中生成該些音頻對象),而3DAA提 供音頻對象作為完整的且獨立的音頻對象(即,能夠在解碼器側上獨立于縮混來生成該些 音頻對象)。對于兩種方案,可W針對該些音頻對象來傳送位置數據。
[0016] 其中通過使用針對收聽者的耳朵的個別信號的聲源的虛擬定位來創建空間體驗 的雙耳處理正變得越來越普遍。虛擬環繞是擅染聲音的一種方法,W致音頻源被感知為源 自特定的方向,從而創建收聽物理環繞聲音設置(例如,5. 1揚聲器)或環境(音樂會)的錯 覺。利用適當的雙耳擅染處理,能夠計算為了收聽者感知來自任何方向的聲音而在耳膜處 所需的信號,并且該些信號被擅染,W致它們提供所希望的效果。如圖5所示,該些信號隨 后在耳膜處利用或耳機或串音消除方法(適合于通過緊密間隔開的揚聲器的擅染)來重新 創建。
[0017] 緊接著圖5的直接擅染,能夠用于擅染虛擬環繞的特定技術包括MPEGSurround 和SpatialAudioObjectCoding(空間音頻對象編碼及即將到來的有關MPEG中的3D 音頻的工作項。該些技術提供計算有效的虛擬環繞擅染。
[0018] 雙耳擅染W雙耳濾波器為基礎,其中該些濾波器由于頭部W及諸如肩部之類的 反射表面的不同聲學屬性而因人而異。例如,雙耳濾波器能夠用于創建在不同位置上模 擬多個源的雙耳記錄。該能夠通過將每一個聲源與對應于該聲源的位置的化adRelated ImpulseResponse(頭部相關的脈沖響應)(皿IR)的配對(pair)進行卷積來實現。
[0019] 通過在放置于人耳中或靠近人耳放置的麥克風上在2D或3D空間中在特定的位置 上從聲源中測量例如脈沖響應,能夠確定適當的雙耳濾波器。通常,例如使用人頭的模型進 行該樣的測量,或者實際上在一些情況中通過將麥克風附著靠近人的耳膜可W進行該些測 量。雙耳濾波器能夠用于創建在不同位置上模擬多個源的雙耳記錄。例如,該能夠通過將 每一個聲源與在該聲源的希望位置上測量的位置的脈沖響應的配對進行卷積(convoIve) 來實現。為了創建聲源圍繞收聽者移動的錯覺,需要具有足夠的空間分辨率例如10度的大 量的雙耳濾波器。
[0020] 雙耳濾波函數可W被表示為例如化adRelatedImpulseResponse(皿IR)或 者等效地被表示為化adRelatedTransfer化nction(頭部相關的傳遞函數)(HRTF)或 BinauralRoomImpulseResponse(雙耳房間脈沖響應XBRIR)或BinauralRoomTransfer 化nction(雙耳房間傳遞函數)(BRTF)。從給定位置至收聽者的耳朵(或耳膜)的(例如,估 計的或假定的)傳遞函數被稱為頭部相關的雙耳傳遞函數。可W例如在頻域中或在時域中 給出該個函數,在頻域的情況下該個函數通常被稱為HRTF或BRTF,而在時域的情況下該個 函數通常被稱為皿IR或BRIR。在一些情形中,頭部相關的雙耳傳遞函數被確定為包括聲學 環境、并且具體地在其中進行該些測量的房間的方位(aspect)或屬性因素,而在其他的示 例中僅考慮用戶特性。第一類型的函數的示例是BRIR和BRTF,而后一種類型的函數的示例 是皿IR和HRTF。
[0021] 相應地,底層(underlying)頭部相關的雙耳傳遞函數能夠采用包括皿IR、HRTF等 等的許多不同的方式來表示。此外,對于該些主要表示之中的每一個,具有大量的不同方式 來表示特定函數