空間音頻裝置的制造方法
【技術領域】
[0001] 本申請涉及用于空間音頻信號處理的裝置。本發明進一步涉及但不限于用于移動 設備內的空間音頻信號處理的裝置。
【背景技術】
[0002] 空間音頻信號正被更頻繁地用于產生更身臨其境的音頻體驗。立體聲或多通道記 錄可從記錄或捕獲裝置傳遞給收聽裝置,并使用合適的多通道輸出(諸如多通道揚聲器布 置)和具有虛擬環繞處理的一對立體聲頭戴式受話器或頭戴式耳機來進行重放。
[0003] 應當理解,在不久的將來,諸如移動電話這樣的移動裝置將有可能具有多于兩個 擴音器。這提供了記錄真實的多通道音頻的可能。通過先進的信號處理,進一步有可能的 是:通過確定諸如關聯于音頻源的方向這樣的參數和基于其方向對所述音頻源進行處理, 對從特定或所需方向來自擴音器的音頻信號進行波束成形或定向處理。
【發明內容】
[0004] 本申請的各個方面因而提供了一種空間音頻捕獲和處理,由此可以對收聽方位或 視頻和音頻捕獲方位差別進行補償。
[0005] 根據第一方面,提供了一種用于分離音頻源的方法,其包括:接收至少兩個音頻信 號;將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示;根據所述至少兩個音 頻信號的頻域表示生成觀察空間協方差矩陣;生成包括至少一個波束成形器內核的空間協 方差矩陣模型;生成音頻對象的線性量值(magnitude)模型;將所述空間協方差矩陣模型 和所述線性量值模型進行合并;確定至少一個合并參數,使得用于合并的所述至少一個參 數嘗試優化所述合并;以及基于所述至少一個合并參數對所述音頻對象進行聚類以產生分 離的音頻源。
[0006] 接收所述至少兩個音頻信號可以包括以下中的至少一個:從擴音器生成所述音頻 信號,其中,所述擴音器從至少一個音頻源接收聲波;以及從存儲器接收所述音頻信號,所 述音頻信號描述了來自至少一個音頻源的聲波。
[0007] 將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示可以包括:對所述 至少兩個音頻信號實施時間到頻率變換。
[0008] 根據所述至少兩個音頻信號的頻域表示生成觀察空間協方差矩陣可以包括:根據 所述兩個頻域表示的自協方差生成觀察空間協方差矩陣。
[0009] 所述方法可以進一步包括:通過生成對擴音器陣列周圍的空間場所進行采樣的一 組查看方向在頻域中的時間延遲,生成至少一個波束成形器內核。
[0010] 生成至少一個波束成形器內核可以包括:生成對所述擴音器陣列周圍的空間場所 進行采樣的一組查看方向在頻域中的所述時間延遲的自協方差。
[0011] 生成音頻對象的線性模型可以包括:對音頻對象量值實施非負矩陣因式分解。
[0012] 對音頻對象量值實施非負矩陣因式分解可以包括:利用均勻分布在零和一之間的 隨機值對線性模型參數Zk。、tlk和V k]進行初始化。
[0013] 將空間協方差矩陣模型和所述線性量值模型進行合并可以包括:將所述空間協方 差矩陣模型乘以由所述線性模型表示的量值包絡。
[0014] 確定至少一個合并參數可以包括:確定空間協方差模型參數,以便最小化所述觀 察空間協方差矩陣與所述空間協方差模型之間的差別。
[0015] 確定所述空間協方差模型參數可以包括:基于復值非負矩陣因式分解實施迭代式 優化,從而使得表示所述至少一個音頻對象的線性量值模型的參數被迭代地更新,直到所 述線性量值模型參數在各個更新之間不顯著改變,或者處理了所定義數量的迭代為止。
[0016] 基于所述復值非負因式分解實施所述迭代式優化可以包括:根據復數非負矩陣因 式分解的優化框架更新線性模型參數zk。、tlk和v k];以及更新所述空間協方差矩陣模型量 值。
[0017] 更新所述空間協方差矩陣模型量值可以包括:更新所述至少兩個音頻信號的估計 量的相對量值差別。
[0018] 基于所述至少一個合并模型參數對所述音頻對象進行聚類以產生分離的音頻源 可以包括:根據所述至少一個音頻對象和根據所估計的線性量值模型參數生成至少一個音 頻源。
[0019] 所述方法可以進一步包括:基于與所述至少一個音頻源相關聯的所述至少一個合 并模型參數,合成至少一個音頻信號。
[0020] 根據第二方面,提供了一種裝置,其包括:用于接收至少兩個音頻信號的構件;用 于將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示的構件;用于根據所述至 少兩個音頻信號的頻域表示生成觀察空間協方差矩陣的構件;用于生成包括至少一個波束 成形器內核的空間協方差矩陣模型的構件;用于生成音頻對象的線性量值模型的構件;用 于將所述空間協方差矩陣模型和所述線性量值模型進行合并的構件;用于確定至少一個合 并參數,從而使得用于所述合并的所述至少一個參數嘗試優化所述合并的構件;以及用于 基于所述至少一個合并參數對所述音頻對象進行聚類以產生分離的音頻源的構件。
[0021] 用于接收所述至少兩個音頻信號的構件可以包括以下中的至少一個:從擴音器生 成所述音頻信號,其中,所述擴音器從至少一個音頻源接收聲波;以及從存儲器接收所述音 頻信號,所述音頻信號描述了來自至少一個音頻源的聲波。
[0022] 用于將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示的構件可以 包括:用于對所述至少兩個音頻信號實施時間到頻率變換的構件。
[0023] 用于根據所述至少兩個音頻信號的頻域表示生成所述觀察空間協方差矩陣的構 件可以包括:根據所述兩個頻域表示的自協方差生成觀察空間協方差矩陣。
[0024] 所述裝置可以進一步包括:用于通過生成對所述擴音器陣列周圍的空間場所進行 采樣的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內核的構件。
[0025] 用于生成至少一個波束成形器內核的構件可以包括:生成對所述擴音器矩陣周圍 的空間場所進行采樣的一組查看方向在頻域中的時間延遲的自協方差。
[0026] 用于生成音頻對象的線性模型的構件可以包括:對音頻對象量值實施非負矩陣因 式分解。
[0027] 用于對音頻對象量值實施非負矩陣因式分解的構件可以包括:用于利用均勻分布 在零和一之間的隨機值對線性模型參數zkc]、4和V k]進行初始化的構件。
[0028] 用于對空間協方差矩陣和所述線性量值模型進行合并的構件可以包括:用于將所 述空間協方差矩陣模型乘以由所述線性模型表示的量值包絡的構件。
[0029] 用于確定至少一個合并參數的構件可以包括:確定空間協方差模型參數,以便最 小化所述觀察空間協方差矩陣和所述空間協方差模型之間的差別。
[0030] 用于確定所述空間協方差模型參數的構件可以包括:基于復值非負矩陣因式分解 實施迭代式優化,從而使得表示所述至少一個音頻對象的所述線性量值模型的參數被迭代 地更新,直到所述線性量值模型參數在各個更新之間不顯著改變,或者處理了所定義數量 的迭代為止。
[0031] 用于基于復值非負因式分解實施所述迭代式優化的構件可以包括:用于根據復數 非負矩陣因式分解的優化框架更新線性模型參數zkc]、hJPVk,的構件;以及用于更新所述 空間協方差矩陣模型量值的構件。
[0032] 用于更新所述空間協方差矩陣模型量值的構件可以包括:用于更新所述至少兩個 音頻信號的估計量的相對量值差別的構件。
[0033] 用于基于所述至少一個合并模型參數對所述音頻對象進行聚類以產生分離的音 頻源的構件可以包括:用于根據所述至少一個音頻對象和根據所估計的線性量值模型參數 生成至少一個音頻源的構件。
[0034] 所述裝置可以進一步包括:用于基于與所述至少一個音頻源相關聯的所述至少一 個合并模型參數來合成至少一個音頻信號的構件。
[0035] 根據第三方面,提供了一種裝置,其包括:至少一個處理器以及包括用于一個或多 個程序的計算機代碼的至少一個存儲器,所述至少一個存儲器和所述計算機代碼被配置為 與所述至少一個處理器一起促使所述裝置至少:接收至少兩個音頻信號;將所述至少兩個 音頻信號變換為所述至少兩個信號的頻域表示;根據所述至少兩個音頻信號的頻域表示生 成觀察空間協方差矩陣;生成包括至少一個波束成形器內核的空間協方差矩陣模型;生成 音頻對象的線性量值模型;將所述空間協方差矩陣模型和所述線性量值模型進行合并;確 定至少一個合并參數,從而使得用于所述合并的所述至少一個參數嘗試優化所述合并;以 及基于所述至少一個合并參數對所述音頻對象進行聚類以產生分離的音頻源。
[0036] 接收所述至少兩個音頻信號可以促使所述裝置執行以下中的至少一個:接收從擴 音器生成的所述音頻信號,其中,所述擴音器從至少一個音頻源接收聲波;以及從存儲器接 收所述音頻信號,所述音頻信號描述了來自至少一個音頻源的聲波。
[0037] 將所述至少兩個音頻信號變換為所述至少兩個信號的頻域表示可以促使所述裝 置對所述至少兩個音頻信號實施時間到頻率變換。
[0038] 根據所述至少兩個音頻信號的頻域表示生成所述觀察空間協方差矩陣可以促使 所述裝置:根據所述兩個頻域表示的自協方差生成觀察空間協方差矩陣。
[0039] 可以進一步促使所述裝置:通過生成對所述擴音器陣列周圍的空間場所進行采樣 的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內核。
[0040] 生成至少一個波束成形器內核可以促使所述裝置:生成對所述擴音器陣列周圍的 空間場所進行采樣的一組查看方向在頻域中的時間延遲的自協方差。
[0041] 生成音頻對象的線性模型可以促使所述裝置:對音頻對象量值實施非負矩陣因式 分解。
[0042] 對音頻對象量值實施非負矩陣因式分解可以促使所述裝置:利用均勻分布在零和 一之間的隨機值對線性模型參數zkc]、4和v k]進行初始化。
[0043] 將空間協方差矩陣模型和所述線性量值模型進行合并可以促使所述裝置:將所述 空間協方差矩陣模型乘以由所述線性模型表示的量值包絡。
[0044] 確定至少一個合并參數可以促使所述裝置:確定空間協方差模型參數,以便最小 化所述觀察空間協方差矩陣和所述空間協方差模型之間的差別。
[0045] 確定所述空間協方差模型參數可以促使所述裝置:基于復值非負矩陣因式分解 實施迭代式優化,從而使得表示所述至少一個音頻對象的線性量值模型的參數被迭代地更 新,直到所述線性量值模型參數在各個更新之間不顯著改變,或者處理了所定義數量的迭 代為止。
[0046] 基于復值非負因式分解實施所述迭代式優化可以促使所述裝置:根據復數非負矩 陣因式分解更新線性模型參數zk。、tlk和v k];以及更新所述空間協方差矩陣模型量值。
[0047] 更新所述空間協方差矩陣模型量值可以促使所述裝置:更新所述至少兩個音頻信 號的估計量的相對量值差別。
[0048] 基于所述至少一個合并模型參數對所述音頻對象進行聚類以產生分離的音頻源 可以促使所述裝置:根據所述至少一個音頻對象和根據所估計的線性量值模型生成至少一 個音頻源。
[0049] 可以進一步促使所述裝置:基于與所述至少一個音頻源相關聯的所述至少一個合 并模型參數,合成至少一個音頻信號。
[0050] 根據第四方面,提供了一種裝置,其包括:輸入端,其被配置為接收至少兩個音頻 信號;頻域變換器,其被配置為將所述至少兩個音頻信號變換為所述至少兩個信號的頻域 表示;空間協方差處理器,其被配置為根據所述至少兩個音頻信號的頻域表示生成觀察空 間協方差矩陣;波束成形器,其被配置為生成包括至少一個波束成形器內核的空間協方差 矩陣模型;矩陣因式分解器,其被配置為生成音頻對象的線性量值模型;將所述空間協方 差矩陣模型和所述線性量值模型進行合并;以及進一步被配置為確定至少一個合并參數, 從而使得用于所述合并的所述至少一個參數嘗試優化所述合并;以及分離器,其被配置為 基于所述至少一個合并參數對所述音頻對象進行聚類,以產生分離的音頻源。
[0051] 所述輸入端可以包括以下中的至少一個:至少一個擴音器輸入端,其被配置為接 收從擴音器生成的所述音頻信號,其中,所述擴音器從至少一個音頻源接收聲波;以及至少 一個存儲器輸入端,其被配置為從存儲器接收所述音頻信號,所述音頻信號描述了來自至 少一個音頻源的聲波。
[0052] 所述頻域變換器可被配置為:對所述至少兩個音頻信號實施時間到頻率變換。
[0053] 所述空間協方差處理器可被配置為:根據所述兩個頻域表示的自協方差生成觀察 空間協方差矩陣。
[0054] 所述波束成形器可被配置為:通過生成對所述擴音器陣列周圍的空間場所進行采 樣的一組查看方向在頻域中的時間延遲,生成至少一個波束成形器內核。
[0055] 所述波束成形器可被配置為:生成對所述擴音器陣列周圍的空間場所進行采樣的 一組查看方向在頻域中的所述時間延遲的自協方差。
[0056] 所述矩陣因式分解器可被配置為:對音頻對象量值實施非負矩陣因式分解。
[0057] 所述矩陣因式分解器可被配置