音頻數據處理方法、裝置、被控設備和系統的制作方法
【技術領域】
[0001] 本發明涉及數據處理技術領域,具體而言,涉及一種音頻數據處理方法、一種音頻 數據處理裝置、一種被控設備和一種音頻數據處理系統。
【背景技術】
[0002] 目前,常見的音頻通信系統有VoIP(Voice Over Internet Protocol,互聯網協 議)電話以及視頻會議中的音頻子系統。如圖1所示,視頻會議系統包括:視頻會議主機、多 個顯示器、多個攝像頭、揚聲器、PC(Personal Computer,個人電腦)和麥克風,其中,視頻會 議主機通過線纜或者無線信號連接至IP網絡;多個顯示器用于顯示本地現場視頻、遠程現 場視頻、本地或者遠程計算機畫面;多個攝像頭用于采集本地現場視頻畫面;PC用于發送本 地的計算機畫面;視頻會議主機具有音頻輸出接口,該音頻輸出接口可以是模擬接口,連接 到有源的揚聲器,該音頻輸出接口還可以是數字接口,如內嵌到HDMI (High Def ini t ion Multimedia Interface,高清多媒體接口)輸出端中,從而可以由具有揚聲器的顯示器進行 聲音播放;麥克風接入音頻輸入接口,用于獲取本地現場的聲音。麥克風可以通過模擬信號 傳輸線或者數字信號傳輸線連接至視頻會議主機。在實際運用中,麥克風不僅會拾取本地 發言者發出的聲音,也會拾取揚聲器播放的遠端發言者的聲音,后者如果不濾除,遠端的發 言者就會聽到自己剛剛說的話,也就是聽到回聲。圖2是對麥克風拾取的混有揚聲器播放的 遠端發言者聲音的信號進行回聲消除處理,具體地,自適應濾波器在雙話檢測器的控制下 工作,并根據加法器輸出的音頻信號的狀態來動態調整濾波器系數。后處理模塊是對加法 器輸出的消除回聲后的音頻信號進行殘余回音抑制、音頻降噪、自動增益調整等運算。 [0003]在低端的視頻會議系統中,麥克風的傳輸一般采用單端模擬信號進行傳輸,在中 高端的視頻會議系統中,麥克風的模擬接口一般采用支持幻象供電的模擬信號平衡傳輸, 并可能同時支持多個麥克風的輸入。采用模擬傳輸方式對音頻信號進行傳輸時,音頻信號 的噪聲會隨傳輸距離的增加而增加。為避免傳輸時引入的噪聲影響麥克風的信噪比,可以 先對麥克風信號進行數字化,通過數字傳輸的方式對麥克風的音頻信號進行傳輸。另外,為 了保證回聲消除處理的正確性,從麥克風傳輸過來的音頻數字信號需要和主機內部的音頻 數字信號在采樣上同步。在相關技術中,一般通過硬件的方式來確保麥克風傳輸的數字的 音頻信號的媒體采樣時鐘和主控設備播放的音頻信號的主媒體時鐘在頻率上相同以及相 位差恒定。但是,相關技術中的方案限制了處理音頻信號時的靈活性,而且在處理音頻數據 時對視頻會議主機的處理能力要求比較高,這樣也在一定程度上限制了與視頻會議主機相 連的麥克風的數量。
[0004]因此,如何采用一種簡單硬件電路實現音頻信號高保真同步傳輸,降低對視頻會 議主機的處理能力的要求,以級聯更多的麥克風,進而提高音頻數據處理系統的擴展性成 為亟待解決的問題。
【發明內容】
[0005] 本發明正是基于上述問題,提出了一種新的技術方案,不僅避免了音頻信號在傳 輸過程中引入噪音,還可以降低對視頻會議主機的處理能力的要求,從而可以級聯更多的 麥克風,進而提高了音頻數據處理系統的擴展性。
[0006] 有鑒于此,本發明的第一方面提出了一種音頻數據處理方法,用于被控設備,所述 被控設備連接至主控設備,所述被控設備通過IEEE1588精確時間協議和所述主控設備保持 時間同步,所述主控設備的主媒體時鐘信號和所述主控設備的IEEE1588參考時鐘信號采用 同一頻率源,所述音頻數據處理方法包括:將第一媒體音頻數字信號轉換成與所述主媒體 時鐘信號同步的第一網絡音頻數字信號,其中,所述第一媒體音頻數字信號為與所述被控 設備的媒體時鐘信號同步的音頻數字信號;將所述第一網絡音頻數字信號發送至所述主控 設備。
[0007] 在該技術方案中,通過將與被控設備(如麥克風)的媒體時鐘信號同步的第一媒體 音頻數字信號轉換成與主控設備(如視頻會議主機)的主媒體時鐘信號同步的第一網絡音 頻數字信號,避免了使用專用硬件方式來同步地數字化和采集主控設備和被控設備的音頻 信號,從而提高了系統的適應性。其中,同步指的是音頻信號統計意義上是同頻的、并且相 位差控制在一定的范圍內。在此方案中,第一媒體音頻數字信號可以是單通道的也可以是 多通道的,且第一媒體音頻數字信號可以是被控設備(如麥克風)采集的原始未處理過的音 頻數字信號,也可以是采集后的音頻數字信號經過處理過的音頻信號(如回聲消除或降噪 處理等,但未經過采樣率轉換)。被控設備然后將與主控設備的主媒體時鐘信號同步的第一 網絡音頻數字信號發送至主控設備,以供主控設備對第一網絡音頻數字信號進行進一步處 理,例如,對多個被控設備傳輸的第一網絡音頻數字信號進行智能混音處理。和麥克風模擬 傳輸相比,由于信號模數轉換是在被控設備上完成的,可以大大降低麥克風的電路噪聲,而 數字化傳輸則避免了傳輸干擾,保證了音頻信號傳輸到主控設備時仍具有極高的保真度。
[0008] 在上述技術方案中,優選地,所述將第一媒體音頻數字信號轉換成與所述主媒體 時鐘信號同步的第一網絡音頻數字信號的步驟,具體包括:通過對所述第一媒體音頻數字 信號進行軟件重采樣,并實時調整所述第一媒體音頻數字信號的第一重采樣步長,以得到 與所述主媒體時鐘信號同步的所述第一網絡音頻數字信號;以及通過以下公式計算所述第 一重采樣步長:
[0009] Rfactorl =1+Fadj,
[0010] 其中,RfactcirI表示所述第一重采樣步長,Fadj是根據所述IEEE1588精確時間協議獲 得的所述被控設備的媒體時鐘信號頻率和所述主控設備的主媒體時鐘信號頻率的偏差值。
[0011] 在該技術方案中,根據被控設備的媒體時鐘頻率相對主控設備的主媒體時鐘頻率 的偏差值Fad疋,實時調整重采樣的第一重采樣步長,以此步長對第一媒體音頻數字信號進 行軟件重采樣以得到與主控設備的主媒體時鐘信號同步的第一網絡音頻數字信號,從而確 保了音頻數字信號的保真度。其中,重采樣可以采用多抽頭的多相位FIR(Finite Impulse Response,有限長單位沖激響應)濾波器,加大相位數和抽頭數可以得到極小失真度的重采 樣音頻數字信號。
[0012] 具體地,通過IEEE1588精確時間協議,可以計算出被控設備的IEEE1588參考時鐘 信號的頻率Fsi ave和主控設備的IEEE1588參考時鐘信號的頻率Fmaster的偏差值?響,通過以下 公式計算該偏差值Fadj :
[0014] 在上述任一技術方案中,優選地,所述將第一媒體音頻數字信號轉換成與所述主 媒體時鐘信號同步的第一網絡音頻數字信號的步驟之前,包括:接收來自所述主控設備的 與所述主媒體時鐘信號同步的第二網絡音頻數字信號,并將所述第二網絡音頻數字信號轉 換成與所述被控設備的媒體時鐘信號同步的第二媒體音頻數字信號;根據所述第二媒體音 頻數字信號對采集的音頻數字信號進行回聲消除處理,將經過回聲消除處理后的音頻數字 信號作為所述第一媒體音頻數字信號,其中,所述采集的音頻數字信號與所述被控設備的 媒體時鐘信號同步。
[0015] 在該技術方案中,將來自主控設備的與主媒體時鐘信號同步的第二網絡音頻數字 信號轉換成與被控設備的媒體時鐘信號同步的第二媒體音頻數字信號,避免了第二媒體音 頻數字信號相對本地采集的音頻信號發生相位漂移,從而使得第二媒體音頻數字信號可以 和被控設備本地采集的音頻信號一起做處理,比如回聲消除處理。由于回聲消除或其他音 頻處理過程可以迀移到被控設備上進行,自然降低了對主控設備計算能力的要求,特別是 當被控設備增加時,對主控設備的計算能力要求基本不變,因為需要大量運算的處理過程 可以轉移到相應的被控設備上進行,從而使整個系統可以具有很好的擴展性。
[0016] 在上述任一技術方案中,優選地,所述將所述第二網絡音頻數字信號轉換成與所 述被控設備的媒體時鐘信號同步的第二媒體音頻數字信號的步驟之后,包括:根據所述被 控設備的媒體時鐘信號將所述第二媒體音頻數字信號轉換成對應的模擬信號,并通過所述 被控設備的播放裝置對所述第二媒體音頻數字信號對應的模擬信號進行播放。
[0017] 在該技術方案中,以被控設備的媒體時鐘信號為節拍將第二媒體音頻數字信號轉 換成對應的模擬信號,而第二媒體音頻數字信號和被控設備的媒體時鐘信號是同步的,這 樣音頻播放時不會出現緩沖區上溢或下溢現象,從而保證播放的音頻是高保真的。通過這 種方式,可以將原先需要在主控設備上播放的音頻轉移到被控設備上進行,從而使整個系 統部署具有很好的靈活性。
[0018] 在上述任一技術方案中,優選地,所述將所述第二網絡音頻數字信號轉換成與所 述被控設備的媒體時鐘信號同步的第二媒體音頻數字信號的步驟,具體包括:對所述第二 網絡音頻數字信號進行軟件重采樣,并實時調整所述第二網絡音頻數字信號的第二重采樣 步長,以得到與所述被控設備的媒體時鐘信號同步的所述第二媒體音頻數字信號;以及通 過以下公式計算所述第二重采樣步長:
[0020] 其中,Rfactcir2表示所述第二重采樣步長,Fadj是根據所述IEEE1588精確時間協議獲 得的所述被控設備的媒體時鐘信號頻率和所述主控設備的主媒體時鐘信號頻率的偏差值。 [0021 ]在該技術方案中,根據被控設備的媒體時鐘頻率相對主控設備的主媒體時鐘頻率 的偏差值Fad疋,實時調整重采樣的第二重采樣步長,以此步長對第二網絡音頻數字信號進 行軟件重采樣以得到第二媒體音頻數字信號,保證了第二媒體音頻數字信號和被控設備的 媒體時鐘信號同步,從而在被控設備上處理和播放時可以保證無相位漂移,保證了音頻信 號的高保真度。其中,軟件重采樣可以采用多抽頭多相位的FIR濾波器,以獲得低失真度的 重采樣音頻數字信號。
[0022] 具體地,通過IEEE1588精確時間協議,可以計算出被控設備的IEEE1588參考時鐘 信號的頻率Fsiave和主控設備的IEEE1588參考時鐘信號的頻率Fmaster的偏差值?響,通過以下 公式計算該偏差值Fadj :
[0024] 本發明的第二方面提出了一種音頻數據處理裝置,用于被控設備,所述被控設備 連接至主控設備,所述被控設備通過IEEE1588精確時間協議和所述主控設備保持時間同 步,所述主控設備的主媒體時鐘信號和所述主控設備的IEEE1588參考時鐘信號采用同一頻 率源,所述音頻數據處理裝置包括:第一處理單元,用于將第一媒體音頻數字信號轉換成與 所述主媒體時鐘信號同步的第一網絡音頻數字信號,其中,所述第一媒體音頻數字信號為 與所述被控設備的媒體時鐘信號同步的音頻數字信號;發送單元,用于將