專利名稱:估計圖像序列中的主要運動的方法
技術領域:
本發明涉及一種用于估計視頻鏡頭(shot)中的主要運動的方法和設備。更具體地,該方法基于對在使用運動補償的壓縮方案中與視頻一起發送的運動場的分析。在MPEG-1、MPEG-2和MPEG-4視頻壓縮標準中實現了這種方案。
背景技術:
已知運動分析依賴于根據從MPEG類型壓縮視頻流中得到的運動矢量,對運動模型的估計,運動模型通常是仿射的 這里,u和v是表示運動場的位置(xi,yi)處的矢量ωi的分量。運動模型的仿射參數a、b、c、d、e和f的估計依賴于最小平方差技術。M.A Smith和T.Kanade的文章“Video Skimming and Characterizationthrough the Combination of Image and Language Understanding”(Proceedings of IEEE 1998 International Workshop on Content-BasedAccess of Image and Video Databases,61和70頁)描述了這種方法。這篇文章的作者使用運動的仿射模型的參數以及場的矢量的空間分量的均值u和v,對明顯的運動進行標識和分類。例如,為了確定運動是否是變焦,利用以下條件驗證存在矢量場的會聚點(x0,y0),從而使得u(x0,y0)=0且v(x0,y0)=0 分析矢量分量的均值u和v,以測試平搖鏡頭(panning shot)的假設。
還已知運動分析方法直接使用了從MPEG視頻流中得到的矢量場,而不包含對運動模型的識別。O.N.Gerek和Y.Altunbasak的文章“Key Frame Selection from MPEG Video Data”(proceedings of theVisual Communications and Image Processing’97 congress,920~925頁)描述了這種方法。該方法在于,對于與MPEG二進制序列圖像相關的每一個運動場,構造矢量場的兩個直方圖,一個表示作為其方向的函數的矢量的存在,而第二個表示其幅度的函數。圖1和圖2表示了這種直方圖的示例圖1示出了圖像中的明顯運動是變焦的結構,而在圖2中,主要運動是平搖。
然后,對于兩個直方圖中的每一個,將與直方圖的每一類(或“bin”)中的運動矢量的數目相關的變化的閾值設置用于識別“變焦”和“平搖”類型的主要運動的出現。
例如Gerek和Altunbasak所提出的方法提供了有關主要運動的分類的純量化信息,而通常還需要有關運動幅度的量化估計。例如Smith和Kanade所提出的基于估計運動的參數模型的方法提供了這種量化信息,但通常是非常不可靠的。特別地,這些方法沒有考慮到在已處理視頻場景中、跟隨在不同明顯運動之后的多個物體的出現。對與次要物體相關的矢量的考慮容易明顯地歪曲主要運動的模型參數的最小二乘估計。這里將次要物體定義為占據的圖像區域比至少一個其它物體所占據的小的目標,該物體與占據了圖像中最大區域的主要運動相關聯。此外,即使在圖像運動中出現單一物體,充當運動分析基礎的壓縮視頻流的矢量也不會始終反映圖像的明顯實際運動的事實。具體地,針對在運動補償之后使要發送的信息量最小來計算這些矢量,而不是估計圖像象素的物理運動。
基于從壓縮流中得到的矢量的運動模型的可靠估計需要使用魯棒方法,根據與并未跟隨主要運動的次要物體相關的運動矢量以及不與圖像主要物體的物理運動相對應的矢量的計算來自動地估計。
在與壓縮視頻流的使用不同的情況中已經提出了估計主要運動的參數模型的魯棒方法。一個示例是P.Bouthemy、M.Gelgon和F.Ganansia的、標題是“A unified approach to shot change detection andcamera motion characterization”的文章,發表在IEEE journal Circuitsand Systems for Video Technology volume 9 No.7,1999年10月,1030~1044頁。這些方法具有實現起來非常復雜的缺點。
發明內容
這里提出的本發明的目的在于減少上述用于估計主要運動的多類方法的缺點。
本發明的主題是一種方法,用于通過執行與圖像相關的運動矢量場的計算來檢測圖像序列中的主要運動,對于具有坐標xi,yi的象素,定義了具有分量ui,vi的一個或多個運動矢量,所述方法的特征在于還執行以下步驟-根據簡化的參數表示來建立運動的模型ui=tx+k.xiVi=ty+k.yi其中,tx,ty是表示運動的平動分量的矢量的分量,k是代表運動變焦分量的散度因數,-在由平面(x,u)和(y,v)所限定的兩個運動表示空間的每一個中進行魯棒線性回歸,以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據回歸直線在原點處的縱坐標和斜率來計算參數tx,ty和k。
根據一種實現模式,魯棒回歸是一種最小平方中值方法,該方法在于在一組直線j中搜索提供了殘差平方的中值組中最小的一個,ri,j是相對于直線j,具有坐標xi,ui或yi,vi的第i個采樣的殘差minj(mediri,j2)]]>根據一種實現模式,將搜索殘差的最小平方中值應用于預定數目的直線,通過在所考慮的運動的表示空間中隨機抽取的一對采樣來確定每一條直線。
根據一種實現模式,在魯棒線性回歸之后,執行第二非魯棒線性回歸,可以改進運動模型參數的估計。第二線性回歸排除了表示空間中其從第一魯棒回歸得到的回歸殘差超過預定閾值的點。
根據一種實現模式,該方法執行在每個表示空間中所計算得到的回歸直線的方向系數的等同性測試,該測試基于殘差平方和的比較,首先通過執行每個表示空間中的分離回歸,然后通過對兩個表示空間中的采樣組執行全局斜率回歸來獲得所述殘差,并且在測試是肯定的情況下,通過在每個表示空間中獲得的回歸直線的方向系數的算術平均值來估計模型的參數k。
本發明還涉及一種實現該方法的設備。
通過利用視頻圖像中的主要運動的非常簡單但足夠逼真的參數模型,該方法允許以減少的成本實現運動模型的識別的魯棒方法。更準確地,本發明所述方法的主要優點在于使用了運動矢量的分量表示的明智空間,可以將運動模型的參數識別減少為雙線性回歸。
在利用非限制性的示例和有關附圖所給出的以下說明中,將會使本發明的其它特點和優點更加顯而易見,其中-圖1,與“變焦”相對應的理論運動矢量場,-圖2,與背景的主要運動是“平搖”類型的場景相對應的理論運動矢量場,其中還包括了遵循不同于主要運動的運動的次要物體,-圖3,本發明所使用的運動矢量表示空間的圖示,-圖4,以本發明中所使用的變焦運動為中心的變焦運動的理論矢量的分布,-圖5,本發明中所使用的表示空間中的圖像的全局傾斜平動運動的理論矢量的分布,-圖6,本發明中所使用的表示空間中的平動和變焦的組合運動的理論矢量的分布,-圖7,本發明中所使用的表示空間中的靜態場景(零運動)的理論矢量的分布,-圖8,檢測主要運動的方法的流程圖。
具體實施例方式
圖像序列中的主要運動的特性包括明顯的主要運動的參數模型的識別。在利用從壓縮視頻流中得到的運動矢量場的情況下,該模型必需表示二維圖像平面中的明顯運動。通過把投影近似到三維空間中的物體的運動的圖像平面上來獲得這樣的模型。作為示例,在文獻中通常采用以上所示有6個參數(a,b,c,d,e,f)的仿射模型。
基本上,所提出的方法在于當編碼準則使用如MPEG-1,MPEG-2和MPEG-4標準等運動補償技術時,根據視頻流中所提供的運動矢量場,標識運動的該參數模型,從而執行其解碼。但是,本發明所述的方法也適用于通過根據組成被處理的視頻序列的圖像的獨立處理所計算出來的運動矢量場。
在本發明的上下文中,從具有四個參數(tx,ty,k,θ)的簡化線性模型中推導出所采用的運動模型,我們將此模型稱作SLM(表示簡化線性模型的縮寫),其定義如下uivi=txty+k-θθkxi-xgyi-yg]]>其中(ui,vi)t與坐標為(xi,yi)t的圖像平面像素相關的明顯運動矢量的分量,(xg,yg)t參考點的坐標,用于對攝像機拍出的二維圖像的三維場景的近似;將該參考點認為是圖像中坐標為(0,0)t的點,(tx,ty)t表示運動的平動分量的矢量,k散度因數,表示運動的變焦分量,θ關于攝像機軸的運動的旋轉角度。
客觀查找用于識別視頻序列中由移動和例如光學變焦之類的攝像機的光學變換所引起的主要運動。具體地,這包括識別攝像機的運動,從統計上來說,這些運動是最普遍的視頻文件組成部分,主要根據平動運動、變焦運動、二者相結合以及沒有運動,即靜態或靜止鏡頭來進行分類。沒有考慮在實際中很少觀察到的攝像機旋轉效果因此,在假設θ≈0的前提下,本模型受到三個參數(tx,ty,k)的約束。于是,得到了矢量分量及其在圖像中的空間位置之間的兩個線性關系 這種運動的簡化參數表示的優點在于可以通過運動的表示空間的線性回歸ui=f(xi)和vi=f(yi)來估計分別描述了運動模型中的兩個平動分量和變焦參數的參數tx,ty和k。因此,如圖3所示,這些空間中的運動矢量場的表示通常給出了分布在斜率為k的直線附近的一簇點。
用于估計簡化運動模型的參數的過程基于在每個運動表示空間中應用魯棒型線性回歸。例如,線性回歸是一種通過使每個點到其擬合直線的距離的平方和最小來確定對一簇點的最佳擬合直線的數學運算。在本發明的情況下,利用魯棒統計估計技術來實現這種運算,從而保證相對于數據中異常值的出現的不敏感度。具體地,主要運動的模型的估計必需忽略以下幾點-圖像中出現多個物體,其中某些遵循不同于主要運動的次要運動,-不表示物體的實際運動的運動矢量的出現。具體地,視頻壓縮流中傳輸的運動矢量的計算目的是為了使運動補償后殘余信息最小,而不是以提供組成圖像場景的物體的真實運動為目的。
圖8描述了用于估計序列中主要運動的方法的多個步驟。隨后更加準確地描述這些步驟中的每一個。
第一步驟1執行與所處理的視頻序列圖像相關的運動矢量場的歸一化。假設在本算法使用前已經利用運動估計器求出了這些矢量場。與所謂的“塊匹配”方法中一樣,可以針對圖像像素的矩形塊來執行運動估計,或提供一種稠(dense)矢量場,其中針對圖像的每個像素來估計矢量。本發明優選地但并不局限于處理由視頻編碼器計算得到所使用的矢量場,并出于解碼目的,在壓縮視頻流中傳輸矢量場的情況。在所使用的編碼方案符合MPEG-1或MPEG-2標準之一的典型情況下,相對于其到當前圖像的時間距離是可變的參考幀,對于當前圖像,以每個矩形塊一個矢量的速度來估計運動矢量。此外,對于雙向預知的所謂“B”幀,對于同一個塊可以求出兩個運動矢量,一個從當前圖像指向之前的參考幀,另一個從當前圖像指向之后的參考幀。因此,歸一化矢量場的步驟是不可缺少的,以便在隨后的步驟中處理在相等持續時間的時間間隔上計算得到的、指向相同方向的矢量。V.Kobla和D.Doermann的文章“Compressed domain video indexingtechniques using DCT and motion vector information in MPEG video”(Proceedings of the SPIE vol.3022,1997,200~211頁)中第3.2節提供了一種執行這種歸一化的典型方法。還可以使用基于MPEG矢量計算間隔上的運動線性近似的其它簡單技術。
參考數字為2的第二步驟執行了上述運動表示空間的構造。分別用兩個空間ui=f(xi)和vi=f(yi)內的點來表示分量為(ui,vi)t、位置為(xi,yi)t的運動場的每個矢量 每對點(xi,ui)和(yi,vi)與運動場的矢量表示相對應,可以相對于每個空間的回歸直線對每對點(xi,ui)和(yi,vi)進行建模 其中,(a0,b0)是在空間ui=f(xi)中計算得到的回歸直線參數;εui是相應的殘余誤差。
(a1,b1)是在空間vi=f(yi)中計算得到的回歸直線參數;εvi是相應的殘余誤差。
圖3示出了根據歸一化運動矢量場構造這兩個空間之后所獲得的點簇。
在每個表示空間中線性回歸完成時所獲得的參數(a0,b0)和(a1,b1)提供了對主要運動模型參數的估計。因此,斜率a0和a1對應于表征變焦分量的散度因數k的二重估計,而在原點處的縱坐標b0和b1對應于對平動分量tx和ty的估計。
圖4到圖7示出了幾個可能配置的示例。
-圖4是居中變焦情況下的數據分布,
-圖5是傾斜平動運動情況下的數據分布,-圖6是偏心變焦(將變焦和平動相結合的運動)情況下的數據分布,-圖7是沒有運動情況下的數據分布。
接下來的步驟3針對每個運動表示空間,進行魯棒線性回歸,其目的是從對應于圖像中次要物體的運動或對應于與其相關的不表達像素真實運動的矢量中分離出代表真實的主要運動的數據點。
存在幾類魯棒估計的方法。根據本發明的優選實施例,按照以下方式計算回歸直線,以便滿足最小平方中值準則。P.Meer、D.Mintz和A.Rosenfeld的文章“Robust Regression Methods for Computer VisionA Review”(公布在International Journal of Computer Vision,volume 6No.1,1991,59~70頁)的第3段更完整地描述了以下簡要介紹的計算方法。
令ri,j為運動表示空間內第i個采樣的殘差,在該空間中,試圖估計回歸參數集Ej(回歸直線的斜率和截距),計算Ej,從而滿足以下準則minEj(mediri,j2)]]>根據所考慮的表示空間,殘差ri,j對應于與參數為Ej的回歸直線的第i個采樣建模相關的殘留誤差εui或εvi。這種非線性最小化問題的解決方案需要在所有可能的直線中尋找由Ej定義的直線。為了限制計算量,將這種查找局限于p條回歸直線的有限集,從正在研究的表示空間的采樣中隨機抽取的p對點定義該有限集。對于p條直線中的每一條,都按照識別顯示了中值殘差平方的方式來計算并分類殘差的平方。估計回歸直線,以便得到最小的殘差平方中值。
只從中值殘差的平方中選擇回歸直線,而不是殘差集合,這給出了回歸過程的魯棒本質。具體地,這可以忽略殘差的極值,其易于與異常數據點相對應,從而使回歸出錯。
例如,通過測試p=12條直線,p對中至少有一對包含兩個非異常采樣的概率,也就是說表示主要運動的概率非常接近于1。假設如果異常采樣的比例小于50%,與包含至少一個異常采樣的點對相比,不包含異常采樣的點對提供了能夠更好地擬合采樣簇的回歸直線,并因此顯示了更小的殘差平方中值。因此,幾乎可以肯定通過兩個非異常采樣決定了最后得到的回歸直線,從而保證此方法對于異常采樣的魯棒性。
之后,將在每個表示空間中通過魯棒估計所獲得的回歸直線用于識別異常采樣點。出于此目的,假設非異常采樣服從高斯分布,并且將其絕對值的殘差超過魯棒估計 的K倍的所有采樣標記為異常采樣,作為對應于最佳回歸直線的殘差平方的中值函數,計算與非異常采樣相關的殘差標準差的魯棒估計 有利地,將K值固定為2.5。
但是,在此步驟3中,習慣上最后對每個表示空間的采樣執行非魯棒的線性回歸,而不包括識別為異常值的采樣。這些回歸提供參數(a0,b0)和(a1,b1)的改進估計,這些參數將在隨后的方法中用到。
接下來的步驟4執行了對每個表示空間的回歸直線的線性測試。該測試的目的是驗證每個空間的點簇實際上近似沿直線分布,這不能保證回歸直線的例行出現。
在每個表示空間中,通過將從有關非異常采樣的線性回歸中得到的殘差標準差與預定閾值進行比較來執行線性測試。閾值依賴于本方法步驟1中應用于運動矢量的臨時歸一化。歸一化之后,在每個矢量表示對應于兩個分離交叉幀的時間間隔的位移情況下,即對于50Hz的傳輸是40ms,有利地,可以將這個閾值固定在6。如果在兩個表示空間中執行的至少一個線性測試失敗,則認為對應于當前圖像的運動域不能可靠地估計主要運動模型。于是,設置表示主要運動估計過程失敗的標志,并處理下一圖像。
在相反的情況下,進入接下來的步驟5,該步驟在于驗證給出了運動模型中散度因數k的二重估計的斜率a0和a1差別不明顯。兩個回歸斜率的等同性測試是已知的問題,用一些統計方法可以解決;例如可以查閱C.R Rao在由Wiley出版(第二版)的“Linear StatisticalInference and its Applications”一書中關于偏差分析的章節。按照傳統方式,通過計算有關運動矢量場的兩個表示空間的非異常采樣點集的全局回歸斜率來執行該測試。然后,構成與數據集的全局斜率估計相關的殘差平方和,與相關于獨立回歸的殘差平方和的兩個空間上的總和的比率,所述獨立回歸只與非異常采樣相關。將該比率與預定的閾值相比;如果比率大于閾值,則兩個運動表示空間中回歸斜率相等的假設不是統計有效的。于是,設置表示主要運動估計過程失敗的標志,并處理下一圖像。在測試結果是肯定的情況下,利用在每個表示空間中獲得的回歸斜率a0和a1的算術平均值來估計主要運動模型中的散度因數k的值。分別由從表示空間的線性回歸中得到的截距b0和b1的值來估計參數tx和ty。
在認為運動模型有效的情況下,即,如果成功通過了步驟4和5中所執行的測試,則在接下來的參考數字為6的步驟期間執行主要運動的分類。
使用所估計參數的矢量θ=(k,tx,ty)t,以便決定將主要運動分類到其中的類別,即-靜態,-純平動,-純變焦,-平動和變焦相結合。
分類算法基于模型參數的無效性測試,根據下表
根據一種簡單技術,可以通過簡單地將其絕對值與一個閾值相比較來執行模型參數估計的無效測試。也可以使用基于對數據分布的統計建模的更復雜方法,在此統計構架中,發表于IEEE journal Circuitsand Systems for Video Technology volume 9 No.7,1999年10月,第1030頁到第1044頁的P.Bouthemy,M.Gelgon和F.Ganansia的文章“Aunified approach to shot change detection and camera motioncharacterization”中提出了一種根據似然測試來確定模型參數無效性的典型算法。
本發明的應用涉及根據關鍵圖像的選擇的視頻索引。
具體地,視頻索引過程通常在預處理中開始,試圖將視頻流中要處理的信息量限制為從序列中選擇的一組關鍵圖像。只在這些關鍵圖像中執行視頻索引處理,尤其是可視特征的提取,每個關鍵圖像表示了一段視頻的內容。理想地,這組關鍵圖像應該能構成視頻的詳細概要,并且應當避免關鍵圖像的可視內容之間的冗余,從而可以使索引過程的計算負擔最小化。用于估計每個視頻鏡頭中的主要運動的方法可以通過使其適合主要運動而優化每個鏡頭中涉及這些準則的關鍵圖像的選擇。例如,可以總計根據鏡頭內的參數tx(或ty)而估計的圖像水平(或垂直)平動,也可以一旦總和超過圖像寬度(或高度)時,對新的關鍵圖像進行采樣。
所述方法也可以用于元數據的產生。在視頻拍攝期間,主要運動通常與攝像機的運動一致。某些導演用特殊的攝像機運動序列,從而向觀眾表達某些感情或感覺。本發明所述的方法可以檢測視頻中的這些特殊序列,并因此提供了與導演在某些視頻部分中所制造的氣氛相關的元數據。
主要運動檢測的另一個應用是檢測或有助于檢測鏡頭中斷。具體地,序列的主要運動屬性的突然變化只能由鏡頭的中斷引起。
最后,本發明所述的方法允許在每個圖像中對主要運動的支持的識別。在主要運動的意義中,這種支持實際上與其相關矢量沒有被識別為異常值的像素集一致。主要運動支持的常識提供了對遵循此運動的物體的分割。可以使用此分割,從而執行圖像的組成物體的獨立索引,以允許處理有關物體而不是全部圖像的局部要求,或者在基于視頻壓縮算法的物體的構架中使用,例如在MPEG-4視頻壓縮標準中所規定的那些。
權利要求
1.一種方法,用于通過執行與圖像相關的運動矢量場的計算(1)來估計圖像序列中的主要運動,對于具有坐標xi,yi的象素,定義了具有分量ui,vi的一個或多個運動矢量,所述方法的特征在于還執行以下步驟-根據簡化的參數表示來建立運動的模型(2)ui=tx+k.xivi=ty+k.yi其中,tx,ty是表示運動的平動分量的矢量的分量,k是代表運動變焦分量的散度因數,-在由平面(x,u)和(y,v)所限定的兩個運動表示空間的每一個中進行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據回歸直線在原點處的縱坐標和斜率來計算參數tx,ty和k(4,5)。
2.根據權利要求1所述的方法,其特征在于所述魯棒回歸(3)是一種最小平方中值方法,該方法在于在一組直線j中搜索提供了殘差平方的中值組中最小的一個,ri,j是相對于直線j,具有坐標xi,ui或yi,vi的第i個采樣的殘差。
3.根據權利要求2所述的方法,其特征在于將搜索殘差的最小平方中值(3)應用于預定數目的直線,通過在所考慮的運動的表示空間中隨機抽取的一對采樣來確定每一條直線。
3.根據權利要求1所述的方法,其特征在于在魯棒線性回歸(3)之后,執行第二非魯棒線性回歸,可以改進運動模型參數的估計。
4.根據權利要求3所述的方法,其特征在于第二線性回歸排除了表示空間中其從第一魯棒回歸得到的回歸殘差超過預定閾值的點。
5.根據權利要求1所述的方法,其特征在于執行在每個表示空間(4)中所計算得到的回歸直線的方向系數的等同性測試(5),該測試基于殘差平方和的比較,首先通過執行每個表示空間中的分離回歸,然后通過對兩個表示空間中的采樣組執行全局斜率回歸來獲得所述殘差,并且在測試是肯定的情況下,通過在每個表示空間中獲得的回歸直線的方向系數的算術平均值來估計模型的參數k。
6.根據權利要求1所述的方法,其特征在于根據tx、ty和k的值,將主要運動劃分為以下類別之一平動、縮放、平動和縮放的結合以及靜態圖像。
7.根據權利要求1所述的方法,其特征在于由使用運動補償的壓縮算法所考慮的視頻序列的編碼來得到運動矢量場,所述壓縮算法如與MPEG-1、MPEG-2或MPEG-4壓縮標準相一致的算法等。
8.一種根據權利要求1所述的方法的應用,用于關鍵圖像的選擇,對于多個圖像,作為與計算得到的參數tx、ty或k相關的信息總和的函數來選擇圖像。
9.一種用于估計圖像序列中的主要運動的設備,包括電路(1),用于計算與圖像相關的運動矢量場,對于具有坐標xi,yi的象素,定義了具有分量ui,vi的一個或多個運動矢量,所述設備的特征在于還包括計算裝置,用于執行-根據簡化的參數表示來建立運動的模型(2)ui=tx+k.xivi=ty+k.yi其中,tx,ty是表示運動的平動分量的矢量的分量,k是代表運動變焦分量的散度因數,-在由平面(x,u)和(y,v)所限定的兩個運動表示空間的每一個中進行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,-根據回歸直線在原點處的縱坐標和斜率來計算參數tx,ty和k(4,5)。
全文摘要
一種方法,用于執行與圖像相關的運動矢量場的計算(1),對于具有坐標xi,yi的象素,定義了具有分量ui,vi的一個或多個運動矢量,所述方法的特征在于還執行以下步驟根據簡化的參數表示來建立運動的模型(2)ui=tx+k.xi,vi=ty+k.yi其中,tx,ty是表示運動的平動分量的矢量的分量,k是代表運動的變焦分量的散度因數,在由平面(x,u)和(y,v)所限定的兩個運動表示空間的每一個中進行魯棒線性回歸(3),以給出回歸直線,其中x,y,u和v分別表示變量xi、yi、ui和vi的軸,根據回歸直線在原點處的斜率和縱坐標來計算參數tx,ty和k(4,5)。其應用涉及關鍵圖像的選擇,用于視頻索引或產生元數據。
文檔編號H04N7/32GK1608380SQ02825888
公開日2005年4月20日 申請日期2002年12月12日 優先權日2001年12月19日
發明者弗朗索瓦絲·勒克萊爾, 西爾萬·馬雷克 申請人:湯姆森許可貿易公司