一種基于稀疏低秩編碼的視頻動作識別方法

文檔序號：10687556閱(yue)讀：282來源：國知(zhi)局

一種基于稀疏低秩編碼的視頻動作識別方法
【專利摘要】本發明涉及一種基于稀疏低秩編碼的視頻動作識別方法。本發明對給定的視頻集合進行如下操作：1）對每個視頻從空間和時間兩個維度使用立方體檢測和描述視頻動作的興趣點，并形成相應的局部時空特征；2）利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并用改進的平均池化技術獲得全局時空特征向量作為視頻的數據表示；3）對所有視頻樣本實施上述步驟獲得相應的時空數據表示，并分為訓練樣本和測試樣本，再利用支持向量機建立分類模型用于識別測試樣本的視頻動作。本發明能夠從局部和全局角度利用視頻興趣點的時空特征有力刻畫視頻動作，并通過稀疏低秩編碼獲得更優的視頻數據表示，提高了視頻動作識別的準確率。
【專利說明】
一種基于稀疏低秩編碼的視頻動作識別方法
技術領域
[0001] 本發明屬于視頻分析技術領域，特別是基于稀疏低秩編碼的視頻動作識別方法。
【背景技術】
[0002] 隨著視頻采集設備的日益豐富和城市安防監控需求的逐步增大，各類視頻數據源源不斷地產生，使得視頻大數據的理解受到學術界和產業界研究人員的廣泛關注，同時引起了國家高層的重視。不同于傳統的文本和圖像，視頻往往呈現非結構化、規模大的特點且具有時序關聯性，給理解和分析視頻數據帶來很大挑戰。常見的視頻數據應用包括目標定位與跟蹤、目標識別、動作識別、事件檢測等。其中，視頻動作識別作為典型的視頻理解問題，可用于地鐵廣場監控、交通流監管，同時為視頻數據的高層語義分析奠定基礎，例如視頻事件一般由多個相互關聯的視頻動作組成，因而視頻動作識別方法的研究有利于提高視頻事件檢測技術的發展。
[0003] 視頻的數據表示是實現視頻動作識別的關鍵，即對視頻提取特征并將其表示為向量形式。最為直接的方法是提取視頻幀的圖像特征，如SIFT、SURF等，但是該方法未考慮視頻幀之間的時間關系，不能反映興趣點的時空變化。由此，研究人員提出許多時空興趣點提取方法，比如立方體(Cuboid)算子，分別從時間和空間兩個維度提取給定視頻的興趣點，并用合適的描述子表征興趣點。同時，對興趣點表征向量的進一步優化是提升視頻動作識別效果的重要途徑，例如詞袋(BoW)表示、稀疏表示、低秩表示、非負矩陣分解等等。然后，對優化后的興趣點表示利用最大池化技術或平均池化技術獲得視頻的向量化特征表示。最后，在視頻樣本集的新特征表示上建立分類模型，用于對未標記的視頻樣本進行動作識別。
[0004] 上述方法存在一些缺陷，例如詞袋表不和非負矩陣分解均未充分考慮視頻樣本與字典間的重構關系、稀疏表示未考慮重構矩陣的低秩特性、低秩表示未考慮重構矩陣的稀疏特性，使得視頻樣本的特征表示不能很好地刻畫動作的興趣點。另外，最大池化技術僅考慮了占比最大興趣點而忽略了其他重要興趣點;平均池化技術由于利用了所有的興趣點特征，使之不可避免地將一些噪聲興趣點特征用于計算視頻的全局特征表示。總體而言，這些視頻特征表示方法或多或少都存在無法克服的缺點，不利于視頻樣本分類器的建立，直接影響了視頻動作的識別效果。因此，迫切需要設計一種能準確反映視頻時空興趣點結構的特征編碼方法，同時考慮局部和全局信息，從而構建泛化能力更強的視頻動作識別分類器，提尚識別的精度。

【發明內容】

[0005] 為了準確表征視頻動作序列的時空結構，從局部和全局兩個角度反映視頻中興趣點的時空信息，增強視頻動作識別的效果，本發明提出了一種基于稀疏低秩編碼的視頻動作識別方法，該方法包括以下步驟：
[0006] 1、獲取視頻樣本集合后，進行以下操作：
[0007] 1)對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征。
[0008] 2)利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示。
[0009] 3)對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作。
[0010] 進一步，所述的步驟1)中的對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征，具體是：
[0011 ] 1 · 1)對每個視頻分別用二維高斯光滑核(Gaussian smoothing kernel)與一維高波濾波器(Gabor filter)從空間維度和時間維度生成η個興趣點，并采用立方體描述子 (Cuboid descriptor)表示這些局部時空興趣點。
[0012] 1.2)單個視頻的所有興趣點表示組成的集合記為
，其中每個興趣點表示Ii(i = l，2,…，n)為長度為80維的具有局部時空特性的列向量，這些列向量組成該視頻對應的特征矩陣
[0013] 進一步，所述的步驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示，具體是：
[0014] 2.1)視頻的特征矩陣X分解為兩部分，一部分為從數據字典(500為字典的原子個數，80為字典原子的維度)重構獲得的低秩矩陣ZeR5wta,另一部分為噪聲矩陣五e!R 8°xn，并對低秩矩陣Z添加1:范式約束I |Z| U，使得重構矩陣Z盡可能逼近視頻中興趣點的局部時空特性結構。
[0015] 2.2)數據字典A通過對視頻的特征矩陣X運用k均值(k-means)聚類算法獲得，即將視頻的所有興趣點表示聚為500個簇，而簇中心以列向量的形式組成數據字典A。
[0016] 2.3)根據視頻的特征矩陣及其數據字典，計算最優稀疏低秩編碼矩陣Z的目標函數為
[0017]
[0018]其中，常數α>0，λ>〇,符號I I · I I*表示矩陣的核范數為矩陣的奇異值之和，符號 ? I |2,1表示矩陣的12,1范數，即先求矩陣各列向量的h范式再求其Il范式。
[0019] 2.4)為了減少求解核范數的時間復雜度，特將矩陣Z分解為兩個矩陣，即2^妒_> 和用Frobenius范數I I · I |F近似替換核范數，則計算效率更高的目標函數為
[0020]
[0021] 這樣，該目標函數中共有四個變量需要優化。
[0022] 2.5)利用變量交替迭代優化方法求解2.4)中目標函數的最優解，可得到視頻的最優稀疏低秩編碼表示Z'其中變量交替迭代方法的本質特點在于每輪迭代中依次固定其他變量的同時僅優化一個變量。
[0023] 2.6)最優稀疏低秩編碼表示浐由500個維度為η的行向量組成，即{Z1，Z2，…，Z 500}，對其運用改進的平均池化技術，即對矩陣Ζ*中各行向量依次取前20個最大元素值的算術平均值(先對行向量中的η個元素做降序排列），便可以得到視頻的全局時空特征向量X，其維度為500。
[0024] 所述的步驟3)中的對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作，具體是：
[0025] 3.1)對所有的視頻樣本實施步驟1)和步驟2)后，可獲得相應的時空數據表示{yi， y2，…，ym}，此處設有m個視頻樣本。
[0026] 3.2)將m個視頻樣本一分為二，其中80%作為訓練樣本(即具有動作類別標記的視頻），20%作為測試樣本（即無標記的視頻），利用支持向量機(SVM)在訓練樣本上建立分類模型，則輸入測試樣本的數據表示可通過SVM分類器獲得對應的類別標記，即實現了視頻動作的識別功能。
[0027]本發明提出了基于稀疏低秩編碼的視頻動作識別方法，其優點在于:通過立方體算子從空間和時間兩個維度對視頻檢測和描述其興趣點，能充分地刻畫視頻的動作序列特性;利用稀疏低秩矩陣分解基于字典矩陣對興趣點特征進行重構表示，能有效地反映視頻的興趣點的時空信息；采用改進的平均池化技術對興趣點的局部時空特征進行編碼，能更好地刻畫視頻的全局特征建立泛化能力更強的分類器，從而提高了視頻的動作識別效果，為智慧城市的安防監控等應用提供了技術支持。
【附圖說明】
[0028]圖1是本發明的方法流程圖。
【具體實施方式】
[0029]參照附圖1，進一步說明本發明：
[0030] 1、獲取視頻集合后，進行以下操作：
[0031] 1)對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征。
[0032] 2)利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示。
[0033] 3)對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作。
[0034] 步驟1)中所述的對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征，具體是：
[0035] 1 · 1)對每個視頻分別用二維高斯光滑核(Gaussian smoothing kernel)與一維高波濾波器(Gabor filter)從空間維度和時間維度生成η個興趣點，并采用立方體描述子 (Cuboid descriptor)表示這些局部時空興趣點。
[0036] 1.2)單個視頻的所有興趣點表示組成的集合記為:T = U1J2，…，ia}，其中每個興趣點表示Ii(i = l，2,…，n)為長度為80維的具有局部時空特性的列向量，這些列向量組成該視頻對應的特征矩陣X = [-W. ·，x" ] e Rsq'
[0037] 步驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示，具體是：
[0038] 2.1)視頻的特征矩陣X分解為兩部分，一部分為從數據字典(500為字典的原子個數，80為字典原子的維度)重構獲得的低秩矩陣Ze R5ti0xn,另一部分為噪聲矩陣五并對低秩矩陣Z添加1:范式約束I |Z| I1，使得重構矩陣Z盡可能逼近視頻中興趣點的局部時空特性結構。
[0039] 2.2)數據字典A通過對視頻的特征矩陣X運用k均值(k-means)聚類算法獲得，即將視頻的所有興趣點表示聚為500個簇，而簇中心以列向量的形式組成數據字典A。
[0040] 2.3)根據視頻的特征矩陣及其數據字典，計算最優稀疏低秩編碼矩陣Z的目標函數為
[0041]
[0042] 其中，常數α>0，λ>〇,符號I I · I I*表示矩陣的核范數為矩陣的奇異值之和，符號 ? I |2,1表示矩陣的12,1范數，即先求矩陣各列向量的h范式再求其Il范式。
[0043] 2.4)為了減少求解核范數的時間復雜度，特將矩陣Z分解為兩個矩陣，即和Qertlxn，用Frobenius范數I I · I |F近似替換核范數，則計算效率更高的目標函數為
[0044]
[0045] 這樣，該目標函數中共有四個變量需要優化。
[0046] 2.5)利用變量交替迭代優化方法求解2.4)中目標函數的最優解，可得到視頻的最優稀疏低秩編碼表示Z'其中變量交替迭代方法的本質特點在于每輪迭代中依次固定其他變量的同時僅優化一個變量。
[0047] 2.6)最優稀疏低秩編碼表示浐由500個維度為η的行向量組成，即{Z1，Z 2，…，Z500}，對其運用改進的平均池化技術，即對矩陣浐中各行向量依次取前20個最大元素值的算術平均值(先對行向量中的η個元素做降序排列），便可以得到視頻的全局時空特征向量X，其維度為500。
[0048]步驟3)中的對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作，具體是：
[0049] 3.1)對所有的視頻樣本實施步驟1)和步驟2)后，可獲得相應的時空數據表示{yi， y2，…，ym}，此處設有m個視頻樣本。
[0050] 3.2)將m個視頻樣本一分為二，其中80%作為訓練樣本(即具有動作類別標記的視頻），20%作為測試樣本（即無標記的視頻），利用支持向量機(SVM)在訓練樣本上建立分類模型，則輸入測試樣本的數據表示可通過SVM分類器獲得對應的類別標記，即實現了視頻動作的識別功能。
[0051] 本說明書實施例所述的內容僅僅是對發明構思的實現形式的列舉，本發明的保護范圍的不應當被視為僅限于實施例所陳述的具體形式，本發明的保護范圍也及于本領域技術人員根據本發明構思所能夠想到的等同技術手段。
【主權項】
1. 一種基于稀疏低秩編碼的視頻動作識別方法，該方法的特征在于對給定的視頻集合，進行如下操作： 1) 對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征； 2) 利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示； 3) 對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作。2. 如權利要求1所述的基于稀疏低秩編碼的視頻動作識別方法，其特征在于:所述的步驟1)中的對每個視頻從空間和時間兩個維度使用立方體算子檢測和描述視頻動作的興趣點，并形成相應的局部時空特征，具體是： 1.1) 對每個視頻分別用二維高斯光滑核與一維高波濾波器從空間維度和時間維度生成η個興趣點，并采用立方體描述子表示這些局部時空興趣點； 1.2) 單個視頻的所有興趣點表示組成的集合記為:Γ=認，/,，..'}，其中每個興趣點表示Ii(i = l，2,…，n)為長度為80維的具有局部時空特性的列向量，這些列向量組成該視頻對應的特征矩陣X。[.^，…為]e 。：3. 如權利要求1所述的基于稀疏低秩編碼的視頻動作識別方法，其特征在于:所述的步驟2)中的利用稀疏低秩矩陣分解對局部時空特征做編碼，形成對應興趣點的稀疏低秩編碼表示，并采用改進的平均池化技術獲得全局時空特征向量作為一個視頻的數據表示，具體是： 2.1) 視頻的特征矩陣X分解為兩部分，一部分為從數據字典J e肢8<^(?重構獲得的低秩矩陣Z e K5()^，另一部分為噪聲矩陣五e I*-，并對低秩矩陣Z添加乜范式約束| | Z | |:，使得重構矩陣Z盡可能逼近視頻中興趣點的局部時空特性結構； 2.2) 數據字典A通過對視頻的特征矩陣X運用k均值聚類算法獲得，即將視頻的所有興趣點表示聚為500個簇，而簇中心以列向量的形式組成數據字典A; 2.3) 根據視頻的特征矩陣及其數據字典，計算最優稀疏低秩編碼矩陣Z的目標函數為其中，常數α>〇，λ>0,符號| | · | I*表示矩陣的核范數為矩陣的奇異值之和，符號| | · 2>1表示矩陣的12>1范數，即先求矩陣各列向量的h范式再求其h范式； 2.4) 為了減少求解核范數的時間復雜度，將矩陣2分解為兩個矩陣，即1^狀5°°><81)和 "，用Frobenius范數| | · | |F近似替換核范數，則計算效率更高的目標函數為這樣，該目標函數中共有四個變量需要優化； 2.5) 利用變量交替迭代優化方法求解2.4)中目標函數的最優解，可得到視頻的最優稀疏低秩編碼表示浐，其中變量交替迭代方法的本質特點在于每輪迭代中依次固定其他變量的同時僅優化一個變量； 2.6)最優稀疏低秩編碼表示？由500個維度為η的行向量組成，即{Z1，Z2，…， Ζ5(χ)}，對其運用改進的平均池化技術，即對矩陣f中各行向量依次取前20個最大元素值的算術平均值，便可以得到視頻的全局時空特征向量X，其維度為500。4.如權利要求1所述的基于稀疏低秩編碼的視頻動作識別方法，其特征在于:所述的步驟3)中的對所有的視頻樣本實施上述步驟后，可獲得相應的時空數據表示，將其分為訓練樣本和測試樣本，利用支持向量機建立分類模型用于識別測試樣本的視頻動作，具體是： 3.1) 對所有的視頻樣本實施步驟1)和步驟2)后，可獲得相應的時空數據表示{yi， y2，…，ym}，此處設有m個視頻樣本； 3.2) 將m個視頻樣本一分為二，其中80 %作為訓練樣本，20 %作為測試樣本，利用支持向量機在訓練樣本上建立分類模型，則輸入測試樣本的數據表示可通過支持向量機分類器獲得對應的類別標記，即實現了視頻動作的識別功能。
【文檔編號】G06K9/00GK106056082SQ201610377217
【公開日】2016年10月26日
【申請日】2016年5月31日
【發明人】李平, 彭勇, 計忠平, 徐向華
【申請人】杭州電子科技大學

完(wan)整(zheng)全部(bu)詳細技術資料下載(zai)