一種獲取向量的方法及裝置的制造方法
【技術領域】
[0001] 本發明設及視頻識別技術領域,特別設及一種獲取向量的方法及裝置。
【背景技術】
[0002] 隨著視頻信息的爆炸式的增長,人工處理大量視頻信息已經變得越來越不現實, 然而視頻監控、視頻檢索等需求變得越來越大,如何讓計算機能夠正確理解視頻的內容,是 一件有挑戰也有意義的工作。
[0003] 在視頻識別領域中,識別視頻中的人、物的動作和行為等技術,是需求比較廣泛 的。比如在對視頻進行檢索和分類時,通常需要對視頻中人的行為動作進行比較準確的分 類,再比如在監控領域中,需要對被監控的人的行為動作進行分析,該也設及到對視頻中的 人的動作行為進行的識別問題,因此動作識別在近幾年一直是研究中的熱點問題。
[0004] 在進行視頻識別時,一般需要對視頻中的運動區域進行分析,得到相應的運動向 量,再將得到的運動向量送入分類器進行分類,W得到識別結果。那么首要的就是先得到該 個運動向量,而在現有技術中,尚無較好地得到該種運動向量的方法。
【發明內容】
[0005] 本發明實施例提供一種獲取向量的方法及裝置,用于提供一種獲取視頻中的運動 向量的方式。
[0006] 本發明的第一方面,提供一種獲取向量的方法,包括W下步驟:
[0007] 對視頻的X個視頻帖按照第一算法進行處理,得到N個像素點一一對應的N條運 動軌跡;其中,一條運動軌跡描述了一個像素點在所述X個視頻帖中位置的變化;所述N個 像素點是按照預設規則在所述X個視頻帖中選擇出來的;
[000引采用預設的深度神經網絡對所述X個視頻帖進行處理,得到所述X個視頻帖的深 度特征;
[0009] 確定組成每條運動軌跡的像素點在所述X個視頻帖中的位置,并從所述深度特征 中獲取每個位置的子深度信息,根據所述每個位置的子深度信息得到軌跡深度特征向量; 所述軌跡深度特征向量用于表征所述N條運動軌跡在所述X個視頻帖中的深度信息;
[0010] 其中,X、N為正整數。
[0011] 結合第一方面,在第一方面的第一種可能的實現方式中,當X不小于2時,所述X 個視頻帖是連續的。
[0012] 結合第一方面或第一方面的第一種可能的實現方式,在第一方面的第二種可能的 實現方式中,所述對視頻的X個視頻帖按照第一算法進行處理,得到N個像素點一一對應的 N條運動軌跡,包括;
[0013] 對于所述X個視頻帖中每相鄰的兩個視頻帖,均執行如下操作;獲取所述相鄰的 兩個視頻帖對應的第一光流場;所述第一光流場用于表示在所述相鄰的兩個視頻帖中,同 一個像素點的速度矢量;通過中值濾波器對所述第一光流場進行處理,獲取第二光流場,所 述第二光流場用于表示,所述相鄰的兩個視頻帖中,前一個視頻帖中的像素點在后一個視 頻帖中的位置;
[0014] 根據獲取的所述X個視頻帖中每相鄰的兩個視頻帖之間的第二光流場,獲得所述 N個像素點對應的所述N條運動軌跡。
[0015] 結合第一方面的第二種可能的實現方式,在第一方面的第=種可能的實現方式 中,
[0016] 所述在獲取所述相鄰的兩個視頻帖對應的第一光流場之前,所述方法還包括:
[0017] 對所述X個視頻帖中的每個視頻帖做如下處理:
[001引在一個視頻帖中,將每隔預設數量個普通像素點的一個普通像素點取為目標像素 點,計算獲取的所有目標像素點的自相關矩陣;其中,所述普通像素點為所述一個視頻帖中 的任意一個像素點;
[0019] 在所述一個視頻帖中,丟棄所述自相關矩陣中的特征值小于預設值的元素對應的 普通像素點;
[0020] 所述獲取所述相鄰的兩個視頻帖對應的第一光流場,包括:
[0021] 根據處理后的X個視頻帖,獲取所述相鄰的兩個視頻帖對應的所述第一光流場。
[0022] 結合第一方面的第二種可能的實現方式或第=種可能的實現方式,在第一方面的 第四種可能的實現方式中,
[0023] 在所述獲取第二光流場之后,所述方法還包括;對于所述X個視頻帖中每相鄰的 兩個視頻帖,均執行如下操作:
[0024] 獲取所述相鄰的兩個視頻帖中的至少一組待匹配點對;所述待匹配點對為;所述 相鄰的兩個視頻帖中,前一個視頻帖的任意一個像素點和所述任意一個像素點在相鄰的后 一個視頻帖中得到的對應點構成的點對;其中,每組待匹配點對中包括一對或多對待匹配 點對;
[0025] 針對所述至少一組待匹配點對中的每組,分別獲得一個仿射變換矩陣;
[0026] 通過得到的每一個仿射變換矩陣分別確定每一組待匹配點對中的每一對待匹配 點對是否匹配;
[0027] 將確定出的相匹配的待匹配點對數量最多的仿射變換矩陣確定為與所述相鄰的 兩個視頻帖對應的第一仿射變換矩陣,并通過所述第一仿射變換矩陣,對所述相鄰的兩個 視頻帖中的前一個視頻帖作仿射變換,獲得所述前一個視頻帖中的像素點在所述相鄰的兩 個視頻帖中的后一個視頻帖中的實際位置;
[002引根據所述第二光流場,W及所述前一個視頻帖中的像素點在所述后一個視頻帖中 的實際位置,獲取所述相鄰的兩個視頻帖之間的第=光流場;所述第=光流場用于表示,所 述相鄰的兩個視頻帖中,前一個視頻帖中的像素點在后一個視頻帖中的實際位置;
[0029] 所述根據獲取的所述X個視頻帖中每相鄰的兩個視頻帖之間的第二光流場,獲得 所述N個像素點對應的所述N條運動軌跡,包括:
[0030] 根據獲取的所述X個視頻帖中每相鄰的兩個視頻帖之間的第=光流場,獲得所述 N個像素點對應的所述N條運動軌跡。
[0031] 結合第一方面的第四種可能的實現方式,在第一方面的第五種可能的實現方式 中,獲得所述N個像素點對應的所述N條運動軌跡,包括:
[0032] 根據獲得的各像素點的運動軌跡,分別獲取其中每個像素點的位移;
[0033] 丟棄其中位移大于預設位移的像素點對應的運動軌跡,獲得所述N個像素點對應 的所述N條運動軌跡。
[0034] 結合第一方面的第五種可能的實現方式,在第一方面的第六種可能的實現方式 中,所述采用預設的深度神經網絡對所述X個視頻帖處理,得到所述X個視頻帖的深度特 征,包括:
[0035] 將所述X個視頻帖、W及所述X個視頻帖對應的第=光流場輸入到所述深度神經 網絡中;
[0036] 獲取所述深度神經網絡輸出的所述X個視頻帖對應的所述深度特征。
[0037] 結合第一方面的第六種可能的實現方式,在第一方面的第走種可能的實現方式 中,在所述獲取所述深度神經網絡輸出的所述X個視頻帖對應的所述深度特征之后,還包 括:
[003引對所述深度特征進行歸一化處理,得到歸一化后的深度特征。
[0039] 結合第一方面的第走種可能的實現方式,在第一方面的第八種可能的實現方式 中,所述對所述深度特征進行歸一化處理,得到歸一化后的深度特征,包括:
[0040] 對所述深度特征中包括的每個元素,分別在所述深度神經網絡中該元素所在的通 道上進行歸一化,得到每個元素的單通道歸一化結果;
[0041] 將每個元素的單通道歸一化結果分別在所述深度神經網絡中的所有通道上進行 歸一化,得到每個元素的多通道歸一化結果;
[0042] 根據每個元素的多通道歸一化結果得到所述歸一化后的深度特征。
[0043] 結合第一方面的第八種可能的實現方式,在第一方面的第九種可能的實現方式 中,
[0044] 所述對所述深度特征中包括的每個元素,分別在所述深度神經網絡中該元素所在 的通道上進行歸一化,得到每個元素的單通道歸一化結果,包括:
[0045] 對所述深度特征中包括的每個元素,分別除W該元素在所述深度神經網絡中該元 素所在的通道內的第一給定值,得到每個元素的單通道歸一化結果;
[0046] 所述將每個元素的單通道歸一化結果分別在所述深度神經網絡中的所有通道上 進行歸一化,得到每個元素的多通道歸一化結果,包括:
[0047] 將每個元素的單通道歸一化結果分別除W所述深度神經網絡中的所有通道內與 該元素位于同一位置的元素對應的第二給定值,得到每個元素的多通道歸一化結果。
[0048] 結合第一方面的第走種可能的實現方式至第九種可能的實現方式中的任一種可 能的實現方式,在第一方面的第十種可能的實現方式中,所述從所述深度特征中獲取所述 每個位置的子深度信息,包括:
[0049] 從所述歸一化后的深度特征中獲取所述每個位置的子深度信息。
[0050] 本發明的第二方面,提供一種獲取向量的裝置,包括:
[0化1] 第一獲取模塊,用于對視頻的X個視頻帖按照第一算法進行處理,得到N個像素點 一一對應的N條運動軌跡;其中,一條運動軌跡描述了一個像素點在所述X個視頻帖中位置 的變化;所述N個像素點是按照預設規則在所述X個視頻帖中選擇出來的;
[0化2] 第二獲取模塊,用于采用預設的深度神經網絡對所述X個視頻帖進行處理,得到 所述X個視頻帖的深度特征;
[0053] 第=獲取模塊,用于確定組成所述第一獲取模塊得到的每條運動軌跡的像素點在 所述X個視頻帖中的相應位置,并從所述第二獲取模塊得到的所述深度特征中獲取每個位 置的子深度信息,根據所述每個位置的子深度信息得到軌跡深度特征向量;所述軌跡深度 特征向量用于表征所述N條運動軌跡在所述X個視頻帖中的深度信息;
[0054] 其中,X、N為正整數。
[0055] 結合第二方面,在第二方面的第一種可能的實現方式中,當X不小于2時,所述X 個視頻帖是連續的。
[0化6] 結合第二方面或第二方面的第一種可能的實現方式,在第二方面的第二種可能的 實現方式中,所述第一獲取模塊具體用于:
[0化7] 對于所述X個視頻帖中每相鄰的兩個視頻帖,均執行如下操作;獲取所述相鄰的 兩個視頻帖對應的第一光流場;所述第一光流場用于表示在所述相鄰的兩個視頻帖中,同 一個像素點的速度矢量;通過中值濾波器對所述第一光流場進行處理,獲取第二光流場,所 述第二光流場用于表示,所述相鄰的兩個視頻帖中,前一個視頻帖中的像素點在后一個視 頻帖中的位置;
[005引根據獲取的所述X個視頻帖中每相鄰的兩個視頻帖之間的第二光流場,獲得所述N個像素點對應的所述N條運動軌跡。
[0059] 結合第二方面的第二種可能的實現方式,在第二方面的第=種可能的實現方式 中,所述裝置還包括處理模塊;
[0060] 所述處理模塊用于在所述第一獲取模塊獲取所述相鄰的兩個視頻帖對應的第一 光流場之前,對所述X個視頻帖中的每個視頻帖做如下處理:
[0061] 在一個視頻帖中,將每隔預設數量個普通像素點的一個普通像素點取為目標像素 點,計算獲取的所有目標像素點的自相關矩陣;其中,所述普通像素點所述一個視頻帖中的 任意一個像素點;
[0062] 在所述一個視頻帖中,丟棄所述自相關矩陣中的特征值小于預設值的元素對應的 普通像素點;
[0063] 所述第一獲取模塊具體用于獲取所述相鄰的兩個視頻帖對應的第一光流場,包 括:
[0064] 根據所述處理模塊處理后的X個視頻帖,獲取所述相鄰的兩個視頻帖對應的所述 第一光流場。
[00化]結合第二方面的第二種可能的實現方式或第=種可能的實現方式,在第二方面的 第四種可能的實現方式中,
[0066] 所述第一獲取模塊在獲取第二光流場之后,還用于對于所述X個視頻帖中每相鄰 的兩個視頻帖,均執行如下操作:
[0067] 獲取所述相鄰的兩個視頻帖中的至少一組待匹配點對;所述待匹配點對為;所述 相鄰的兩個視頻帖中,前一個視頻帖的任意一個像素點和所述像素點在相鄰的后一個視頻 帖中得到的對應點構成的點對;其中,每組待匹配點對中包括一對或多對待匹配點對;
[0068] 針對所述至少一組待匹配點對中的每組,分別獲得一個仿射變換矩陣;
[0069] 通過得到的每一個仿射變換矩陣分別確定每一組待匹配點對中的每一對待匹配 點對是否匹配;
[0070] 將確定出的相匹配的待匹配點對數量最多的仿射變換矩陣確定為與所述相鄰的 兩個視頻帖對應的第一仿射變換矩陣,并通過所述第一仿射變換矩陣,對所述相鄰的兩個 視頻帖中的前一個視頻帖作仿射變換,獲得所述前一個視頻帖中的像素點在所述相鄰的兩 個視頻帖中的后一個視頻帖中的實際位置;
[0071] 根據所述第二光流場,W及所述前一個視頻帖中的像素點在所述后一個視頻帖中 的實際位置,獲取所述相鄰的兩個視頻帖之間的第=光流場;所述第=光流場用于表示,所 述相鄰的兩個視頻帖中,前一個視頻帖中的像素點在后一個視頻帖中的實際位置;
[0072] 所述第一獲取模塊具體用于,包括:
[0073] 根據獲取的所述X個視頻帖中每相鄰的兩個視頻帖之間的第=光流場,獲得所述 N個像素點對應的所述N條運動軌跡。
[0074] 結合第二方面的第四種可能的實現方式,在第二方面的第五種可能的實現方式 中,所述第一獲取模塊具體用于:
[0075] 根據獲得的各像素點的運動軌跡,分別獲取其中每個像素點的位移;
[0076] 丟棄其中位移大于預設位移的像素點對應的運動軌跡,獲得所述N個像素點對應 的所述N條運動軌跡。
[0077] 結合第二方面的第五種可能的實現方式,在第二方面的第六種可能的實現方式 中,所述第二獲取模塊具體用于:
[007引將所述X個視頻帖、W及所述第一獲取模塊獲取的所述X個視頻帖對應的第=光 流場輸入到所述深度神經網絡中;
[0079] 獲取所述深度神經網絡輸出的所述X個視頻帖對應的所述深度特征。
[0080] 結合第二方面的第六種可能的實現方式,在第二方面的第走種可能的實現方式 中,所述裝置還包括歸一化模塊,所述歸一化模塊用于:
[0081] 在所述第二獲取模塊獲取所述深度神經網絡輸出的、所述X個視頻帖對應的所述 深度特征之后,對所述第二獲取模塊獲取的所述深度特征進行歸一化處理,得到歸一化后 的深度特征。
[0082] 結合第二方面的第走種可能的實現方式,在第二方面的第八種可能的實現方式 中,所述歸一化模塊具體用于:
當前第1頁
1 
2 
3 
4 
5 
6