一種基于多特征回歸式集成學習的人群密度估計方法
【專利摘要】本發明涉及一種基于多特征回歸式集成學習的人群密度估計方法,以人的頭部寬度作為參照對場景幀圖像進行多層次的圖像分塊,對塊進行圖像放縮和Gamma矯正以實現圖像的尺度和光照一致性;利用預處理的樣本構建密度估計模型,提取D?SIFT、GLCM和GIST三種特征構建第一層支持向量機回歸(SVR)粗預測模型,對粗預測結果作為新的特征構建第二層SVR細預測模型,將所有子圖像的細預測結果相加根據場景設定的人數分級進行密度估計。本發明克服了場景光照變化、相機高度角度變化以及行人遮擋的問題,利用多個場景樣本采取多種特征并應用回歸的方式集成學習構建模型,來適用于多個不同場景以實現人群密度估計。
【專利說明】
一種基于多特征回歸式集成學習的人群密度估計方法
技術領域
[0001] 本發明涉及一種屬于數字圖像處理、模式識別技術領域,特別涉及一種基于多特 征回歸式集成學習的人群密度估計方法。
【背景技術】
[0002] 隨著人們生活水平的提高,城市化進度的不斷加快,大規模公共場所集體性活動 日益頻繁,因而近年來的因人群密集所產生的事故屢見不鮮。因此,如何使用計算機視覺對 人群進行實時的智能監控,及時做出人群密度估計,并采取有效的措施,對于保障社會穩定 和人群安全具有重要意義。
[0003] 目前人群密度估計的方法可分為兩大類:
[0004] 1)直接法:直接法使用一些分類器試圖分割或者檢測人群中的每個個體,然后進 行計數來獲取人群密度。這些方法可以進一步分成兩小類:①基于模型的方法:通過模型或 者人的形狀輪廓來進行檢測或者分割。如Lin等人提出的一種基于Haar小波變換提取人頭 部輪廓特征并結合支持向量機進行行人檢測的方法(Lin S F,Chen J Y, Chao H X. Estimation of number of people in crowded scenes using perspective transformation[J]. Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2001,31(6) :645-654),Felzenszwalb等提出一種基于部件和改進的梯 度直方圖(Histogram of oriented gradient,H0G)特征的DPM(Deformable parts model) 檢測算法(Felzenszwalb P F,Girshick R B,McAllester D,et al .Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645),Ga11和 Lempitsky提出一種使用霍夫森林框架對行人的各個部件進行檢測并打分來判斷行人以及 其位置的方法(Gall J, Lempitsky V. Class-specific hough forests for object detection[M]·Decision forests for computer vision and medical image analysis . Springer London ,2013:143-157)等等,Gardz inski 等人(Gardz inski P, Kowalak K,Kaminski L,et al.Crowd density estimation based on voxel model in multi-view surveillance systems[C]. Systems , Signals and Image Processing (IWSSIP),2015International Conference on. IEEE,2015:216-219)則是利用多個視角的 相機進行3D前景建模,根據人體的形狀來提取人體并判斷人群人數;②基于軌跡聚類的方 法:通過長時間的跟蹤聚類行人身上的興趣點來檢測每個個體。如Rabaud和Belongie提出 了一種使用Kanade-Lucas-Tomasi (KLT)跟蹤器和一系列底層特征來聚類軌跡線并推測場 景人數的方法(Rabaud V,Belongie S.Counting crowded moving objects[C] .Computer Vision and Pattern Recognition,2006IEEE Computer Society Conference on.IEEE, 2006,l:705_711),Rao等人(Rao A S,Gubbi J,Marusic S,et al.Estimation of crowd density by clustering motion cues[J].The Visual Computer,2015,31(11):1533-1552)通過光流法來跟蹤獲取人群輪廓,從運動信息中篩選出人的軌跡線,然后聚類分析人 群密度。直接法在場景人數較少的情況下效果較好,但是其缺點也很明顯,在擁擠的情況下 人群出現嚴重的重疊,直接法的性能直線下降。
[0005] 2)間接法:間接法把人群作為整體看待,通過對人群提取紋理等特征并結合回歸 模型來獲取人群密度。間接法也可以分為三類:①基于像素的分析:這些方法首先移除場景 背景,然后使用一些非常底層的特征來估計人群密度。Davies等(Davies A C,Yin J H, Velastin S A . Crowd monitoring using image processing[J].Electronics& Communication Engineering Journal ,1995,7(1) :37-47)通過提取前景并分析人群前景 和邊緣像素,并加入視角糾正,通過線性關系來估計人數。Hussasin等(Hussain N,Yatim H S M1Hussain N L,et al.CDES:A pixel-based crowd density estimation system for Mas jid al_Haram[J] · Safety Science, 2011,49(6): 824-833)在通過縮放來糾正透視畸變 的前景像素上提取底層特征然后使用后向神經網絡來監督訓練,訓練的模型對稀疏人群估 計很準確,但隨著密度升高出現人群遮擋,錯誤的估計則直線上升;②基于紋理和梯度的方 法:相比基于像素的方法,紋理和梯度特征能更好的表達場景中的人數。使用在人群密度估 計中的紋理和梯度特征包括灰度共生矩陣(Gray-level co-occurrence matrix,GLCM), ULBP特征(Uniform local binary Pattern),H0G特征,和梯度方向共生矩陣(Gradient orientation co-occurrence matrix,G0CM)等等;③基于特征點的方法:特征點即感興趣 的特征像素,例如在圖像中檢測到的角點。如Conte等人(Conte D,Foggia P,PercannelIa G,et al. Counting moving persons in crowded scenes[J]·Machine vision and Applications ,2013,24 (5):1029-1042)使用了 一種加速魯棒特征(Speeded-up robust features ,SURF)來檢測角點,移動的角點數則被用來估計人群密度,Liang等人(Liang R, Zhu Y,ffang H.Counting crowd flow based on feature points[J].Neurocomputing, 2014,133:377-384)通過三幀差分算法和二值化形成前景蒙版,再使用SURF提取特征點,最 后結合光流來判斷人群行走的方向和密度。Kishor等人(Kishore P V V,Rahul R,Sravya K,et al. Crowd Density Analysis and tracking[C].Advances in Computing, Communications and Informatics(ICACCI),2015International Conference on. IEEE, 2015:1209-1213)則是在光流圖上檢測FAST(Features for accelerated segment test) 角點,然后根據角點數形成密度估計圖。間接法通常需要提取前景或運動信息來減少背景 干擾,而在實際的應用中,由于光照變化、行人持續擁擠和各種背景因素等等,使得前景和 運動信息的提取成為一項較難的工作,因而導致這些方法在實際應用中難以做出準確的估 計
【發明內容】
[0006] 本發明的目的在于提供一種基于多特征回歸式集成學習的人群密度估計方法。
[0007] 為實現上述目的,本發明采用以下技術方案:一種基于多特征回歸式集成學習的 人群密度估計方法,包括以下步驟:
[0008] 圖像分塊步驟:獲取場景的視頻監控幀圖像,以人的頭部寬度作為參照對場景進 行多層次的圖像分塊,對多層次塊圖像進行縮放處理統一大小并經Gamma矯正預處理獲得 子圖像樣本;
[0009] 人群密度估計步驟:采用第一層支持向量回歸模型對子圖像樣本的D_SIFT、GLCM 和GIST三種特征進行粗預測;將粗預測結果作為新的特征使用第二層支持向量回歸模型進 行細預測,將所有子圖像樣本的細預測結果相加,根據場景設定的人群密度分級進行密度 估計。
[0010]優選地,所述多層次圖像分塊的具體步驟為:
[0011]首先劃定場景興趣區域,然后確定第一層塊圖像的大小,選定參照行人,當其頭部 恰好進入興趣域底部邊界內后,測量其頭部寬度為w像素,則設定第一層塊圖像的寬度為頭 部寬度w*128/42像素,然后參照行人繼續向前移動,直至頭部寬度為w*21/42=w/2像素時, 其頭頂到興趣域底部邊界的長度即為第一層塊圖像的高度;
[0012]再行確定第二層塊圖像的大小,選定參照行人,當其頭部恰好越過第一層塊圖像 上邊時,測量其頭部寬度為Wi像素,則設定第二層塊的寬度為頭部寬度wi*128/42像素,然后 參照行人繼續向前移動,直至頭部寬度為《021/42 = ^/2像素時,其頭頂到第一層塊圖像上 邊的長度即為第二層塊圖像的高度;
[0013]以此類推,再行確定第三層塊圖像的大小,直至多層次塊圖像對場景興趣區域完 成無重疊的全部覆蓋。
[0014]優選地,所述多層次塊圖像進行縮放處理統一大小后的寬高均為128像素。
[0015]優選地,多層次塊圖像經Gamma矯正預處理獲得子圖像的步驟包括:首先將像素值 0~255分為三個區間,然后將像素值轉換為角度,具體表述如下:
[0016]
[0017]其中X為像素值,XQ和Xl分別為設定的像素閾值,El= [0, XQ],E2= [XQ,X1],E3= [XI, 255],樹幻則是轉換后的角度;
[0018]然后利用三角函數關系確定gamma值γ (X),定義如下:
[0019] f .(X) =..:.1+a (2)
[0020] 單純靠權值a來調整Ga_a值會使其起伏過大,于是引入了權值b并采用了公式(3) 所示的線性修正函數來進行修正
[0021]
[0022] 最終修正后的Gamma值定義為
[0023]
(4)
[0024]像素矯正后的值為
[0025]
(5)
[0026] 優選地,所述人群密度估計步驟包括:
[0027] 對子圖像樣本分別提取D-SIFT、GLCM和GIST特征;
[0028] 對提取的特征分別利用第一層支持向量回歸模型訓練粗預測模型,對于測試樣本 集,通過粗預測模型得到D-SIFT、GLCM和GIST三個特征對應的不同的人數粗預測值;
[0029] 把人數粗預測值作為新的特征利用第二層支持向量回歸模型訓練細預測模型,人 數粗預測的結果通過細預測模型,得到更為準確的子圖像樣本人數預測,即細預測值;
[0030] 將一幅幀圖像的所有子圖像樣本的細預測值相加,統計場景興趣區域的人數,
[0031] 根據場景興趣區域的密度分類標準,即可得到當前幀的人群密度估計值。
[0032] 本發明與現有技術相比的有益效果是:本發明克服了場景光照變化、相機高度角 度變化以及行人遮擋的問題,利用多個場景樣本采取多種特征并應用回歸的方式集成學習 構建模型,來適用于多個不同場景以實現人群密度估計。
[0033]下面結合附圖和具體實施例對本發明作進一步描述。
【附圖說明】
[0034]圖1為本發明的流程不意圖;
[0035]圖2為塊圖像大小確定示意圖;
[0036]圖3為多層次塊圖像與場景興趣區域對應關系示意圖;
[0037]圖4為回歸式集成學習的流程圖。
【具體實施方式】
[0038]為了更充分理解本發明的技術內容,下面結合具體實施例對本發明的技術方案進 一步介紹和說明。
[0039]如圖1所示,為本發明的流程示意圖,一種基于多特征回歸式集成學習的人群密度 估計方法,包括以下步驟為:
[0040] 圖像分塊步驟:獲取場景的視頻監控幀圖像,以人的頭部寬度作為參照對場景進 行多層次的圖像分塊,對多層次塊圖像進行縮放處理統一大小并經Gamma矯正預處理獲得 子圖像樣本;
[0041] 人群密度估計步驟:采用第一層支持向量回歸模型對子圖像樣本的D_SIFT、GLCM 和GIST三種特征進行粗預測;將粗預測結果作為新的特征使用第二層支持向量回歸模型進 行細預測,將所有子圖像樣本的細預測結果相加,根據場景設定的人群密度分級進行密度 估計。
[0042] 進一步,如圖2所示,為塊圖像大小確定示意圖;如圖3所示,為多層次塊圖像與場 景興趣區域對應關系示意圖;在上述技術方案中,多層次圖像分塊的具體步驟為:
[0043] 首先劃定場景興趣區域,然后確定第一層塊圖像的大小,選定參照行人,當其頭部 恰好進入興趣域底部邊界內后,測量其頭部寬度為w像素,則設定第一層塊圖像的寬度為頭 部寬度w*128/42像素,然后參照行人繼續向前移動,直至頭部寬度為w*21/42=w/2像素時, 其頭頂到興趣域底部邊界的長度即為第一層塊圖像的高度;
[0044] 再行確定第二層塊圖像的大小,選定參照行人,當其頭部恰好越過第一層塊圖像 上邊時,測量其頭部寬度為Wi像素,則設定第二層塊的寬度為頭部寬度wi*128/42像素,然后 參照行人繼續向前移動,直至頭部寬度為《021/42 = ^/2像素時,其頭頂到第一層塊圖像上 邊的長度即為第二層塊圖像的高度;
[0045] 以此類推,再行確定第三層塊圖像的大小,直至多層次塊圖像對場景興趣區域完 成無重疊的全部覆蓋。
[0046] 采用以人頭部寬度為參照的圖像分塊的方法,通過對幀圖像進行由近及遠多個層 次的不同大小的塊劃分,以塊為基本元素來進行模型的構建和人數的預測,能夠克服透視 投影效應的問題。
[0047] 經過圖像分塊后,我們得到了很多遠近不同、大小不同、不同時間和天氣下的多層 次塊圖像,在提取特征前,需要對其進行預處理來減少環境干擾以及減少訓練量,
[0048]首先將多層次塊圖像進行縮放處理統一大小,統一大小后的寬高均為128像素,這 樣歸一化大小可以將不同距離的塊圖像統一為同一大小的樣本進行訓練,而不需要對遠近 的樣本分開訓練,大大減少了訓練量。
[0049] 其次,為了減少由于環境光照所帶來的影響,需要對塊圖像進行Gamma矯正,多層 次塊圖像經Gamma矯正預處理獲得子圖像,具體步驟包括:首先將像素值0~255分為三個區 間,然后將像素值轉換為角度,具體表述如下:
[0050]
[0051 ]其中X為像素值,XQ和Xl分別為設定的像素閾值,El = [ 0,XQ ],E2 = [ XQ,Xl ],E3 = [ Xl, 255],沐X)則是轉換后的角度;
[0052] 然后利用三角函數關系確定gamma值γ (X),定義如下:
[0053] 7(x) = 1 +? cos (φ(χ)) (7)
[0054] 單純靠權值a來調整Gamma值會使其起伏過大,于是引入了權值b并采用了公式(3) 所示的線性修正函數來進行修正
[0055]
[0056] 最終修正后的Gamma值定義為
[0057]
(9)
[0058]像素矯正后的值為
[0059]
(1.0)
[0060] 進一步,如圖4所示,為回歸式集成學習的流程圖,人群密度估計步驟包括:
[0061 ] 對子圖像樣本分別提取D-SIFT、GLCM和GIST特征,設為xD-siFT、xacM和xcisT;
[0062]對提取的特征分別利用第一層支持向量回歸模型訓練粗預測模型,對于測試樣本 集,通過第一層支持向量回歸模型回歸擬合得到三個模型f I(XD-SIFT)、f2(XGLXM)和f3(XGIST), 模型輸出D-SIFT、GLCM和GIST三個特征的預測值yD-siFT、yGL?和ycisT,對應不同人數的粗預測 值,將這三個預測值組成為新的特征:
[0063] Xall= [yd-sift,YglcmjYgist] (11)
[0064] 把這一新的特征利用第二層支持向量回歸模型訓練細預測模型fFinal(XA^),人數 粗預測的結果通過細預測模型,得到更為準確的子圖像樣本人數預測y Finai,即細預測值;回 歸式集成學習包括兩個部分:訓練(學習)部分和預測(應用)部分,如圖4所示,訓練部分則 是訓練回歸模型,首先對若干個子圖像提取特征,并計數每個子圖像的人數作為其人數標 簽,組成訓練部分的樣本集,然后分為訓練集和測試集,通過訓練集訓練三種特征對應的粗 回歸模型,測試集通過粗回歸模型可以得到相應的預測輸出,即粗預測值。將三個模型的粗 預測值作為新的特征結合人數標簽組成新的樣本集,對新的樣本集繼續分為新訓練集和新 測試集。通過新訓練集訓練細回歸模型,而新測試集通過細回歸模型得到細預測值來判斷 模型是否準確。
[0065] 預測部分則是通過訓練好的模型來預測人數。在未知人數的測試樣本上提取特 征,然后結合訓練部分已訓練好的粗回歸模型得到粗預測值,將三個粗預測值作為新的特 征,輸入到細回歸模型中,即可得到細預測值,即最終的人數預測。
[0066] 考慮到不同的特征對人群密度的敏感性不一致,因此采用兩層回歸能夠彌補彼此 的不足,也就能提高預測精度。
[0067] 將一幅幀圖像的所有子圖像樣本的細預測值相加,統計場景興趣區域的人數,
[0068] 根據場景興趣區域的密度分類標準,即可得到當前幀的人群密度估計值。例如:假 設當前場景能夠容納的最大人數nmax為標準,采用平均分類,分為五級:[0,n max/5 ]、[nmax/5, 2nmax/5 ]、[ 2nmax/5,3nmax/5 ]、[ 3nmax/5,4nmax/5 ]和[4nmax/5,①),分別記為VL(彳艮低)、L(低)、M (中等)、H(高)和VH(很高),根據統計場景興趣區域的人數對照上述標準即可完成人群密度 估值。
[0069]以上所述僅以實施例來進一步說明本發明的技術內容,以便于讀者更容易理解, 但不代表本發明的實施方式僅限于此,任何依本發明所做的技術延伸或再創造,均受本發 明的保護。
【主權項】
1. 一種基于多特征回歸式集成學習的人群密度估計方法,其特征在于,包括以下步驟: 圖像分塊步驟:獲取場景的視頻監控幀圖像,以人的頭部寬度作為參照對場景進行多 層次的圖像分塊,對多層次塊圖像進行縮放處理統一大小并經Gamma矯正預處理獲得子圖 像樣本; 人群密度估計步驟:采用第一層支持向量回歸模型對子圖像樣本的D-SIFT、GLCM和 GIST三種特征進行粗預測;將粗預測結果作為新的特征使用第二層支持向量回歸模型進行 細預測,將所有子圖像樣本的細預測結果相加,根據場景設定的人群密度分級進行密度估 計。2. 根據權利要求1所述基于多特征回歸式集成學習的人群密度估計方法,其特征在于, 所述多層次圖像分塊的具體步驟為: 首先劃定場景興趣區域,然后確定第一層塊圖像的大小,選定參照行人,當其頭部恰好 進入興趣域底部邊界內后,測量其頭部寬度為w像素,則設定第一層塊圖像的寬度為頭部寬 度w*128/42像素,然后參照行人繼續向前移動,直至頭部寬度為w*21/42 = w/2像素時,其頭 頂到興趣域底部邊界的長度即為第一層塊圖像的高度; 再行確定第二層塊圖像的大小,選定參照行人,當其頭部恰好越過第一層塊圖像上邊 時,測量其頭部寬度為像素,則設定第二層塊的寬度為頭部寬度W1*128/42像素,然后參照 行人繼續向前移動,直至頭部寬度為《021/42=^/2像素時,其頭頂到第一層塊圖像上邊的 長度即為第二層塊圖像的高度; 以此類推,再行確定第三層塊圖像的大小,直至多層次塊圖像對場景興趣區域完成無 重疊的全部覆蓋。3. 根據權利要求2所述基于多特征回歸式集成學習的人群密度估計方法,其特征在于, 所述多層次塊圖像進行縮放處理統一大小后的寬高均為128像素。4. 根據權利要求3所述基于多特征回歸式集成學習的人群密度估計方法,其特征在于, 多層次塊圖像經Gamma矯正預處理獲得子圖像的步驟包括:首先將像素值0~255分為三個 區間,然后將像素值轉換為角度,具體表述如下:其中X為像素值,XQ和XI分別為設定的像素閾值,Ει= [0,XQ],E2= [XQ,X1],E3= [XI, 255],河.τ)則是轉換后的角度; 然后利用三角函數關系確定8&_8值γ (X),定義如下: v(x) = 1 + a cos (^(-v)) (2) 單純靠權值a來調整Gamma值會使其起伏過大,于是引入了權值b并采用了公式(3)所示 的線性修正函數來進行修正最終修正后的Gamma值定義為 Ρ(λ) = f{x) + χ(χ) (4) 像素矯正后的值為 χ?, = 255[(χ/255)1/Λ'?, (5)5.根據權利要求1、2、3或4任一所述基于多特征回歸式集成學習的人群密度估計方法, 其特征在于,所述人群密度估計步驟包括: 對子圖像樣本分別提取D_SIFT、GLCM和GIST特征; 對提取的特征分別利用第一層支持向量回歸模型訓練粗預測模型,對于測試樣本集, 通過粗預測模型得到D-SIFT、GLCM和GIST三個特征對應的不同的人數粗預測值; 把人數粗預測值作為新的特征利用第二層支持向量回歸模型訓練細預測模型,人數粗 預測的結果通過細預測模型,得到更為準確的子圖像樣本人數預測,即細預測值; 將一幅幀圖像的所有子圖像樣本的細預測值相加,統計場景興趣區域的人數,根據場 景興趣區域的密度分類標準,即可得到當前幀的人群密度估計值。
【文檔編號】G06K9/00GK106056078SQ201610374700
【公開日】2016年10月26日
【申請日】2016年5月31日
【發明人】鄭宏, 張洞明
【申請人】武漢大學深圳研究院