中文字幕无码日韩视频无码三区

基于視頻識別的防尾隨檢測方法與流程

文檔序號:39561815發(fa)布日(ri)期(qi):2024-09-30 13:36閱讀:84來源(yuan):國知局
基于視頻識別的防尾隨檢測方法與流程

本(ben)發明涉(she)及防尾隨(sui)(sui)檢測,尤其涉(she)及一種基于視頻識(shi)別的防尾隨(sui)(sui)檢測方法(fa)。


背景技術:

1、現有的(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)頻(pin)防尾隨算法(fa)(fa)通常是(shi)基(ji)于(yu)目標(biao)檢測的(de)(de)(de)(de)(de)(de)(de)方(fang)(fang)法(fa)(fa),利用深度學習目標(biao)檢測方(fang)(fang)法(fa)(fa)對攝像(xiang)頭捕(bu)捉的(de)(de)(de)(de)(de)(de)(de)圖像(xiang)進行(xing)(xing)行(xing)(xing)人(ren)或人(ren)頭檢測,通過(guo)人(ren)頭或行(xing)(xing)人(ren)數(shu)目判斷監(jian)控區域是(shi)否(fou)存(cun)(cun)在(zai)尾隨,普通攝像(xiang)頭難免存(cun)(cun)在(zai)視(shi)(shi)(shi)(shi)(shi)角(jiao)盲區,無法(fa)(fa)應(ying)對一些特殊的(de)(de)(de)(de)(de)(de)(de)尾隨情況,如身體被大(da)人(ren)遮擋(dang)的(de)(de)(de)(de)(de)(de)(de)兒童、懷(huai)抱的(de)(de)(de)(de)(de)(de)(de)小嬰兒等,再者,行(xing)(xing)人(ren)運動(dong)較(jiao)快時(shi)捕(bu)捉到(dao)的(de)(de)(de)(de)(de)(de)(de)圖像(xiang)幀常會(hui)出現運動(dong)模糊(hu),運動(dong)模糊(hu)對檢測算法(fa)(fa)又(you)是(shi)一大(da)挑(tiao)戰,常會(hui)出現誤檢情況;基(ji)于(yu)視(shi)(shi)(shi)(shi)(shi)頻(pin)識(shi)別的(de)(de)(de)(de)(de)(de)(de)方(fang)(fang)法(fa)(fa)對圖像(xiang)序列進行(xing)(xing)時(shi)空特征提取(qu),綜合時(shi)間(jian)和(he)空間(jian)特征信息做出預測,可(ke)以避免視(shi)(shi)(shi)(shi)(shi)角(jiao)盲區和(he)運動(dong)模糊(hu)的(de)(de)(de)(de)(de)(de)(de)難題,當前的(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)頻(pin)識(shi)別架構大(da)多基(ji)于(yu)3d卷積(ji)塊或配合額外時(shi)間(jian)建模操作的(de)(de)(de)(de)(de)(de)(de)2d卷積(ji),均需將時(shi)間(jian)軸視(shi)(shi)(shi)(shi)(shi)為(wei)視(shi)(shi)(shi)(shi)(shi)頻(pin)序列中的(de)(de)(de)(de)(de)(de)(de)一個獨(du)立維度,需要大(da)量的(de)(de)(de)(de)(de)(de)(de)計算和(he)內(nei)存(cun)(cun)資源,且(qie)限制了在(zai)移動(dong)設備上的(de)(de)(de)(de)(de)(de)(de)應(ying)用,并且(qie),視(shi)(shi)(shi)(shi)(shi)頻(pin)識(shi)別的(de)(de)(de)(de)(de)(de)(de)方(fang)(fang)法(fa)(fa)應(ying)用于(yu)防尾隨場景(jing)時(shi),需獲(huo)取(qu)大(da)量的(de)(de)(de)(de)(de)(de)(de)正常和(he)尾隨視(shi)(shi)(shi)(shi)(shi)頻(pin)來訓練,而(er)在(zai)實(shi)際應(ying)用中尾隨案例為(wei)偶發現象,很(hen)難獲(huo)取(qu)大(da)量的(de)(de)(de)(de)(de)(de)(de)視(shi)(shi)(shi)(shi)(shi)頻(pin)作為(wei)訓練集,而(er)且(qie)視(shi)(shi)(shi)(shi)(shi)頻(pin)數(shu)據的(de)(de)(de)(de)(de)(de)(de)標(biao)注需要耗費較(jiao)多的(de)(de)(de)(de)(de)(de)(de)時(shi)間(jian)和(he)精力,算力成本較(jiao)大(da)。


技術實現思路

1、本(ben)發明的(de)(de)(de)一個(ge)目的(de)(de)(de)在(zai)于提(ti)供(gong)一種基(ji)(ji)于視(shi)(shi)頻(pin)識(shi)別(bie)的(de)(de)(de)防尾隨(sui)檢(jian)測方(fang)法(fa),通過視(shi)(shi)頻(pin)識(shi)別(bie)將輸入的(de)(de)(de)視(shi)(shi)頻(pin)數據分為不同(tong)的(de)(de)(de)類(lei)別(bie)或(huo)標簽(qian),從而能夠(gou)自動理(li)解和識(shi)別(bie)視(shi)(shi)頻(pin)內容(rong),實現視(shi)(shi)頻(pin)內容(rong)的(de)(de)(de)智能分類(lei)和檢(jian)索(suo),此外(wai),基(ji)(ji)于視(shi)(shi)頻(pin)識(shi)別(bie)的(de)(de)(de)方(fang)法(fa)能對(dui)圖像序(xu)列進(jin)行(xing)(xing)時(shi)(shi)(shi)(shi)(shi)空(kong)特(te)征提(ti)取,綜合(he)時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)和空(kong)間(jian)(jian)特(te)征信息(xi)做出(chu)預(yu)測,可以避免視(shi)(shi)角盲區和運動模(mo)(mo)(mo)糊(hu)的(de)(de)(de)難題(ti),并且,通過一個(ge)輕量(liang)級的(de)(de)(de)視(shi)(shi)頻(pin)識(shi)別(bie)網(wang)絡,將視(shi)(shi)頻(pin)序(xu)列的(de)(de)(de)時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)軸壓縮到通道維度中,利用時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)通道學(xue)習模(mo)(mo)(mo)塊(ctl)幫助模(mo)(mo)(mo)型(xing)學(xue)習視(shi)(shi)頻(pin)圖像序(xu)列的(de)(de)(de)時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)位置(zhi)動態和時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)對(dui)象關(guan)系,免去額外(wai)對(dui)時(shi)(shi)(shi)(shi)(shi)間(jian)(jian)軸進(jin)行(xing)(xing)建模(mo)(mo)(mo)運算(suan),大大降(jiang)低了模(mo)(mo)(mo)型(xing)運算(suan)量(liang)且提(ti)高了識(shi)別(bie)準確率(lv),使得該網(wang)絡在(zai)移動設備上運行(xing)(xing)時(shi)(shi)(shi)(shi)(shi),能夠(gou)實現更快(kuai)的(de)(de)(de)視(shi)(shi)頻(pin)理(li)解速(su)度,同(tong)時(shi)(shi)(shi)(shi)(shi)保持相(xiang)當(dang)高的(de)(de)(de)準確率(lv)。

2、本(ben)發(fa)明的(de)(de)其它(ta)優(you)勢和特(te)點通(tong)過下述(shu)的(de)(de)詳細說明得以充分體現并可通(tong)過所附(fu)權(quan)利要求(qiu)中(zhong)特(te)地(di)指(zhi)出的(de)(de)手段和裝(zhuang)置的(de)(de)組合得以實現。

3、依(yi)本(ben)發明的一個方(fang)面(mian),能(neng)夠實現前述目的和(he)其他(ta)目的和(he)優勢的本(ben)發明的一種(zhong)基于視頻識別的防尾隨(sui)檢測方(fang)法,包括(kuo)以下(xia)步驟:

4、步驟a:輸入(ru)視(shi)頻圖(tu)像(xiang)幀序列,采(cai)用等間隔的采(cai)樣策略(lve)截(jie)取(qu)視(shi)頻圖(tu)像(xiang);

5、步驟b:數據預(yu)處理時,將(jiang)視(shi)頻圖像幀序列轉(zhuan)化(hua)為視(shi)頻識(shi)別網絡所需的輸入格式;

6、步驟c:構建一個視頻識別(bie)網絡模型,以供實(shi)現模型的精準識別(bie)和(he)實(shi)時(shi)預測;

7、步驟d:定義分(fen)類損(sun)失函數監督(du)模型(xing)訓(xun)練(lian),模型(xing)在訓(xun)練(lian)過程(cheng)中通(tong)過權重(zhong)參(can)數的迭代逐步達(da)到(dao)收斂(lian)狀態,訓(xun)練(lian)期間,選取驗證集中的最優的網絡權重(zhong)參(can)數進行(xing)保存,生(sheng)成視頻(pin)識(shi)別模型(xing);

8、步驟(zou)e:在實際推理過程中,直接載(zai)入視頻(pin)(pin)識(shi)別網絡模型(xing)(xing)權重參(can)數來完成模型(xing)(xing)的推理過程,在推理模式下,對輸(shu)(shu)入的防尾隨(sui)監控視頻(pin)(pin)進(jin)行采樣抽幀得到視頻(pin)(pin)圖(tu)像幀序列,進(jin)行圖(tu)像預(yu)處理,把(ba)預(yu)處理后(hou)數據(ju)輸(shu)(shu)入視頻(pin)(pin)識(shi)別模型(xing)(xing)進(jin)行預(yu)測,如果識(shi)別結果為正常,則不觸發報警,繼續輸(shu)(shu)入視頻(pin)(pin)流(liu)進(jin)行監控,如果識(shi)別結果為尾隨(sui),則觸發報警信號。

9、根據本發(fa)明的(de)一個實施例,所述(shu)步(bu)驟(zou)a包括子步(bu)驟(zou)a1:每間隔(ge)固(gu)定(ding)的(de)幀(zhen)數截取(qu)一幀(zhen)圖像,間隔(ge)幀(zhen)數取(qu)值范圍為4~8,輸入(ru)視頻識別網絡的(de)t幀(zhen)圖像序列記為。

10、根據本發明的一(yi)個實施例,所述步驟(zou)b包(bao)(bao)括(kuo)子步驟(zou)b1:轉化(hua)輸(shu)入格式(shi)包(bao)(bao)括(kuo)尺寸調(diao)整、標準化(hua)、維度(du)轉換。

11、根據本發明(ming)的一個(ge)實施例,所(suo)述步驟(zou)c包括(kuo)(kuo)子步驟(zou)c1:視頻識(shi)別網絡為(wei)輕量(liang)級,采(cai)用時間壓縮,視頻識(shi)別網絡包括(kuo)(kuo)維度轉換模(mo)塊(kuai)(kuai)、卷積(ji)模(mo)塊(kuai)(kuai)、最大池化模(mo)塊(kuai)(kuai)、四個(ge)ctl模(mo)塊(kuai)(kuai)、降(jiang)采(cai)樣模(mo)塊(kuai)(kuai)、平均池化模(mo)塊(kuai)(kuai)和(he)全連接模(mo)塊(kuai)(kuai)。

12、根據本(ben)發(fa)明的(de)(de)一個(ge)(ge)實(shi)施例,所述步驟c包括子步驟c2:ctl模塊(kuai)包括兩個(ge)(ge)分支:一個(ge)(ge)分支負責時間(jian)(jian)重要(yao)性的(de)(de)學習(xi),另(ling)一個(ge)(ge)具(ju)有時間(jian)(jian)位置(zhi)恢(hui)復能(neng)力(li)的(de)(de)分支能(neng)夠增強(qiang)跨(kua)時間(jian)(jian)的(de)(de)對(dui)象建模能(neng)力(li)。

13、根(gen)據本發明的一個實施例,所述步(bu)驟(zou)c包括(kuo)子步(bu)驟(zou)c3:ctl模(mo)塊為殘差結構(gou),包括(kuo)1x1卷積(ji)(ji)、ctl模(mo)組和1x1卷積(ji)(ji),

14、根據本發明的(de)一個(ge)實施例,所述步(bu)驟c包括子(zi)步(bu)驟c4:ctl模組(zu)(zu)為雙分支結構,ctl模組(zu)(zu)的(de)輸出是(shi)兩個(ge)分支輸出特征(zheng)向(xiang)量的(de)和。

15、根(gen)據本發明的(de)(de)一個實(shi)施例(li),所(suo)述步(bu)驟c包括(kuo)子步(bu)驟c5:ctl模組的(de)(de)第(di)一分(fen)支是由(you)tfc即時(shi)(shi)間(jian)(jian)聚焦卷(juan)積構(gou)成(cheng),tfc引入注意力機制計算每個特征通道的(de)(de)權重(zhong),得到有時(shi)(shi)間(jian)(jian)重(zhong)要性的(de)(de)特征向量(liang),ctl模組的(de)(de)第(di)二分(fen)支是由(you)ioi跨時(shi)(shi)間(jian)(jian)交互構(gou)成(cheng),ioi還原時(shi)(shi)間(jian)(jian)位置(zhi)動(dong)態和(he)時(shi)(shi)間(jian)(jian)對象關系。

16、根據本發明的一個(ge)實(shi)施例,所述步驟(zou)c包括子步驟(zou)c6:ioi模塊由(you)兩個(ge)分(fen)支(zhi)構成,一個(ge)分(fen)支(zhi)使用(yong)tfc將通道(dao)數c減少到幀數t,同時捕獲(huo)時間(jian)重(zhong)(zhong)要性,注(zhu)入(ru)時間(jian)位置(zhi)編碼信息,恢復時間(jian)動態,利用(yong)7?×?7卷(juan)積對t幀之間(jian)的對象關(guan)系(xi)(xi)進行建模,使用(yong)3?×?3卷(juan)積把通道(dao)數從t映射到c,使用(yong)激(ji)活函數得(de)到在(zai)時間(jian)和(he)位置(zhi)二維空間(jian)上(shang)的權重(zhong)(zhong)向量(liang),另一分(fen)支(zhi)使用(yong)3?×?3卷(juan)積輸(shu)出通道(dao)為(wei)c的特征圖,與權重(zhong)(zhong)向量(liang)進行對應元素乘法(fa)運算,得(de)到有時間(jian)位置(zhi)動態和(he)時間(jian)對象關(guan)系(xi)(xi)的特征向量(liang)。

17、根(gen)據(ju)本(ben)發(fa)明(ming)的一個(ge)(ge)(ge)實施例,所述步驟d包括子(zi)步驟d1:在訓(xun)練(lian)(lian)模式下,對每個(ge)(ge)(ge)訓(xun)練(lian)(lian)視頻解析為圖(tu)像序(xu)列,進行打標(biao)簽(qian)(qian)動(dong)作(zuo),標(biao)簽(qian)(qian)分(fen)為兩類:正常和尾隨,標(biao)簽(qian)(qian)規則為:當視頻里沒有人(ren)或只有一個(ge)(ge)(ge)人(ren)時,標(biao)注為正常,當視頻里人(ren)數大于(yu)一個(ge)(ge)(ge)人(ren)時,標(biao)注為尾隨。

18、本發明的(de)有益效果是:通(tong)過一(yi)個輕量級的(de)視頻(pin)識別網絡(luo),將視頻(pin)序(xu)列的(de)時(shi)(shi)(shi)間(jian)軸(zhou)壓(ya)縮到通(tong)道維度中(zhong),利用時(shi)(shi)(shi)間(jian)通(tong)道學(xue)習模(mo)塊(ctl)幫助模(mo)型(xing)學(xue)習視頻(pin)圖像序(xu)列的(de)時(shi)(shi)(shi)間(jian)位置動(dong)態和時(shi)(shi)(shi)間(jian)對象關系(xi),免去額外(wai)對時(shi)(shi)(shi)間(jian)軸(zhou)進行建模(mo)運算,大(da)大(da)降低了(le)模(mo)型(xing)運算量且提高了(le)識別準確率,使得該網絡(luo)在移動(dong)設備上(shang)運行時(shi)(shi)(shi),能(neng)(neng)夠實現更快的(de)視頻(pin)理解速度,同時(shi)(shi)(shi)保持(chi)相當高的(de)準確率,此外(wai),深度學(xue)習預訓(xun)練加微調的(de)方法能(neng)(neng)夠解決標(biao)注數(shu)據(ju)稀缺的(de)難題,以監督或無監督的(de)方式在大(da)型(xing)數(shu)據(ju)集(ji)上(shang)預訓(xun)練模(mo)型(xing),通(tong)過微調將預訓(xun)練的(de)模(mo)型(xing)在較(jiao)小(xiao)的(de)數(shu)據(ju)集(ji)上(shang)適應特定的(de)下游(you)任(ren)務,能(neng)(neng)夠避免為不同的(de)任(ren)務或數(shu)據(ju)集(ji)從(cong)頭開始訓(xun)練新模(mo)型(xing),在較(jiao)大(da)的(de)數(shu)據(ju)集(ji)上(shang)進行預訓(xun)練有助于學(xue)習通(tong)用表征,從(cong)而提高下游(you)任(ren)務的(de)性能(neng)(neng)。



技術特征:

1.一種基于視(shi)頻識別(bie)的(de)防(fang)尾隨(sui)檢(jian)測方法,其特征在于,包括以下步驟:

2.根據權(quan)利(li)要求1所(suo)述的(de)防尾隨檢(jian)測方法,其特征(zheng)在(zai)于,所(suo)述步(bu)驟a包(bao)括子步(bu)驟a1:每間隔固(gu)定的(de)幀(zhen)數(shu)截取(qu)一幀(zhen)圖像,間隔幀(zhen)數(shu)取(qu)值范圍為4~8,輸入(ru)視頻識別網絡(luo)的(de)t幀(zhen)圖像序列記為。

3.根據權利要求2所述(shu)的(de)防尾隨檢測方(fang)法,其特征在于(yu),所述(shu)步驟b包(bao)括子步驟b1:轉(zhuan)化(hua)輸入格(ge)式包(bao)括尺寸調(diao)整、標準化(hua)、維度轉(zhuan)換(huan)。

4.根(gen)據權利要求3所述(shu)的防尾隨檢測方法(fa),其(qi)特征在于,所述(shu)步(bu)驟c包(bao)括子步(bu)驟c1:視頻識別網(wang)絡(luo)為輕量級,采(cai)用時間壓縮(suo),視頻識別網(wang)絡(luo)包(bao)括維度轉換模(mo)塊(kuai)(kuai)(kuai)、卷積(ji)模(mo)塊(kuai)(kuai)(kuai)、最(zui)大(da)池(chi)化模(mo)塊(kuai)(kuai)(kuai)、四個ctl模(mo)塊(kuai)(kuai)(kuai)、降采(cai)樣(yang)模(mo)塊(kuai)(kuai)(kuai)、平均池(chi)化模(mo)塊(kuai)(kuai)(kuai)和全連接(jie)模(mo)塊(kuai)(kuai)(kuai)。

5.根據權(quan)利要求4所述的(de)防尾隨(sui)檢測(ce)方(fang)法,其特征在(zai)于,所述步(bu)驟(zou)c包括子步(bu)驟(zou)c2:ctl模(mo)塊包括兩個分支(zhi):一個分支(zhi)負責時(shi)間(jian)(jian)重要性的(de)學習,另一個具有時(shi)間(jian)(jian)位置恢(hui)復(fu)能力(li)的(de)分支(zhi)能夠增強跨(kua)時(shi)間(jian)(jian)的(de)對象建模(mo)能力(li)。

6.根據權利要求5所述(shu)的防尾(wei)隨檢(jian)測方(fang)法,其特(te)征在(zai)于,所述(shu)步(bu)驟c包(bao)括子步(bu)驟c3:ctl模塊為殘差結構,包(bao)括1x1卷積(ji)、ctl模組和1x1卷積(ji)。

7.根據權利(li)要(yao)求6所述(shu)的防尾(wei)隨檢測方法,其特(te)征在于(yu),所述(shu)步驟c包括子步驟c4:ctl模組為雙分支結構,ctl模組的輸(shu)出是兩個分支輸(shu)出特(te)征向量的和。

8.根據權利要(yao)求7所述的防尾隨檢(jian)測(ce)方法,其特征在于,所述步驟(zou)c包括子(zi)步驟(zou)c5:ctl模組(zu)的第一分支是(shi)由tfc即時(shi)(shi)(shi)間聚(ju)焦卷積(ji)構成(cheng),tfc引(yin)入注(zhu)意力機制計算每個特征通道的權重,得到有時(shi)(shi)(shi)間重要(yao)性的特征向量(liang),ctl模組(zu)的第二分支是(shi)由ioi跨時(shi)(shi)(shi)間交互構成(cheng),ioi還原時(shi)(shi)(shi)間位置(zhi)動態和時(shi)(shi)(shi)間對象關系。

9.根據(ju)權利要(yao)求8所(suo)述(shu)的(de)(de)防尾隨(sui)檢測方(fang)法,其特征在(zai)于,所(suo)述(shu)步(bu)驟(zou)(zou)c包括(kuo)子步(bu)驟(zou)(zou)c6:ioi模(mo)(mo)塊由兩個(ge)分(fen)(fen)支構(gou)成(cheng),一個(ge)分(fen)(fen)支使(shi)用(yong)tfc將通道(dao)(dao)數(shu)c減少到幀(zhen)數(shu)t,同時(shi)(shi)捕獲時(shi)(shi)間(jian)重要(yao)性,注入時(shi)(shi)間(jian)位(wei)置編(bian)碼信息,恢復時(shi)(shi)間(jian)動態(tai),利用(yong)7?×?7卷(juan)積(ji)對t幀(zhen)之(zhi)間(jian)的(de)(de)對象(xiang)關系進行建模(mo)(mo),使(shi)用(yong)3?×?3卷(juan)積(ji)把通道(dao)(dao)數(shu)從t映射(she)到c,使(shi)用(yong)激活(huo)函數(shu)得(de)到在(zai)時(shi)(shi)間(jian)和位(wei)置二維空間(jian)上的(de)(de)權重向(xiang)量,另一分(fen)(fen)支使(shi)用(yong)3?×?3卷(juan)積(ji)輸出通道(dao)(dao)為c的(de)(de)特征圖,與權重向(xiang)量進行對應元素乘法運算(suan),得(de)到有時(shi)(shi)間(jian)位(wei)置動態(tai)和時(shi)(shi)間(jian)對象(xiang)關系的(de)(de)特征向(xiang)量。

10.根據(ju)權利要求1所述(shu)的防尾(wei)隨檢測方(fang)法(fa),其特征在(zai)(zai)于,所述(shu)步驟d包括子步驟d1:在(zai)(zai)訓練模式(shi)下,對每(mei)個(ge)訓練視頻解析為(wei)圖像序(xu)列,進(jin)行打(da)標(biao)(biao)簽動作,標(biao)(biao)簽分為(wei)兩(liang)類:正(zheng)常和尾(wei)隨,標(biao)(biao)簽規則為(wei):當視頻里沒有人(ren)或(huo)只有一(yi)個(ge)人(ren)時,標(biao)(biao)注為(wei)正(zheng)常,當視頻里人(ren)數(shu)大于一(yi)個(ge)人(ren)時,標(biao)(biao)注為(wei)尾(wei)隨。


技術總結
本發明公開了一種基于視頻識別的防尾隨檢測方法,包括以下步驟:步驟A:輸入視頻圖像幀序列,采用等間隔的采樣策略截取視頻圖像;步驟B:數據預處理時,將視頻圖像幀序列轉化為視頻識別網絡所需的輸入格式;步驟C:構建一個視頻識別網絡模型,以供實現模型的精準識別和實時預測;步驟D:定義分類損失函數監督模型訓練,模型在訓練過程中通過權重參數的迭代逐步達到收斂狀態,訓練期間,選取驗證集中的最優的網絡權重參數進行保存,生成視頻識別模型;步驟E:在實際推理過程中,直接載入視頻識別網絡模型權重參數來完成模型的推理過程,把預處理后數據輸入視頻識別模型進行預測。

技術研發人員:賴時伍,聶蕓蕓,夏爐系,張滸,苗應亮
受保護的技術使用者:盛視科技股份有限公司
技術研發日:
技術公布日:2024/9/29
網友詢(xun)問(wen)留言(yan) 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1