中文字幕无码日韩视频无码三区

一種基于FasterR?CNN的手勢檢測和識別方法與流程

文檔序號:11216835閱讀:1173來源:國知局(ju)
一種基于Faster R?CNN的手勢檢測和識別方法與流程

本發(fa)明涉及(ji)基(ji)(ji)于計算機模式識別(bie)(bie)技術,具(ju)體涉及(ji)基(ji)(ji)于卷積神經網絡(luo)的手勢檢測(ce)和(he)識別(bie)(bie)技術,尤(you)其涉及(ji)一種(zhong)基(ji)(ji)于fasterregion-basedconvolutionalneuralnetworks(簡稱fasterr-cnn)的手勢檢測(ce)和(he)識別(bie)(bie)方法。



背景技術:

21世紀以(yi)來(lai),學者們(men)已經提出了很多手(shou)(shou)勢檢(jian)(jian)測(ce)和(he)識別(bie)方(fang)法(fa),主(zhu)要(yao)(yao)是利(li)用圖(tu)像(xiang)分(fen)割方(fang)法(fa),將手(shou)(shou)勢圖(tu)像(xiang)從背(bei)景(jing)中(zhong)分(fen)離出來(lai),然后進(jin)行模板匹配(pei)識別(bie)手(shou)(shou)勢。早期的(de)(de)(de)研究主(zhu)要(yao)(yao)集中(zhong)于(yu)基(ji)于(yu)數據手(shou)(shou)套的(de)(de)(de)手(shou)(shou)勢識別(bie),但(dan)(dan)使(shi)用起來(lai)不(bu)(bu)方(fang)便,器件成(cheng)本較(jiao)高(gao),不(bu)(bu)利(li)于(yu)在實(shi)際環境中(zhong)的(de)(de)(de)人機(ji)交(jiao)互。另一(yi)(yi)種(zhong)是基(ji)于(yu)計算機(ji)視覺的(de)(de)(de)方(fang)法(fa),較(jiao)常用的(de)(de)(de)方(fang)法(fa)有方(fang)向梯度直方(fang)圖(tu)(histogramoforientedgradient,簡稱(cheng)hog)特征與(yu)支持(chi)向量機(ji)(supportvectormachine,簡稱(cheng)svm),基(ji)于(yu)kinect深度圖(tu)像(xiang)的(de)(de)(de)手(shou)(shou)勢檢(jian)(jian)測(ce)和(he)基(ji)于(yu)膚(fu)色(se)(se)(se)檢(jian)(jian)測(ce)技術(shu)的(de)(de)(de)手(shou)(shou)勢分(fen)割。但(dan)(dan)是這(zhe)些(xie)方(fang)法(fa)都需(xu)要(yao)(yao)在特定的(de)(de)(de)場合下才能使(shi)用,不(bu)(bu)利(li)于(yu)推廣。后來(lai)有學者提出了基(ji)于(yu)不(bu)(bu)同(tong)顏色(se)(se)(se)空間的(de)(de)(de)手(shou)(shou)勢檢(jian)(jian)測(ce)算法(fa),這(zhe)些(xie)基(ji)于(yu)膚(fu)色(se)(se)(se)的(de)(de)(de)檢(jian)(jian)測(ce)方(fang)法(fa)在背(bei)景(jing)單一(yi)(yi)的(de)(de)(de)情(qing)況下可以(yi)取得不(bu)(bu)錯的(de)(de)(de)效果,但(dan)(dan)在背(bei)景(jing)較(jiao)為(wei)復雜時,效果一(yi)(yi)般。

卷積(ji)神(shen)經網(wang)絡(convolutionalneuralnetworks,簡稱(cheng)cnn)是(shi)一種為了處理二維(wei)圖像(xiang)而設(she)計的(de)人工神(shen)經網(wang)絡,對翻轉、平移和(he)比例(li)縮(suo)放等具有(you)扭曲不變性,因此已經有(you)學者將卷積(ji)神(shen)經網(wang)絡應用在在手(shou)勢識別(bie)領域。但他們沒有(you)進行手(shou)勢檢測(ce),所以只適用于小圖片或簡單背景(jing)下的(de)手(shou)勢識別(bie)。deepcnn成功地提(ti)高了目標檢測(ce)和(he)圖像(xiang)分類(lei)的(de)精(jing)度。



技術實現要素:

為了克服已有手勢識別(bie)方式(shi)的(de)魯棒性較差、準(zhun)確(que)率較低的(de)不(bu)足(zu),本發明提(ti)供了一種增強魯棒性、提(ti)高準(zhun)確(que)率的(de)基(ji)于(yu)fasterr-cnn的(de)手勢檢測和識別(bie)方法(fa)。

本發(fa)明(ming)解(jie)決其技(ji)術問(wen)題所采用(yong)的技(ji)術方案(an)是(shi):

一種(zhong)基于fasterr-cnn的手勢檢測和識別方法(fa),所述方法(fa)包(bao)括(kuo)以下步驟(zou):

s1,采用fasterr-cnn網絡(luo),面向(xiang)手勢識別應用設置網絡(luo)中的參數(shu);

s2,給手勢樣本制(zhi)作標簽,并將標簽樣本作為fasterr-cnn網絡(luo)的(de)(de)輸(shu)入,從(cong)其共享卷積層中輸(shu)出有(you)效的(de)(de)非(fei)線(xian)性特征并輸(shu)入到區域提取(qu)網絡(luo)(regionproposalnetwork,簡稱rpn)和fastregion-basedconvolutionalneuralnetworks(簡稱fastr-cnn);

由具(ju)有(you)擾動交(jiao)疊(die)率算法的rpn網(wang)絡獲得手勢目標的區域建議,并反饋給fastr-cnn網(wang)絡;

s3,由fastr-cnn網(wang)絡通過(guo)分類(lei)層(ceng)和邊(bian)框回歸層(ceng),輸出手勢位(wei)置和手勢類(lei)別。

進一步,所述步驟s1中(zhong),根據(ju)所述采用fasterr-cnn網絡,面向手勢識別應用設置網絡中(zhong)的參(can)數,包括:

fasterr-cnn網(wang)絡的輸入(ru)參數:將(jiang)圖片輸入(ru)大小設(she)置為640*480;將(jiang)ntu數據(ju)集(ji)分類的類別(bie)數目設(she)置為11類(包括(kuo)背景);使用vgg_cnn_m_1024網(wang)絡模型。

anchors的(de)參數:本專利anchors的(de)基準(zhun)面(mian)積(ji)大小設為8*8,使用三種寬高比2:1,1:1和1:2,采用的(de)尺度為[8,12,16]。

再進一(yi)步,所(suo)述步驟(zou)s2中,根(gen)據(ju)所(suo)述從使用擾(rao)動交疊率算法的rpn中獲得手(shou)勢目標的區域建(jian)議,包(bao)括:

通過擾動交疊率(lv)算法(fa)產(chan)生擾動標簽,擾動交疊率(lv)算法(fa)采用的(de)策略就(jiu)是在每1000次迭代中按(an)概率(lv)10%隨機選取一部分迭代的(de)iou設(she)為0.5,其余的(de)iou都設(she)為0.7;

更(geng)進一(yi)步(bu),所述步(bu)驟s3中,由fastr-cnn網絡通過分類層和邊框回歸層,輸(shu)出手勢位(wei)置和手勢類別,包括:

通(tong)過regionofinterest(簡稱roi)池化層和全連接層得到(dao)手勢區域的1024維特征(zheng)向量,再將此特征(zheng)向量輸入到(dao)分(fen)類層和邊(bian)框回(hui)歸層;

分類層輸出1×11維(wei)手勢類別數據;

邊框(kuang)回歸層(ceng)輸(shu)出1×44維(wei)邊框(kuang)坐標數據(ju)。

本發明的有(you)益效果(guo)主要表現在(zai):增(zeng)強(qiang)手勢識別的魯棒性、提高手勢識別的準確(que)率。

附圖說明

圖(tu)1為基(ji)于fasterr-cnn的(de)手勢檢測和識別方法的(de)網絡結構(gou)示意圖(tu)。

圖2為基于fasterr-cnn的(de)手(shou)勢檢測和識別方法(fa)的(de)流程示意圖

圖3為(wei)給(gei)樣本制作標簽的流程示意圖。

圖4為(wei)anchor框的(de)大小、比例示意圖。

具體實施方式

下面結合(he)附圖對本發明作進一(yi)步描述。

參(can)照圖1~圖4,一(yi)種(zhong)基(ji)于(yu)fasterr-cnn的手(shou)勢檢(jian)測(ce)和(he)(he)識(shi)別(bie)方(fang)法(fa),用(yong)于(yu)手(shou)勢的檢(jian)測(ce)與識(shi)別(bie)。本申請實施例(li)所(suo)述的手(shou)勢檢(jian)測(ce)和(he)(he)識(shi)別(bie)方(fang)法(fa),主要是指使用(yong)fasterr-cnn網絡和(he)(he)擾動交疊率算(suan)法(fa)。

本申請實(shi)施例(li)中(zhong)使用的網絡(luo)整體結(jie)構如(ru)附(fu)圖1所示。將手勢(shi)標簽數據輸(shu)入(ru)到(dao)fasterr-cnn網絡(luo)中(zhong),將共享卷積層中(zhong)輸(shu)出的非(fei)線性特(te)征輸(shu)入(ru)到(dao)區(qu)域提取網絡(luo)rpn和fastr-cnn網絡(luo);然后將rpn網絡(luo)得到(dao)的手勢(shi)目標的區(qu)域建(jian)議反饋給fastr-cnn網絡(luo);最(zui)終(zhong)由fastr-cnn網絡(luo)通過分類層和邊框回(hui)歸層,輸(shu)出手勢(shi)位置和手勢(shi)類別。

本申請實施例使用(yong)的數(shu)據(ju)(ju)為(wei)ntu-microsoft-kinect-handposturedataset(簡(jian)稱ntu)數(shu)據(ju)(ju)集中(zhong)的手勢(shi)圖片。

如附圖2所示,本申請實施例的(de)基于(yu)fasterr-cnn的(de)手勢檢測和(he)識(shi)別方法(fa),主要包(bao)括如下步驟:

步驟s1,采用fasterr-cnn網(wang)絡,面向(xiang)手勢識(shi)別應用設置網(wang)絡中的參數;

步驟s2,給(gei)手(shou)勢樣本制作標簽(qian),并將標簽(qian)樣本作為fasterr-cnn網(wang)絡的(de)輸入,從中提取出有(you)效(xiao)的(de)非線(xian)性特(te)征并輸入到rpn網(wang)絡和fastr-cnn網(wang)絡;

步(bu)驟(zou)s3,由(you)具有擾動交疊(die)率算法的rpn網絡獲得手勢目標的區域建(jian)議,并反饋給fastr-cnn網絡;

步驟(zou)s4,由fastr-cnn網絡通過分類層和邊(bian)框回(hui)歸層,輸出手(shou)勢(shi)(shi)位(wei)置和手(shou)勢(shi)(shi)類別。

本(ben)申請實施(shi)例(li)中(zhong),根據所述采用fasterr-cnn網(wang)(wang)絡(luo)(luo),面向手勢(shi)識別應用設置(zhi)網(wang)(wang)絡(luo)(luo)中(zhong)的參(can)數,包(bao)括(kuo):

fasterr-cnn網(wang)(wang)絡(luo)的輸(shu)入(ru)(ru)參數:將圖片輸(shu)入(ru)(ru)大小設(she)置為(wei)640*480;將ntu數據(ju)集分類的類別數目設(she)置為(wei)11類(包括10種手勢和(he)背景);使(shi)用vgg_cnn_m_1024網(wang)(wang)絡(luo)模型。

anchors的參數:anchors的基(ji)準面積(ji)大小設(she)為8*8,使用三種寬高(gao)比2:1,1:1和1:2,采用的尺(chi)度為[8,12,16]。

本(ben)申請實施例中,根據(ju)所述(shu)給訓練樣本(ben)制作標簽。圖3給出了主要步驟。

步驟s210,將(jiang)樣本圖片使用matlab批量(liang)重命名為“00001.jpg”的(de)形式。

步驟s220,使用(yong)python的畫圖(tu)像(xiang)標注(zhu)工具,將(jiang)圖(tu)片(pian)中(zhong)(zhong)(zhong)的手勢部位(wei)信息保存到txt文件夾中(zhong)(zhong)(zhong),如:00001.jpghand_04428132121。前面是圖(tu)片(pian)名,中(zhong)(zhong)(zhong)間(jian)是手勢類(lei)別,最后是手勢的包圍框坐標。

步驟s230,使用matlab將步驟s220中的(de)(de)每個txt文件(jian)批量生成相應xml文件(jian),xml文件(jian)的(de)(de)名(ming)字就是(shi)圖片的(de)(de)編號,如“00001.xml”。

步驟s240,新(xin)建一個文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia),名(ming)字為(wei)annotations,將xml文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)全部放到(dao)該文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia)里。新(xin)建一個文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia),名(ming)字為(wei)jpegimages,將所有的訓練圖(tu)片放到(dao)該文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia)里。新(xin)建文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia),命名(ming)為(wei)imagesets,在imagesets里再新(xin)建文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia),命名(ming)為(wei)main。通過xml名(ming)字(或圖(tu)片名(ming)),生成兩個txt文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian),即(ji):train.txt,test.txt,文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)里面是訓練和(he)測試(shi)圖(tu)片的索引。新(xin)建voc2007文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia),將annotations、imagesets和(he)jpegimages都保存到(dao)此文(wen)(wen)(wen)(wen)件(jian)(jian)(jian)(jian)(jian)夾(jia)(jia)(jia)中。

本申請實施例中,由具有(you)擾動交(jiao)疊率算法的rpn網(wang)絡獲得手(shou)勢(shi)目(mu)標的區域建議,并反饋(kui)給fastr-cnn網(wang)絡,包括:

將(jiang)rpn網絡的滑動(dong)窗(chuang)口大小(xiao)設為3*3。anchor基(ji)準(zhun)面(mian)積大小(xiao)都設為8*8,使(shi)用三種寬(kuan)高比2:1,1:1和(he)1:2,采用的尺度為[8,12,16],這樣在每(mei)個滑動(dong)窗(chuang)口位置就(jiu)產生(sheng)了9個anchors,如附(fu)圖(tu)4所(suo)示。

借鑒擾動標簽算法的思想來加強損失層的正則化,避免訓練模型的過擬合問題。擾動標簽的算法就是在每次迭代過程中,隨機選擇一些樣本,使用錯誤的標記值進行訓練,本發明迭代時每次就取10張圖片,若采用一樣的策略顯然不合適,由于正負樣本不是在制作數據集時規定的,而是在訓練時根據iou值和目標真實框的標簽共同確定。所以本發明采用的策略就是在每1000次迭代中按概率(本專利)隨機選取一部(bu)分(fen)迭代的(de)(de)iou設(she)(she)為(wei)0.5,其余的(de)(de)iou都設(she)(she)為(wei)0.7。其本質(zhi)是將iou設(she)(she)低后,原先應標(biao)記(ji)為(wei)正(zheng)標(biao)簽(qian)(qian)的(de)(de)可能變(bian)為(wei)負標(biao)簽(qian)(qian),同(tong)時(shi)負標(biao)簽(qian)(qian)也可能變(bian)成(cheng)正(zheng)標(biao)簽(qian)(qian),這(zhe)樣也就產生了(le)擾(rao)動(dong)(dong)標(biao)簽(qian)(qian),通過擾(rao)動(dong)(dong)標(biao)簽(qian)(qian)在(zai)損失(shi)層(ceng)上添(tian)加噪聲,在(zai)rpn反向傳播階段(duan)會(hui)傳播此噪聲梯度。本發明將此方法(fa)(fa)命(ming)名(ming)為(wei)disturbiou,其實現的(de)(de)算(suan)法(fa)(fa)如下:

從rpn訓練階段開始闡述,送入rpn的標簽數據為其中c表示類別數,這里0表示背景,1,2…,c表示需要識別的c個目標種類標記。數據標簽是四維向量分別表示目標的在原圖上的中心坐標和目標標記邊框的寬、高。這里的l表示rpn網絡每次訓練使用的圖像張數,本申請l=10。目的是訓練一個rpn模型θ表示模型(xing)參數。θ通常(chang)使用白噪(zao)聲θ0初(chu)始化,然后使用隨(sui)機梯度下降(jiang)(sgd)算法更新。第m次迭代時(shi)sgd更新θm的公(gong)式(shi)如式(shi)(1)所示,

l({pi},{ti})表示損失函數如式(2),的(de)值用來反向傳播梯度,γm表示(shi)學習率,dm是從總數據集中(zhong)隨機抽取的(de)圖片(pian)(本(ben)申請為10張)。在訓練(測試)階段,rpn先輸出12k(6k)個區域建議(yi)(yi)的(de)類別、位(wei)置(zhi)和概(gai)率得分,最終輸出這12k(6k)個區域建議(yi)(yi)中(zhong)選擇概(gai)率得分為前2k(300)的(de)區域建議(yi)(yi),然后將(jiang)信息(xi)傳入到fastr-cnn網絡。

disturbiou算法產生擾動(dong)的iou后(hou)主要影響的是12k個(ge)區(qu)(qu)域建議(yi)的類別標(biao)記,對每個(ge)區(qu)(qu)域建議(yi)通(tong)過disturbiou后(hou)產生的擾動(dong)標(biao)記表(biao)示為(wei)(wei)p=[p0,p1]。p是由輸(shu)入(ru)數(shu)據根據正負(fu)樣本(ben)標(biao)定規則生成的(p0表(biao)示anchor框(kuang)為(wei)(wei)背景的概率,p1表(biao)示anchor框(kuang)為(wei)(wei)目標(biao)的概率),其中iou的大小起決定作用。

iou的計算(suan)公式如(ru)式(5)所示,

其中n為每次迭代的次數,本申請n=1000,服從伯努利分布:

式(6)中α是(shi)噪聲率。disturbiou在每1000次迭代中是(shi)獨立工作的,即每1000次迭代中被選中iou設為(wei)0.5的次數(shu)索引(yin)是(shi)不同(tong)的。

如(ru)附圖1所(suo)示,將(jiang)(jiang)上述(shu)disturbiou算(suan)法產生的擾動標(biao)簽(qian)輸入到rpn數據(ju)層(ceng),rpn數據(ju)層(ceng)將(jiang)(jiang)卷積特(te)征(zheng)映射到一個(ge)(ge)低(di)維(wei)向(xiang)量(liang),最后將(jiang)(jiang)這個(ge)(ge)低(di)維(wei)向(xiang)量(liang)送(song)入到兩個(ge)(ge)全(quan)連接(jie)層(ceng),即(ji)邊框回(hui)歸層(ceng)和(he)邊框分(fen)類層(ceng)。分(fen)類層(ceng)輸出(chu)每個(ge)(ge)位(wei)置(zhi)上9個(ge)(ge)anchors屬(shu)于前景和(he)背(bei)景的概(gai)率;邊框回(hui)歸層(ceng)輸出(chu)每個(ge)(ge)位(wei)置(zhi)上9個(ge)(ge)anchors對應的窗(chuang)口應該平(ping)移(yi)縮(suo)(suo)放的參數。對于每個(ge)(ge)位(wei)置(zhi)來說,分(fen)類層(ceng)從(cong)低(di)維(wei)特(te)征(zheng)中(zhong)輸出(chu)屬(shu)于前景和(he)背(bei)景的概(gai)率;回(hui)歸層(ceng)從(cong)低(di)維(wei)特(te)征(zheng)中(zhong)輸出(chu)4個(ge)(ge)平(ping)移(yi)縮(suo)(suo)放參數。

本(ben)申請實(shi)施例中(zhong),根據(ju)所(suo)述通過fastr-cnn網絡的(de)分類層和邊(bian)框回歸層,對手勢進行定位和識別,包括(kuo):

將共享卷積層輸(shu)出(chu)的(de)(de)非線性(xing)特(te)(te)征(zheng)(zheng)和(he)rpn網(wang)絡反(fan)饋(kui)回來(lai)的(de)(de)區域建議通過roi池化層和(he)全(quan)連接(jie)層得(de)到手勢區域的(de)(de)特(te)(te)征(zheng)(zheng)向量,再將此特(te)(te)征(zheng)(zheng)向量輸(shu)入到分(fen)類(lei)層和(he)邊框(kuang)回歸(gui)層。分(fen)類(lei)層和(he)邊框(kuang)回歸(gui)層分(fen)別(bie)輸(shu)出(chu)手勢的(de)(de)類(lei)別(bie)和(he)位置。

本發明(ming)提出(chu)了一(yi)種基于(yu)fasterr-cnn的手(shou)勢(shi)檢測(ce)和識別(bie)方法,實驗表明(ming)本發明(ming)能(neng)有效增強手(shou)勢(shi)識別(bie)的魯棒性(xing),提高(gao)手(shou)勢(shi)識別(bie)精度。

當前第1頁1 2 
網友詢(xun)問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1