本發明涉(she)及人(ren)類視(shi)覺模擬技術領(ling)域,具體地講是利用(yong)機(ji)器學習實時在線建模,構建一種完全數(shu)據驅動的(de)視(shi)覺顯著性自(zi)動檢測方法。
背景技術:
視(shi)覺(jue)(jue)顯著性(xing)是構成(cheng)(cheng)視(shi)覺(jue)(jue)注意的(de)(de)(de)(de)(de)(de)基(ji)(ji)礎(chu)。視(shi)覺(jue)(jue)顯著性(xing)檢(jian)測是當今計算(suan)機視(shi)覺(jue)(jue)研(yan)究領域的(de)(de)(de)(de)(de)(de)熱點問(wen)題。如何模(mo)(mo)擬人類(lei)腦(nao)-眼(yan)系統,實現仿真人類(lei)視(shi)覺(jue)(jue)的(de)(de)(de)(de)(de)(de)機器(qi)(qi)視(shi)覺(jue)(jue),一直是研(yan)究者(zhe)們的(de)(de)(de)(de)(de)(de)探(tan)索方向(xiang)(xiang)(xiang)。自(zi)然圖像是典型的(de)(de)(de)(de)(de)(de)非(fei)結(jie)構化數據(ju),而機器(qi)(qi)學(xue)習(xi)適合對非(fei)結(jie)構化數據(ju)開展建模(mo)(mo)。近年來,由淺(qian)層和深層神經網絡(luo)構造的(de)(de)(de)(de)(de)(de)機器(qi)(qi)學(xue)習(xi)算(suan)法(fa)、基(ji)(ji)于(yu)自(zi)底向(xiang)(xiang)(xiang)上和自(zi)頂向(xiang)(xiang)(xiang)下(xia)框架,已(yi)(yi)被應用于(yu)解決視(shi)覺(jue)(jue)顯著性(xing)檢(jian)測等問(wen)題。自(zi)底向(xiang)(xiang)(xiang)上框架可采用數據(ju)驅動的(de)(de)(de)(de)(de)(de)方法(fa)來建模(mo)(mo),然而算(suan)法(fa)通常受一些先驗知識的(de)(de)(de)(de)(de)(de)限制約束,且(qie)由于(yu)訓練樣(yang)本常不準確,模(mo)(mo)型容(rong)易出偏差。自(zi)頂向(xiang)(xiang)(xiang)下(xia)框架中,深度學(xue)習(xi)已(yi)(yi)成(cheng)(cheng)功地用于(yu)圖像分割(ge)和顯著性(xing)檢(jian)測;到(dao)目前為(wei)止,深度學(xue)習(xi)為(wei)基(ji)(ji)礎(chu)的(de)(de)(de)(de)(de)(de)算(suan)法(fa)在(zai)許(xu)多應用中都(dou)反映了(le)最好性(xing)能,但其缺陷也明顯:深度學(xue)習(xi)需(xu)要(yao)(yao)(yao)大量已(yi)(yi)標記的(de)(de)(de)(de)(de)(de)樣(yang)本數據(ju),深層網絡(luo)往往需(xu)要(yao)(yao)(yao)手工(gong)設計,相(xiang)比于(yu)淺(qian)層神經網絡(luo),其訓練需(xu)要(yao)(yao)(yao)更高的(de)(de)(de)(de)(de)(de)硬件(jian)資源,目前無法(fa)實時在(zai)線(xian)進行。
顯然,如果實踐中(zhong)沒(mei)有合(he)適的先(xian)驗知識和足夠的有效樣本(ben),現有方法可能會(hui)無(wu)法實施(shi)。此外(wai),我們注意(yi)到目前大(da)多數(shu)顯著性檢測方法中(zhong),信息往往是(shi)單向映射的,缺乏動態反饋過程,與人類(lei)視(shi)覺系統存在很大(da)差別(bie),這可能是(shi)當前機(ji)器視(shi)覺與人類(lei)視(shi)覺相(xiang)去甚遠的原因之一。
技術實現要素:
有鑒于(yu)此,本發明(ming)要(yao)解(jie)決(jue)的技術問題是:借(jie)助(zhu)機(ji)器學(xue)習(xi)手段,構建一種模擬人眼(yan)視覺過程的算法框(kuang)架(jia)。通過在線學(xue)習(xi)自(zi)動應(ying)對實(shi)際場景變化(hua),借(jie)助(zhu)背景抑制技術減少(shao)學(xue)習(xi)過程中的樣本誤(wu)差,利用感知正反饋實(shi)現(xian)顯著性檢(jian)測。
本(ben)發明的技術解決方案(an)是,提(ti)供以(yi)下步(bu)驟的顯著性檢(jian)測(ce)方法,包括:
1)輸入圖(tu)像(xiang)。只(zhi)需將圖(tu)像(xiang)邊(bian)框區(qu)(qu)域一(yi)定寬(kuan)度(du)范圍作為(wei)非注(zhu)視區(qu)(qu)(負樣(yang)本候(hou)選(xuan)區(qu)(qu)),而居中的余(yu)下區(qu)(qu)域為(wei)注(zhu)視區(qu)(qu)(正(zheng)樣(yang)本候(hou)選(xuan)區(qu)(qu))。
2)模擬人眼微跳視,通過集(ji)成的pelm(調和極限學習(xi)機)學習(xi)得(de)到粗(cu)顯著度圖。
①對(dui)正樣本候(hou)選區(qu)域(yu)(yu)內(nei)的高梯度(du)值像素(su)(大于該區(qu)域(yu)(yu)平均梯度(du)的像素(su))隨機(ji)抽(chou)樣n個像素(su);對(dui)負樣本區(qu)域(yu)(yu)內(nei)所(suo)有像素(su),進行等量(liang)的隨機(ji)采(cai)樣。采(cai)樣過程(cheng)可重復3-5次。
②利用(yong)樣本像素及其8鄰域像素的(de)rgb特征(共(gong)27維),構成正負樣本集;重復采樣可形(xing)成多個樣本集。分(fen)別利用(yong)這些樣本集,進行(xing)pelm(調和極限學習(xi)(xi)機(ji))學習(xi)(xi)建模。
③通過(guo)pelm模型對所有像(xiang)素(su)進(jin)行(xing)二值分類(lei)。每個pelm的(de)二值圖可(ke)被(bei)視為(wei)一種視覺刺(ci)(ci)激,將多個pelm的(de)二值刺(ci)(ci)激圖進(jin)行(xing)疊加可(ke)以形(xing)成粗顯著圖。
3)利用rbd(魯棒的(de)背(bei)景檢測(ce)算法(fa)),通過檢測(ce)背(bei)景區(qu)域(yu),對其加(jia)以抑制,來減少粗顯(xian)著圖中(zhong)的(de)背(bei)景噪聲,以降低噪聲樣本影響。
4)通(tong)過正(zheng)反饋迭代循環(huan)來強化目標,生成細化的新顯著圖;
①閾值化(hua)優化(hua)后的粗顯(xian)著圖,得到新的二(er)值化(hua)注視區域(bw_i);
②如果前一個注視區域bw_i-1已經存在,則(ze)判斷bw_i-1是否(fou)足夠接近bw_i。若(ruo)為真,則(ze)表明視覺感(gan)知連(lian)續相(xiang)同(已達到感(gan)知飽和),迭代中斷;否(fou)則(ze),bw_i-1=bw_i,繼續下一步;
③通(tong)過集成pelm神(shen)經網絡學習(xi),進(jin)行(xing)顯著性(xing)檢測(ce)(與步驟(zou)2)類同)。每個pelm的二值分類結果進(jin)行(xing)疊加(jia)形成新(xin)的顯著性(xing)圖;
④返回步(bu)驟①,構成正反饋循環。
5)迭(die)代結束(shu)。得到(dao)新顯著圖(tu)和二值分割結果(guo)bw_i。
本(ben)發明是(shi)(shi)一種(zhong)仿真人(ren)(ren)眼微跳(tiao)視(shi)(shi)機制的(de)(de)(de)(de)顯著(zhu)性檢測方法,具有以下特(te)點(dian):首(shou)先(xian),原圖(tu)像(xiang)(xiang)的(de)(de)(de)(de)居中區(qu)(qu)域和邊框區(qu)(qu)域被直接地、粗(cu)略劃分為注(zhu)(zhu)(zhu)視(shi)(shi)區(qu)(qu)和非注(zhu)(zhu)(zhu)視(shi)(shi)區(qu)(qu);通過(guo)對注(zhu)(zhu)(zhu)視(shi)(shi)區(qu)(qu)高梯度像(xiang)(xiang)素(su)的(de)(de)(de)(de)隨機抽樣,來模(mo)擬人(ren)(ren)眼微跳(tiao)視(shi)(shi)對注(zhu)(zhu)(zhu)視(shi)(shi)區(qu)(qu)的(de)(de)(de)(de)重(zhong)復(fu)(fu)掃(sao)描(miao)。多個(ge)樣本(ben)集經學習構建出多pelm模(mo)型,多個(ge)分類模(mo)型的(de)(de)(de)(de)二值分類結果疊加構成了粗(cu)顯著(zhu)圖(tu),用來模(mo)擬人(ren)(ren)腦并行處理視(shi)(shi)覺數據和產(chan)生初步感(gan)知。為了進一步降(jiang)低(di)背景(jing)噪聲影響(xiang),粗(cu)顯著(zhu)圖(tu)通過(guo)rbd算法抑(yi)制背景(jing)像(xiang)(xiang)素(su)。針對注(zhu)(zhu)(zhu)視(shi)(shi)區(qu)(qu)重(zhong)復(fu)(fu)學習的(de)(de)(de)(de)正反饋循環過(guo)程,是(shi)(shi)借(jie)助(zhu)人(ren)(ren)眼對重(zhong)復(fu)(fu)的(de)(de)(de)(de)類同刺激很快形成感(gan)知衰退的(de)(de)(de)(de)機制構造的(de)(de)(de)(de)一種(zhong)感(gan)知生成方法。綜上,本(ben)發明中顯著(zhu)目標的(de)(de)(de)(de)檢測是(shi)(shi)由粗(cu)到細、逐步求精的(de)(de)(de)(de)過(guo)程。與現有的(de)(de)(de)(de)算法相比,該算法完全是(shi)(shi)數據驅動(dong)的(de)(de)(de)(de),不需要任(ren)何先(xian)驗(yan)知識和事(shi)先(xian)標記的(de)(de)(de)(de)樣本(ben)。
附圖說明
圖1為本(ben)發(fa)明(ming)基于機器學習、背景抑制與感知正反饋的(de)顯著性檢(jian)測方法(fa)系統框(kuang)圖。
具體實施方式
下面就具體(ti)實施例對本發明作進一步(bu)說(shuo)明,但本發明并不(bu)僅僅限于這些實施例。
本(ben)發明(ming)涵蓋任何在(zai)本(ben)發明(ming)的(de)(de)精髓和范圍上做的(de)(de)替代、修(xiu)改、等效方法(fa)以(yi)(yi)及方案(an)。為(wei)了(le)(le)使公眾對(dui)本(ben)發明(ming)有徹底的(de)(de)了(le)(le)解(jie),在(zai)以(yi)(yi)下本(ben)發明(ming)優選實(shi)施例中詳細說(shuo)明(ming)了(le)(le)具體的(de)(de)細節,而對(dui)本(ben)領(ling)域技(ji)術(shu)人員(yuan)來說(shuo)沒(mei)有這些細節的(de)(de)描述(shu)也(ye)可以(yi)(yi)完(wan)全(quan)理解(jie)本(ben)發明(ming)。此外,本(ben)發明(ming)之附圖中為(wei)了(le)(le)示意的(de)(de)需要,并沒(mei)有完(wan)全(quan)精確(que)地按照實(shi)際比例繪制,在(zai)此予以(yi)(yi)說(shuo)明(ming)。
人(ren)類視(shi)(shi)覺系統可以檢測到顯著(zhu)物體(ti),并將注意(yi)(yi)力集中(zhong)在當前視(shi)(shi)覺任務相(xiang)關的區域(yu)。神經(jing)心(xin)理學實(shi)驗(yan)顯示,這些(xie)能力都歸功(gong)于視(shi)(shi)覺注意(yi)(yi)機制,而視(shi)(shi)覺注意(yi)(yi)是通過(guo)眼(yan)(yan)(yan)動來(lai)實(shi)現(xian)的。人(ren)類眼(yan)(yan)(yan)動可分為兩種:跳視(shi)(shi)和(he)微(wei)跳視(shi)(shi)。(1)跳視(shi)(shi)階段(duan),人(ren)眼(yan)(yan)(yan)尋(xun)找場景中(zhong)特征(zheng)突出的候選目(mu)標(biao),并使得(de)視(shi)(shi)網膜中(zhong)央凹朝向目(mu)標(biao),從而形成注視(shi)(shi)。(2)當注視(shi)(shi)目(mu)標(biao)時,人(ren)眼(yan)(yan)(yan)會(hui)不自主顫動,稱為微(wei)跳視(shi)(shi)。微(wei)跳視(shi)(shi)會(hui)維持(chi)視(shi)(shi)覺感知(zhi)、導致感知(zhi)衰退、使得(de)注視(shi)(shi)切換(huan)到跳視(shi)(shi)階段(duan),尋(xun)找新目(mu)標(biao)。人(ren)眼(yan)(yan)(yan)跳視(shi)(shi)和(he)微(wei)跳視(shi)(shi)有助于人(ren)類視(shi)(shi)覺感知(zhi)的快速、高效(xiao)。
為(wei)了模(mo)擬上述人類視(shi)覺,本發(fa)明構(gou)建了一個系統框(kuang)架,使(shi)用(yong)調和極限學(xue)習機(ji)(pelm)算法(fa)構(gou)建的(de)(de)分類模(mo)型仿真(zhen)人腦神(shen)經(jing)網絡,利用(yong)其二值分類結果模(mo)擬人腦神(shen)經(jing)發(fa)放。通(tong)過學(xue)習算法(fa)先(xian)提取粗略注視(shi)區,隨后用(yong)rbd算法(fa)抑(yi)制(zhi)注視(shi)區噪聲,再進行視(shi)覺感知正(zheng)反饋過程,最終得到更(geng)精確顯著圖。如(ru)圖1所示。本發(fa)明的(de)(de)機(ji)器學(xue)習、背(bei)景抑(yi)制(zhi)與感知正(zheng)反饋的(de)(de)顯著性檢測(ce)方法(fa),包括以下各步驟:
1)將輸(shu)入(ru)圖像的(de)邊框區(qu)(qu)域(yu)(yu)一(yi)定寬度范圍作為非注視區(qu)(qu)(負樣(yang)本(ben)候選區(qu)(qu)),而余下的(de)矩形區(qu)(qu)域(yu)(yu)為注視區(qu)(qu)(正樣(yang)本(ben)候選區(qu)(qu))。
2)利用(yong)集成的pelm(調和極限學(xue)習機)模擬人腦神經網絡,“采樣-學(xue)習”得到粗(cu)顯(xian)著度圖。
①對正樣本候(hou)選區(qu)域內(nei)(nei)的高梯度值像(xiang)素(su)(su)(大于該(gai)區(qu)域平(ping)均梯度的像(xiang)素(su)(su))隨機(ji)抽樣n個像(xiang)素(su)(su);對負樣本區(qu)域內(nei)(nei)所有(you)像(xiang)素(su)(su),進行(xing)等量(liang)的隨機(ji)抽樣。采樣過程可重(zhong)復(fu)3-5次(ci),模(mo)擬人眼微跳視對注視區(qu)的重(zhong)復(fu)微掃描。
②利(li)用樣(yang)本(ben)像素和其8鄰(lin)域像素的rgb特征,構成(cheng)正負(fu)樣(yang)本(ben)集。重復采樣(yang)可形成(cheng)多個樣(yang)本(ben)集。分(fen)別利(li)用這些樣(yang)本(ben)集,進(jin)行(xing)pelm(調和極限學習(xi)機)學習(xi)建模(mo)。
③通過pelm模型對所有像素進行二值(zhi)分類。每個pelm的二值(zhi)圖(tu)被視為一種視覺刺(ci)(ci)激(ji)(ji),多個視覺刺(ci)(ci)激(ji)(ji)圖(tu)進行疊加,歸一化后(hou)可以形成(cheng)粗顯(xian)著圖(tu)。
3)用rbd算法(fa)(魯棒的背(bei)(bei)景檢(jian)測算法(fa)),先檢(jian)測圖像背(bei)(bei)景;然后對粗顯著圖中(zhong)相應背(bei)(bei)景區域像素進行抑制(zhi),以降低(di)噪聲樣本干擾(rao)。
4)通(tong)過正(zheng)反(fan)饋(kui)迭代循環來(lai)強(qiang)化感興趣目標;
①閾值(zhi)化rbd后(hou)的粗顯著性(xing)圖,得到新的二值(zhi)化注視(shi)區域(bw_i);
②如果舊注(zhu)視(shi)區域bw_i-1已經存在,判(pan)斷bw_i-1是否(fou)足(zu)夠接(jie)近(jin)bw_i。若為真,則表明(ming)視(shi)覺感(gan)知(zhi)連續相同(表明(ming)已達(da)到感(gan)知(zhi)飽和),迭代中斷;否(fou)則,bw_i-1=bw_i,繼續下一步;
③通過(guo)集(ji)成pelm神經網絡學習,進行顯著(zhu)性檢測。pelm的每個二值分(fen)類結果疊(die)加形成新的顯著(zhu)性圖;
④返回步驟①,構成正反饋(kui)循環。
5)迭代結(jie)束。得到疊加(jia)形成(cheng)的新(xin)顯著圖。
rbd(出現于(yu)(yu)(yu)cvpr’2014)是一(yi)種顯(xian)著目標檢(jian)測(ce)算法。其通過(guo)對背景的檢(jian)測(ce)和抑(yi)制,來突出圖(tu)(tu)(tu)像中(zhong)的顯(xian)著目標。本發明先(xian)將(jiang)圖(tu)(tu)(tu)像中(zhong)心區(qu)域(yu)(yu)(yu)作為(wei)初始(shi)正(zheng)樣本候選區(qu),而將(jiang)圖(tu)(tu)(tu)像邊(bian)框(kuang)區(qu)域(yu)(yu)(yu)作為(wei)負樣本候選區(qu),與(yu)人類觀察一(yi)幅圖(tu)(tu)(tu)像的習(xi)慣類似(si)。然(ran)而,由(you)于(yu)(yu)(yu)初始(shi)注視區(qu)域(yu)(yu)(yu)定位過(guo)于(yu)(yu)(yu)隨意粗(cu)糙,像素抽樣后,不(bu)可避免地(di)在正(zheng)負樣本中(zhong)存(cun)在很(hen)多噪聲樣本,因(yin)此(ci)學習(xi)得(de)到(dao)的pelm模型也不(bu)精確(que)。雖然(ran)采用集成策(ce)略(lve),綜合(he)多個pelm模型能(neng)夠減少分類誤差(cha),但為(wei)了進一(yi)步降(jiang)低(di)噪聲樣本影響(xiang)(xiang),學習(xi)得(de)到(dao)的粗(cu)顯(xian)著圖(tu)(tu)(tu)仍有必要通過(guo)抑(yi)制背景像素,來得(de)到(dao)進一(yi)步優(you)化。因(yin)此(ci),本發明借助(zhu)rbd算法來降(jiang)低(di)背景噪聲對顯(xian)著圖(tu)(tu)(tu)的影響(xiang)(xiang)。具體做法是:
1)將原(yuan)圖像中的像素(su)利用快速聚類策略(lve)超像素(su)化;
2)利用rbd算(suan)法檢測原圖像的超(chao)像素背景(jing)區域;
3)將(jiang)粗顯著圖(tu)中對應于超(chao)像素背(bei)景區域(yu)的(de)所有像素位置(zhi),賦予很小的(de)權(quan)值,實現粗顯著圖(tu)中背(bei)景像素的(de)抑制處理。
圖1中的分(fen)類器建模采(cai)用調(diao)和(he)(he)極限學習機(ji)(polyharmonicextremelearningmachine,pelm)。這是(shi)(shi)一種(zhong)單隱層(ceng)前饋網(wang)絡,在(zai)人(ren)臉識(shi)別等領(ling)域應用中效(xiao)果良(liang)好。pelm的調(diao)和(he)(he)機(ji)制是(shi)(shi)一種(zhong)有效(xiao)的方式,適合用來(lai)擬合快速變化和(he)(he)緩慢(man)變化兩(liang)類數(shu)據。不(bu)同于(yu)傳統基于(yu)梯度下(xia)降(jiang)法(fa)的學習算法(fa),pelm的內權(quan)隨機(ji)賦值,無需迭代訓練,小樣本集時可實(shi)時在(zai)線訓練,幾乎不(bu)需要調(diao)整參數(shu)。
對于一個給定的訓練樣本集
其中ai和bi是(shi)輸入節(jie)點(dian)對隱(yin)藏節(jie)點(dian)的(de)權值(zhi),βi是(shi)隱(yin)節(jie)點(dian)輸出(chu)節(jie)點(dian)的(de)權值(zhi)。在這(zhe)個模型(xing)(xing)中的(de)內(nei)部權值(zhi)隨機分配。g(ai,bi,x)是(shi)i的(de)隱(yin)層節(jie)點(dian)輸出(chu)。p(x)是(shi)一個低(di)階多項式,稱為調和項,用于應對具有緩慢變化(hua)的(de)數(shu)據類型(xing)(xing)。輸出(chu)權值(zhi)β可(ke)以通過以下公式計算:
其中h+是隱層輸出矩陣的moorepenrose偽逆。t=[t1,t2,...tn]t。
為了(le)克服pelm的隨機性(xing),可用集成方式提高其性(xing)能,見公(gong)式(3),稱為epelm(ensembleofpoiyharmonicextremeleamingmachine,epelm)。參數(shu)p表示其中(zhong)pelm個(ge)數(shu)。(圖1中(zhong)p=3)
本發(fa)明中(zhong)所(suo)述的(de)(de)(de)(de)視覺感知正反饋過程,是通過重(zhong)復的(de)(de)(de)(de)機器(qi)學習構建(jian)針對注(zhu)視區域(yu)的(de)(de)(de)(de)感知正反饋;借此疊加二(er)值分類(lei)結(jie)果生成新(xin)的(de)(de)(de)(de)視覺感知圖。循(xun)環迭(die)代中(zhong)的(de)(de)(de)(de)視覺刺激(ji)不斷(duan)疊加,使得圖中(zhong)顯(xian)著(zhu)目標區域(yu)的(de)(de)(de)(de)顯(xian)著(zhu)度能夠迅速提升并達到飽和。對新(xin)顯(xian)著(zhu)圖二(er)值化即可得到與人類(lei)感知類(lei)似(si)的(de)(de)(de)(de)圖像分割結(jie)果。
以上僅(jin)(jin)就本發明較佳的實施例(li)作了說明,但不(bu)(bu)能理解為是對權(quan)利要(yao)求的限制。本發明不(bu)(bu)僅(jin)(jin)局限于以上實施例(li),其具體結構允(yun)許有變化。總之,凡在本發明獨立權(quan)利要(yao)求的保護范圍內所作的各種變化均在本發明的保護范圍內。