中文字幕无码日韩视频无码三区

一種基于全卷積網絡的場景圖像文本建議方法與流程

文檔序號:11231195閱讀:804來源:國知局
一種基于全卷積網絡的場景圖像文本建議方法與流程

本發明涉及(ji)(ji)圖(tu)像文本建議領域,尤其是涉及(ji)(ji)了一種基于全(quan)卷積網(wang)絡的場景圖(tu)像文本建議方法。



背景技術:

自然場景圖(tu)像中文(wen)(wen)字的(de)檢測(ce)(ce)和(he)(he)(he)(he)識別(bie),對(dui)(dui)于(yu)基(ji)(ji)于(yu)文(wen)(wen)字內容的(de)圖(tu)像分(fen)析具有(you)重(zhong)要(yao)的(de)作用(yong),對(dui)(dui)人工智能的(de)發展(zhan)也有(you)重(zhong)要(yao)的(de)理(li)論意義。圖(tu)像文(wen)(wen)本的(de)檢測(ce)(ce)和(he)(he)(he)(he)識別(bie)與(yu)人們的(de)日常生(sheng)活(huo)、工作息(xi)(xi)息(xi)(xi)相關(guan),它可以(yi)應用(yong)到(dao)身份證件的(de)信(xin)息(xi)(xi)讀取(qu)和(he)(he)(he)(he)查詢,多媒體(ti)信(xin)息(xi)(xi)服務(wu),車(che)輛車(che)牌(pai)的(de)跟蹤與(yu)定位,基(ji)(ji)于(yu)視覺(jue)的(de)汽車(che)導航(hang)、智能機(ji)器人等眾多場合,給人們的(de)生(sheng)活(huo)帶來了(le)方(fang)便(bian)。對(dui)(dui)象(xiang)(xiang)提案(an)技術(shu)已經成為通(tong)過生(sheng)成候選類獨立對(dui)(dui)象(xiang)(xiang)位置(zhi)和(he)(he)(he)(he)范圍,減少圖(tu)像中對(dui)(dui)象(xiang)(xiang)位置(zhi)的(de)搜索(suo)空間的(de)有(you)效方(fang)法(fa)。這種通(tong)用(yong)對(dui)(dui)象(xiang)(xiang)提案(an)方(fang)法(fa)通(tong)常用(yong)于(yu)檢測(ce)(ce)單(dan)體(ti)對(dui)(dui)象(xiang)(xiang),并且不適用(yong)于(yu)旨(zhi)在檢測(ce)(ce)不相交的(de)部分(fen)對(dui)(dui)象(xiang)(xiang)(字符或(huo)文(wen)(wen)本筆(bi)畫)的(de)文(wen)(wen)本檢測(ce)(ce)。先前的(de)方(fang)法(fa)在分(fen)割圖(tu)像時不太理(li)想,文(wen)(wen)本提案(an)算法(fa)的(de)性能低下,因此,如何(he)提高性能和(he)(he)(he)(he)效率(lv),是研究人員關(guan)注的(de)重(zhong)點。

本(ben)(ben)發(fa)明提出了(le)(le)一種基(ji)于全(quan)卷(juan)積網(wang)絡(luo)的場景圖(tu)像文(wen)(wen)(wen)本(ben)(ben)建(jian)議方(fang)法,先文(wen)(wen)(wen)本(ben)(ben)建(jian)議階段將圖(tu)像分解為(wei)區域(yu),輸入(ru)圖(tu)像的初始分割,從中獲(huo)得(de)一組(zu)連接分量,接著通(tong)過幾個自下而上的聚集(ji)過程(cheng)創建(jian)文(wen)(wen)(wen)本(ben)(ben)假(jia)設,再利用全(quan)卷(juan)積網(wang)絡(luo)(fcn)預測和估計圖(tu)像,最后使用fcn結(jie)果(guo)對獲(huo)得(de)的文(wen)(wen)(wen)本(ben)(ben)提案進行重(zhong)新排序,得(de)出最佳文(wen)(wen)(wen)本(ben)(ben)提案。本(ben)(ben)發(fa)明結(jie)合(he)全(quan)卷(juan)積網(wang)絡(luo),提高了(le)(le)文(wen)(wen)(wen)本(ben)(ben)提案算法的性能;整合(he)全(quan)卷(juan)積網(wang)絡(luo)提供的像素點文(wen)(wen)(wen)本(ben)(ben)概(gai)率,重(zhong)新分配文(wen)(wen)(wen)本(ben)(ben)區域(yu)提案,加速了(le)(le)文(wen)(wen)(wen)本(ben)(ben)檢測,該(gai)方(fang)法還可以(yi)擴展到端到端文(wen)(wen)(wen)本(ben)(ben)識別系統。



技術實現要素:

針(zhen)對分(fen)割(ge)圖(tu)像(xiang)不太理想的(de)(de)(de)問題,本(ben)發明的(de)(de)(de)目的(de)(de)(de)在于提(ti)供一(yi)種基(ji)于全卷積(ji)(ji)網(wang)絡的(de)(de)(de)場(chang)景圖(tu)像(xiang)文(wen)本(ben)建(jian)議方法,先文(wen)本(ben)建(jian)議階段將(jiang)圖(tu)像(xiang)分(fen)解為區域(yu),輸入(ru)圖(tu)像(xiang)的(de)(de)(de)初始分(fen)割(ge),從中獲(huo)得(de)一(yi)組連接分(fen)量,接著(zhu)通過(guo)幾個自(zi)下而上的(de)(de)(de)聚集過(guo)程(cheng)創(chuang)建(jian)文(wen)本(ben)假設(she),再利用全卷積(ji)(ji)網(wang)絡(fcn)預測(ce)和估計圖(tu)像(xiang),最后使用fcn結果對獲(huo)得(de)的(de)(de)(de)文(wen)本(ben)提(ti)案進行(xing)重新排(pai)序,得(de)出(chu)最佳(jia)文(wen)本(ben)提(ti)案。

為解決上述(shu)問題,本發明提(ti)供一(yi)種基于全卷(juan)積網絡的場景圖(tu)像(xiang)文本建(jian)議方法(fa),其(qi)主要(yao)內容包括:

(一)圖像區域分解;

(二)創建文本分組(zu)假設;

(三)全卷(juan)積網(wang)絡(fcn)預測和估計圖像;

(四)文本(ben)假設排名和優化。

其中,所述的(de)(de)圖(tu)像(xiang)區域分(fen)(fen)(fen)解,文本建議階段將圖(tu)像(xiang)分(fen)(fen)(fen)解為區域,輸(shu)入圖(tu)像(xiang)的(de)(de)初始分(fen)(fen)(fen)割(ge),從(cong)中獲(huo)得一(yi)組連接分(fen)(fen)(fen)量;fcn對圖(tu)像(xiang)進行像(xiang)素級的(de)(de)分(fen)(fen)(fen)類,從(cong)而解決(jue)了語義級別的(de)(de)圖(tu)像(xiang)分(fen)(fen)(fen)割(ge)。

進(jin)一(yi)步(bu)地,所述的(de)區域(yu)(yu)分(fen)(fen)解,基于最(zui)穩定極值(zhi)區域(yu)(yu)算法(fa),目(mu)的(de)在于檢測組(zu)成部分(fen)(fen),這將(jiang)影響后續的(de)文本(ben)分(fen)(fen)類;接著(zhu),根(gen)據相似的(de)線(xian)索,如強度、顏色和筆(bi)畫寬度,分(fen)(fen)組(zu)過程建(jian)立最(zui)穩定極值(zhi)區域(yu)(yu)初始設定分(fen)(fen)組(zu)的(de)層次。

其中,所述的創(chuang)建文(wen)本(ben)分組假設,通過幾個自下(xia)而上的聚集過程創(chuang)建文(wen)本(ben)假設;首(shou)先,基(ji)于沿(yan)著(zhu)層次結構,以增(zeng)量(liang)方式計算出特征,各組分類為文(wen)本(ben)或非文(wen)本(ben)。

進一步地,所述(shu)的(de)(de)文(wen)(wen)(wen)(wen)本提案(an)(an),一旦非文(wen)(wen)(wen)(wen)本分組(zu)被過濾出來(lai),剩下的(de)(de)分組(zu)基(ji)于來(lai)自感(gan)知組(zu)織原理的(de)(de)文(wen)(wen)(wen)(wen)本結(jie)構(gou)質量得分和特定分組(zu)的(de)(de)感(gan)知意義的(de)(de)概(gai)念得分,形(xing)成(cheng)文(wen)(wen)(wen)(wen)本提案(an)(an)。

其(qi)中,所(suo)述的(de)(de)(de)全卷積網絡(luo)(fcn)預(yu)測和估計(ji)圖(tu)像(xiang)(xiang),fcn的(de)(de)(de)目的(de)(de)(de)在于(yu)提供像(xiang)(xiang)素級預(yu)測;fcn中的(de)(de)(de)每個(ge)層(ceng)(ceng)計(ji)算相對空間坐(zuo)標的(de)(de)(de)本(ben)地操作;由于(yu)沒有完全連(lian)接的(de)(de)(de)層(ceng)(ceng),可以在可變尺寸(cun)圖(tu)像(xiang)(xiang)上使用(yong)fcn,并(bing)產生相應(ying)輸入(ru)尺寸(cun)的(de)(de)(de)輸出,保(bao)留對于(yu)文(wen)本(ben)檢測任務(wu)至關重要(yao)的(de)(de)(de)圖(tu)像(xiang)(xiang)的(de)(de)(de)粗略空間信息(xi);因此使用(yong)fcn執行每個(ge)像(xiang)(xiang)素預(yu)測,并(bing)估計(ji)輸入(ru)圖(tu)像(xiang)(xiang)的(de)(de)(de)文(wen)本(ben)熱(re)點(dian)圖(tu)。

進一(yi)步地,所述的全卷積網絡(luo)(fcn),首先,將預訓練的視覺(jue)幾(ji)何組(vgg)網絡(luo)轉(zhuan)換為完(wan)全卷積形(xing)式(shi);將網絡(luo)運用(yong)(yong)(yong)到執行(xing)文本或者(zhe)非文本分割;對fcn輸出應用(yong)(yong)(yong)softmax歸(gui)一(yi)化(hua),以便將其用(yong)(yong)(yong)作后續假(jia)設排(pai)序步驟的文本概率(lv)。

其(qi)中,所(suo)述(shu)的文(wen)(wen)(wen)本(ben)(ben)假設和優(you)化(hua)排名(ming)(ming),均(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概率策略使用平均(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概率對(dui)區(qu)域進行(xing)排序,該(gai)平均(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概率是從fcn熱點(dian)圖平均(jun)(jun)得到的;fcn熱點(dian)圖僅提供有關(guan)文(wen)(wen)(wen)本(ben)(ben)本(ben)(ben)地化(hua)的粗略信息,不能直(zhi)接(jie)使用這種信息對(dui)邊界(jie)框進行(xing)排序;實際上,使用平均(jun)(jun)fcn評分超(chao)過文(wen)(wen)(wen)本(ben)(ben)假設作為排名(ming)(ming)機制會產生(sheng)不利影響,即文(wen)(wen)(wen)本(ben)(ben)區(qu)域內(nei)排名(ming)(ming)優(you)于對(dui)應于詞或(huo)(huo)行(xing)的全(quan)部區(qu)域;另一方面,分組(zu)質量(liang)分數將具有高概率的區(qu)域優(you)先為詞或(huo)(huo)文(wen)(wen)(wen)本(ben)(ben)行(xing)。

進(jin)一步地,所(suo)述的(de)優(you)化,引入(ru)抑制策略,最優(you)化地結(jie)合了這兩種互補行(xing)為,抑制具有低平(ping)均(jun)文本(ben)概(gai)率的(de)文本(ben)提案;隨后(hou),根據分組(zu)質量(liang)(liang)分數(shu)確定其余區域的(de)排名(ming),優(you)先(xian)排序結(jie)構(gou)化文本(ben)塊;對應于(yu)文本(ben)塊內部較小(xiao)的(de)區域不(bu)會被fcn概(gai)率所(suo)抑制,然而(er),由于(yu)它(ta)們僅(jin)覆蓋(gai)一小(xiao)部分,因此它(ta)們通(tong)常基于(yu)它(ta)們的(de)分組(zu)質量(liang)(liang)得分低排名(ming);抑制策略允(yun)許丟棄大量(liang)(liang)的(de)誤報信息(xi),從而(er)在保留較高的(de)召回率的(de)同時提供較少數(shu)量(liang)(liang)的(de)提案的(de)優(you)異檢測。

進一步地,所述的排名策略,能夠檢測不(bu)(bu)同(tong)(tong)類型的文本,包(bao)括不(bu)(bu)同(tong)(tong)的字體、手(shou)寫(xie)文本、各種方向或變形(xing)、不(bu)(bu)同(tong)(tong)的文本長度以及不(bu)(bu)同(tong)(tong)的語(yu)言。

附圖說明

圖(tu)1是本發明(ming)一種(zhong)基于全卷積網絡的場景圖(tu)像文本建議(yi)方法的系統流程圖(tu)。

圖2是(shi)本發(fa)明一種(zhong)基于(yu)全卷(juan)積網(wang)絡(luo)的場景圖像(xiang)文本建議方(fang)法的全卷(juan)積網(wang)絡(luo)構架。

圖(tu)3是本(ben)發明一種(zhong)基于(yu)全卷積網(wang)絡的(de)場景圖(tu)像文(wen)(wen)本(ben)建(jian)議方法的(de)fcn輸出(chu)的(de)地面實況文(wen)(wen)本(ben)注釋和文(wen)(wen)本(ben)散點(dian)圖(tu)。

具體實施方式

需(xu)要說明的(de)是,在不沖突的(de)情況下(xia),本(ben)申(shen)請(qing)中的(de)實施例及(ji)實施例中的(de)特(te)征可以(yi)相互結合(he),下(xia)面結合(he)附圖和具體實施例對本(ben)發明作進一(yi)步詳細說明。

圖1是本(ben)發(fa)明一種基于(yu)全卷積網絡的(de)場景(jing)圖像文本(ben)建(jian)議方法的(de)系統(tong)流程圖。主要包(bao)括(kuo)圖像區域分解(jie),創建(jian)文本(ben)分組假設,全卷積網絡(fcn)預測和估(gu)計(ji)圖像,文本(ben)假設排名和優化。

圖(tu)(tu)像(xiang)區域分(fen)解,文本(ben)建議階(jie)段將圖(tu)(tu)像(xiang)分(fen)解為區域,輸入圖(tu)(tu)像(xiang)的初始分(fen)割,從中獲得(de)一組連接分(fen)量;fcn對圖(tu)(tu)像(xiang)進行(xing)像(xiang)素級的分(fen)類(lei),從而解決了語(yu)義級別的圖(tu)(tu)像(xiang)分(fen)割。

其中的(de)(de)(de)(de)區域分(fen)解,基(ji)于最(zui)穩定(ding)極值區域算法,目的(de)(de)(de)(de)在于檢測(ce)組成部分(fen),這(zhe)將影(ying)響后續的(de)(de)(de)(de)文本分(fen)類;接著(zhu),根據相(xiang)似(si)的(de)(de)(de)(de)線(xian)索,如(ru)強度(du)、顏色和筆畫寬(kuan)度(du),分(fen)組過程建立(li)最(zui)穩定(ding)極值區域初始(shi)設定(ding)分(fen)組的(de)(de)(de)(de)層次。

創建文本分(fen)組假(jia)設,通(tong)過(guo)幾(ji)個自(zi)下而上(shang)的(de)聚集(ji)過(guo)程創建文本假(jia)設;首先,基于沿著層次結構,以增量(liang)方(fang)式計算(suan)出(chu)特(te)征,各組分(fen)類為文本或非文本。

其中的(de)文本提案(an),一旦非文本分組被過濾出來(lai),剩下的(de)分組基于來(lai)自感(gan)知(zhi)組織原理的(de)文本結構質量(liang)得(de)分和特定分組的(de)感(gan)知(zhi)意(yi)義的(de)概念得(de)分,形(xing)成文本提案(an)。

文(wen)(wen)(wen)本(ben)(ben)假(jia)設和優化排(pai)名(ming)(ming),均(jun)(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概(gai)率(lv)策略使(shi)(shi)用(yong)平均(jun)(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概(gai)率(lv)對(dui)(dui)區(qu)域進行(xing)排(pai)序(xu),該平均(jun)(jun)(jun)文(wen)(wen)(wen)本(ben)(ben)概(gai)率(lv)是(shi)從(cong)fcn熱(re)點(dian)圖(tu)(tu)平均(jun)(jun)(jun)得到(dao)的(de)(de);fcn熱(re)點(dian)圖(tu)(tu)僅提供有關文(wen)(wen)(wen)本(ben)(ben)本(ben)(ben)地化的(de)(de)粗略信(xin)息,不(bu)能(neng)直接使(shi)(shi)用(yong)這(zhe)種(zhong)信(xin)息對(dui)(dui)邊(bian)界框(kuang)進行(xing)排(pai)序(xu);實(shi)際上,使(shi)(shi)用(yong)平均(jun)(jun)(jun)fcn評分超過文(wen)(wen)(wen)本(ben)(ben)假(jia)設作為排(pai)名(ming)(ming)機制會產生不(bu)利(li)影響,即文(wen)(wen)(wen)本(ben)(ben)區(qu)域內排(pai)名(ming)(ming)優于對(dui)(dui)應于詞(ci)或(huo)行(xing)的(de)(de)全部區(qu)域;另(ling)一方面,分組質量分數將具(ju)有高概(gai)率(lv)的(de)(de)區(qu)域優先為詞(ci)或(huo)文(wen)(wen)(wen)本(ben)(ben)行(xing)。

優(you)(you)化,引入抑制(zhi)策(ce)略(lve),最優(you)(you)化地結合了這(zhe)兩種互補(bu)行為,抑制(zhi)具(ju)有低平(ping)均(jun)文(wen)本(ben)(ben)(ben)概率(lv)的(de)文(wen)本(ben)(ben)(ben)提(ti)案(an);隨(sui)后,根據分組(zu)(zu)質量(liang)分數(shu)確定其余(yu)區域的(de)排名,優(you)(you)先(xian)排序結構化文(wen)本(ben)(ben)(ben)塊;對應于(yu)文(wen)本(ben)(ben)(ben)塊內部(bu)較(jiao)小的(de)區域不會被fcn概率(lv)所抑制(zhi),然而(er),由(you)于(yu)它(ta)們(men)僅覆蓋一(yi)小部(bu)分,因此它(ta)們(men)通常基于(yu)它(ta)們(men)的(de)分組(zu)(zu)質量(liang)得分低排名;抑制(zhi)策(ce)略(lve)允許丟棄(qi)大量(liang)的(de)誤報信息,從(cong)而(er)在保留較(jiao)高的(de)召(zhao)回率(lv)的(de)同時提(ti)供(gong)較(jiao)少數(shu)量(liang)的(de)提(ti)案(an)的(de)優(you)(you)異(yi)檢測。

排名(ming)策略(lve),能夠檢測(ce)不同類型的文本,包括不同的字體(ti)、手寫文本、各(ge)種方(fang)向(xiang)或變形、不同的文本長(chang)度以及(ji)不同的語言。

圖2是本發(fa)明一種基于(yu)全(quan)卷積網絡的(de)場景圖像文(wen)本建議方法的(de)全(quan)卷積網絡構架。利用(yong)全(quan)卷積網絡(fcn)預(yu)(yu)測(ce)和估計圖像,fcn的(de)目(mu)的(de)在(zai)于(yu)提供(gong)像素級預(yu)(yu)測(ce);fcn中的(de)每個(ge)層計算相對(dui)空(kong)間坐標的(de)本地操(cao)作;由于(yu)沒有完全(quan)連接的(de)層,可(ke)以(yi)在(zai)可(ke)變尺寸圖像上(shang)使用(yong)fcn,并產生相應(ying)輸(shu)入尺寸的(de)輸(shu)出,保(bao)留對(dui)于(yu)文(wen)本檢測(ce)任(ren)務(wu)至(zhi)關重要的(de)圖像的(de)粗略空(kong)間信息;因此使用(yong)fcn執行每個(ge)像素預(yu)(yu)測(ce),并估計輸(shu)入圖像的(de)文(wen)本熱(re)點圖。

圖(tu)3是(shi)本(ben)發(fa)明一種基于全(quan)卷(juan)積(ji)網(wang)(wang)(wang)絡的(de)場景圖(tu)像文(wen)(wen)本(ben)建議方法(fa)的(de)fcn輸出(chu)的(de)地面實況(kuang)文(wen)(wen)本(ben)注釋(shi)和文(wen)(wen)本(ben)散點圖(tu)。全(quan)卷(juan)積(ji)網(wang)(wang)(wang)絡(fcn)首先將(jiang)預訓練的(de)視覺幾何組(vgg)網(wang)(wang)(wang)絡轉(zhuan)換為(wei)完(wan)全(quan)卷(juan)積(ji)形式(shi);將(jiang)網(wang)(wang)(wang)絡運(yun)用到(dao)執行文(wen)(wen)本(ben)或者(zhe)非文(wen)(wen)本(ben)分(fen)割(ge);對fcn輸出(chu)應(ying)用softmax歸(gui)一化,以便將(jiang)其用作后(hou)續假設排序步驟的(de)文(wen)(wen)本(ben)概率。

對(dui)于(yu)本(ben)(ben)(ben)領域(yu)技術(shu)人(ren)員(yuan),本(ben)(ben)(ben)發(fa)明不(bu)限制于(yu)上述實(shi)(shi)施(shi)例(li)的(de)細節,在不(bu)背離本(ben)(ben)(ben)發(fa)明的(de)精神(shen)和范(fan)(fan)圍(wei)(wei)的(de)情(qing)況下,能夠以(yi)(yi)其他(ta)具體形式(shi)實(shi)(shi)現本(ben)(ben)(ben)發(fa)明。此外,本(ben)(ben)(ben)領域(yu)的(de)技術(shu)人(ren)員(yuan)可(ke)以(yi)(yi)對(dui)本(ben)(ben)(ben)發(fa)明進行各(ge)種改(gai)動和變(bian)型而不(bu)脫離本(ben)(ben)(ben)發(fa)明的(de)精神(shen)和范(fan)(fan)圍(wei)(wei),這(zhe)些改(gai)進和變(bian)型也應視為(wei)本(ben)(ben)(ben)發(fa)明的(de)保(bao)護范(fan)(fan)圍(wei)(wei)。因此,所附權利要求意(yi)欲解釋為(wei)包(bao)括優選(xuan)實(shi)(shi)施(shi)例(li)以(yi)(yi)及落入(ru)本(ben)(ben)(ben)發(fa)明范(fan)(fan)圍(wei)(wei)的(de)所有變(bian)更和修(xiu)改(gai)。

當前第1頁1 2 
網(wang)友詢問留(liu)言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1