專利名稱:一種對互聯網大麻圖像進行的過濾方法
技術領域:
本發明涉及計算機網絡安全領域,特別涉及互聯網敏感信息過濾方法。
背景技術:
隨著互聯網的飛速發展,毒品信息,特別是大麻販售信息在互聯網快速的傳播開來。許多不法網站利用網上購物的形式銷售大麻,同時宣揚大麻無害論,給社會造成了較大的危害。因此,正如過濾網絡色情一樣,對毒品,特別是大麻信息的過濾已經成為當務之急。
從2001年1月1日開始,歐洲委員會啟動了一項名為"網絡保護(NetProtect,NetProtect II)"的計劃開發互聯網多語言過濾系統,其搜集的網頁數據庫包括色情、暴力、炸彈制作和毒品共4大類,研究人員主要根據網頁中的文本信息,嘗試了文本處理領域的各種方法來對這四類網頁進行過濾。然而這項計劃只采用了文本過濾技術,對于販售大麻的網站,由于其主要內容是圖像和文字,過濾的效果就會大打折扣。 目前對毒品網站的識別還主要依靠文本過濾技術,對于毒品類圖像識別問題,目
前還未見相關的研究。而從更廣義上講,毒品類圖像的識別實際上是計算機視覺領域中"物
體類識別(object class recognition)"問題的一個特例。物體類識別是由物體識別技術
發展而來的。物體識別主要的任務是區分本類物體中此物體與彼物體,例如人臉識別,其主
要難點是圖像的視角、尺度、遮擋、光照等因素會嚴重的改變物體的信息,給識別造成較大
的困難。而物體類識別的主要任務是區分一類物體和其它任何不屬于此類的物體,其不僅
繼承了物體識別的所有難點,還要考慮一類物體內部的變化信息。雖然這個問題很困難,卻
吸引了一批學者對此問題進行了深入的研究,涌現出一系列有效的方法。 CVPR03上Fergus等人提出了一個概率模型,用一群已學習的部分來表達一個物
體類,然后用EM算法學習這個模型的參數。這個方法在Caltech圖像庫上測試并取得了巨
大的成功,因此在物體類識別領域作為其它方法的標尺。 在物體識別領域學者們提出了很多基于局部特征的方法,典型的方法包括一個興趣點檢測算法和一個局部特征描述子,這些局部特征一般都是平移和平面旋轉不變的。Mikolajczyk和Schmid總結并比較了幾種局部特征描述子,包括尺度不變特征變換(SIFT) , steerable filters, differential invariants禾口 moment invariants,結論是SIFT特征是效果最好的。 0pelt等人提出一個包含3種興趣點檢測算法和4種局部描述子的模型,用Adaboost來挑選特征,進行物體類識別。Levi和Fink也采用了相似的多特征的方法來識別。他們用Adaboost來挑選類Haar特征、方向特征、甚至還有顏色特征。
物體類識別也可以用形狀特征來完成。例如,Thureson和Carlsson首先在圖像中找出梯度方向,然后用這些梯度形成一個直方圖特征。 一個物體的形狀特征間接的定義為圖像的梯度。兩幅圖像的相似度定義為他們直方圖的點乘。如果一幅圖像和訓練圖像有足夠的相似度,就認為此圖像屬于某一類物體。 物體識別還可以利用特征的空間位置關系。Fergus等人用聯合高斯密度來描述特
4征位置的分布。Agarwal和Roth把每對檢測的部位的空間關系描述為一個二值的特征向量,然后把特征放入Winnows學習網絡進行學習。 2005年CVPR上Zhang等人提出了一個兩層的boosting模型,用來融合局部特征,形狀特征和相對位置特征。首先對訓練圖像提取PCA-SIFT和Sh即e Context組成一個特征庫,用Adaboost挑選好的特征組成第一層分類器;同時把這些挑選到的局部特征輸入到第二層形成空間位置特征(PSR),測試圖像如果能通過這兩層分類器就成功分類。這種方法比較成功的融合了各種類型的特征,取得了不錯的實驗結果。但是這種方法的PSR特征的實驗效果并不是很令人滿意,在處理圖像背景復雜的情況下反而起到負面效果。
物體類識別領域也有些利用圖像內部自相似關系進行識別的方法。Shechtman和Irani對圖像中每個點提取周圍的自相似信息,然后將局部特征和相對位置一起考慮,用貝耶斯概率圖模型來計算圖像間的相似度,取得了不錯的實驗結果。但是缺點是識別類似于窮舉搜索,沒有興趣點定位和尺度不變的性質,計算量非常大。 物體類識別已經從利用某些特征進行識別到多特征的融合算法。對于大麻類圖像,有區分力的特征除了形狀、顏色、紋理等,自相似性也是其主要特點之一。因此,如何有效地利用圖像中的自相似信息是現階段研究的重點之一。
發明內容
本發明的目的是針對大麻圖像存在多個自相似結構的特點提出了大麻圖像過濾算法,本發明在于提供一種高識別率的對大麻圖像進行過濾方法。 為實現上述目的,本發明提供的一種對互聯網大麻圖像進行過濾方法,該方法包括步驟 步驟1 :利用尺度不變特征變換算法(SIFT)提取圖像的局部特征; 步驟2 :對每一個大麻訓練圖像的每一個局部特征構造一個自相似性弱分類器,
其中每個自相似性弱分類器包括一個局部特征,一個距離閾值,一個數量閾值;自相似性弱
分類器考察任意一幅測試圖像的兩方面性質一是這幅測試圖像是否與此自相似性弱分
類器的局部特征所在的大麻圖像相似,二是這幅測試圖像的自相似程度是否足夠;如果一
幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似
性,自相似性弱分類器輸出l,否則輸出-I ; 步驟3 :基于Adaboost算法將自相似性弱分類器整合到一起,構造一個強分類器,
此強分類器根據一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。 所述自相似性弱分類器通過計算一幅測試圖像中有多少個局部特征與此自相似
性弱分類器的局部特征相似來度量測試圖像內的自相似性;所述自相似性弱分類器通過計
算一幅圖像中是否存在局部特征與此自相似性弱分類器的局部特征相似來度量這兩個局
部特征所在圖像的相似性;具體定義如下定義d( , )為兩個局部特征SIFT的歐式距
離;定義集合{Fi,j, j = l,. . . ,nj是第Ii個測試圖像的所有局部特征;自相似性弱分類器
包含一個局部特征fk,一個距離閾值9d和一個數量閾值9n;如果一個特征Fi,j滿足方程
d(Fi,j,fk) < ed,就說這個特征和此自相似性弱分類器相似。 所述自相似性弱分類器定義如下
A(/fc,^f,D =
5<formula>formula see original document page 6</formula> 其中Card(( })表示一個集合的勢,即集合中元素的個數;Card(」| d」,fk)< 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特征數目;這種設計表明不僅關心是否存在特征和自相似性弱分類器相似,還關心滿足這樣條件的特征數目;一個圖像被自相似性弱分類器接受是這幅圖像中有足夠多的特征和這個自相似性弱分類器相似,與某自相似性弱分類器相似的特征之間也是相似,因此,計算圖像中有多少個特征與自相似性弱分類器相似表達了測試圖像內部局部特征之間的相似性。
本發明的積極效果本發明提出了一種新型的互聯網大麻圖像過濾技術,本發明技術針對大麻圖像的特點,采用了一種自相似性弱分類器,可以克服一般物體識別方法中無法考慮圖像內部相似關系的缺點,從而有效地抓住大麻圖像的特點,識別與過濾大麻圖像,同時本發明可與傳統的文本過濾技術互補,具有廣闊的應用前景。
圖1為現有技術互聯網上大麻圖像實例示意圖; 圖2a為現有技術DoG尺度空間的建立示意圖; 圖2b為現有技術尺度空間金字塔的26鄰示意圖; 圖3a為現有技術尺度空間的建立示意圖; 圖3b為現有技術前后圖片求差后,DoG尺度空間示意圖; 圖4a為現有技術局部極值點示意圖; 圖4b為現有技術去除低對比度的點后示意圖; 圖4c為現有技術再去除邊緣上的點后示意圖; 圖4d為現有技術SIFT特征示意圖; 圖5a為現有技術梯度幅值示意圖; 圖5b為現有技術加權的高斯核示意圖; 圖5c為現有技術加權的梯度幅值示意圖; 圖5d為現有技術梯度方向示意圖 圖5e為現有技術峰值方向檢測,達到主峰80%的次峰可作為另一個主方向示意圖; 圖6為現有技術SIFT描述子的構造示意圖; 圖7為本發明大麻圖像過濾框架示意具體實施例方式
下面結合附圖詳細說明本發明技術方案中所涉及的各個細節問題。應指出的是,
所描述的實施例僅旨在便于對本發明的理解,而對其不起任何限定作用。 本發明的主要特點在于 1)自相似性弱分類器的構造,這些自相似性弱分類器應盡可能互補以最大限度的提供分類信息。對于大麻圖像的識別與過濾來說,自相似性弱分類器應該能很好的抓住此類物體的特點,也就是物體內部結構的自相似性。
請參閱圖1為現有技術互聯網上大麻圖像實例示意圖,再請參閱圖7,為本發明大麻圖像過濾框架示意,下面詳細給出本發明技術方案中所涉及的各個細節問題的說明。
—、尺度不變特征變換算法(SIFT)的特征提取 SIFT由Lowe于1999年首次提出,并在2004年進行了完善總結。SIFT最初是作為一種關鍵點的特征提出來的,這種特征對圖像的尺度變化和旋轉是不變量,而且對光照的變化和圖像形變具有較強的適應性,同時,SIFT特征還具有較高的辨別能力,有利于后續的匹配。SIFT出眾的分辨能力和對圖像平移、旋轉、縮放、仿射、光照變化的魯棒性十分適合于檢測圖片中的細節。 SIFT特征的構造方法包括關鍵點(Keypoint)的檢測和描述子的構造兩大部分。整個過程包括四個步驟多尺度空間極值點檢測、關鍵點的精確定位、關鍵點的主方向計算和描述子的構造。 (1)多尺度空間極值點檢測 這一步是確定關鍵點在圖像空間和尺度空間中的位置x二 (x,y, 0)T。為了獲得尺度不變性,關鍵點的檢測是在多尺度空間完成的。 尺度空間理論最早出現于計算機視覺領域時其目的是模擬圖像數據的多尺度特征。Koendetink證明高斯巻積核是實現尺度變換的唯一變換核,而Lindeberg等人則進一步證明高斯核是唯一的線性核。
二維高斯函數定義如下 G(X, 乂 CT) = _i^e—( "2)/2CT2
2;rcr 其中,o表示高斯正態分布的方差。 根據線性尺度空間理論,多尺度空間是采用不同尺度的高斯核函數對原圖像進行濾波來表示的 L(x, y, o ) = G(x, y, o )W (x, y) 其中,I(x, y)表示原圖像,G(x, y,。)代表二維巻積運算,。是尺度因子,o值
越小則表征該圖像被平滑的越少,相應的圖像尺度也就越小。大尺度對應于圖像的概貌特
征,小尺度對應于圖像的細節特征。L(x,y, o)表示圖像的多尺度空間。 Lowe證明,DoG(Difference-of-Gaussians)能夠較好地反映了圖像的局部結構,
且計算復雜度很低多。其計算公式如下,其中k為兩個相鄰尺度的比值 D (x, y, o ) = (G (x, y, k o ) _G (x, y, o ))承I (x, y) = "x, y, k o ) _L (x, y, o ), Lowe采用了 DoG算子來建立尺度空間金字塔圖像結構,如圖2a、圖3所示,輸入圖
像通過高斯核函數進行連續平滑與下采樣,圖2a左邊、圖3a是連續平滑及下采樣之后的示
意圖像,然后再對相鄰的兩個平滑圖像相減得到DoG多尺度空間表示,如圖2a右邊及圖3b
所示。圖2a中給出的是每組金字塔中建立2個離散尺度的情況(s = 2)。根據Lowe的實
驗結果,我們在選擇了 s = 3。若最后一組金字塔中的圖像大小已經小于30X30像素,則停
止繼續建立。關鍵點的搜索則是在每組金字塔中對每個點與其26鄰域中的點分別比較,如
圖2b所示。通過對DoG金字塔尺度空間每個點與相鄰尺度和相鄰位置的點逐個進行搜索
比較,局部極值點即是關鍵點。 (2)關鍵點的精確定位
由于圖像和尺度空間都是離散取值的,本節將在上一節的基礎上進一步將關鍵點定位到子像素級精度,而尺度參數也定位到更精細的尺度。Lowe采用的方法是對關鍵點周圍的樣點進行三元二次函數擬合(這里的三個變量分別為圖像坐標x, y和尺度變量o),如圖4a圖4b圖4c圖4d示出關鍵點定位結果。
(3)關鍵點的主方向計算 關鍵點的主方向計算是指對每個關鍵點賦予基于局部圖像特性的主方向,主方向通過鄰域內梯度方向直方圖來確定。后續描述子的計算將以這個方向為基準,這樣構造的描述子就具有了旋轉不變特性。 下式為像素點的梯度幅值和方向計算公式,其中L為金字塔結構中與關鍵點尺度最近的高斯圖像, 《 , z 、
|^(:r,j/) = ton-t,vjz + l) -£(.r,j/- - i(.r - l,y))), 在程序實現時,對于每個關鍵點,首先計算該關鍵點鄰域內每個像素點的梯度幅
度和方向,如圖5a和圖5d,再用一個以關鍵點為中心的高斯圓型窗口函數對梯度幅度進行
加權的二維高斯核和加權的梯度幅度值,如圖5b和圖5c,高斯函數的o取為1. 5倍的關鍵
點尺度值。然后對每個方向的梯度幅值進行統計,形成梯度方向直方圖,如圖5e。直方圖的
范圍是0 360度,其中每10度一個計數器,總共36個計數器。直方圖中對應于最大值和
大于最大值80%的那個(或那些)方向作為該關鍵點的主方向。因此,在同一個圖像位置
和尺度上,可能產生具有多個不同主方向的關鍵點,這可以增強匹配的魯棒性丄owe通過比
較大量方法的實驗結果表明,這種主方向計算方法在這里是最為穩定的。 至此,圖像的關鍵點已檢測完畢,每個關鍵點有三個信息位置、尺度、方向。由此
可以確定一個SIFT特征區域。 (4) SIFT描述子的構造 在前面的步驟中,已經確定了關鍵點的位置、關鍵點所在的尺度空間參數,而且還為每個關鍵點確定了一個主方向,下一步將為該關鍵點的局部鄰域設計描述子,用于后續的匹配。SIFT描述子的構造是通過建立一個三維直方圖來實現的,這里,三維是指圖像空間的坐標(x,y)和梯度方向9 ,直方圖的值則是梯度的幅值m。 如圖6所示,假設該圖像是某關鍵點所在的金字塔結構的某一層,圖像中心是該關鍵點的位置,鄰域大小取為16X16(圖中只畫了 8X8大小)樣點,圖中小箭頭方向代表鄰域每點的梯度方向,其大小為梯度幅值經過圓形高斯窗加權后的大小(高斯加權函數的o為鄰域寬度的一半),那么SIFT的構造如下 將每點的位置和梯度方向重新表示為以關鍵點主方向為基準的新坐標系下的量(這樣描述子就具有了旋轉不變性,而且后續的計算和表示都以這個坐標系為基準)。將16X16的鄰域劃分為4X4大小的16個子區域,計算每個4X4子區域的梯度方向直方圖,直方圖分為8個方向(圖6中只畫了 2X2個子區域方向直方圖),這樣對每個關鍵點構成了一個4X4X8 = 128維的向量,該向量的每一維分量代表對應子區域的直方圖中對應方向的梯度幅值。該向量即是我們所稱的SIFT描述子。非線性光照變化的影響,將歸一化后的描述子的128個元素值用0. 2截斷(即將所有大于0. 2的元素值都賦值為0. 2),并再次歸一化。
二、自相似性弱分類器的構造 Adaboost的核心思想是將弱分類器整合到一起,構造一個強分類器。而不同的弱分類器的分類能力不同,我們針對大麻樹葉的特點構造出一種能夠衡量圖像內部結構自相似性的弱分類器。具體過程如下定義(!( , )為兩個局部特征SIFT的歐式距離。自相似性弱分類器包含一個局部特征fk,一個距離閾值9d和一個數量閾值en。如果一個特征Fi,j滿足方程d(Fi,j, fk) < 9d,我們就說這個特征和此自相似性弱分類器相似。我們的自相似性弱分類器定義如下
<formula>formula see original document page 9</formula> <formula>formula see original document page 9</formula> 其中Card((一)表示一個集合的勢,即集合中元素的個數。Card(| dfk)< 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特征數目。這種設計表明我們不僅關心是否存在特征和自相似性弱分類器相似,還關心滿足這樣條件的特征數目。 一個圖像只有當其有足夠多的特征和這個自相似性弱分類器相似,才可能被自相似性弱分類器接受。由于e d是兩個歸一化的特征向量的歐式距離,因此o《e d《2。而e n為自然
數,根據實驗經驗,我們規定9n的可以取的最大值為IO,這樣既可以保證數量閾值的有效
性,同時也可以減少計算時間,提高計算效率。因此每個自相似性弱分類器的距離閾值ed
和數量閾值9n可以通過窮舉獲得。具體方法是對于9d,我們規定它的取值精確到0.01,也即9d的可能取值為{0,0.01,0. 02,0.03, ... ,2},而同理、可能取值為{1,2,3,...,
io}。對于每一對Pd, ej可能的取值,我們可以在所有樣本權重都相同的情況下計算其
對所有樣本的分類準確率,窮舉所有的閾值,我們就可以找到最優的閾值作為此自相似性弱分類器的閾值。 三、基于Adaboost算法的強分類器構造 首先設定自相似性弱分類器集合為H = 0if},其中hf是構造的自相似性弱分類器,I(O為示性函數,即判斷函數I(O括號中的邏輯式是否為真,如果為真,I(O = l,否則I ( ) = 0 ; 利用給定帶標記的訓練樣本集為(Xl, y》,...,(xn, yn),循環如述步驟 步驟3. 1.從自相似性弱分類器集合H二 0if}中選擇一個自相似性弱分類器hW,
使得給定帶標記的訓練樣本上的加權分類錯誤率最小,即 # = argmin^ =力wW(z')/[:k,. - ~(\)],初始化訓練樣本權值為"(1) (i)=l/n(i = 1,…,n) , t = 1,…,T ;步驟3. 2.如果fW = minf > 1/2 ,則令T = t-l,終止循環
步驟3. 3.根據貪婪策略計算"(()=|log
1 —
步驟3. 4.根據加權分類錯誤率重新計算訓練樣本權值,即<formula>formula see original document page 10</formula> 其中ZW是一個歸一化因子,標記信息為yi G {+1, -1};;當循環結束后,得到-強分類器
水//(x) = sign
,其中sign是符號函數c 為了實施本發明的具體思想,我們從互聯網上搜集了 1197張大麻圖像和1821張其它植物的圖像,并在此數據庫上做了大量的實驗,準確率達到了87%。實驗結果進一步驗證了該方法的有效性和魯棒性。 以上所述,僅為本發明中的具體實施方式
,但本發明的保護范圍并不局限于此,任何熟悉該技術的人在本發明所揭露的技術范圍內,可理解想到的變換或替換,都應涵蓋在本發明的包含范圍之內,因此,本發明的保護范圍應該以權利要求書的保護范圍為準。
權利要求
一種對互聯網大麻圖像進行的過濾方法,其特征在于,包括步驟步驟1利用尺度不變特征變換算法提取圖像的局部特征;步驟2對每一個大麻訓練圖像的每一個局部特征構造一個自相似性弱分類器,其中每個自相似性弱分類器包括一個局部特征,一個距離閾值,一個數量閾值;自相似性弱分類器考察任意一幅測試圖像的兩方面性質一是這幅測試圖像是否與此自相似性弱分類器的局部特征所在的大麻圖像相似,二是這幅測試圖像的自相似程度是否足夠;如果一幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似性,自相似性弱分類器輸出1,否則輸出-1;步驟3基于Adaboost算法將自相似性弱分類器整合到一起,構造一個強分類器,此強分類器根據一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。
2. 按權利要求1所述的方法,其特征在于所述自相似性弱分類器通過計算一幅測 試圖像中有多少個局部特征與此自相似性弱分類器的局部特征相似來度量測試圖像內的 自相似性;所述自相似性弱分類器通過計算一幅圖像中是否存在局部特征與此自相似性 弱分類器的局部特征相似來度量這兩個局部特征所在圖像的相似性;具體定義如下定義 d(*, )為兩個局部特征SIFT的歐式距離;定義集合{Fi,j,j = l,...,nj是第It個測試 圖像的所有局部特征;自相似性弱分類器包含一個局部特征fk,一個距離閾值9 d和一個數 量閾值9n;如果一個特征Fi,j滿足方程d(Fi,j,fk) < 9d,就說這個特征和此自相似性弱分 類器相似。
3. 按權利要求1所述的方法,其特征在于所述自相似性弱分類器定義如下 <formula>formula see original document page 2</formula>其中Card({ })表示一個集合的勢,即集合中元素的個數;Card((Fi,jld(Fi,j, fk) < 9 d, j = 1, . . . , nj)表示集合{Fi,j, j = 1, . . . , 中滿足方程d(Fi,j, fk) < e d的特 征數目;這種設計表明不僅關心是否存在特征和自相似性弱分類器相似,還關心滿足這樣 條件的特征數目;一個圖像被自相似性弱分類器接受是這幅圖像中有足夠多的特征和這個 自相似性弱分類器相似,與某自相似性弱分類器相似的特征之間也是相似,因此,計算圖像 中有多少個特征與自相似性弱分類器相似表達了測試圖像內部局部特征之間的相似性。
4. 按權利要求1所述的方法,其特征在于所述的基于Adaboost算法的強分類器設計 包括步驟首先設定自相似性弱分類器集合為^=,其中~是自相似性弱分類器; 利用給定帶標記的訓練樣本集為0q, y》,...,(Xn, yn),循環如述步驟步驟31 :從自相似性弱分類器集合 1:= (/zj中選擇一個自相似性弱分類器h(t),使得給定帶標記的訓練樣本上的加權分類錯誤率最小,即<formula>formula see original document page 2</formula>初始化訓練樣本權值為"")(i) = 1/ n(i = 1, ... ,n), t = 1, ... ,T, I(O為示性函數,即判斷函數I(O括號中的邏輯式是否為真,如果為真,I(O = l,否則I(O =0; '(')—u步驟32 :如果s(') = min~ > 1/2 ,則令T = t-l,終止循環;步驟33 :根據貪婪策略計算a(') =llog<formula>formula see original document page 3</formula>步驟34 :根據加權分類錯誤率重新計算訓練樣本權值,即_ ,)exP(-a('W')(x,))其中Z(t)是一個歸一化因子,標記信息為yi G {+1, -1};廣r當循環結束后,得到一個強分類器^(x) = sign2>"函數cX,其中sign是符號
全文摘要
本發明涉及一種對互聯網大麻圖像進行的過濾方法,包括步驟利用尺度不變特征變換算法提取圖像的局部特征;對每一個大麻訓練圖像的每一個局部特征構造一個自相似性弱分類器;自相似性弱分類器考察任意一幅測試圖像是否與此自相似性弱分類器的局部特征所在的大麻圖像相似及自相似程度是否足夠;如果一幅測試圖像既與此自相似性弱分類器的局部特征所在的大麻圖像相似,又有足夠的自相似性;將自相似性弱分類器整合到一起,構造一個強分類器對一幅圖像的所有局部特征判斷此圖像是否為大麻圖像。本發明采用自相似性弱分類器,克服現有技術物體識別方法中無法考慮圖像內部相似關系的缺點,從而有效地抓住大麻圖像的特點。
文檔編號G06K9/00GK101751554SQ20081023932
公開日2010年6月23日 申請日期2008年12月10日 優先權日2008年12月10日
發明者吳偶, 胡衛明, 謝年華 申請人:中國科學院自動化研究所