中文字幕无码日韩视频无码三区

一種圖像過濾方法及系統的制作方法

文檔序號:6379434閱讀:360來源:國知局
專利名稱:一種圖像過濾方法及系統的制作方法
技術領域
本發明涉及圖像處理領域,特別地涉及一種圖像過濾方法及系統。
背景技術
隨著信息爆炸時代的來臨,互聯網上充斥著著大量的重復信息,有效地識別它們是一個很有意義的課題。例如,對于搜索引擎的爬蟲系統來說,收錄重復的圖片是毫無意義的,只會造成存儲和計算資源的浪費;同時,展示重復的信息對于用戶來說也并不是最好的體驗。對于圖片來說,產生重復圖片的原因主要包括鏡像網站,圖像的統一資源定位符url雖然不同,但圖像的內容完全相同。圖像的轉載,圖像內容主體一致,但使用了圖像處理工具對圖像進行了進一步處理比如添加網站logo、對圖像尺寸進行縮放、對圖像內容進行細微裁剪、改變圖像的壓縮質量、改變圖像的色度、飽和度等等。傳統的圖像去重方法大多在爬蟲系統中進行,通過圖像的url或附加一些圖像的尺寸、大小等信息等拼成一個字符串,對此字符串使用HASH函數進行指紋化,再使用布隆濾波器(bloom filter)判斷此圖像是否被爬取過,如果沒有,進行圖片下載,否則放棄,這樣可以防止同一地址的圖片被重復下載。但是對于上述的兩種情況的重復圖片,在爬蟲階段都不能直接過濾掉,需要后續通過圖像處理算法對重復圖片進行識別和刪除。在現有的近似重復圖像過濾系統中,多數采用基于檢索的方式對被檢測圖像的特征或指紋進行全庫檢索,如中國專利申請號200910146726. 5的專利,就是使用的這種方法,該專利介紹的系統雖然通過聚類的方法對圖像數據庫進行了分類,縮小了檢索圖像的規模,但是基于檢索的近似重復圖像過濾系統在效率上相對較低,如何更為有效地進行圖像過濾成為一個有待解決的問題。

發明內容
本發明解決的技術問題在于提供了一種圖像過濾方法及系統,以有效地進行圖像過濾,提聞過濾效率。為解決上述問題,本發明提供了一種圖像過濾方法,包括,對所述圖像進行圖像特征的提取;根據提取的圖像特征,對所述圖像進行圖像指紋的提取;根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。本發明還提供了一種圖像過濾系統,包括,圖像特征提取模塊,用于對所述圖像進行圖像特征的提取;圖像指紋提取模塊,用于根據提取的圖像特征,對所述圖像進行圖像指紋的提取;圖像過濾模塊,用于根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。采用本發明的技術方案,能過濾掉圖像主體一致,但是在圖像尺寸、壓縮質量、色度、對比度、logo上存在細微差別的近似重復圖像,進一步地可以避免了對全部圖像進行特征提取和通過檢索的方式過濾相似圖的步驟,使用布隆濾波器進行近似重復圖像過濾的效率較高,且所耗費的存儲和計算資源較少。


此處所說明的附圖用來提供對本發明的進一步理解,構成本發明的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中圖I是本發明第一實施例流程圖;圖2是本發明第二實施例結構圖。
具體實施例方式為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅 用以解釋本發明,并不用于限定本發明。在本發明的實施例中,多次使用了布隆濾波器,首先介紹一下布隆濾波器的概念和工作原理。布隆濾波器(Bloom filter)是由Howard Bloom在1970年提出的二進制向量數據結構,它具有很好的空間和時間效率,被用來檢測一個元素是不是集合中的一個成員。Bloom filter采用的是哈希函數的方法,將一個元素映射到一個m長度的陣列上的一個點,當這個點是I時,那么這個元素在集合內,反之則不在集合內。這個方法的缺點就是當檢測的元素很多的時候可能有沖突,解決方法就是使用k個哈希函數對應k個點,如果所有點都是I的話,那么元素在集合內,如果有O的話,元素則不在集合內。如圖I所示,是本發明第一實施例流程圖,提供了一種圖像過濾方法,具體包括,步驟S101,對所述圖像進行圖像特征的提取;在該方法中,為了使對近似重復的圖像的描述更加全面和精確,所述圖像特征包括圖像的顏色、輪廓、LAB特征。其中顏色特征的提取步驟如下 (I)將彩色圖像由RGB顏色模型轉化為HSV顏色模型;(2)將HSV顏色空間內的所有顏色進行量化;具體量化的方式為對H、S和V三個分量分別量化成Nh, Ns, Nv個bins,組合起來便將所有顏色量化到L=Nh*Ns*Nv個級別內;(3)將圖像劃分成M (M可取4、9、16等)個大小相等的區域,在每個區域內分別統計量化后的各顏色的分布情況,每個區域內便可得到一個L維的顏色直方圖;(4)將各個區域內的顏色直方圖進行歸一化,使直方圖的各個分量都可以用(Γ255的整數表示,將M個直方圖連接起來得到圖像的M*L維顏色特征。輪廓特征的提取步驟如下(I)將彩色圖像轉化為灰度圖像;(2)在灰度圖像上提取圖像的Canny邊緣;對邊緣點的像素分別計算邊緣的方向,邊緣的方向可通過沒=arctan(^y-)計算,其中dy=I (i, j+l)_I (i, j_l),
UX
dx=Ki+i, j)j),I(i, j)表示灰度圖像中第i行,第j列的圖像的像素值。對邊緣點的方向進行量化,量化到8個方向。
(3)將圖像劃分成N (N可取4、9、16等)個大小相等的區域,在每個區域內分別統計量化后的邊緣方向的直方圖,每個區域可得到一個8維的邊緣方向直方圖。(4)將各個區域內的邊緣方向直方圖進行歸一化,使直方圖的各個分量可以用(Γ255的整數表示,N個區域的直方圖連接起來得到8*N維的輪廓特征。LAB特征的提取步驟如下(I)將彩色圖像轉化為灰度圖像;(2)將灰度圖像劃分成O (O可取4、9、16、25、36等)個大小相等的區域;·(3)將每個區域劃分成3*3的子區域,分別統計子區域的像素的累積灰度值;(4)將3*3個子區域中的外圍8個子區域的累積灰度值與中心子區域的累積灰度值進行比較,若前者大,記1,反之,記0,這樣便可得到8個由0、1構成的LAB特征,可用一個字節表示,將O個區域的LAB特征連接起來便得到一個由O個字節表示的特征串。步驟S102,根據提取的圖像特征,進行圖像指紋的提取;具體地,提取的步驟如下(I)將圖像的顏色和輪廓特征進行embedding,即將圖像和輪廓特征中各個分量按其取值范圍轉化為一系列0、1組成的二進制序列。例如,如果某分量的最大取值為255,最小取值為0,則把該分量用255個二進制序列表示,若該分量的取值為n,則此二進制序列的前η位取為I,后255-η位為O。將顏色和輪廓特征的各個分量都按上述方法進行embedding后,將其結果連接起來,如此便可得到由顏色和輪廓特征組成的二進制序列。因為近似重復的圖像的特征比較接近,因此轉化后的二進制序列的海明hamming距離也比較小。(2)將顏色和輪廓特征embedding轉化后得到的二進制序列同LAB特征連接起來就得到了圖像的一個二進制序列描述。對此描述進行隨機采樣,將結果按長度L連接起來便可得到圖像的一個L位的二進制指紋。指紋的長度越長,對近似重復圖的判別精度越高。為了提高近似重復圖判斷的召回率,通常會提取K (K>1)個指紋,所提取的指紋數目越多,召回率越高,但是由于算法不能達到100%的準確,所選的指紋越多時誤判為近似重復圖的概率也會增大,可能會降低判斷的準確率。值得注意的是,雖然指紋是由對二進制序列隨機采樣得到的,但須保證,對每張圖的采樣方式是相同的,這樣才能保證近似重復圖的指紋能得以匹配。步驟S103,根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。具體地,對圖像的K個指紋分別進行哈希hashing,仍選擇最常用的MD5算法,將hash后的結果分別到K個布隆濾波器中進行查看對應位置上是否為1,統計各個指紋是否已經存在。設定一個閾值T,若圖像的K個指紋中有超過T個指紋已經存在,則判定此圖像已有近似重復圖被保存,舍掉該圖像,否則,將圖像的各個特征所在的布隆濾波器的相應位置1,并將圖像存入圖像數據庫中。如此,便使得存入圖像數據庫中的圖像都是不存在近似重復圖的圖像。在對所述圖像進行圖像特征的提取之前,還包括,步驟SlOlI,根據圖像的url進行去重;在爬蟲階段,通過對圖片的url進行hash化,將其放入一個布隆過濾器中,如果圖像的url在之前已經被爬取過,在布隆濾波器中就會有所記錄,防止同一個urI上的圖片被重復下載。具體地,所使用的方法為對圖像的url進行hash,hash函數的選取可以選擇比較常用的MD5算法或SHA算法。將得到的hash值放入布隆濾波器一中,若相應位上值為1,則此url中包含的圖像已經被下載過,舍掉此url,不再進行后續處理。如果相應位上為O,則說明此url是一個全新的url,將圖像下載,并將布隆濾波器中的相應位置置1,將該圖像進入到下一過濾步驟。在對所述圖像進行圖像特征的提取之前 ,還可以包括,步驟S1012,根據圖像的內容進行去重。如果同一張圖像被不同的網址轉載,則其url不相同,在根據url進行過濾過程中不會被過濾出去。因此,需要對圖像的文件進行hash化,使用另外一個布隆濾波器,對由圖像內容得到的指紋進行過濾,如果布隆濾波器中標記某張圖像的內容已存在,則這張圖像會被舍棄掉。具體地,對整個圖像文件進行hash,hash函數也使用常用的MD5算法。將得到的hash值放入布隆濾波器二中,如果對應位的值為I,則此圖像文件在庫中已經存在過,舍掉該圖不進行后續流程。反之,則說明此圖像是一張新圖,將布隆濾波器的對應位置置1,進行下一步過濾。如圖2所示,本發明還提供了一種圖像過濾系統,包括,圖像特征提取模塊,用于對所述圖像進行圖像特征的提取;圖像指紋提取模塊,用于根據提取的圖像特征,對所述圖像進行圖像指紋的提取;圖像過濾模塊,用于根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。上述系統中,所述圖像特征包括圖像的顏色、輪廓、LAB特征。上述系統中,還包括,url去重模塊,用于根據圖像的url進行去重;和/或圖像內容去重模塊,用于根據圖像的內容進行去重。采用本發明的技術方案,避免了對全部圖像進行特征提取和通過檢索的方式過濾相似圖的步驟,使用布隆濾波器進行近似重復圖像過濾的效率較高,且所耗費的存儲和計算資源較少。上述說明示出并描述了本發明的一個優選實施例,但如前所述,應當理解本發明并非局限于本文所披露的形式,不應看作是對其他實施例的排除,而可用于各種其他組合、修改和環境,并能夠在本文所述發明構想范圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和范圍,則都應在本發明所附權利要求的保護范圍內。
權利要求
1.一種圖像過濾方法,其特征在于,包括, 對所述圖像進行圖像特征的提取; 根據提取的圖像特征,對所述圖像進行圖像指紋的提取; 根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。
2.根據權利要求I所述的 方法,其特征在于,所述對所述圖像進行圖像特征的提取具體包括,對所述圖像的顏色、輪廓、LAB特征進行提取,得到所述圖像的顏色特征、輪廓特征、LAB特征。
3.根據權利要求2所述的方法,其特征在于, 顏色特征的提取包括, (1)將彩色圖像由RGB顏色模型轉化為HSV顏色模型; (2)將HSV顏色空間內的所有顏色進行量化,具體量化的方式為對H、S和V三個分量分別量化成Nh, Ns, Nv個bins,進行組合將所有顏色量化到L=Nh*Ns*Nv個級別內; (3)將圖像劃分成M個大小相等的區域,在每個區域內分別統計量化后的各顏色的分布情況,每個區域內便可得到一個L維的顏色直方圖; (4)將各個區域內的顏色直方圖進行歸一化,使直方圖的各個分量都可以用0 255的整數表示,將M個直方圖進行連接得到圖像的M*L維顏色特征; 輪廓特征的提取包括, (1)將彩色圖像轉化為灰度圖像; (2)在灰度圖像上提取圖像的Canny邊緣;對邊緣點的像素分別計算邊緣的方向,邊緣的方向可通過 Θ = arctan(字)計算,其中 dy=I (i, j+1) -I (i_l,j),dx=I (i+1, j) -I (i_l,j), axI(i,j)表示灰度圖像中第i行,第j列的圖像的像素值。對邊緣點的方向進行量化,量化到8個方向; (3)將圖像劃分成N個大小相等的區域,在每個區域內分別統計量化后的邊緣方向的直方圖,每個區域可得到一個8位的邊緣方向直方圖; (4)將各個區域內的邊緣方向直方圖進行歸一化,使直方圖的各個分量可以用(Γ255的整數表示,N個區域的直方圖連接起來得到8*N的輪廓特征; LAB特征的提取包括, (1)將彩色圖像轉化為灰度圖像; (2)將灰度圖像劃分成O個大小相等的區域; (3)將每個區域劃分成3*3的子區域,分別統計子區域的像素的累積灰度值; (4)將3*3個子區域中的外圍8個子區域的累積灰度值與中心子區域的累積灰度值進行比較,若前者大,記1,反之,記O,得到8個由0、1構成的LAB特征,用一個字節表示,將O個區域的LAB特征連接得到一個由O個字節表示的特征串。
4.根據權利要求3所述的方法,其特征在于,所述進行圖像指紋的提取具體包括, 將圖像的顏色和輪廓特征進行embedding,即將所述顏色和輪廓特征中各個分量按其取值范圍轉化為一系列O、I組成的二進制序列。
將顏色和輪廓特征轉化得到的二進制序列同LAB特征連接起來就得到了圖像的一個二進制序列描述。對所述二進制序列描述進行隨機采樣,將結果按長度L連接起來便可得到圖像的一個L位的二進制指紋。
5.根據權利要求4所述的方法,其特征在于,所述通過布隆濾波器對所述圖像進行過濾具體包括, 對圖像的K個指紋分別進行哈希,將哈希后的結果分別到K個布隆濾波器中進行查看對應位置上是否為I,統計各個指紋是否已經存在;設定一個閾值T,若圖像的K個指紋中有超過T個指紋已經存在,則判定此圖像已有近似重復圖被保存,舍掉該圖像,否則,將圖像的各個特征所在的布隆濾波器的相應位置1,并將圖像存入圖像數據庫中。
6.根據權利要求I至5任一所述的方法,其特征在于,在對所述圖像進行圖像特征的提取之前,還包括,根據圖像的url進行去重,具體為,在爬蟲階段,通過對圖片的url進行哈希化,將其放入一個布隆過濾器中,如果圖像的url在之前已經被爬取過,在布隆濾波器中就會有所記錄,舍掉該url。
7.根據權利要求6所述的方法,其特征在于,還包括,根據圖像的內容進行去重,具體為,對圖像的文件進行哈希化,使用另外一個布隆濾波器,對由圖像內容得到的指紋進行過濾,如果布隆濾波器中標記該圖像的內容已存在,則這張圖像會被舍棄掉。
8.一種圖像過濾系統,其特征在于,包括, 圖像特征提取模塊,用于對所述圖像進行圖像特征的提取; 圖像指紋提取模塊,用于根據提取的圖像特征,對所述圖像進行圖像指紋的提取; 圖像過濾模塊,用于根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。
9.根據權利要求8所述的系統,其特征在于,所述圖像特征包括圖像的顏色、輪廓、LAB特征。
10.根據權利要求8或9所述的系統,其特征在于,還包括, url去重模塊,用于根據圖像的url進行去重;和/或 圖像內容去重模塊,用于根據圖像的內容進行去重。
全文摘要
本發明涉及圖像處理領域,提供了一種圖像過濾方法包括,對所述圖像進行圖像特征的提取;根據提取的圖像特征,對所述圖像進行圖像指紋的提取;根據提取的圖像指紋,通過布隆濾波器對所述圖像進行過濾。本發明還提供了一種圖像過濾系統。采用本發明的技術方案,能過濾掉圖像主體一致,但是在圖像尺寸、壓縮質量、色度、對比度、logo上存在細微差別的近似重復圖像,進一步地可以避免了對全部圖像進行特征提取和通過檢索的方式過濾相似圖的步驟,使用布隆濾波器進行近似重復圖像過濾的效率較高,且所耗費的存儲和計算資源較少。
文檔編號G06T7/00GK102880726SQ20121040744
公開日2013年1月16日 申請日期2012年10月23日 優先權日2012年10月23日
發明者劉佳, 陳松, 陳雪峰 申請人:深圳市宜搜科技發展有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1