專利名稱:基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置及方法
技術領域:
本發明涉及電子郵件處理技術領域,尤其涉及一種垃圾郵件過濾技術。
(二)
背景技術:
電子郵件自從產生以來,就給人們的工作生活帶來了極大的方便,然而隨之 而來的垃圾郵件的問題也越來越嚴重。垃圾郵件不僅占用大量的網絡資源,同時 也嚴重危害著人們的利益。如何能夠迅速、高效、準確的識別垃圾郵件也成為學 者們研究的重點。
目前垃圾郵件的檢測技術主要包括基于郵件內容的檢測技術和基于郵件行 為的檢測技術。基于內容的檢測技術通過發現垃圾郵件在內容特征上的相似性來 識別垃圾郵件,如貝葉斯過濾方法。這種技術在訓練、分類、計算的過程中會消 耗大量的系統資源,處理效率很低。同時,檢測的準確性依賴于樣本數據,必須 實時更新樣本庫,否則會造成很多的誤判。另一方面,垃圾郵件制造者也不斷采 用新的技術來干擾內容過濾,比如在郵件正文中添加無關詞,增加超文本代碼, 添加圖片等等,以降低內容分析的識別率。
對于基于行為的垃圾郵件過濾技術可以分為基于郵件頭的分析方法,以及基 于發送方信譽的分析方法。
基于郵件頭的分析方法,通過提取郵件頭部信息的特征來IH別垃圾郵件。如 張耀龍等采用決策樹方法識別垃圾郵件,其主要思路是通過在郵件頭中提取發件 人IP、域名、發件人地址長度、收件人地址長度等特征生成規則并建立決策樹 模型,判斷郵件性質。但方法難于預測連續的數據,如何對決策樹進行裁剪也對 判斷效果有很大的影響(行為識別技術在反垃圾郵件系統中的研究與應用.碩士 論文,北京郵件大學,2006.3)。 Barry等提出了一種SMTP路徑分析方法,通過 以標注過的郵件集(包括垃圾郵件和合法郵件)為輸入,提取Recdved-line中所 有郵件服務器對應的IP地址,根據收到的垃圾郵件和合法郵件來建立郵件服務 器的信譽度,并由此來識別垃圾郵件。但由于垃圾郵件發送者可以偽造 Received-line的信息,這種方法會造成很大的誤判(SMTP Path Analysis.Proceedings of the Second Conference on E-mail and Anti-Spam, 2005 - ceas.cc)。張
尼等提出的一種基于地理路徑分析的垃圾郵件行為分析方法,通過分析郵件頭中 的Received-line字段來描繪郵件傳輸的路徑,并通過地理拓撲來識別垃圾郵件。 但這種方法只適用于骨干網絡或者邊界路由(基于郵件路徑地理屬性分析的垃圾 郵件過濾算法.通信學報,2007.12)。
基于發送方的信譽的分析方法根據分析對象的不同又可以分為基于方送方 IP的信譽、發送方域名的信譽,以及郵件指紋的信譽。對于基于IP或域名信譽 的方法,垃圾郵件發送者可以偽造IP和域名,或者采用動態的IP來發送郵件, 使得追蹤真正的源頭變得十分困難,很容易造成誤判。相比之下,基于郵件指紋 信譽的分析方法不用考慮相關的問題,而且對于垃圾郵件的群發識別具有非常好 的效果,能夠精確的計算出具有相似內容的郵件。Prakash等提出了一種基于信譽 的垃圾郵件分析系統的設計思想,通過用戶的評價和合作來識別垃圾郵件。文章 中根據用戶的信譽來區分可信用戶和不可信用戶,通過可信用戶的評價來識別垃 圾郵件,并根據用戶的評價結果來提高和更新用戶自身的信譽,但具體的細節并 沒有描述 (A reputation-based approach for efficient filtration of spam, http:〃www.cloudmark.com/releases/docs/wp一reputation—filtration一l 0640406.pdf.)。 ZHELEVA等設計了基于信譽評價的垃圾郵件系統,并做了詳細的介紹。該方法根 據用戶的評價更新自身的信譽和郵件指紋的信譽,通過大量用戶的評價綜合判斷 郵件的屬性。其缺點是惡意用戶可以通過大量的正確評價獲得很高的信譽,然后 在發送垃圾郵件。由于并沒有考慮用戶之間的聯系,這種系統對于含有大量惡意 用戶的環境下效果并不J里想、(Trusting spam reporters: A reporter-based reputation system for email filtering, ACM Transactions on Information Systems (TOIS), v,27 n. 1 , p. 1 -27, December 2008 )。
以上的檢測方法,或者從郵件本身的特征檢測垃圾郵件的性質,或者根據用 戶對郵件的評價檢測垃圾郵件的性質,但并沒有考慮到郵件接收者之間的關系。 某些郵件對于一些用戶是垃圾郵件,對于另外一些用戶來說卻可能是正常郵件, 由于用戶不是獨立存在的,用戶與用戶之間存在著一定的聯系。因此可以利用用 戶之間的通信信息,并結合用戶的評價,設計有效的過濾方法以及信譽更新策略, 來識別垃圾郵件并提高系統的健壯性。
發明內容
本發明的目的在于提供一種有很高的垃圾郵件識別準確率,能較好的識別惡 意用戶并抵抗惡意用戶的干擾的基于用戶關系挖掘及信譽評價的垃圾郵件檢測 裝置。本發明的目的還在于提供一種基于用戶關系挖掘及信譽評價的垃圾郵件檢 測裝置的檢測方法
技術領域:
本發明的目的是這樣實現的
所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置構成包括用戶關 系建模裝置、指紋收集裝置、路徑挖掘裝置、郵件評價裝置、郵件輸出裝置、用 戶評價裝置、信譽更新裝置;
用戶關系建模裝置根據受控網內用戶之間的通信關系建立用戶關系模型, 將受控網內用戶通信關系轉換為有向圖,并用鄰接矩陣表示,矩陣中的值代表用 戶間的通信次數;根據有向圖的鄰接矩陣,構造無向圖的鄰接矩陣,代表用戶之 間聯系的緊密程度,矩陣中的值為定值M減去有向圖鄰接矩陣中對應頂點間通 信次數的較小值;則用戶之間相互通信的次數越多,有向圖鄰接矩陣中的對應值 越大,無向圖鄰接矩陣中的對應值越小,用戶之間的聯系越緊密;反之,用戶之 間通信次數越少,有向圖鄰接矩陣中的對應值越小,無向圖鄰接矩陣中的對應值 越大,用戶之間聯系越稀疏;特別地,如果出現單向通信或未通信過則有向圖鄰 接矩陣中的值為零,無向圖鄰接矩陣中值為無窮大;當用戶的通信關系發生變化 時,更新有向圖的鄰接矩陣,同時觸發無向圖的鄰接矩陣的更新;
指紋收集裝置接收郵件信息后,去除郵件的HTML標記及郵件頭部分信息, 將郵件正文解析為純文本信息,采用I-Match方法,計算該郵件的指紋信息,若 在指紋信譽庫不存在該郵件指紋信息,將指紋信息存入指紋信譽庫;
路徑挖掘裝置如果收件人的信譽值低于閾值,即收件人為惡意用戶,則根 據用戶評價庫査找曾經收到相同郵件指紋的所有用戶,根據用戶關系模型,計算 收件人到每個用戶的前K短路徑,形成路徑集,對該路徑集中的路徑按權值遞增 進行排序,按一定比例取前N條路徑,作為最終的路徑集;如果收件人的信譽值 高于閾值,即收件人為可信用戶,則根據用戶評價庫査找曾經收到相同郵件指紋 的可信用戶,可信用戶為用戶的信譽值大于一定閾值的用戶,得到可信用戶集, 計算收件人到可信路徑集中的每個用戶的前K短路徑,排除路徑上含有不可信用戶結點的路徑,形成最終可信路徑集,對該路徑集中的路徑按權值遞增進行排序, 按一定比例取前N條路徑,作為最終的路徑集; 郵件評價裝置按照如下步驟進行評價
1) 分析路徑挖掘裝置所述的最終路徑集中的每條路徑;
2) 統計每條路徑上的結點用戶,以及該結點出現的次數,得到結點用戶集 以及結點用戶出現的總次數;
3) 在用戶評價庫中査詢每個結點用戶對該郵件指紋的評價值;
4) 去除未做出評價的結點用戶;
5) 如果剩余結點不存在,則郵件的綜合評價值為可疑郵件,結束;
6) 否則,建立郵件判定記錄,將每個結點用戶的評價與該結點在路徑集中 出現次數插入郵件判定記錄;
7) 將每個結點用戶的評價值與該結點用戶出現的次數乘積的總和,除以結 點用戶的出現次數總和,得到該郵件的最終的綜合評價值;
8) 將綜合評價值和郵件判定記錄插入郵件判定記錄庫;
9) 將該綜合評價值與設定的垃圾郵件閾值相比較;
10) 如果綜合評價值小于閾值,則判定為垃圾,結束;
11) 否則,如果綜合評價值大于閾值,則判定為正常,結束;
12) 否則,則判定為可疑,結束;
郵件輸出裝置按該郵件判定屬性的不同進行的郵件輸出處理;若判定為垃 圾的郵件將投入用戶隔離區;若判定為可疑郵件,則設置為監控,投入監控區域, 并將郵件轉發給用戶;否則將郵件轉發給用戶;
用戶評價裝置收集用戶的報告信息,作為信譽更新裝置的輸入,并清除用 戶反饋界面的相關郵件記錄信息;
信譽更新裝置采用如下步驟進行更新
1) 根據收件人對郵件的評價,在郵件判定記錄庫中查找對應的判定記錄;
2) 若未査找到,結束更新;
3) 否則,若查找到,判斷收件人的評價信息與歷史評價結果是否相同;
4) 若相同,則更新因子為l,否則更新因子為0.5,更新因子是控制用戶信譽 值和郵件指紋信譽值的更新的幅度;5) 根據收件人對郵件評價結果來升高或降低指紋信譽庫中對應的指紋信譽
值;
6) 讀取郵件判定記錄庫中歷史判定記錄,提取用戶評價及其在記錄中出現 次數,若收件人與用戶的評價相同,提高用戶信譽庫中的用戶信譽值;若收件人 與用戶的評價不同,降低用戶信譽庫中的用戶信譽值;
7) 由于收件人對郵件進行評價,導致收件人用戶對該郵件指紋的評價值的 改變,更新用戶評價庫中收件人用戶對該郵件指紋的評價。
基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置的檢測方法包括以下步
驟
1) 去除郵件的HTML標記郵件頭部分信息,將郵件正文解析為純文本信息, 采用I-Match方法,計算該郵件的指紋信息,若該郵件指紋不存在于郵件指紋庫, 則存入郵件指紋庫,并賦信譽初值;若郵件指紋存在,則判斷郵件指紋閾值是否 小于垃圾郵件指紋閾值,若小于閾值,則郵件判為垃圾郵件,存入用戶隔離區, 結束郵件分析;再判斷郵件指紋閾值是否大于正常郵件指紋閾值,若大于該閾值, 則郵件為正常郵件;否則進入下一分析步驟;
2) 判斷郵件收件人是否為可信,若收件人為可信,則根據用戶評價庫查找曾 經收到相同郵件指紋的可信用戶,可信用戶為用戶的信譽值大于一定閾值,根據 用戶關系模型挖掘收件人與每個用戶間的前K短路徑,去除路徑上出現不可信用 戶的路徑,對剩余路徑進行排序,提取前N短的可信路徑,形成可信路徑集,作 為最終的路徑集;若收件人不可信,則根據用戶評價庫查找曾經收到相同郵件指 紋的所有用戶,根據用戶關系模型挖掘收件人與每個用戶間的前K短路徑,對所 有路徑排序,提取前N短的路徑,作為最終的路徑集;
3) 建立郵件判定記錄,根據用戶評價庫計算上述步驟所得的路徑集中路徑 上的每個結點用戶對該郵件指紋的評價,統計路徑集中所有結點用戶出現的次 數,求每個結點用戶的評價值與該結點用戶出現的次數乘積的總和,除以結點用 戶的出現次數總和,得到該郵件的綜合評價值;
4) 將該郵件的綜合評價值與設定的垃圾郵件閾值、正常郵件閾值比較,小 于垃圾郵件閾值的判為垃圾郵件,大于正常郵件閾值的判為正常郵件,介于兩者 間的判為可疑郵件,同時郵件被設置為監控狀態。
9本發明的主要技術特征1)利用用戶的通信關系建立用戶關系模型;2)采 用郵件指紋的策略,將大量相似的郵件映射為相同指紋,且郵件指紋提取是后續 歩驟的基礎;3)依據用戶關系模型并采用K短路徑挖掘方法,得到收件人到與 其聯系緊密的用戶的路徑,形成路徑集;4)建立郵件判斷記錄,根據路徑集中 用戶的歷史評價來判斷郵件屬性;5)更新以收件人對郵件的評價結果為標準, 通過比較郵件綜合評價值和收件人的評價結果來更新郵件指紋和用戶的信譽,信 譽更新只發生在用戶評價時,并且只更新判定記錄中對該郵件評價正確或錯誤的 用戶的信譽。
經過大量實驗,結果表明,本發明適合于實時、準確的垃圾郵件判定。 本發明的有益效果在于有很高的垃圾郵件識別準確率,能較好的識別惡意
用戶并抵抗惡意用戶的干擾;可部署在郵件服務器、網關服務器處;可廣泛應用
于電子郵件過濾技術等應用領域。
圖1基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置的結構圖
圖2實施本發明的典型環境;
圖3本發明所述的檢測裝置的分析流程圖4本發明所述的信譽更新流程圖5用戶信譽走勢圖6兩類郵件指紋信譽走勢圖7受控網內用戶對兩類指紋的評價均值;
圖8基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置的判定垃圾郵件的 性能圖9正常郵件發給兩類用戶的測試結果圖; 圖10垃圾郵件發給兩類用戶的測試結果圖11本發明的檢測方法與未經過用戶關系挖掘的判定結果比較圖; 圖12表1實施例的各具體技術參數取值; 圖13表2參數K對本發明的判定性能的影響。 具體實施方式
下面結合附圖舉例對本發明做更詳細地描述圖1所示為基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置結構圖,包括 用戶關系建模裝置根據受控網內用戶之間的通信關系建立用戶關系模型, 將受控網內用戶通信關系轉換為無向圖,構造出用戶關系模型的鄰接矩陣,代表 用戶之間聯系的緊密程度。例如受控網內用戶通信關系用有向圖表示,設c/是可
控網中用戶的集合,五是f/中用戶邊的集合,設<^ = ([/,£)是有向圖,代表用戶 間的通信關系,則其鄰接矩陣表示如下
其中,M^表示從",到",的通信次數,則W。越大,表明W,到^通信越頻繁。 如果t/,到^存在通信,則為0;
用無向圖G,代表用戶之間聯系的緊密程度。跟據有向圖G的鄰接矩陣可得 G,的鄰接矩陣表示如下
其中,M可以取為10000;
如果用戶",和^相互通信的次數越多,其之間的聯系越緊密,則風/,刀越小。
反之,用戶w,和^相互通信的次數越少,其之間的聯系越稀疏。則s[/j]越大。
特別地,如果用戶w,和^單向通信或未通信過,則風/,_/]為°°;
指紋收集裝置用于接收郵件信息后,將郵件經過預處理,去除頭信息及
HTML標記,采用I-Match算法計算郵件的指紋,并將指紋信息存入指紋信譽庫; 路徑挖掘裝置根據用戶評價庫在曾經收到過該郵件指紋的用戶集中依次提
取每個用戶,若收件人為可信用戶,則在用戶集中査找可信用戶,形成用戶集,
否則直接形成用戶集;根據用戶關系模型,采用Yen算法,挖掘收件人到用戶集 中每個用戶的前K短路徑,加入路徑集,若收件人為可信用戶,則要排除路徑集 中含有不可信結點的路徑;對該路徑集中的路徑按權值遞增進行排序,按一定比 例取前N條路徑,作為最終的路徑集;
郵件評價裝置通過路徑集上用戶的評價計算得到郵件的綜合評價值,來判
0<w,,w >g£(G)
鄰,刀=斷郵件屬性,并將綜合評價值和判定記錄存入郵件判定記錄庫;
郵件輸出裝置按該郵件屬性的不同進行的郵件輸出處理,若識別為垃圾的
郵件將投入用戶隔離區;若識別為可疑郵件,則設置為監控,投入監控區域,并
將郵件轉發給用戶;否則將郵件轉發給用戶; 用戶評價裝置用于收集用戶的報告信息;
信譽更新裝置根據收件人對郵件的評價及郵件判定記錄庫信息,更新指紋 信譽庫、用戶信譽庫、用戶評價庫;
指紋信譽庫存儲郵件指紋信息以及每個郵件指紋的信譽值; 用戶信譽庫存儲受控網內所有用戶的信息以及每個用戶的信譽值; 用戶評價庫存儲受控網內每個用戶對其接收到的郵件的指紋的評價值;
郵件判定記錄庫存儲本裝置對每封郵件的綜合評價值以及判定記錄。 圖2展現了本發明的典型應用環境,此時本發明所述基于用戶關系挖掘及信 譽評價的垃圾郵件檢測裝置處在網關服務器中。
圖3給出了基于用戶關系挖掘及信譽評價的垃圾郵件檢測方法的原理流程圖。
1. 郵件指紋提取
去除郵件的HTML標記、郵件頭信息,將郵件正文解析為純文本信息,采用 I-Match方法,計算該郵件的指紋信息,若該郵件指紋不存在于郵件指紋庫,則 存入郵件指紋庫,并賦信譽初值,結束郵件分析;若郵件指紋存在,判斷郵件指 紋閾值是否小于垃圾郵件指紋閾值,若小于閾值,則郵件判為垃圾郵件,存入用 戶隔離區,結束郵件分析;再判斷郵件指紋閾值是否大于正常郵件指紋閾值,若 大于該閾值,則郵件為正常郵件,結束郵件分析;否則進入下一分析歩驟;
2. 挖掘路徑集
判斷郵件收件人是否為可信,若收件人為可信,則根據用戶評價庫中査找曾 經收到該郵件指紋的可信用戶,可信用戶為用戶的信譽值大于一定閾值,根據用 戶關系模型挖掘收件人與每個用戶間的前K短路徑,去除路徑上出現不可信用戶 的路徑,對剩余路徑進行排序,提取前N短的可信路徑,形成可信路徑集,做為 最終的路徑集;
若收件人不可信,則根據根據用戶評價庫中查找曾經收到相同郵件指紋的所有用戶,根據用戶關系模型挖掘收件人與每個用戶間的前K短路徑,對所有路徑 按權重遞增排序,提取前N短的路徑,作為最終的路徑集;
3. 郵件屬性判定
建立郵件判定記錄,根據用戶評價庫計算上述步驟所得的路徑集中路徑上的 每個結點用戶對該郵件指紋的評價,統計路徑集中所有結點用戶出現的次數,將 用戶對指紋的評價和用戶出現的次數插入判定記錄,求每個結點用戶的評價值與 該結點用戶出現的次數乘積的總和,除以結點用戶的出現次數總和,得到該郵件 的綜合評價值,并將郵件判定記錄和綜合評價值插入郵件判定記錄庫;
4. 郵件輸出處理
將該郵件的綜合評價值與設定的垃圾郵件閾值、正常郵件閾值比較,小于垃 圾郵件閾值的判為垃圾郵件,大于正常郵件閾值的判為正常郵件,介于兩者間的 判為可疑郵件,同時設置為監控標志。
圖4給出了信譽更新的原理流程圖,包括
1)根據收件人對郵件的評價,在郵件判定記錄庫中查找,對應的判定記錄; 2)若未查找到,結束更新;若査找到,判斷收件人的評價信息與歷史判定結果 是否相同;3)若相同,則更新因子為l,否則更新因子為0.5,而更新因子是控 制用戶信譽值和郵件指紋信譽值的更新的幅度,即收件人的評價信息與歷史判定 結果相同時,更新相應的信譽值的幅度大些,反之更新信譽值幅度則小些,在一 定程度上防止用戶的誤評價或者惡意用戶的惡意行為,大幅度影響相應的用戶和 郵件指紋的信譽值;4)根據收件人對郵件評價結果來升高或降低郵件指紋庫中 對應的指紋信譽值;5)讀取郵件判定記錄庫中歷史判定記錄,提取用戶評價及 其在記錄中出現次數,收件人與用戶的評價均一致,提高相應次數的用戶信譽值; 收件人與用戶的評價不一致,則降低相應次數的用戶信譽值;6)由于收件人對 郵件進行評價,導致用戶對該郵件指紋的評價值的改變,則更新用戶對郵件指紋 的評價。
下面詳細描述了本發明的實驗例場景,結合本發明的優點,對實施結果進行 分析。
為了驗證本發明的有效性,以某局域網為實驗環境,并搭建了典型的應用環 境,實驗采用了曙光服務器,操作系統為2.6.18-92.d5的內核linux企業版。實
13驗中采用The TREC 2006 Chinese Public Corpus語料庫,其中正常郵件21766 封,垃圾郵件42854封。提供了用戶評價接口與隔離區管理接口,便于管理用 戶評價。
網內實際用戶數量50個,這些用戶都是正常用戶,根據這些用戶之間的歷 史通信關系建立用戶關系模型,當用戶進行評價時,0-47用戶模擬正常用戶的行 為,48-49用戶模擬惡意用戶的行為,用TREC06C數據集進行訓練,產生分詞, 去除IDF值最小的25%的分詞,用于郵件指紋提取步驟。
表1給出了具體的技術參數取值。
首先,得到參數K對本發明判定性能的影響,在K取不同值時,對本發明 的判斷效果進行統計,實驗過程取垃圾郵件樣本150封和正常郵件樣本150封, 得到61個垃圾郵件指紋和150個正常郵件指紋,共循環發送980封垃圾郵件與 1500封正常郵件,然后統計一段時間內用戶對這些郵件的評價結果。在此基礎 上,不斷的改變K的取值,再次發送相同的郵件集,統計本發明的判定結果及 路徑挖掘時間。
表2給出了參數K對本發明的判定性能的影響。
實驗結果表明當K越大時,所需要的計算時間越多,這是由于在進行K 短路徑挖掘時所需要的時間隨著K的增大而越來越大。但判斷的準確率并沒有 隨著K的增大而逐漸提高,考慮到各種因素取K=2較為合適。這是由于K越大, 路徑挖掘得到的路徑越多,由于這50個用戶之間已有了通信關系模型,惡意用 戶和正常用戶也會有雙向通信關系,路徑上可能包含惡意用戶,如果這些惡意用 戶的信譽值沒有降低到判定用戶可信的閾值以下,則這些惡意用戶將參與評價該 郵件的信譽,故會影響評價的結果,另外由于路徑的增加,會導致大量的用戶都 參與評價該郵件,由于用戶自身評價包含誤判,會導致一些垃圾郵件的綜合評價 值不會低于垃圾郵件閾值,而是稍高于垃圾郵件閾值,這樣只會被列為可疑郵件。
其次,模擬了現實環境下的郵件流量,來驗證本發明的性能和檢測結果。實 驗中發送垃圾郵件樣本200封和正常郵件樣本200封,得到87個垃圾郵件指紋 和200個正常郵件指紋,共循環發送5次。然后用戶對這些郵件進行第一次評價, 然后在次發送相同數量的樣本,發送完成后,進行第二次評價,如此進行,共進 行了八次評價,共發送16000封郵件,圖5顯示了正常用戶和惡意用戶的信譽走
14勢,圖6顯示了正常郵件指紋和垃圾郵件指紋的信譽走勢,圖7顯示了所有評價 結束后用戶對正常郵件指紋和垃圾郵件指紋信譽評價的均值。圖8顯示了本發明 的準確率、召回率。
正常用戶的信譽值會不斷變高,而惡意用戶的信譽值會不斷下降,但在達到 判定用戶是否可信的閾值后基本保持穩定。同時,正常郵件指紋的信譽值會不斷 升高,而垃圾郵件指紋的信譽值會不斷下降,且變化的速度要比正常指紋的要快, 這和理論的情況是相同的。從用戶對指紋的評價中,也可以清楚的辨別出可信用 戶和惡意用戶的判斷行為。而且本發明識別垃圾郵件的準確率和召回率隨著發送 次數的增多而變化,準確率在不斷提高,達到100%后,趨于穩定。召回率由于 準確率的升高會略有降低趨勢。在圖8中并沒有對第一次計算的結果記錄進行記
錄,這由于第一次用戶評價時不存在歷史的評價信息。
再次,為了進一步驗證本發明具有識別惡意用戶及抵抗惡意用戶干擾的功
能,我們將內網用戶分為兩類,正常用戶和惡意用戶,用戶數量各占50%,其中 0-24為正常用戶,25-49為惡意用戶,惡意用戶和正常用戶的通信關系稀疏,而 惡意用戶之間組成幾個小的用戶群,群內部通信關系緊密,而群之間的通信關系 稀疏。正常用戶之間關系也是如此,并據此建立用戶關系模型。共發送50封垃 圾郵件和50封正常郵件5次,產生500條記錄。在對這些記錄進行評價時,正 常用戶對正常郵件指紋評價為正常,對垃圾郵件指紋評價為垃圾,惡意用戶對正 常郵件指紋評價為垃圾,垃圾郵件指紋評價為正常。將這50封郵件和50封垃圾 郵件分別發送給正常用戶和惡意用戶。
圖9、圖10分別給出了正常郵件發給兩類用戶的測試結果圖、垃圾郵件發 給兩類用戶的測試結果圖。
結果表明,對于發往正常用戶的郵件,本發明有很高的準確率。惡意用戶的 評價并不會影響本發明對發往正常用戶郵件的判斷。當郵件發往正常用戶時,路 徑挖掘不會挖掘到惡意用戶,這樣惡意用戶對郵件的評價不會影響到本算法的判 斷。當郵件發往惡意用戶時,路徑挖掘只能挖掘到與該惡意用戶聯系緊密的其它 惡意用戶,這些惡意用戶的評價,其結果可能導致算法對發往該惡意用戶的郵件 做出錯誤的判斷,但無論判斷結果如何,由于郵件是發往惡意用戶的,對于正常 用戶來說并沒有影響。當惡意用戶評價時,只能提高或者降低與其聯系緊密的用戶的信譽,由于惡意用戶在進行路徑挖掘時, 一般不會存在正常用戶結點,所以
惡意用戶的評價不會對正常用戶的信譽造成影響或者影響很小。
最后,我們比較了本發明與未使用用戶關系路徑挖掘的判定結果。
圖11給出了本發明的檢測方法與未經過用戶關系挖掘的判定結果比較圖。
使用用戶關系挖掘對于判斷結果的準確性具有很大的提高,在不使用路徑挖
掘的情況下的判斷結果幾乎是不正確的。
綜上,本發明有很高的垃圾郵件識別準確率,能較好的識別惡意用戶并抵抗
惡意用戶的干擾;可部署在郵件服務器、網關服務器處;可廣泛應用于電子郵件
過濾技術等應用領域。
權利要求
1、一種基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置,由用戶關系建模裝置、指紋收集裝置、路徑挖掘裝置、郵件評價裝置、郵件輸出裝置、用戶評價裝置和信譽更新裝置構成,其特征在于用戶關系建模裝置根據受控網內用戶之間的通信關系建立用戶關系模型,按照特定方法,構造無向圖的鄰接矩陣,代表用戶之間聯系的緊密程度;指紋收集裝置接收郵件后,將郵件正文預處理,采用I-Match算法計算郵件的指紋,并將指紋信息存入指紋信譽庫;路徑挖掘裝置挖掘特定條件的路徑,獲得最終的路徑集;郵件評價裝置根據路徑挖掘裝置獲得的路徑集,按照特定的策略,判斷郵件屬性;郵件輸出裝置根據郵件屬性的不同進行郵件的輸出處理,若郵件被識別為垃圾的郵件將郵件投入用戶隔離區;若郵件被識別為可疑郵件,則將郵件設置為監控,存入監控區域,并將郵件轉發給用戶;否則將郵件轉發給用戶;用戶評價裝置收集收件人對郵件的評價信息;信譽更新裝置根據收件人對郵件的評價及郵件判定記錄庫信息,按照更新策略,更新指紋信譽庫、用戶信譽庫、用戶評價庫。
2、 根據權利要求1所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝 置,其特征在于所述的用戶關系建模裝置的特定方法為根據用戶之間通信關系建立有向圖,用鄰接矩陣表示用戶間通信次數,并 根據有向圖建立無向圖的鄰接矩陣,表示用戶間的聯系緊密程度;用戶通信關 系發生變化時,更新有向圖鄰接矩陣,同時觸發無向圖中鄰接矩陣的更新。
3、 根據權利要求2所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝 置,其特征在于路徑挖掘裝置中所述的特定條件的路徑包括若收件人為惡意用戶,則從用戶評價庫中提取收到過該郵件指紋的每個用 戶,根據用戶關系模型,挖掘收件人到該用戶的前K短路徑,加入路徑集;若 收件人為可信用戶,則從用戶評價庫中提取收到過該郵件指紋的可信用戶,挖 掘收件人到該用戶的前K短路徑,排除路徑中含有不可信結點的路徑,加入路徑集;對路徑集中的路徑按權值遞增進行排序,按一定比例取前N條路徑,作 為最終的路徑集。
4、 根據權利要求3所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝 置,其特征在于所述的郵件評價裝置的評價方法為分析路徑挖掘裝置所述的最終路徑集中的每條路徑;統計每條路徑上的結 點用戶及其出現次數;在用戶評價庫中査詢每個結點用戶對該郵件指紋的評價 值,去除未做出評價的結點用戶;建立郵件判定記錄,根據郵件判定記錄求得 郵件的綜合評價值;將綜合評價值和判定記錄插入郵件判定記錄庫,并根據綜 合評價值判定郵件的性質。
5、 根據權利要求4所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝 置,其特征在于所述的信譽更新裝置的更新方法為根據收件人對郵件的評價,在郵件判定記錄庫中査找對應的判定記錄;若 未查找到,結束更新;若査找到,設置更新因子,并根據收件人對郵件評價結 果來升高或降低指紋信譽庫中對應的指紋信譽值;讀取郵件判定記錄庫中歷史 判定記錄,比較郵件收件人評價和歷史判定記錄中用戶的評價,更新用戶信譽 庫中對應用戶信譽值;更新用戶評價庫中郵件收件人對該郵件指紋的評價值。
6、 基于用戶關系挖掘及信譽評價的垃圾郵件檢測方法,其特征在于對于 每封郵件的分析經過如下的步驟1) 郵件預處理,采用I-Match方法,計算該郵件指紋,判斷指紋信譽值是 否超過郵件指紋閾值的范圍,決定是否進行后續處理;2) 根據用戶關系模型挖掘收件人與滿足特定條件的用戶間的特定路徑集;3) 建立郵件判定記錄,根據路徑集中用戶的評價及出現次數計算得到郵件 綜合評價值,將綜合評價值和判定記錄插入郵件判定記錄庫;4) 根據綜合評價值判定郵件屬性,并采取相應的處理措施。
7、 根據權利要求6所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測方 法,其特征在于所述的郵件預處理的具體方法為去除郵件的HTML標記郵件頭 部分信息,將郵件正文解析為純文本信息,采用I-Match方法,計算該郵件的 指紋信息,若該郵件指紋不存在于郵件指紋庫,則存入郵件指紋庫,并賦信譽 初值,結束郵件分析;若郵件指紋存在,判斷郵件指紋閾值是否小于垃圾郵件指紋閾值,若小于閾值,則郵件判為垃圾郵件,存入用戶隔離區,結束郵件分 析;再判斷郵件指紋閾值是否大于正常郵件指紋閾值,若大于該閾值,則郵件 為正常郵件,結束郵件分析;否則進入下一分析步驟。
8、 根據權利要求7所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測方 法,其特征在于所述挖掘收件人與滿足特定條件的用戶間的特定路徑集的具 體步驟為判斷郵件收件人是否為可信,若收件人為可信,則根據用戶評價庫 查找曾經收到相同郵件指紋的可信用戶,可信用戶為用戶的信譽值大于一定閾 值的用戶,根據用戶關系模型挖掘收件人與每個用戶間的前K短路徑,去除路 徑上出現不可信用戶的路徑,對剩余路徑進行排序,提取前N短的可信路徑, 形成可信路徑集,作為最終的路徑集;若收件人不可信,則根據用戶評價庫査 找曾經收到相同郵件指紋的所有用戶,根據用戶關系模型挖掘收件人與每個用 戶間的前K短路徑,對所有路徑排序,提取前N短的路徑,作為最終的路徑集;
9、 根據權利要求8所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測方 法,其特征在于所述綜合評價值和判定記錄插入郵件判定記錄庫的具體步驟 為建立郵件判定記錄,根據用戶評價庫計算上述步驟所得的路徑集中路徑上 的每個結點用戶對該郵件指紋的評價,統計路徑集中所有結點用戶出現的次數, 求每個結點用戶的評價值與該結點用戶出現的次數乘積的總和,除以結點用戶 的出現次數總和,得到該郵件的綜合評價值;
10、 根據權利要求9所述的基于用戶關系挖掘及信譽評價的垃圾郵件檢測 方法,其特征在于所述根據綜合評價值判定郵件屬性,并采取相應的處理措 施的具體方法為將該郵件的綜合評價值與設定的垃圾郵件閾值、正常郵件閾 值比較,小于垃圾郵件閾值的判為垃圾郵件,大于正常郵件閾值的判為正常郵 件,介于兩者間的判為可疑郵件,同時郵件被設置為監控狀態。
全文摘要
本發明提供的是一種基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置及方法。所述的檢測裝置的構成包括用戶關系建模裝置、指紋收集裝置、路徑挖掘裝置、郵件評價裝置、郵件輸出裝置、用戶評價裝置、信譽更新裝置。所述的方法為根據受控網內用戶通信關系建立用戶關系模型,然后依據用戶關系模型挖掘特定路徑集,最后通過該路徑集上用戶的歷史評價建立郵件判定記錄,識別郵件屬性。本發明的優點在于有很好的垃圾郵件識別能力,能較好的識別惡意用戶并抵抗惡意用戶的干擾,可部署在郵件服務器、網關、骨干網出入口處,可廣泛應用于電子郵件過濾技術等應用領域。
文檔編號H04L12/58GK101674264SQ200910073070
公開日2010年3月17日 申請日期2009年10月20日 優先權日2009年10月20日
發明者朱文龍, 武 楊, 玄世昌, 巍 王, 苘大鵬 申請人:哈爾濱工程大學