中文字幕无码日韩视频无码三区

一種多層次的垃圾郵件智能過濾方法

文檔序(xu)號:7763538閱讀:225來源:國知局
專利名稱:一種多層次的垃圾郵件智能過濾方法
技術領域
本發明屬于信息技術領域,涉及垃圾郵件的分類與過濾,尤其涉及一種多層次的垃圾郵件智能過濾方法。
背景技術
隨著互聯網的發展普及,電子郵件給人們的工作生活帶來了極大的便利,與此同時不請自來的垃圾郵件也給人們產生了極大的困擾。垃圾郵件的泛濫不僅占用大量的帶寬,嚴重浪費了網絡資源,垃圾郵件也正成為黑客攻擊的目標、病毒傳播的途徑,由此帶來極大的安全隱患。目前對于垃圾郵件的定義世界上仍沒有一個統一的明確的定義,盡管通常將垃圾郵件定義為Unsolicited Bulk Email (UBE,未被請求的批量郵件)或Unsolicited Commercial Email (UCE,未被請求的商業郵件),這是因為同樣的郵件對于不同的用戶來說其判斷結果可能不同,也正是這種原因決定了市面上的大多垃圾郵件過濾工具效率低下。解決垃圾郵件泛濫的歷程,大致可分為如下三個階段(1)第一階段主要是通過IP過濾、黑白名單、關鍵詞匹配等進行垃圾郵件判斷。(2)第二階段主要是通過基于一些諸如貝葉斯等統計算法的智能內容過濾及實時黑名單過濾等機制來完成垃圾郵件的判斷。(3)第三主要是對垃圾郵件的發送行為進行統計而發展起來的。這種方式首先對大量的垃圾郵件樣本進行統計、分析和計算,然后根據RFC822協議建立垃圾郵件發送行為的識別模型。從而在郵件傳輸代理(MTA)通信階段就能判斷出該郵件是否為垃圾郵件。這種方式有效的提高了郵件過濾的速度,減少了網絡延遲,然而這種基于網絡行為特征的郵件過濾對于單一的垃圾郵件處理卻顯得無能為力。總的來說當前垃圾郵件過濾系統中存在如下幾點問題(1)正常郵件誤判問題對于用戶來講,正常郵件通常情況下是極其重要的,大多用戶寧愿把所有郵件都通讀一遍也不愿過濾掉一份正常郵件。因此,對垃圾郵件過濾系統而言,重點考慮的不是一個查全的問題,而應是查準的問題。而目前大多郵件過濾系統過多的考慮了查全的問題,而過濾級別也多是IP或動態IP級,造成了對用戶正常郵件的誤判。(2)語義信息丟失問題目前的過濾系統卻多專注于IP地址過濾及郵件的統計特性,卻忽略了對郵件語義信息的挖掘。然而垃圾郵件常常被偽裝為正常郵件,只有解析其內容時才能判定其合法性,在這種情形下,僅靠單一的IP地址過濾及統計特性是難以獲得滿意效果的。因此有必要對郵件的語義信息進行挖掘,從而提高郵件過濾系統的精確度。(3)缺乏垃圾郵件過濾整體解決方案由于問題⑴、⑵可知,僅靠一種技術手段是難以取得滿意的過濾效果的。因此, 有必要把各種技術手段加以整合,充分發揮各種過濾技術的長處,以避免單一技術的局限性。而這種全局的過濾解決方案卻正是目前郵件過濾系統所缺失的。

發明內容
本發明的目的就是為了解決上述問題,提供一種多層次的垃圾郵件智能過濾方法,其目的在于降低正常郵件的誤判率,解決郵件內容語義信息丟失的問題,從而統領全局,構建了一個完善的垃圾郵件過濾系統。為了實現上述目的,本發明采用如下技術方案一種多層次的垃圾郵件智能過濾方法,該方法的過濾步驟如下Stepl 郵件服務器監聽端口,根據端口判斷是smtp協議還是pop3協議;St印2 如是smtp協議則轉入st印3繼續執行;如是pop3協議則轉入pop3協議處理模塊進行處理;St印3 轉入smtp協議接收模塊,并提取郵件的相關信息;乂印4:對于提取的郵件信息,首先進行黑白名單過濾,如在黑名單內則進行丟棄, 反之轉入st印5繼續執行;St印5 然后根據郵件關鍵詞進行過濾;St印6 其次對郵件內容進行判定,根據判定結果進行處理;如是垃圾郵件則進行丟棄,反之轉入st印7繼續執行;St印7 判斷是目的郵箱還是本地郵箱,如是本地郵箱則進入本地郵箱投遞及郵件管理,反之則進行轉發。所述step4中,進行黑白名單過濾的過程如下首先對郵件的IP地址進行初步過濾,如IP地址在白名單內,則判定為合法郵件進行接收,反之判斷IP地址是否在黑名單內, 如在則判定為垃圾郵件,且進行丟棄,反之對DNS地址進行匹配,如與DNS白名單匹配成功則判定為合法郵件進行接收,反之與DNS黑名單進行匹配,如匹配成功,則判定為垃圾郵件進行丟棄,反之對郵件主題關鍵詞進行匹配。所述step6中,對郵件內容進行判定的過程如下步驟1 首先提取出郵件正文部分,并對郵件正文進行切詞;步驟2 對切詞結果進行預處理;步驟3 對預處理后的郵件進行特征選擇;步驟4 對提取的特征利用支持向量機SVM進行分類;St印5 對分類結果進行判定,如是合法郵件則進行接收,如疑似垃圾郵件則進行投遞并需要用戶進行信息反饋,如是垃圾郵件則進行丟棄。所述預處理的過程如下首先對切分結果進行語義還原,其主要是對切分結果利用規則的方法進行重新組織,提取基本短語和未登錄詞;然后采用停用詞表示與詞性標注相結合的方法去除那些高頻詞與低頻詞。所述利用支持向量機SVM進行分類的過程如下(1)提取郵件文本特征;(2)計算各特征的特征類別的相關性度量;(3)利用詞序列核作為核發函數訓練支持向量機;(4)利用類別相關度量計算詞的衰減因子;
(5)對郵件進行分類。本發明的有益效果1.本發明改進了傳統特征選擇中的信息增益算法在數據訓練的過程多以平衡語料為基礎,而在真實環境中,語料平衡的情形卻是難以存的。而垃圾郵過濾其實質又是一個二分類問題,因此,整個過濾的結果對語料的平衡性有著較強的依賴。針對這一情形,本發明利用特征項的分布信息改進了傳統的信息增益算法,減小了系統訓練過程中對數據的依賴,從而提高了系統對郵件內容的分析能力。2.本發明構造了一種適合于垃圾郵件過濾的文本語義表示模型傳統的向量空間模型是以各特征項之間相互獨立的假設為前提,因而該模型忽視了信息間的語義聯系,這使得過濾過程中存在機械性缺陷,因此,把自然語言處理技術引入到向量空間模型中,并對各特征項間的相互加以組織梳理,使能夠體現過濾本文特征詞之間的相互聯系,提高過濾的精確度。3.本發明提出了一種基于加權支持向量機的垃圾郵件過濾方法基于加權支持向量機的垃圾郵件過濾方法,主要是針對垃圾郵件過濾過程正常郵件誤判的問題而提出。該方法增加了兩類郵件類別權重及反映每封郵件重要性的權重,然后利用支持向量機分類器進行訓練,得到垃圾郵件過濾器。4.本發明提出了一種基于類別相關度量的詞序列核利用支持向量機進行分類,常常忽略文本結構而導致丟失大量語義信息丟失。針對這一現象,本發明提出一種基于類別相關度量的詞序列核。實施步驟如下(1)提取郵件文本特征。(2)計算各特征的特征類別的相關性度量。(3)利用詞序列核作為核發函數訓練支持向量機。(4)利用類別相關度量計算詞的衰減因子(5)對郵件進行分類。5.本發明把反饋和自學習機制引入到垃圾郵件過濾模板中由于郵件內容是動態變化的,因此訓練本也應該隨著系統的運行而不斷更新。由于不同的訓練樣本對郵件過濾系統的貢獻度有所不同,因此應給樣本空間中的各樣本賦予一定的權重,并在整個過濾過程中根據過濾效果動態調整樣本權重。這樣做的目的可以有效的保留對系統貢獻大的樣本,并降低某些貢獻度低的樣本帶來的干擾。6.本發明最終搭建了一個多層次的垃圾郵件智能過濾平臺。本發明集合IP地址和DNS黑名單、對主題和附件的關鍵詞過濾、郵件正文內容過濾以及附件文本內容過濾等多種過濾技術,構建了一個多層次垃圾郵件智能過濾平臺。


圖1是本發明的過濾方法流程圖;圖2是基于內容的垃圾郵件過濾流程圖;圖3是反饋過程流程圖。
具體實施方式
下面結合附圖與實施例對本發明作進一步說明。本發明采用多種垃圾郵件過濾方法,這些方法采用一定的順序進行過濾垃圾郵件,形成一個多層次過濾的有機整體。圖1描述了本發明垃圾郵件過濾過程流程圖。當有一封郵件接收過來之后,過濾模塊按照以下順序進行過濾(1)首先看IP地址是否在白名單。如果有,就判定為正常郵件。沒有則依照后面過濾順序繼續進行。(2)匹配IP地址黑名單。如果有,則是垃圾郵件。否則的話,再按照過濾流程繼續進行。(3)匹配DNS白名單。匹配成功,則判定為合法郵件,轉入到本地投遞或轉發模塊。 否則,再按照過濾流程繼續進行。(4)匹配DNS黑名單。匹配成功,判定為垃圾郵件,丟棄。否則,按照過濾流程繼續進行。(5)匹配郵件主題關鍵詞。成功,說明郵件主題中含有非法關鍵詞,此郵件為垃圾郵件,進行丟棄。否則,按照過濾流程繼續進行。(6)若有附件,匹配附件名關鍵詞。成功,說明附件名稱中含有非法關鍵詞,判定此郵件為垃圾郵件,丟棄。否則,按照過濾流程繼續進行。(7)附件正文內容判定。若內容判定為垃圾郵件,則將此郵件也進行投遞,當用戶一定時間內不處理,當作垃圾郵件進行刪除。(8)若有文本附件,附件內容過濾。若附件內容被內容判定模塊判定為垃圾郵件, 如同正文被判定為垃圾郵件一樣處理。本發明的核心正是在于圖2所示的內容過濾階段。在內容過濾階段,首先提出郵件正文部分,并對郵件正文進行切詞。由于中文切記系統尚不完善,因此,經過后郵件內容信息會丟失部分語義,因此,有必要對切分結果進行語義還原。(1)預處理階段本發明的預處理過程包含兩個階段。第一階段為切分結果的語義還原階段;第二階段為去除停用詞階段。(a)語義還原階段此階段主要是對切分結果利用規則的方法進行重新組織,提取基本短語和未登錄詞,其基本過程如下基本短語的識別是一個輸入分詞標注過的文本,輸出識別出的短語文本的過程。 輸入的特征有兩部分組成,一部分是條件,另一部分規則,即滿足條件后執行的動作。因此, 我們通過制定基本短語識別條件模板與規則合并模板,最后利用最大信息熵識別最佳基本短語。考慮到中文是一種意合語言,語序對中文語義有著較大的影響,而且漢語行文多采用從左至右的方式,并且中心詞大多位于后一詞,因此短語識別過程中采用從后往前的方式,即倒排方式,這里本發明選用“棧”作為存儲數據的結構。由于語句中的詞與上下文相關,因此需要考慮當前詞、前后詞、詞性及詞音節數等 fn息ο因此,根據影響短語構成的因素,定義特征空間為
①詞性信息。當前詞及前后各兩個詞的詞性;②詞。當前詞前后對當前詞構造短語造成影響的一些具有特定用法的詞語。如 “的”、“了”等一些虛詞。③標注類別。標注當前詞應歸屬的類別,我們定義為名詞短語類與動詞短語類兩個類別。④音節數。考慮當前詞及前后各一個詞的音節數。為了避免數據稀疏性,短語合并時多是兩個詞合并,當三個詞短語合并時,重點考慮單音節詞。⑤標點。對構造短語造成影響的一些特定標點,如“、”。根據上述特征空間定義識別條件,在基本短語識別條件的制定過程,我們定義了條件模板,如表1所示。表1特征條件模板
數WwWtWPWLtWRtWRw章義當前詞當前詞詞性當前詞初始類當前左邊詞詞當前詞右邊詞右邊特定詞別性詞性函數WLwWNWLNWRNWB章義左邊特征定詞當前詞音節數左邊詞音節數右邊詞音節數特殊標點當特征函數取特定值時,該條件模板被實例化,得到具體特征。詞性標注采用北大計算語言所制定的《現代漢語語料庫加工一一詞語切分與詞性標注規范》,對于如“的”、 “了”、“在”、“與”等一些邊界性標志的特殊詞,我們事先擬定一個邊界詞表,用于短語邊界的識別;為了更好的識別短語的邊界,我另外擬定一張邊界詞性表,包含連接詞、標點等一些詞性。以被實例化后的特征條件模板作為判斷條件,判斷輸入是否滿足短語合并規則 (部分合并規則如表2所示),滿足則進行短語合并,否則進行下一步判斷,這樣整個匹配過程,轉化為二值分類過程,該特征可以表示為二值特征函數形式。如表2中第一條規則二值特征函數為
權利要求
1.一種多層次的垃圾郵件智能過濾方法,其特征是,該方法的過濾步驟如下 Stepl 郵件服務器監聽端口,根據端口判斷是smtp協議還是pop3協議;St印2 如是smtp協議則轉入st印3繼續執行;如是pop3協議則轉入pop3協議處理模塊進行處理;St印3 轉入smtp協議接收模塊,并提取郵件的相關信息;Mep4:對于提取的郵件信息,首先進行黑白名單過濾,如在黑名單內則進行丟棄,反之轉入st印5繼續執行;Step5:然后根據郵件關鍵詞進行過濾;St印6 其次對郵件內容進行判定,根據判定結果進行處理;如是垃圾郵件則進行丟棄,反之轉入st印7繼續執行;St印7 判斷是目的郵箱還是本地郵箱,如是本地郵箱則進入本地郵箱投遞及郵件管理,反之則進行轉發。
2.如權利要求書1所述的一種多層次的垃圾郵件智能過濾方法,其特征是,所述step4 中,進行黑白名單過濾的過程如下首先對郵件的IP地址進行初步過濾,如IP地址在白名單內,則判定為合法郵件進行接收,反之判斷IP地址是否在黑名單內,如在則判定為垃圾郵件,且進行丟棄,反之對DNS地址進行匹配,如與DNS白名單匹配成功則判定為合法郵件進行接收,反之與DNS黑名單進行匹配,如匹配成功,則判定為垃圾郵件進行丟棄,反之對郵件主題關鍵詞進行匹配。
3.如權利要求書1所述的一種多層次的垃圾郵件智能過濾方法,其特征是,所述step6 中,對郵件內容進行判定的過程如下步驟1 首先提取出郵件正文部分,并對郵件正文進行切詞;步驟2 對切詞結果進行預處理;步驟3 對預處理后的郵件進行特征選擇;步驟4 對提取的特征利用支持向量機SVM進行分類;St印5 對分類結果進行判定,如是合法郵件則進行接收,如疑似垃圾郵件則進行投遞并需要用戶進行信息反饋,如是垃圾郵件則進行丟棄。
4.如權利要求書3所述的一種多層次的垃圾郵件智能過濾方法,其特征是,所述預處理的過程如下首先對切分結果進行語義還原,其主要是對切分結果利用規則的方法進行重新組織,提取基本短語和未登錄詞;然后采用停用詞表示與詞性標注相結合的方法去除那些高頻詞與低頻詞。
5.如權利要求書3所述的一種多層次的垃圾郵件智能過濾方法,其特征是,所述利用支持向量機SVM進行分類的過程如下(1)提取郵件文本特征;(2)計算各特征的特征類別的相關性度量;(3)利用詞序列核作為核發函數訓練支持向量機;(4)利用類別相關度量計算詞的衰減因子;(5)對郵件進行分類。
全文摘要
本發明公開了一種多層次的垃圾郵件智能過濾方法,該方法利用特征項的分布信息改進了傳統的信息增益算法,減小了系統訓練過程中對數據的依賴,從而提高了系統對郵件內容的分析能力;降低了正常郵件的誤判率,解決了郵件內容語義信息丟失的問題;針對垃圾郵件過濾過程正常郵件誤判的問題提出了基于加權支持向量機分類方法,該方法增加了兩類郵件類別權重及反映每封郵件重要性的權重,然后利用支持向量機分類器進行訓練,得到垃圾郵件過濾器。本發明集合IP地址和DNS黑名單、對主題和附件的關鍵詞過濾、郵件正文內容過濾以及附件文本內容過濾等多種過濾技術,構建了一個多層次垃圾郵件智能過濾平臺。
文檔編號H04L12/58GK102255922SQ20111024750
公開日2011年11月23日 申請日期2011年8月24日 優先權日2011年8月24日
發明者劉培玉, 朱振方, 楊玉珍 申請人:山東師范大學
網友詢問留(liu)言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1