一種與內容無關的垃圾郵件過濾方法
【技術領域】
[0001] 本發明屬于垃圾郵件過濾方法,特別是涉及一種與內容無關的垃圾郵件過濾方 法。
【背景技術】
[0002] 隨著互聯網技術的發展,電子郵件成為一種重要的通訊工具。但隨之而來的垃圾 郵件數量眾多,送些垃圾郵件具有反復性、強制性、欺騙性、不健康性或傳播速度快等特點, 嚴重影響了人們的正常郵件交流。對于垃圾郵件過濾技術,目前主流的技術主要分為非機 器學習型和機器學習型。非機器學習型郵件過濾系統(如黑名單式)的缺點在于系統無法 學習更新數據,難將其部署為一個單機(而非聯網)的過濾系統,且有很大幾率把正常郵件 當作垃圾郵件過濾。機器學習型系統分為基于內容和不基于內容的郵件過濾系統。由于郵 件中各種多媒體技術的發展,基于內容的分析變得困難,越來越多的研究轉向對于郵件其 他元素(標題,郵件發件人IP地址等非正文元素)的分析。
[0003]Bayes(貝葉斯)方法是當前實際使用最多的垃圾郵件過濾方法。由于Bayes對于 郵件分類的速度很快,而且在識別過濾過程中可W進行動態的調整,因此在垃圾郵件過濾 方面應用最為廣泛。然而由于垃圾郵件本身的一些偽裝方法比較好或者合法郵件的一些關 鍵字和符合垃圾郵件的關鍵字匹配,使得目前垃圾郵件的識別越來越困難。一個郵件樣本 難W明確地歸為某一類,而W-定概率或一定隸屬度屬于某一類。因此,在對樣本的類型不 確定性比較大的時候,強行分類勢必會造成分類結果錯誤,正確率下降的情況。無論是黑名 單式的方法還是貝葉斯的方法,僅用郵件分類輸出yE(spam,legitimate}表示類別信息 并不恰當。可W有更恰當的方法來處理送種不確定的情況。
【發明內容】
[0004] 本發明所要解決的技術問題在于克服現有技術的不足,提供一種處理不確定性的 方法;基于送種處理不確定性的方法,提出一種與內容無關的垃圾郵件過濾方法。
[0005] 本發明所使用的證據理論是一套基于"證據"和"組合"來處理不確定性推理問題 的數學方法。送種Dempster-ShafeHD-巧理論能有效地提高不確定情況下目標的識別能 力。該理論把概率論中的基本事件空間拓寬為基本事件的幕集(又稱為辨識框架),在辨識 框架上建立了基本概率指派函數度asicProb油ilityAssignment,下文簡寫為BPA)。此 夕F,證據理論還提供了一個D-S組合規則,該規則可W在沒有先驗信息的情況下實現證據 的融合。
[0006] 本發明采用如下技術方案:
[0007] -種與內容無關的垃圾郵件過濾方法,其包含如下步驟;(1)對郵件標題進行特 征提取,(2)對特征提取后的郵件標題進行特征量化,(3)將步驟(2)所得結果進行機器學 習分類,判斷郵件是否為垃圾郵件;其特征在于:
[0008] 所述步驟(2)具體包括如下步驟:
[0009] I)對郵件標題去除標點符號、特殊符號、停用詞后,經分詞轉化為由單詞組成的特 征向量G;
[0010] 2)對所述特征向量G中的每一個元素進行統計,并分別對照垃圾標題特征集和合 法標題特征集進行統計,查找每一個元素分別在送兩個集中出現的頻率次數,并將結果分 為四種情況,分別得到基本概率指派函數;
[0011] 3)將所述基本概率指派函數根據證據理論的D-S組合規則進行融合,得到最終的 基本概率指派函數;
[0012] 4)將所述最終的基本概率指派函數經過賭博概率轉化作為郵件標題特征量化的 結果。
[0013] 所述基本概率指派函數分為如下四種情況:
[0014] (a)郵件標題的特征向量G中的每一個元素gi出現在垃圾標題特征集中,也出現 在合法標題特征集中時,定義基本概率指派函數如下:
[0017]IHi({spam,legitimate}) =〇
[001引 (b)元素gi既沒有出現在垃圾標題特征集中,也沒有出現在合法標題特征集中,定 義基本概率指派函數如下:
[0019] IHi({spam}) = 0
[0020] IIii({legitimate} )= 0 [00引]IIii({spam,legitimate} )= 1
[0022] (C)元素gi出現在垃圾標題特征集中,但沒有出現在合法標題特征集中,定義基本 概率指派函數如下:
[0023]IHi({spam}) = 1
[0024]IHi({legitimate}) = 0
[00巧]IIii({spam,legitimate} )= 0
[0026](d)元素gi出現在合法標題特征集中,但沒有出現在垃圾標題特征集中,定義基本 概率指派函數如下:
[0027]IHi({spam}) = 0
[0028]IIii({legitimate} )= 1
[0029] 本發明的技術方案具有如下有益效果:
[0030] (1)本發明提出的方法采用對于郵件的非正文信息進行分析,不涉及對郵件正文 內容的分析,而主要對郵件報文的信頭和郵件標題提取具有代表性的字段進行分析,降低 了垃圾郵件分析的難度;
[0031] (2)本發明相比經典概率論中的Bayes方法,采用證據理論來進行垃圾郵件分類, 具有W下H個理論優勢:
[0032] 1)證據理論可W更好的處理不確定性問題。
[0033] 在經典概率論中,Bayes概率模型只能支持將概率分配到單子集命題上。在證據理 論中,BPA既可W被指派到單子集命題上,也能被指派到多子集命題上。特別地,當BPA只 在辨識框架的單子集命題上進行分配時,BPA就轉換為概率論中的概率,而組合規則的融合 結果與概率論中的Bayes公式相同。
[0034] 2)證據理論不像Bayes概率模型一樣需要先驗信息支持。
[0035]Bayes概率模型需要獲得一組先驗信息,然后通過Bayes更新用后驗概率來更新 先驗概率。然而在一些實際使用中,完整的先驗信息不容易獲得。證據理論不需要有先驗 信息的支持,每組BPA被認為來自一個獨立信息源的證據,多個信息源的證據可W用D-S組 合規則進行融合。
[0036] 3)證據理論可W表示由于對客觀事物沒有充分了解而引起的未知信息。
[0037] D-S證據理論能夠比概率論更有效地表示和處理不確定信息。當對于郵件樣本的 歸類有較大不確定性時,相比貝葉斯更新中將概率分配到單子集命題上,證據理論能夠將 概率分配到多子集命題上來表現送種不確定性。當BPA只在辨識框架的單子集命題上進行 分配時,證據理論可W退化成經典概率論中Bayes更新。證據理論的送些特點使其在處理 垃圾郵件方面存在很大的優勢。
【附圖說明】
[0038] 圖1是本發明的垃圾郵件過濾方法流程圖。
[0039] 圖2是本發明的待過濾郵件樣本e的信頭和標題組成結構示意圖。
[0040] 圖3是圖1中smrk(e)函數對待過濾郵件樣本e的郵件主題處理流程圖。
[0041] 圖4是圖3中步驟C和步驟d數據融合原理圖。
【具體實施方式】
[0042] 下面通過實施例,并結合附圖,對本發明的技術方案進行說明。
[0043] 參見圖1,本發明的垃圾郵件過濾的方法主要分為H個部分:特征提取、特征量化 和機器學習分類。參見圖1、2,在特征提取階段,本發明從待過濾郵件樣本e的郵件信頭和 郵件標題中提取了五個具有代表性的字段,即源字段、目標字段、郵件客戶端字段、發送端 服務器IP地址字段和郵件標題字段。其中,源自段提取自郵件信頭中的化om,化om表示的 是該電子郵件的發件人地址;目標字段提取自郵件信頭中的recipient,recipient表示電 子郵件信頭中的收件人地址或抄送地址;郵件客戶端字段提取自郵件信頭中的X-Mailer, X-Mailer暗含了用來發送郵件的電子郵件客戶端(Emailclient)或郵件用戶代理(Mail UserAgent,MUA)軟件的名稱,一般用戶想要偽造一個可信度較高的X-Mailer字段較困 難,因此用于垃圾郵件群發的客戶端通常提供一個非法的X-Mailer字段來避免被當作垃 圾郵件過濾;發送端服務器IP地址字段提取自電子郵件信頭中的ip,ip表示郵件發送者的 ip地址;郵件標題字段,提取自電子郵件中的subject,subject表示郵件的標題信息。
[0044] 本發明提出的方法對郵件非正文信息進行分析,即對從郵件信頭和郵件標題中提 取的五個字段進行分析。
[0045]由于送五個字段存在文本、數值等不同格式,因此特征量化階段對送些特征進行 了具體地數值化處理,旨在將送些不同格式不同量綱的特征轉化為數值。如圖1的特征量 化階段所示,對于輸入的待過濾電子郵件,經過特征提取后的五個字段在特征量化的過程 中分別對應sendeHe)、n;rcpt(e)、xmalHe)、ip(e)、S皿k(e)五個函數的輸出。