一種與內容無關的垃圾郵件過濾方法

文檔序(xu)號：9581601閱(yue)讀：762來(lai)源：國知局

一種與內容無關的垃圾郵件過濾方法
【技術領域】
[0001] 本發明屬于垃圾郵件過濾方法，特別是涉及一種與內容無關的垃圾郵件過濾方法。
【背景技術】
[0002] 隨著互聯網技術的發展，電子郵件成為一種重要的通訊工具。但隨之而來的垃圾郵件數量眾多，送些垃圾郵件具有反復性、強制性、欺騙性、不健康性或傳播速度快等特點，嚴重影響了人們的正常郵件交流。對于垃圾郵件過濾技術，目前主流的技術主要分為非機器學習型和機器學習型。非機器學習型郵件過濾系統（如黑名單式）的缺點在于系統無法學習更新數據，難將其部署為一個單機（而非聯網）的過濾系統，且有很大幾率把正常郵件當作垃圾郵件過濾。機器學習型系統分為基于內容和不基于內容的郵件過濾系統。由于郵件中各種多媒體技術的發展，基于內容的分析變得困難，越來越多的研究轉向對于郵件其他元素（標題，郵件發件人IP地址等非正文元素）的分析。
[0003]Bayes(貝葉斯）方法是當前實際使用最多的垃圾郵件過濾方法。由于Bayes對于郵件分類的速度很快，而且在識別過濾過程中可W進行動態的調整，因此在垃圾郵件過濾方面應用最為廣泛。然而由于垃圾郵件本身的一些偽裝方法比較好或者合法郵件的一些關鍵字和符合垃圾郵件的關鍵字匹配，使得目前垃圾郵件的識別越來越困難。一個郵件樣本難W明確地歸為某一類，而W-定概率或一定隸屬度屬于某一類。因此，在對樣本的類型不確定性比較大的時候，強行分類勢必會造成分類結果錯誤，正確率下降的情況。無論是黑名單式的方法還是貝葉斯的方法，僅用郵件分類輸出yE(spam,legitimate}表示類別信息并不恰當。可W有更恰當的方法來處理送種不確定的情況。

【發明內容】

[0004] 本發明所要解決的技術問題在于克服現有技術的不足，提供一種處理不確定性的方法；基于送種處理不確定性的方法，提出一種與內容無關的垃圾郵件過濾方法。
[0005] 本發明所使用的證據理論是一套基于"證據"和"組合"來處理不確定性推理問題的數學方法。送種Dempster-ShafeHD-巧理論能有效地提高不確定情況下目標的識別能力。該理論把概率論中的基本事件空間拓寬為基本事件的幕集（又稱為辨識框架），在辨識框架上建立了基本概率指派函數度asicProb油ilityAssignment,下文簡寫為BPA)。此夕F，證據理論還提供了一個D-S組合規則，該規則可W在沒有先驗信息的情況下實現證據的融合。
[0006] 本發明采用如下技術方案：
[0007] -種與內容無關的垃圾郵件過濾方法，其包含如下步驟；（1)對郵件標題進行特征提取，（2)對特征提取后的郵件標題進行特征量化，（3)將步驟（2)所得結果進行機器學習分類，判斷郵件是否為垃圾郵件；其特征在于：
[0008] 所述步驟（2)具體包括如下步驟：
[0009] I)對郵件標題去除標點符號、特殊符號、停用詞后，經分詞轉化為由單詞組成的特征向量G;
[0010] 2)對所述特征向量G中的每一個元素進行統計，并分別對照垃圾標題特征集和合法標題特征集進行統計，查找每一個元素分別在送兩個集中出現的頻率次數，并將結果分為四種情況，分別得到基本概率指派函數；
[0011] 3)將所述基本概率指派函數根據證據理論的D-S組合規則進行融合，得到最終的基本概率指派函數；
[0012] 4)將所述最終的基本概率指派函數經過賭博概率轉化作為郵件標題特征量化的結果。
[0013] 所述基本概率指派函數分為如下四種情況：
[0014] (a)郵件標題的特征向量G中的每一個元素gi出現在垃圾標題特征集中，也出現在合法標題特征集中時，定義基本概率指派函數如下：
[0017]IHi({spam,legitimate}) =〇
[001引（b)元素gi既沒有出現在垃圾標題特征集中，也沒有出現在合法標題特征集中，定義基本概率指派函數如下：
[0019] IHi({spam}) = 0
[0020] IIii({legitimate} )= 0 [00引]IIii({spam,legitimate} )= 1
[0022] (C)元素gi出現在垃圾標題特征集中，但沒有出現在合法標題特征集中，定義基本概率指派函數如下：
[0023]IHi({spam}) = 1
[0024]IHi({legitimate}) = 0
[00巧]IIii({spam,legitimate} )= 0
[0026](d)元素gi出現在合法標題特征集中，但沒有出現在垃圾標題特征集中，定義基本概率指派函數如下：
[0027]IHi({spam}) = 0
[0028]IIii({legitimate} )= 1
[0029] 本發明的技術方案具有如下有益效果：
[0030] (1)本發明提出的方法采用對于郵件的非正文信息進行分析，不涉及對郵件正文內容的分析，而主要對郵件報文的信頭和郵件標題提取具有代表性的字段進行分析，降低了垃圾郵件分析的難度；
[0031] (2)本發明相比經典概率論中的Bayes方法，采用證據理論來進行垃圾郵件分類，具有W下H個理論優勢：
[0032] 1)證據理論可W更好的處理不確定性問題。
[0033] 在經典概率論中，Bayes概率模型只能支持將概率分配到單子集命題上。在證據理論中，BPA既可W被指派到單子集命題上，也能被指派到多子集命題上。特別地，當BPA只在辨識框架的單子集命題上進行分配時，BPA就轉換為概率論中的概率，而組合規則的融合結果與概率論中的Bayes公式相同。
[0034] 2)證據理論不像Bayes概率模型一樣需要先驗信息支持。
[0035]Bayes概率模型需要獲得一組先驗信息，然后通過Bayes更新用后驗概率來更新先驗概率。然而在一些實際使用中，完整的先驗信息不容易獲得。證據理論不需要有先驗信息的支持，每組BPA被認為來自一個獨立信息源的證據，多個信息源的證據可W用D-S組合規則進行融合。
[0036] 3)證據理論可W表示由于對客觀事物沒有充分了解而引起的未知信息。
[0037] D-S證據理論能夠比概率論更有效地表示和處理不確定信息。當對于郵件樣本的歸類有較大不確定性時，相比貝葉斯更新中將概率分配到單子集命題上，證據理論能夠將概率分配到多子集命題上來表現送種不確定性。當BPA只在辨識框架的單子集命題上進行分配時，證據理論可W退化成經典概率論中Bayes更新。證據理論的送些特點使其在處理垃圾郵件方面存在很大的優勢。
【附圖說明】
[0038] 圖1是本發明的垃圾郵件過濾方法流程圖。
[0039] 圖2是本發明的待過濾郵件樣本e的信頭和標題組成結構示意圖。
[0040] 圖3是圖1中smrk(e)函數對待過濾郵件樣本e的郵件主題處理流程圖。
[0041] 圖4是圖3中步驟C和步驟d數據融合原理圖。
【具體實施方式】
[0042] 下面通過實施例，并結合附圖，對本發明的技術方案進行說明。
[0043] 參見圖1，本發明的垃圾郵件過濾的方法主要分為H個部分：特征提取、特征量化和機器學習分類。參見圖1、2,在特征提取階段，本發明從待過濾郵件樣本e的郵件信頭和郵件標題中提取了五個具有代表性的字段，即源字段、目標字段、郵件客戶端字段、發送端服務器IP地址字段和郵件標題字段。其中，源自段提取自郵件信頭中的化om，化om表示的是該電子郵件的發件人地址；目標字段提取自郵件信頭中的recipient,recipient表示電子郵件信頭中的收件人地址或抄送地址；郵件客戶端字段提取自郵件信頭中的X-Mailer, X-Mailer暗含了用來發送郵件的電子郵件客戶端（Emailclient)或郵件用戶代理（Mail UserAgent,MUA)軟件的名稱，一般用戶想要偽造一個可信度較高的X-Mailer字段較困難，因此用于垃圾郵件群發的客戶端通常提供一個非法的X-Mailer字段來避免被當作垃圾郵件過濾；發送端服務器IP地址字段提取自電子郵件信頭中的ip,ip表示郵件發送者的 ip地址；郵件標題字段，提取自電子郵件中的subject,subject表示郵件的標題信息。
[0044] 本發明提出的方法對郵件非正文信息進行分析，即對從郵件信頭和郵件標題中提取的五個字段進行分析。
[0045]由于送五個字段存在文本、數值等不同格式，因此特征量化階段對送些特征進行了具體地數值化處理，旨在將送些不同格式不同量綱的特征轉化為數值。如圖1的特征量化階段所示，對于輸入的待過濾電子郵件，經過特征提取后的五個字段在特征量化的過程中分別對應sendeHe)、n;rcpt(e)、xmalHe)、ip(e)、S皿k(e)五個函數的輸出。

完(wan)整全(quan)部詳細技術資料下載(zai)

當前第1頁1 2 3

該技(ji)術(shu)已(yi)申請專利。僅(jin)供學習研究，如用于商業用途，請聯(lian)系技(ji)術(shu)所有人。
技術研(yan)發人員：胡(hu)勇(yong);張(zhang)晨威;張(zhang)智軍;鄧勇(yong);劉梅(mei);張(zhang)享周;陳(chen)詩峰;謝康;肖靜華(hua);姜靈敏;曾馭然(ran);張(zhang)振(zhen)華(hua);丘心穎;陳(chen)蔚琦;劉康;蘇麗君;郭策;
技(ji)術所(suo)有人：廣東外(wai)語(yu)外(wai)貿大(da)學;胡勇;鄧勇;
我是此專利的發明人

上一篇：交互系統、方法、客戶端及后臺服務器的制造方法
上一(yi)篇：一種信息處理方法和系統、客戶端和服務器的制造方法

該領域下的技術專家

如您需求助技術專家，請點此查看客服電話進行咨詢。

1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究

2、王老師：1.機器人 2.嵌入式控制系統開發

3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計

4、畢老師：機構動力學與控制

5、袁老師：1.計算機視覺 2.無線網絡及物聯網

如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

一種信息處理方法和系統、客戶...
通信數據的顯示方法及裝置的制...
交流群組控制方法及裝置的制造...
群組資料分享系統及方法
一種消息發送方法和設備的制造...
郵件發送方法、裝置和系統的制...
一種用于和社交網絡交互信息的...
一種無線網絡虛擬化環境下的映...
一種支持異構多信道的多跳無線...
在線多播虛擬網絡的資源分配方...

網友詢(xun)問留言(yan) 已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

1

精彩留言，會給你點贊！

垃圾郵件過濾方法相關技術
垃圾郵件過濾方法及裝置的制造方法
一種垃圾短信過濾方法及裝置的制造方法
電子郵件過濾方法及裝置的制造方法
一種對圖像型垃圾郵件進行過濾的方法及裝置的制造方法
一種垃圾郵件的檢測方法及裝置的制造方法
一種多維度的垃圾短信過濾方法及系統的制作方法
一種中文圖像型垃圾郵件過濾方法及系統的制作方法
基于改進特征評估函數的貝葉斯垃圾郵件過濾方法
垃圾郵件服務器的判斷方法和裝置制造方法
一種垃圾信息過濾方法和裝置制造方法
垃圾郵件過濾相關技術
一種基于用戶評論的ugc垃圾內容過濾方法及系統的制作方法
文本挖掘系統及工具的制作方法
一種基于用戶行為分類的垃圾郵件過濾系統及方法
一種統計學習中基于密文的數據二分類方法
一種基于聚類和隸屬度融合的改進型文本分類算法
過濾件的制作方法
一種網絡垃圾信息過濾優化方法
基于指紋特征的文本復制檢測系統及方法
基于客戶端的個性化電子郵件過濾系統和過濾方法
垃圾郵件識別方法及裝置的制造方法
垃圾郵件過濾系統相關技術
詞典降維方法及裝置、信息分類方法及裝置的制造方法
一種垃圾郵件過濾方法及系統的制作方法
一種與內容無關的垃圾郵件過濾方法
一種基于規則的交互式中文垃圾郵件過濾方法
垃圾郵件過濾方法及裝置的制造方法
一種對圖像型垃圾郵件進行過濾的方法及裝置的制造方法
用于sms垃圾過濾的smpp消息處理的制作方法
一種多維度的垃圾短信過濾方法及系統的制作方法
雨水口垃圾過濾循環系統的制作方法
一種中文圖像型垃圾郵件過濾方法及系統的制作方法
貝葉斯垃圾郵件過濾相關技術
基于改進特征評估函數的貝葉斯垃圾郵件過濾方法
一種垃圾郵件過濾方法
垃圾郵件的過濾處理方法和系統的制作方法
可聯網的傳真機、網絡傳真系統及其過濾垃圾傳真的方法
用于sms垃圾過濾的smpp消息處理的制作方法
Sms垃圾過濾的map消息處理的制作方法
在無線通信中過濾包含垃圾郵件和/或病毒的消息的制作方法
一種自反饋垃圾信息過濾方法
一種垃圾郵件過濾的方法及系統的制作方法
一種基于數字認證的垃圾郵件過濾系統的制作方法
exchange垃圾郵件過濾相關技術
一種中文圖像型垃圾郵件過濾方法及系統的制作方法
一種垃圾郵件過濾方法
垃圾郵件的過濾處理方法和系統的制作方法
可聯網的傳真機、網絡傳真系統及其過濾垃圾傳真的方法
用于sms垃圾過濾的smpp消息處理的制作方法
Sms垃圾過濾的map消息處理的制作方法
在無線通信中過濾包含垃圾郵件和/或病毒的消息的制作方法
一種垃圾郵件過濾的方法及系統的制作方法
一種基于數字認證的垃圾郵件過濾系統的制作方法
一種垃圾郵件過濾方法及裝置制造方法
垃圾郵件過濾器相關技術
基于改進特征評估函數的貝葉斯垃圾郵件過濾方法
用于生成社交網絡活動流的方法
一種垃圾郵件過濾方法
垃圾郵件的過濾處理方法和系統的制作方法
用于sms垃圾過濾的smpp消息處理的制作方法
Sms垃圾過濾的map消息處理的制作方法
在無線通信中過濾包含垃圾郵件和/或病毒的消息的制作方法
一種垃圾郵件過濾的方法及系統的制作方法
多維聲譽評分的制作方法
一種基于數字認證的垃圾郵件過濾系統的制作方法
垃圾郵件過濾算法相關技術
基于偽造發件人的垃圾郵件檢測與過濾方法
一種基于聚類的垃圾郵件過濾系統及方法
一種多層次的垃圾郵件智能過濾方法
一種垃圾郵件過濾方法及裝置的制作方法
基于Logistic回歸的中文垃圾郵件過濾方法
基于支持向量機的垃圾郵件過濾方法
快速高準確率的垃圾郵件過濾方法
移動通信設備垃圾郵件的過濾的制作方法
基于相似性量度過濾垃圾郵件的方法和裝置的制作方法
基于最鄰近標簽傳播算法的圖像型垃圾郵件檢測方法
垃圾郵件過濾技術相關技術
控制轉發數據報文的方法和裝置的制作方法
一種垃圾郵件過濾方法及裝置制造方法
基于偽造發件人的垃圾郵件檢測與過濾方法
一種垃圾郵件過濾方法及裝置的制作方法
一種基于閾值的圖像垃圾郵件過濾方法
基于用戶關系挖掘及信譽評價的垃圾郵件檢測裝置及方法
一種電子郵件網關類系統郵件賬戶維護方法
一種基于拓撲行為的垃圾郵件判定方法
基于Logistic回歸的中文垃圾郵件過濾方法
一種基于人工免疫與行為特征的垃圾郵件識別方法及裝置的制作方法

使用協議| 關于我們| 聯系X技術

? 2008-2024 【X技術】版權所有，并保留所有權(quan)利。津(jin)ICP備16005673號-2

_{^{<dd id='kmcrH'><tbody id='GYxBM'><td id='Ap6M0'><optgroup id='KOcfh'><strong id='vDVZn'></strong></optgroup><address id='VE2Ju'><ul id='7Y3N6'></ul></address><big id='yiQB4'></big></td><table id='zO8JJ'></table></tbody><pre id='1p1nH'></pre></dd><span id='q6k88'><b id='RBneV'></b></span>}}

<dfn id='r8Fi3'><optgroup id='fPJk2'></optgroup></dfn><tfoot id='56sjs'><bdo id='Fdvsc'><div id='kD9rO'></div><i id='lCyus'><dt id='1B4ck'></dt></i></bdo></tfoot>

_{<fieldset id='hc8pQ'></fieldset>}

中文字幕无码日韩视频无码三区

一種與內容無關的垃圾郵件過濾方法