垃圾郵件過濾方法及裝置的制造方法
【技術領域】
[0001]本發明實施例屬于信息過濾領域,尤其涉及一種垃圾郵件過濾方法及裝置。
【背景技術】
[0002]文本聚類是將語義相近的文本聚在一起,傳統的數據挖掘方法在處理文本數據之前,首先必須把文本表示成計算機能夠處理的、可體現文本本質特征的形式,然后用詞頻逆向文件頻率(Term Frequency Inverse Document Frequency,TFIDF)將文檔轉化為向量形式,最后在向量空間模型中通過文本聚類方法計算文本相似度。在基于TFIDF的向量空間模型中,由于沒有考慮詞之間存在的概念相似情況,因此影響了數據聚類的準確性。并且,現有方法也難以識別出垃圾郵件發送者在郵件內容中融入的正常郵件信息或者關鍵詞語,從而難以準確過濾出垃圾郵件。
【發明內容】
[0003]本發明實施例提供了一種垃圾郵件過濾方法及裝置,旨在解決現有方法難以準確過濾出垃圾郵件的問題。
[0004]本發明實施例是這樣實現的,一種垃圾郵件過濾方法,所述方法包括:
[0005]接收到新郵件后,獲取所述新郵件的郵件內容;
[0006]將獲取的郵件內容處理為預設類別的字符串;
[0007]根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度;
[0008]根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
[0009]本發明實施例的另一目的在于提供一種垃圾郵件過濾裝置,所述裝置包括:
[0010]郵件內容獲取單元,用于接收到新郵件后,獲取所述新郵件的郵件內容;
[0011]郵件內容預處理單元,用于將獲取的郵件內容處理為預設類別的字符串;
[0012]文本相似度確定單元,用于根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度;
[0013]垃圾郵件判斷單元,用于根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
[0014]在本發明實施例中,由于將獲取的郵件內容處理為預設類別的字符串,因此縮短了郵件內容的長度,減少了郵件內容的比較次數,從而提高了過濾郵件的速度。并且,由于保留了完整的郵件內容,因此保證了聚類指令,從而提高了過濾垃圾郵件的準確度。
【附圖說明】
[0015]圖1是本發明第一實施例提供的一種垃圾郵件過濾方法的流程圖;
[0016]圖2是本發明第二實施例提供的一種垃圾郵件過濾裝置的結構圖。
【具體實施方式】
[0017]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
[0018]本發明實施例中,接收到新郵件后,獲取所述新郵件的郵件內容,將獲取的郵件內容處理為預設類別的字符串,根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度,根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
[0019]為了說明本發明所述的技術方案,下面通過具體實施例來進行說明。
[0020]實施例一:
[0021]圖1示出了本發明第一實施例提供的一種垃圾郵件過濾方法的流程圖,詳述如下:
[0022]步驟S11,接收到新郵件后,獲取所述新郵件的郵件內容。
[0023]該步驟中,當接收到一個新郵件時,解碼該新郵件,使之成為正常的文本內容,再從解碼后的新郵件中獲取該新郵件的郵件內容,該郵件內容包括正文、關鍵字和附件等。
[0024]步驟S12,將獲取的郵件內容處理為預設類別的字符串。
[0025]其中,預設類別的字符串包括中文字符、英文字符串和其他字符的字符串。需要指出的是,當郵件內容包括數字時,該數字劃分為“英文字符串” 一類。
[0026]該步驟中,假設郵件內容為“Θ復:55如有打擾請見諒! 2”,則該郵件內容經過處理后變為:“Θ,,、“復,,、“:”、“55”、“如”、“有”、“打”、“擾”、“請”、“見”、“諒”、“! ”、“2””,其中,“Θ”、“: ”、“! ”劃分為“其他字符”這一類,“復”、“如”、“有”、“打”、“擾”、“請”、“見”、“諒”劃分為“中文字符”這一類,“55”、“2”劃分為“英文字符”這一類。
[0027]步驟S13,根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度。
[0028]其中,預設的空格懲罰值為負數,其具體數值根據需要進行設定,可以設定為-1,-2等,當然,也可以設定為其他數值,此處不作限定。
[0029]其中,初始簇中心的數據包括字符串及長度,具體地,所述根據預設的空格懲罰值、字符相似度值及預設的初始簇中心的數據確定所述郵件內容與所述預設初始簇中心的文本相似度包括:
[0030]Α1、根據預設的空格懲罰值及字符相似度值確定處理得到的字符串與預設的初始簇中心的字符串的最高得分。具體地,All、根據下式初始化回溯矩陣的第一行和第一列:F0iJ= dX j,其中,d為預設的空格懲罰值,0彡j彡(郵件內容的長度-1),或者,0彡j彡(預設的初始簇中心的長度-1) ;Fli0= dXi,其中,0彡i彡(郵件內容的長度-1),或者,Ο^?^Ξ (預設的初始簇中心的長度-1)。需要指出的是,如果j小于(預設的初始簇中心的長度-1),則i小于(郵件內容的長度-1)。這里預設的初始簇中心的字符串為人工選取的作為垃圾郵件的字符串。A12、根據下式確定回溯矩陣的其他行列:F^=^si
i+d, Fx ^+山’其中—址⑴,Pj)為1\與P」的字符相似度值,并將最大的F “ s作為處理得到的字符串與預設的初始簇中心的字符串的最高得分。需要指出的是,^與^為可能屬于同一類別的字符,也可能屬于不同類別的字符,當!\與P ]為都屬于同一類別的字符,若兩者匹配,則可定義sirnd P,)為1 (或者為大于0的其他數值),若兩者不匹配,則可定義simd Pj)為0(或者為小于0的其他數值)。當然,當1\與P j分別屬于不同類別的字符時,兩者肯定不匹配。在該步驟中,最大的Fy為回溯矩陣最右下角單元格的值,為了節省工作量,可在計算出回溯矩陣最右下角單元格的值時,直接將該值作為處理得到的字符串與預設的初始簇中心的字符串的最高得分。
[0031]A2、根據確定的最高得分、郵件內容的長度、預設的初始簇中心的長度計算所述郵件內容和預設的初始簇中心的文本相似度。具體地,A21、確定郵件內容的長度和預設的初始簇中心的長度中的較大值;A22、根據確定的最高得分和確定的較大值計算所述郵件內容和預設的初始簇中心的文本相似度。具體地,當定義!\與P.j匹配時,sim(T Pj)為1,兩者不匹配,sim^P,)為0,則根據下式計算所述郵件內容和預設的初始簇中心的文本相似度:S頂=確定的最高得分/確定的較大值,以歸一化郵件內容和預設的初始簇中心的文本相似度(即S頂),使該S頂的值在[0,1]之間,當S頂越接近1,表明郵件內容和預設的初始簇中心越相似,否則,表明郵件內容和預設的初始簇中心越不相似。當然,當定義^與!3 j匹配時,simO^Pj)為非1的數值,則確定該simO^Pj)與1的倍數,假設為“M”,則S頂=確定的最高得分/(M*確定的較大值),以保證該S頂的值在[0,1]之間。
[0032]步驟S14,根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件。
[0033]具體地,所述根據確定的文本相似度與預設的閾值判斷所述新郵件是否為垃圾郵件,以根據判斷結果判斷是否過濾所述新郵件,包括:
[0034]B1、判斷確定的文本相似度是否大于預設的閾值。假設預設的閾值為M,則判斷S頂是否大于M。
[0035]B2、在確定的文本相似度大于預設的閾值時,判定所述新郵件為垃圾郵件,并過濾所述新郵件。具體地,過濾新郵件是指拒絕該新郵件存放在“收件箱”里,可以直接刪掉該新郵件,也可以將該新郵件存放在垃圾郵件的文件夾,以使得郵件被錯判時,用戶也還可以瀏覽該郵件,減少用戶損失。
[0036]B3、在確定的文本相似度小于或等于