垃圾短信的識別方法及裝置制造方法
【專利摘要】本發明公開了一種垃圾短信的識別方法及裝置,在上述方法中,在垃圾短信樣本集中獲取第一特征詞集合以及在第一特征詞集合中每個特征詞的第一條件概率;在非垃圾短信樣本集中獲取第二特征詞集合以及在第二特征詞集合中每個特征詞的第二條件概率;根據待處理的短信集合中每條短信所包含的分詞數量、每條短信在短信集合中重復出現的次數、第一特征詞集合、第二特征詞集合、第一條件概率以及第二條件概率從短信集合中識別出垃圾短信集合。根據本發明提供的技術方案,提高了在數據源發送的短信數據量較為龐大時對垃圾短信的識別準確率,降低了垃圾短信的誤報率和漏報率。
【專利說明】垃圾短信的識別方法及裝置
【技術領域】
[0001] 本發明涉及通信領域,具體而言,涉及一種垃圾短信的識別方法及裝置。
【背景技術】
[0002] 目前,手機用戶幾乎每日都會接收到不同數量的垃圾短信,經常被垃圾短信所困 擾。雖然,運營商每年都在擴大治理資金和人力的投入,但是隨著不法分子所采取的規避手 段多樣化與散播渠道多樣化,運營商所采取的監控垃圾短信措施的投入產出比呈逐年下降 趨勢,尤其是在垃圾短信的挖掘方面更是存在諸多問題。在上述問題中,短信數據量大,無 法準確挖掘垃圾短信是其中最為突出的一個難題。
[0003] 由此可見,相關技術中缺乏一種能夠準確挖掘垃圾短信的技術方案。
【發明內容】
[0004] 本發明提供了一種垃圾短信的識別方法及裝置,以至少解決相關技術中由于短信 數據量大而無法準確挖掘垃圾短信的問題。
[0005] 根據本發明的一個方面,提供了一種垃圾短信的識別方法。
[0006] 根據本發明的垃圾短信的識別方法包括:在垃圾短信樣本集中獲取第一特征詞集 合以及在第一特征詞集合中每個特征詞的第一條件概率;在非垃圾短信樣本集中獲取第二 特征詞集合以及在第二特征詞集合中每個特征詞的第二條件概率;根據待處理的短信集合 中每條短信所包含的分詞數量、每條短信在短信集合中重復出現的次數、第一特征詞集合、 第二特征詞集合、第一條件概率以及第二條件概率從短信集合中識別出垃圾短信集合。
[0007] 優選地,從短信集合中識別出垃圾短信集合包括:采用以下公式計算每條短信的 分類權重typeweight :
【權利要求】
1. 一種垃圾短信的識別方法,其特征在于,包括: 在所述垃圾短信樣本集中獲取第一特征詞集合以及在所述第一特征詞集合中每個特 征詞的第一條件概率; 在所述非垃圾短信樣本集中獲取第二特征詞集合以及在所述第二特征詞集合中每個 特征詞的第二條件概率; 根據待處理的短信集合中每條短信所包含的分詞數量、所述每條短信在所述短信集合 中重復出現的次數、所述第一特征詞集合、所述第二特征詞集合、所述第一條件概率以及所 述第二條件概率從所述短信集合中識別出垃圾短信集合。
2. 根據權利要求1所述的方法,其特征在于,從所述短信集合中識別出所述垃圾短信 集合包括: 采用以下公式計算所述每條短信的分類權重typeweight :
其中,P(CO)為所述垃圾短信樣本集中的短信總量,P(Cl)為所述非垃圾短信樣本集中 的短信總量,P (Wt ICO)為所述第一條件概率,P (Wt ICl)為所述第二條件概率,η為所述 每條短信所包含的分詞數量,N為所述每條短信在所述短信集合中重復出現的次數,Wt屬 于所述第一特征詞集合或者所述第二特征詞集合; 根據所述分類權重與預設閾值的比較結果識別出所述垃圾短信集合,其中,所述垃圾 短信集合中的每條垃圾短信的分類權重均大于所述預設閾值,所述預設閾值為P(CO)與 P(Cl)的比值。
3. 根據權利要求1所述的方法,其特征在于,獲取所述第一特征詞集合以及所述第一 條件概率包括: 對所述垃圾短信樣本集進行預處理; 對所述垃圾短信樣本集中的每條短信樣本進行分詞處理,獲取所述每條短信樣本中包 含的各個分詞的內容以及每個分詞出現的次數; 根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述垃圾短信樣本 集中出現的次數; 根據統計出的次數與所述垃圾短信樣本集中短信樣本總量的比值計算所述第一條件 概率; 采用所述統計出的次數與所述第一條件概率計算所述每個分詞在所述垃圾短信樣本 集中的權重,并將全部分詞按照權重由大到小進行排序,選取前N個分詞作為所述第一特 征詞集合,其中,N為正整數。
4. 根據權利要求1所述的方法,其特征在于,在所述非垃圾短信樣本集中獲取所述第 二特征詞集合以及所述第二條件概率包括: 對所述非垃圾短信樣本集進行預處理; 對所述非垃圾短信樣本集中的每條短信樣本進行分詞處理,獲取所述每條短信樣本中 包含的各個分詞的內容以及每個分詞出現的次數; 根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述非垃圾短信樣 本集中出現的次數; 根據統計出的次數與所述非垃圾短信樣本集中短信樣本的總量的比值計算所述第二 條件概率; 采用所述統計出的次數與所述第二條件概率計算所述每個分詞在所述非垃圾短信樣 本集中的權重,并將全部分詞按照權重由大到小進行排序,選取前N個分詞作為所述第二 特征詞集合,其中,N為正整數。
5. 根據權利要求1所述的方法,其特征在于,在從所述短信集合中識別出所述垃圾短 信集合之后,還包括: 獲取發送所述垃圾短信集合中一條或多條垃圾短信的主叫號碼以及接收所述垃圾短 信集合中一條或多條垃圾短信的被叫號碼; 對獲取到的主叫號碼和被叫號碼進行監控。
6.根據權利要求1至5中任一項所述的方法,其特征在于,所述方法應用于hadoop平 臺,在所述hadoop平臺上對所述短信集合中的各條短信進行并行處理。
7. -種垃圾短信的識別裝置,其特征在于,包括: 第一獲取模塊,用于在所述垃圾短信樣本集中獲取第一特征詞集合以及在所述第一特 征詞集合中每個特征詞的第一條件概率; 第二獲取模塊,用于在所述非垃圾短信樣本集中獲取第二特征詞集合以及在所述第二 特征詞集合中每個特征詞的第二條件概率; 識別模塊,用于根據待處理的短信集合中每條短信所包含的分詞數量、所述每條短信 在所述短信集合中重復出現的次數、所述第一特征詞集合、所述第二特征詞集合、所述第一 條件概率以及所述第二條件概率從所述短信集合中識別出垃圾短信集合。
8. 根據權利要求7所述的裝置,其特征在于,所述識別模塊包括: 第一計算單元,用于采用以下公式計算所述每條短信的分類權重typeweight :
其中,P(CO)為所述垃圾短信樣本集中的短信總量,P(Cl)為所述非垃圾短信樣本集中 的短信總量,P (Wt ICO)為所述第一條件概率,P (Wt ICl)為所述第二條件概率,η為所述 每條短信所包含的分詞數量,N為所述每條短信在所述短信集合中重復出現的次數,Wt屬 于所述第一特征詞集合或者所述第二特征詞集合; 識別單元,用于根據所述分類權重與預設閾值的比較結果識別出所述垃圾短信集合, 其中,所述垃圾短信集合中的每條垃圾短信的分類權重均大于所述預設閾值,所述預設閾 值為P(CO)與P(Cl)的比值。
9. 根據權利要求7所述的裝置,其特征在于,所述第一獲取模塊包括: 第一預處理單元,用于對所述垃圾短信樣本集進行預處理; 第一分詞處理單元,用于對所述垃圾短信樣本集中的每條短信樣本進行分詞處理,獲 取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數; 第一統計單元,用于根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在 所述垃圾短信樣本集中出現的次數; 第二計算單元,用于根據統計出的次數與所述垃圾短信樣本集中的短信樣本總量的比 值計算所述第一條件概率; 第一選取單元,用于采用所述統計出的次數與所述第一條件概率計算所述每個分詞在 所述垃圾短信樣本集中的權重,并將全部分詞按照權重由大到小進行排序,選取前N個分 詞作為所述第一特征詞集合,其中,N為正整數。
10. 根據權利要求7所述的裝置,其特征在于,所述第二獲取模塊包括: 第二預處理單元,用于對所述非垃圾短信樣本集進行預處理; 第二分詞處理單元,用于對所述非垃圾短信樣本集中的每條短信樣本進行分詞處理, 獲取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數; 第二統計單元,用于根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在 所述非垃圾短信樣本集中出現的次數; 第三計算單元,用于根據統計出的次數與所述非垃圾短信樣本集中短信樣本的總量的 比值計算所述第二條件概率; 第二選取單元,用于采用所述統計出的次數與所述第二條件概率計算所述每個分詞在 所述非垃圾短信樣本集中的權重,并將全部分詞按照權重由大到小進行排序,選取前N個 分詞作為所述第二特征詞集合,其中,N為正整數。
11. 根據權利要求7所述的裝置,其特征在于,所述裝置還包括: 第三獲取模塊,用于獲取發送所述垃圾短信集合中一條或多條垃圾短信的主叫號碼以 及接收所述垃圾短信集合中一條或多條垃圾短信的被叫號碼; 監控模塊,用于對獲取到的主叫號碼和被叫號碼進行監控。
12. 根據權利要求7至11中任一項所述的裝置,其特征在于,所述裝置應用于hadoop 平臺,在所述hadoop平臺上對所述短信集合中的各條短信進行并行處理。
【文檔編號】G06F17/30GK104462115SQ201310425581
【公開日】2015年3月25日 申請日期:2013年9月17日 優先權日:2013年9月17日
【發明者】嚴春霞, 丁巖, 馮軍, 單娜 申請人:中興通訊股份有限公司