垃圾短信的識別方法及裝置制造方法

文檔序號：6512086閱讀：453來源：國知局

垃圾短信的識別方法及裝置制造方法
【專利摘要】本發明公開了一種垃圾短信的識別方法及裝置，在上述方法中，在垃圾短信樣本集中獲取第一特征詞集合以及在第一特征詞集合中每個特征詞的第一條件概率；在非垃圾短信樣本集中獲取第二特征詞集合以及在第二特征詞集合中每個特征詞的第二條件概率；根據待處理的短信集合中每條短信所包含的分詞數量、每條短信在短信集合中重復出現的次數、第一特征詞集合、第二特征詞集合、第一條件概率以及第二條件概率從短信集合中識別出垃圾短信集合。根據本發明提供的技術方案，提高了在數據源發送的短信數據量較為龐大時對垃圾短信的識別準確率，降低了垃圾短信的誤報率和漏報率。
【專利說明】垃圾短信的識別方法及裝置

【技術領域】
[0001] 本發明涉及通信領域，具體而言，涉及一種垃圾短信的識別方法及裝置。

【背景技術】
[0002] 目前，手機用戶幾乎每日都會接收到不同數量的垃圾短信，經常被垃圾短信所困擾。雖然，運營商每年都在擴大治理資金和人力的投入，但是隨著不法分子所采取的規避手段多樣化與散播渠道多樣化，運營商所采取的監控垃圾短信措施的投入產出比呈逐年下降趨勢，尤其是在垃圾短信的挖掘方面更是存在諸多問題。在上述問題中，短信數據量大，無法準確挖掘垃圾短信是其中最為突出的一個難題。
[0003] 由此可見，相關技術中缺乏一種能夠準確挖掘垃圾短信的技術方案。

【發明內容】

[0004] 本發明提供了一種垃圾短信的識別方法及裝置，以至少解決相關技術中由于短信數據量大而無法準確挖掘垃圾短信的問題。
[0005] 根據本發明的一個方面，提供了一種垃圾短信的識別方法。
[0006] 根據本發明的垃圾短信的識別方法包括：在垃圾短信樣本集中獲取第一特征詞集合以及在第一特征詞集合中每個特征詞的第一條件概率；在非垃圾短信樣本集中獲取第二特征詞集合以及在第二特征詞集合中每個特征詞的第二條件概率；根據待處理的短信集合中每條短信所包含的分詞數量、每條短信在短信集合中重復出現的次數、第一特征詞集合、第二特征詞集合、第一條件概率以及第二條件概率從短信集合中識別出垃圾短信集合。
[0007] 優選地，從短信集合中識別出垃圾短信集合包括：采用以下公式計算每條短信的分類權重typeweight :

【權利要求】
1. 一種垃圾短信的識別方法，其特征在于，包括：在所述垃圾短信樣本集中獲取第一特征詞集合以及在所述第一特征詞集合中每個特征詞的第一條件概率；在所述非垃圾短信樣本集中獲取第二特征詞集合以及在所述第二特征詞集合中每個特征詞的第二條件概率；根據待處理的短信集合中每條短信所包含的分詞數量、所述每條短信在所述短信集合中重復出現的次數、所述第一特征詞集合、所述第二特征詞集合、所述第一條件概率以及所述第二條件概率從所述短信集合中識別出垃圾短信集合。
2. 根據權利要求1所述的方法，其特征在于，從所述短信集合中識別出所述垃圾短信集合包括：采用以下公式計算所述每條短信的分類權重typeweight :
其中，P(CO)為所述垃圾短信樣本集中的短信總量，P(Cl)為所述非垃圾短信樣本集中的短信總量，P (Wt ICO)為所述第一條件概率，P (Wt ICl)為所述第二條件概率，η為所述每條短信所包含的分詞數量，N為所述每條短信在所述短信集合中重復出現的次數，Wt屬于所述第一特征詞集合或者所述第二特征詞集合；根據所述分類權重與預設閾值的比較結果識別出所述垃圾短信集合，其中，所述垃圾短信集合中的每條垃圾短信的分類權重均大于所述預設閾值，所述預設閾值為P(CO)與 P(Cl)的比值。
3. 根據權利要求1所述的方法，其特征在于，獲取所述第一特征詞集合以及所述第一條件概率包括：對所述垃圾短信樣本集進行預處理；對所述垃圾短信樣本集中的每條短信樣本進行分詞處理，獲取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數；根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述垃圾短信樣本集中出現的次數；根據統計出的次數與所述垃圾短信樣本集中短信樣本總量的比值計算所述第一條件概率；采用所述統計出的次數與所述第一條件概率計算所述每個分詞在所述垃圾短信樣本集中的權重，并將全部分詞按照權重由大到小進行排序，選取前N個分詞作為所述第一特征詞集合，其中，N為正整數。
4. 根據權利要求1所述的方法，其特征在于，在所述非垃圾短信樣本集中獲取所述第二特征詞集合以及所述第二條件概率包括：對所述非垃圾短信樣本集進行預處理；對所述非垃圾短信樣本集中的每條短信樣本進行分詞處理，獲取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數；根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述非垃圾短信樣本集中出現的次數；根據統計出的次數與所述非垃圾短信樣本集中短信樣本的總量的比值計算所述第二條件概率；采用所述統計出的次數與所述第二條件概率計算所述每個分詞在所述非垃圾短信樣本集中的權重，并將全部分詞按照權重由大到小進行排序，選取前N個分詞作為所述第二特征詞集合，其中，N為正整數。
5. 根據權利要求1所述的方法，其特征在于，在從所述短信集合中識別出所述垃圾短信集合之后，還包括：獲取發送所述垃圾短信集合中一條或多條垃圾短信的主叫號碼以及接收所述垃圾短信集合中一條或多條垃圾短信的被叫號碼；對獲取到的主叫號碼和被叫號碼進行監控。
6.根據權利要求1至5中任一項所述的方法，其特征在于，所述方法應用于hadoop平臺，在所述hadoop平臺上對所述短信集合中的各條短信進行并行處理。
7. -種垃圾短信的識別裝置，其特征在于，包括：第一獲取模塊，用于在所述垃圾短信樣本集中獲取第一特征詞集合以及在所述第一特征詞集合中每個特征詞的第一條件概率；第二獲取模塊，用于在所述非垃圾短信樣本集中獲取第二特征詞集合以及在所述第二特征詞集合中每個特征詞的第二條件概率；識別模塊，用于根據待處理的短信集合中每條短信所包含的分詞數量、所述每條短信在所述短信集合中重復出現的次數、所述第一特征詞集合、所述第二特征詞集合、所述第一條件概率以及所述第二條件概率從所述短信集合中識別出垃圾短信集合。
8. 根據權利要求7所述的裝置，其特征在于，所述識別模塊包括：第一計算單元，用于采用以下公式計算所述每條短信的分類權重typeweight :
其中，P(CO)為所述垃圾短信樣本集中的短信總量，P(Cl)為所述非垃圾短信樣本集中的短信總量，P (Wt ICO)為所述第一條件概率，P (Wt ICl)為所述第二條件概率，η為所述每條短信所包含的分詞數量，N為所述每條短信在所述短信集合中重復出現的次數，Wt屬于所述第一特征詞集合或者所述第二特征詞集合；識別單元，用于根據所述分類權重與預設閾值的比較結果識別出所述垃圾短信集合，其中，所述垃圾短信集合中的每條垃圾短信的分類權重均大于所述預設閾值，所述預設閾值為P(CO)與P(Cl)的比值。
9. 根據權利要求7所述的裝置，其特征在于，所述第一獲取模塊包括：第一預處理單元，用于對所述垃圾短信樣本集進行預處理；第一分詞處理單元，用于對所述垃圾短信樣本集中的每條短信樣本進行分詞處理，獲取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數；第一統計單元，用于根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述垃圾短信樣本集中出現的次數；第二計算單元，用于根據統計出的次數與所述垃圾短信樣本集中的短信樣本總量的比值計算所述第一條件概率；第一選取單元，用于采用所述統計出的次數與所述第一條件概率計算所述每個分詞在所述垃圾短信樣本集中的權重，并將全部分詞按照權重由大到小進行排序，選取前N個分詞作為所述第一特征詞集合，其中，N為正整數。
10. 根據權利要求7所述的裝置，其特征在于，所述第二獲取模塊包括：第二預處理單元，用于對所述非垃圾短信樣本集進行預處理；第二分詞處理單元，用于對所述非垃圾短信樣本集中的每條短信樣本進行分詞處理，獲取所述每條短信樣本中包含的各個分詞的內容以及每個分詞出現的次數；第二統計單元，用于根據在所述每條短信樣本中每個分詞出現的次數統計每個分詞在所述非垃圾短信樣本集中出現的次數；第三計算單元，用于根據統計出的次數與所述非垃圾短信樣本集中短信樣本的總量的比值計算所述第二條件概率；第二選取單元，用于采用所述統計出的次數與所述第二條件概率計算所述每個分詞在所述非垃圾短信樣本集中的權重，并將全部分詞按照權重由大到小進行排序，選取前N個分詞作為所述第二特征詞集合，其中，N為正整數。
11. 根據權利要求7所述的裝置，其特征在于，所述裝置還包括：第三獲取模塊，用于獲取發送所述垃圾短信集合中一條或多條垃圾短信的主叫號碼以及接收所述垃圾短信集合中一條或多條垃圾短信的被叫號碼；監控模塊，用于對獲取到的主叫號碼和被叫號碼進行監控。
12. 根據權利要求7至11中任一項所述的裝置，其特征在于，所述裝置應用于hadoop 平臺，在所述hadoop平臺上對所述短信集合中的各條短信進行并行處理。
【文檔編號】G06F17/30GK104462115SQ201310425581
【公開日】2015年3月25日申請日期:2013年9月17日優先權日:2013年9月17日
【發明者】嚴春霞, 丁巖, 馮軍, 單娜申請人:中興通訊股份有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：嚴春霞;丁巖;馮軍;單娜;
技術所有人：中興通訊股份有限公司;
我是此專利的發明人

上一篇：觸控式屏幕保護鏡及電子裝置制造方法
上一篇：像素結構及觸摸顯示器的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕无码日韩视频无码三区

垃圾短信的識別方法及裝置制造方法