一種短信的識別方法和設備的制作方法

文檔序號：7718623閱讀：198來源：國知局

專利名稱：一種短信的識別方法和設備的制作方法
技術領域：
本發明涉及移動通信技術領域，特別涉及一種短信的識別方法和設備。
背景技術：
垃圾短信的識別從技術上考慮，需要解決兩個比較核心的問題第一個性化如何使用最少的標注樣本來適應用戶的個性化需求。實際研究發現，人們對垃圾的認知并不一致，有些信息對于某些人來說可能是垃圾，而對于另外一些人來說可能是非垃圾。例如，有人將天氣預報、財經資訊、新聞通報等類別的手機短信視為垃圾，而另一些人卻迫切需要它們。因此，要根據個人需求設計不同的過濾器，這個就是個性化過濾。第二準確性信息過濾的首要要求就是準確率要高。而傳統的信息過濾方法達到這個目的必須要有足夠多的訓練樣本。《基于樸素貝葉斯和支持向量機的自適應垃圾短信過濾系統》(計算機應用，2008 年3月)。該論文設計一種自適應垃圾短信過濾系統，將樸素貝葉斯的快速統計分類及支持向量機(SVM，Support Vector Machine)的增量訓練應用于垃圾短信過濾中，并把分析結果及時反饋給在線過濾子系統，使得系統具有更好的自適應性。其是在特定的時間段內提取短信的特征內容，并將其反饋給在線過濾子系統，增加或更新短信的特征，以達到準確和智能過濾垃圾短信的目的。該過濾系統是在運營商的短信中心服務器(Server)端對垃圾短信進行過濾。當判斷為垃圾短信時，Server端直接將該信息放置到垃圾短信數據庫，手機終端將不能收到 iMin 息。但是，信息是否為垃圾短信，因人而異，因此，一旦信息被判斷為垃圾短信，用戶將不能接收到這條信息。所以，一旦分類器判斷錯誤，用戶將無法挽回損失，這樣的短信過濾存在很高的風險。

發明內容
本發明實施例提供一種短信的識別方法和設備，能夠準確識別垃圾短信，降低垃圾短信識別錯誤的風險。本發明實施例提供一種短信的識別方法，包括接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。本發明實施例還提供另一種短信的識別方法，包括接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先驗概率得到第三聯合分布概率；由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分布概率；判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時，識別所述短信為垃圾短信，反之為正常短信。本發明實施例還提供一種短信的識別設備，包括接收單元，用于接收服務器發送的短信和所述短信的概率特征向量；第一和第二聯合分布概率獲得單元，用于根據所述接收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；第一識別單元，用于判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。本發明實施例還提供另一種短信的識別設備，包括接收單元，用于接收服務器發送的短信和所述短信的概率特征向量；第一和第二聯合分布概率獲得單元，用于根據所述接收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；第三和第四聯合分布概率獲得單元，用于利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先驗概率得到第三聯合分布概率；由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分布概率；第二識別單元，用于判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時，識別所述短信為垃圾短信，反之為正常短信。以上技術方案，服務器將短信和短信的概率特征向量均發給終端，終端根據短信的概率特征向量或根據概率特征向量和短信的文字特征向量的組合進行計算，從而判斷出該短信是否為垃圾短信。該方案是由服務器和終端聯合判斷，因此判斷精度更高。服務器將短信和概率特征向量或概率特征向量和文字特征向量均發送給終端，因此，一旦終端將正常短信誤判為垃圾短信，用戶仍可以從垃圾箱中找回該短信，這樣更進一步降低了垃圾短信識別錯誤的風險。同時，概率特征向量由服務器計算得到，之后發給終端，因此降低了對終端的計算能力要求。

圖1是本發明短信識別方法實施例一流程圖；圖2是本發明短信識別方法實施例二流程圖；圖3是本發明短信識別方法實施例三流程圖；圖4是本發明短信識別方法實施例四流程圖5是本發明短信識別方法與現有技術的對比曲線圖；圖6是本發明短信識別設備實施例一結構圖；圖7是本發明短信識別設備實施例二結構圖；圖8是本發明短信識別設備實施例三結構圖；圖9是本發明短信識別設備實施例四結構圖；圖10是本發明短信識別系統實施例一結構圖。
具體實施例方式首先對本發明實施例一種短信的識別方法進行說明，包括接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。需要說明的是，為了敘述方便，下面實施例中的終端以手機為例進行介紹。方法實施例一參見圖1，該圖為本發明方法實施例一流程圖。SlOl 手機接收服務器發送的短信和所述短信的概率特征向量。短信的概率特征向量是由服務器計算得到的，為了使本領域技術人員更好地理解和實施本發明，下面詳細介紹概率特征向量的計算方法。首先介紹服務器端預先進行的訓練過程。由已標注的短信集統計各類別的原始短信模型。原始短信模型是指一種類別短信在詞特征空間的詞頻分布向量，用(NkU1)，...， Nk (、)，. . .，Nk(tn)),0彡i彡η.表示。其中η是指一個詞表中所有詞的個數，k為第k類別。Nk(、)是指詞頻，即詞出現的次數。一條訓練短信可以表示為((t' 1;...，t' i，...，t' ^，(^.，其中^ i是短信中第i個詞，Ck是指該短信實際屬于第k類別，m是指短信中詞的個數。當一條訓練短信來臨時，首先提取出其實屬類別Ck，然后找到類別k的原始短信模型(NJt1), ···，Nk (、)，...，隊(、))，0< i ^ η.
i，原始短信模型中對應的詞頻特征Nk(t' J加1。 ..，Pai |Ck)，. . .，P(tn|Ck))，0 彡 i 彡 η.，由已經得到，Nk Ui)，. .，Nk(tn)),0 ^n.對每個詞特征按照公
(1)
其中，Σ表示連加。則可以得到各類別的短信模型(Pa1Ick)，...，PaiIck)，...，P(tn|ck))， 0 ^ i ^ η.為了更好地理解服務器的訓練過程，下面結合具體例子進行說明。各類別短信模對該訓練短信的每個詞t ‘短信模型是指(Pa1Ick), 各類別的原始短信模型(NkU1)，.. 式⑴進行計算
權利要求
1.一種短信識別方法，其特征在于，包括以下步驟接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。
2.根據權利要求1所述的短信識別方法，其特征在于，所述概率特征向量的計算具體為根據訓練得到的各類別的短信模型計算所述短信在各類別短信下的概率特征向量(PO;ιd)，P(C2Id), ...，P(CkId)),其中d表示所述短信，Ck表示短信類別，k表示第k個類別；其中，P(Ck\d)^P(Ck)f\P(t,\Ck), (Q是指各類別短信的概率;PitlC)-聊+ 1tMa) + ^是指所述短信的短信模型，Nk (ti)是指所述短信中的詞、的詞頻，η /=1表示所述短信中的詞的個數。
3.根據權利要求2所述的短信識別方法，其特征在于，所述第一生成概率P(a I正常短信)的計算具體為P(a|正常短信)=Π尸丨正常短信)；其中，a = (al, a2，...，ak)=1(P(C1Id),P(C2Id),...,P(Cjd)) ;P 丨正常短信)其中 N(ti)表示訓練i樣本中^在W，1]的10個區間的某個區間內的樣本數。
4.根據權利要求1所述的短信識別方法，其特征在于，還包括將所述短信的識別結果呈現給用戶；接收用戶針對所述識別結果反饋的判斷結果，其中，所述判斷結果為所述短信為正常短信或垃圾短信；根據所述用戶的反饋更新正常短信模型或垃圾短信模型。
5.一種短信識別方法，其特征在于，包括以下步驟接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先驗概率得到第三聯合分布概率；由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分布概率；判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時，識別所述短信為垃圾短信，反之為正常短信。
6.根據權利要求5所述的短信識別方法，其特征在于，利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率P' (d|正常短信)和垃圾短信模型下所述短信的第四生成概率P' (d|垃圾短信)具體為
7.一種短信識別設備，其特征在于，包括接收單元，用于接收服務器發送的短信和所述短信的概率特征向量；第一和第二聯合分布概率獲得單元，用于根據所述接收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；第一識別單元，用于判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。
8.根據權利要求8所述的短信識別設備，其特征在于，所述概率特征向量的計算具體為根據預先訓練得到的各類別的短信模型計算得到的所述短信在各類別下的生成概率的集合(P(C1Id), P(C2Id), ...，P(CkId)),其中d表示所述短信，Ck表示短信類別，
9.根據權利要求9所述的短信識別方法，其特征在于，所述第一生成概率P(a I正常短信)的計算具體為
10.一種短信識別設備，其特征在于，包括接收單元，用于接收服務器發送的短信和所述短信的概率特征向量；第一和第二聯合分布概率獲得單元，用于根據所述接收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；第三和第四聯合分布概率獲得單元，用于利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率；由所述第三生成概率和所述正常短信先驗概率得到第三聯合分布概率；由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分布概率；第二識別單元，用于判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時，識別所述短信為垃圾短信,反之為正常短信。
11.根據權利要求11所述的短信設別設備，其特征在于，利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率P' (d|正常短信)和垃圾短信模型下所述短信的第四生成概率P' (d|垃圾短信)具體為
全文摘要
本發明提供一種短信的識別方法和設備。其中方法包括接收服務器發送的短信和所述短信的概率特征向量；利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率；由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率，由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率；判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時，識別所述短信為正常短信，反之為垃圾短信。一旦終端將正常短信誤判為垃圾短信，用戶仍可以從垃圾箱中找回該短信，這樣降低了垃圾短信識別錯誤的風險。概率特征向量由服務器計算得到，之后發給終端，因此降低了對終端的計算能力要求。
文檔編號H04W12/00GK102065387SQ20091022254
公開日2011年5月18日申請日期2009年11月13日優先權日2009年11月13日
發明者劉東鑫, 徐蔚然, 方琦, 王占一申請人:北京郵電大學, 華為技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：徐蔚然;王占一;劉東鑫;方琦
技術所有人：華為技術有限公司;北京郵電大學
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統開發
3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯網
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕无码日韩视频无码三区

一種短信的識別方法和設備的制作方法