中文字幕无码日韩视频无码三区

一種短信的識別方法和設備的制作方法

文檔序號:7718623閱讀:198來源:國知局
專利名稱:一種短信的識別方法和設備的制作方法
技術領域
本發明涉及移動通信技術領域,特別涉及一種短信的識別方法和設備。
背景技術
垃圾短信的識別從技術上考慮,需要解決兩個比較核心的問題第一個性化如何使用最少的標注樣本來適應用戶的個性化需求。實際研究發現,人們對垃圾的認知并不一致,有些信息對于某些人來說可能是垃 圾,而對于另外一些人來說可能是非垃圾。例如,有人將天氣預報、財經資訊、新聞通報等類 別的手機短信視為垃圾,而另一些人卻迫切需要它們。因此,要根據個人需求設計不同的過 濾器,這個就是個性化過濾。第二準確性信息過濾的首要要求就是準確率要高。而傳統的信息過濾方法達到 這個目的必須要有足夠多的訓練樣本。《基于樸素貝葉斯和支持向量機的自適應垃圾短信過濾系統》(計算機應用,2008 年3月)。該論文設計一種自適應垃圾短信過濾系統,將樸素貝葉斯的快速統計分類及支持 向量機(SVM,Support Vector Machine)的增量訓練應用于垃圾短信過濾中,并把分析結果 及時反饋給在線過濾子系統,使得系統具有更好的自適應性。其是在特定的時間段內提取 短信的特征內容,并將其反饋給在線過濾子系統,增加或更新短信的特征,以達到準確和智 能過濾垃圾短信的目的。該過濾系統是在運營商的短信中心服務器(Server)端對垃圾短信進行過濾。當 判斷為垃圾短信時,Server端直接將該信息放置到垃圾短信數據庫,手機終端將不能收到 iMin 息。但是,信息是否為垃圾短信,因人而異,因此,一旦信息被判斷為垃圾短信,用戶將 不能接收到這條信息。所以,一旦分類器判斷錯誤,用戶將無法挽回損失,這樣的短信過濾 存在很高的風險。

發明內容
本發明實施例提供一種短信的識別方法和設備,能夠準確識別垃圾短信,降低垃 圾短信識別錯誤的風險。本發明實施例提供一種短信的識別方法,包括接收服務器發送的短信和所述短 信的概率特征向量;利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成 概率和垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概 率得到第一聯合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概 率;判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時,識別所述短信為正 常短信,反之為垃圾短信。本發明實施例還提供另一種短信的識別方法,包括接收服務器發送的短信和所 述短信的概率特征向量;利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先 驗概率得到第一聯合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分 布概率;利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率 和垃圾短信模型下所述短信的第四生成概率;由所述第三生成概率和所述正常短信先驗概 率得到第三聯合分布概率;由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分 布概率;判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第 二聯合分布概率和第四聯合分布概率的第二加權值時,識別所述短信為垃圾短信,反之為 正常短信。本發明實施例還提供一種短信的識別設備,包括接收單元,用于接收服務器發送 的短信和所述短信的概率特征向量;第一和第二聯合分布概率獲得單元,用于根據所述接 收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃 圾短信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概率得到第 一聯合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率;第一 識別單元,用于判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時,識別所 述短信為正常短信,反之為垃圾短信。本發明實施例還提供另一種短信的識別設備,包括接收單元,用于接收服務器發 送的短信和所述短信的概率特征向量;第一和第二聯合分布概率獲得單元,用于根據所述 接收單元接收的所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和 垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概率得到 第一聯合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率;第 三和第四聯合分布概率獲得單元,用于利用所述短信的文字特征向量分別計算正常短信模 型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率;由所述第三生 成概率和所述正常短信先驗概率得到第三聯合分布概率;由所述第四生成概率和所述垃圾 短信先驗概率得到第四聯合分布概率;第二識別單元,用于判斷所述第一聯合分布概率和 第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率 的第二加權值時,識別所述短信為垃圾短信,反之為正常短信。以上技術方案,服務器將短信和短信的概率特征向量均發給終端,終端根據短信 的概率特征向量或根據概率特征向量和短信的文字特征向量的組合進行計算,從而判斷出 該短信是否為垃圾短信。該方案是由服務器和終端聯合判斷,因此判斷精度更高。服務器 將短信和概率特征向量或概率特征向量和文字特征向量均發送給終端,因此,一旦終端將 正常短信誤判為垃圾短信,用戶仍可以從垃圾箱中找回該短信,這樣更進一步降低了垃圾 短信識別錯誤的風險。同時,概率特征向量由服務器計算得到,之后發給終端,因此降低了 對終端的計算能力要求。


圖1是本發明短信識別方法實施例一流程圖;圖2是本發明短信識別方法實施例二流程圖;圖3是本發明短信識別方法實施例三流程圖;圖4是本發明短信識別方法實施例四流程圖5是本發明短信識別方法與現有技術的對比曲線圖;圖6是本發明短信識別設備實施例一結構圖;圖7是本發明短信識別設備實施例二結構圖;圖8是本發明短信識別設備實施例三結構圖;圖9是本發明短信識別設備實施例四結構圖;圖10是本發明短信識別系統實施例一結構圖。
具體實施例方式首先對本發明實施例一種短信的識別方法進行說明,包括接收服務器發送的短信和所述短信的概率特征向量;利用所述概率特征向量分別 計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概 率;由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率,由所述第二生成概 率和垃圾短信先驗概率得到第二聯合分布概率;判斷所述第一聯合分布概率大于或等于所 述第二聯合分布概率時,識別所述短信為正常短信,反之為垃圾短信。需要說明的是,為了敘述方便,下面實施例中的終端以手機為例進行介紹。方法實施例一參見圖1,該圖為本發明方法實施例一流程圖。SlOl 手機接收服務器發送的短信和所述短信的概率特征向量。短信的概率特征向量是由服務器計算得到的,為了使本領域技術人員更好地理解 和實施本發明,下面詳細介紹概率特征向量的計算方法。首先介紹服務器端預先進行的訓練過程。由已標注的短信集統計各類別的原始短信模型。原始短信模型是指一種類別短信在詞特征空間的詞頻分布向量,用(NkU1),..., Nk (、),. . .,Nk(tn)),0彡i彡η.表示。其中η是指一個詞表中所有詞的個數,k為第k類 別。Nk(、)是指詞頻,即詞出現的次數。一條訓練短信可以表示為((t' 1;...,t' i,...,t' ^,(^.,其中^ i是短信 中第i個詞,Ck是指該短信實際屬于第k類別,m是指短信中詞的個數。當一條訓練短信來臨時,首先提取出其實屬類別Ck,然后找到類別k的原始短信模 型(NJt1), ···,Nk (、),...,隊(、)),0< i ^ η.
i,原始短信模型中對應的詞頻特征Nk(t' J加1。 ..,Pai |Ck),. . .,P(tn|Ck)),0 彡 i 彡 η.,由已經得到 ,Nk Ui),. .,Nk(tn)),0 ^n.對每個詞特征按照公
(1)
其中,Σ表示連加。則可以得到各類別的短信模型(Pa1Ick),...,PaiIck),...,P(tn|ck)), 0 ^ i ^ η.為了更好地理解服務器的訓練過程,下面結合具體例子進行說明。各類別短信模對該訓練短信的每個詞t ‘短信模型是指(Pa1Ick), 各類別的原始短信模型(NkU1),.. 式⑴進行計算
權利要求
1.一種短信識別方法,其特征在于,包括以下步驟 接收服務器發送的短信和所述短信的概率特征向量;利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短 信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概率得到第一聯 合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率;判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時,識別所述短信為正 常短信,反之為垃圾短信。
2.根據權利要求1所述的短信識別方法,其特征在于,所述概率特征向量的計算具體為根據訓練得到的各類別的短信模型計算所述短信在各類別短信下的概率特征向 量(PO;ιd),P(C2Id), ...,P(CkId)),其中d表示所述短信,Ck表示短信類別,k表示第k個類別;其中,P(Ck\d)^P(Ck)f\P(t,\Ck), (Q是指各類別短信的概率;PitlC)-聊+ 1tMa) + ^是指所述短信的短信模型,Nk (ti)是指所述短信中的詞、的詞頻,η /=1表示所述短信中的詞的個數。
3.根據權利要求2所述的短信識別方法,其特征在于,所述第一生成概率P(a I正常短 信)的計算具體為P(a|正常短信)=Π尸丨正常短信);其中,a = (al, a2,...,ak)=1(P(C1Id),P(C2Id),...,P(Cjd)) ;P 丨正常短信)其中 N(ti)表示訓練i樣本中^在W,1]的10個區間的某個區間內的樣本數。
4.根據權利要求1所述的短信識別方法,其特征在于,還包括將所述短信的識別結果 呈現給用戶;接收用戶針對所述識別結果反饋的判斷結果,其中,所述判斷結果為所述短信為正常 短信或垃圾短信;根據所述用戶的反饋更新正常短信模型或垃圾短信模型。
5.一種短信識別方法,其特征在于,包括以下步驟 接收服務器發送的短信和所述短信的概率特征向量;利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短 信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概率得到第一聯 合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率;利用所述短信的文字特征向量分別計算正常短信模型下所述短信的第三生成概率和 垃圾短信模型下所述短信的第四生成概率;由所述第三生成概率和所述正常短信先驗概率 得到第三聯合分布概率;由所述第四生成概率和所述垃圾短信先驗概率得到第四聯合分布 概率;判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時,識別所述短信為垃圾短信,反之為正常短信。
6.根據權利要求5所述的短信識別方法,其特征在于,利用所述短信的文字特征向量 分別計算正常短信模型下所述短信的第三生成概率P' (d|正常短信)和垃圾短信模型下 所述短信的第四生成概率P' (d|垃圾短信)具體為
7.一種短信識別設備,其特征在于,包括接收單元,用于接收服務器發送的短信和所述短信的概率特征向量; 第一和第二聯合分布概率獲得單元,用于根據所述接收單元接收的所述概率特征向量 分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生 成概率;由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率,由所述第二生 成概率和垃圾短信先驗概率得到第二聯合分布概率;第一識別單元,用于判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率 時,識別所述短信為正常短信,反之為垃圾短信。
8.根據權利要求8所述的短信識別設備,其特征在于,所述概率特征向量的計算具體為根據預先訓練得到的各類別的短信模型計算得到的所述短信在各類別下的生成概 率的集合(P(C1Id), P(C2Id), ...,P(CkId)),其中d表示所述短信,Ck表示短信類別,
9.根據權利要求9所述的短信識別方法,其特征在于,所述第一生成概率P(a I正常短 信)的計算具體為
10.一種短信識別設備,其特征在于,包括接收單元,用于接收服務器發送的短信和所述短信的概率特征向量;第一和第二聯合分布概率獲得單元,用于根據所述接收單元接收的所述概率特征向量 分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生 成概率;由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率,由所述第二生 成概率和垃圾短信先驗概率得到第二聯合分布概率;第三和第四聯合分布概率獲得單元,用于利用所述短信的文字特征向量分別計算正常 短信模型下所述短信的第三生成概率和垃圾短信模型下所述短信的第四生成概率;由所述 第三生成概率和所述正常短信先驗概率得到第三聯合分布概率;由所述第四生成概率和所 述垃圾短信先驗概率得到第四聯合分布概率;第二識別單元,用于判斷所述第一聯合分布概率和第三聯合分布概率的第一加權值大 于或等于所述第二聯合分布概率和第四聯合分布概率的第二加權值時,識別所述短信為垃 圾短信,反之為正常短信。
11.根據權利要求11所述的短信設別設備,其特征在于,利用所述短信的文字特征向 量分別計算正常短信模型下所述短信的第三生成概率P' (d|正常短信)和垃圾短信模型 下所述短信的第四生成概率P' (d|垃圾短信)具體為
全文摘要
本發明提供一種短信的識別方法和設備。其中方法包括接收服務器發送的短信和所述短信的概率特征向量;利用所述概率特征向量分別計算正常短信模型下所述短信的第一生成概率和垃圾短信模型下所述短信的第二生成概率;由所述第一生成概率和正常短信先驗概率得到第一聯合分布概率,由所述第二生成概率和垃圾短信先驗概率得到第二聯合分布概率;判斷所述第一聯合分布概率大于或等于所述第二聯合分布概率時,識別所述短信為正常短信,反之為垃圾短信。一旦終端將正常短信誤判為垃圾短信,用戶仍可以從垃圾箱中找回該短信,這樣降低了垃圾短信識別錯誤的風險。概率特征向量由服務器計算得到,之后發給終端,因此降低了對終端的計算能力要求。
文檔編號H04W12/00GK102065387SQ20091022254
公開日2011年5月18日 申請日期2009年11月13日 優先權日2009年11月13日
發明者劉東鑫, 徐蔚然, 方琦, 王占一 申請人:北京郵電大學, 華為技術有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1