專利名稱:一種基于“用戶信譽度和短信垃圾度”的短信息過濾方法
技術領域:
本發明屬于互聯網通信技術領域的短信息處理技術,具體來講,涉及一種互聯網通信系統的短信服務平臺基于“用戶信譽度和短信垃圾度”的短信息過濾方法對用戶提交的可公開傳播內容進行監管和過濾的方法。
背景技術:
近幾年來,隨著郵箱業務的高速發展,發送垃圾短信的一些不法分子專門利用一些郵箱(如139郵箱等)專有的免費短信通道做為斂財的工具或者達到不可告人的目的。短信作為移動通信的增值服務之一,為人們提供價格低廉和便捷的通信服務,同時也滋生了大量以傳播淫穢色情、商業詐騙及商業廣告等不良信息為目的的垃圾短信。這些垃圾短信嚴重干擾了人們生活,妨害了社會安全,垃圾短信的監管問題已受到社會各界的廣泛重視。除了從立法層面加強對發布信息進行監管外,更重要的是在技術層面探索短信垃圾過濾行之有效的防范技術。現有技術中,垃圾短信的過濾方法主要有兩種基于關鍵詞或基于內容的短信垃圾過濾。基于關鍵詞的垃圾短信過濾是系統事先設置一些關鍵詞,短信內容中只要出現這些關鍵詞,則認定為垃圾短信并予以攔截,這種方法判斷依據單一,會存在大量誤判的缺陷。基于內容的垃圾短信過濾是采用機器學習把短信分為正常短信和垃圾短信。目前用于短信分類的機器學習方法主要有貝葉斯、SVM、KNN及人工神經網絡等。該過濾方法也存在誤判的缺 陷。
發明內容
本發明的目的在于提供一種基于“用戶信譽度和短信垃圾度”的短信息過濾方法對用戶提交的可公開傳播內容進行監管和過濾的方法。為實現上述目的,本發明所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,包括步驟A)根據短信用戶的活躍情況,給每個用戶一個初始信譽度;B)文本預處理先剔除文本中正常標點符號,識別出系統設置的干擾字符記錄個數并剔除,替換特定編碼的數字及象形碼;C)提取手機號碼及URL地址,進行短信相關行為特征提取;D)關鍵詞新增垃圾度基本屬性,基于B)步驟文本預處理后的內容做關鍵詞匹配,并記錄匹配到的各關鍵詞;E)相似內容界定,基于相似度計算短息垃圾度;F)結合用戶的信譽度和短息垃圾度,判斷是否攔截。本發明的目的在于將短信內容及用戶行為進行全方位打分,形成合力,再結合用戶信譽度來判斷是否為垃圾短信,盡可能的攔截垃圾短信,并降低誤攔截對高信譽用戶的影響。本發明根據用戶的活躍情況,給每個用戶一個初始信譽度,再采用hadoop按天提取用戶使用各業務的行為計數,實時維護用戶信譽度。然后進行文本預處理。先剔除文本中正常的標點符號,識別出系統設置的干擾字符(如*等)紀錄個數并剔除,替換特定編碼的數字及象形碼(如④、〇)。基于第二步處理后的內容,提取手機號碼及URL地址,并判斷手機號碼是否為原始串內容。發送用戶自身行為特征提取,如異地登錄、新注冊用戶、短信下發失敗率高等(可擴充)。相似內容特征提取,如發送者地區分布、發送者登錄IP分布、接收者地區分布、發送頻率等(可擴充)。基于提取的特征計算垃圾度,進行垃圾短信識別。關鍵詞新增垃圾度基本屬性,基于文本預處理后的內容做關鍵詞匹配,并記錄匹配到的各關鍵詞。基于匹配的關鍵字計算垃圾度,同時匯總第三步結算的結果,進行垃圾短f目識別處理。相似內容界定。基于相似度計算垃圾度,并匯總第四步的結果,進行垃圾短信識別處理。結合用戶的信譽度及短信垃圾度,判斷是否攔截。垃圾度適中,且允許用戶下發的短信,同時進行用戶信譽度扣除。本發明基于用戶信譽度和短信垃圾度可以更加精準的實現對垃圾短息的過濾,減少垃圾短息的誤判。
圖1為本發明一種具體實施方式
對垃圾短信過濾的流程圖;圖2為本發明一種具體實施方式
對用戶信譽度維護的流程圖;圖3為圖1所示文本預處理步驟的具體實施方式
的流程圖;圖4為圖1所示行為特征處理步驟的具體實施方式
的流程圖;圖5為圖1所示關鍵詞匹配步驟的具體實施方式
的流程圖;圖6為圖1所示相似度界定步驟的具體實施方式
的流程圖;圖7為圖1所示疑似垃圾短信處理步驟的具體實施方式
的流程圖。
具體實施例方式下面結合附圖和具體實施例對本發明做進一步詳細說明。圖1-圖7是本發明一種具體實施方式
對垃圾短信過濾的流程圖。在本實例中,將本發明垃圾過濾方法融入并體現在特征處理步驟、關鍵詞處理步驟及相似度界定,以及正常短信處理流程、疑似垃 圾處理流程及垃圾短信處理流程中。正常短信處理流程、疑似垃圾短信處理流程及垃圾短信處理流程主要是為用戶信譽度維護提供主要的數據支撐。在本實例中,本發明垃圾過濾方法將依據短信的文字信息及特征進行打分確定是否為垃圾短信的過濾方法,依次采用行為特征處理、關鍵詞匹配和相似度界定三種方法的結合,提高垃圾短信判定的準確性。同時,在本實例中,本發明垃圾過濾方法也結合了黑/白名單過濾方法,即黑名單用戶信譽度為O禁止發送任何短信,白名單用戶信譽度為I默認發送的短信均為正常。下面對五個處理流程做詳細描述。用戶信譽度維護流程一》該流程包括信譽度初始化、違規行為扣除信譽度及活躍行為累加信譽度三部分。其中扣除信譽度違規行為包括提交垃圾短信和下發疑似垃圾短信,采用實時扣除的方式;活躍行為累加信譽度采用hadoop定時分析的方式進行;信譽度初始化規則
權利要求
1.一種基于“用戶信譽度和短信垃圾度”的短信息過濾方法,包括步驟A)根據短信用戶的活躍情況,給每個用戶一個初始信譽度;B)文本預處理先剔除文本中正常標點符號,識別出系統設置的干擾字符記錄個數并剔除,替換特定編碼的數字及象形碼;C)提取手機號碼及URL地址,進行短信相關行為特征提取;D)關鍵詞新增垃圾度基本屬性,基于B)步驟文本預處理后的內容做關鍵詞匹配,并記錄匹配到的各關鍵詞;E)相似內容界定,基于相似度計算短息垃圾度;F)結合用戶的信譽度和短息垃圾度,判斷是否攔截。
2.如權利要求1所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,其特征是所述的A)步驟給出用戶初始信譽度后,在采用hadoop按天提取用戶使用各業務的行為計數,實時維護用戶信譽度。
3.如權利要求1或者2所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,其特征是所述短信相關行為特征包括用戶自身行為特征和相似內容特征。
4.如權利要求3所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,其特征是所述的戶自身行為特征包括異地登錄、新注冊用戶、短信下發失敗率。
5.如權利要求3所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,其特征是所述的相似內容特征包括發送者地區分布、發送者登錄IP分布、接收者地區分布、發送頻率。
6.如權利要求3所述的基于“用戶信譽度和短信垃圾度”的短信息過濾方法,其特征是所述實時維護用戶信譽度包括譽度初始化、違規行為扣除信譽度及活躍行為累加信譽度三部分。
全文摘要
本發明公開了一種基于“用戶信譽度和短信垃圾度”的短信息過濾方法,包括步驟A)根據短信用戶的活躍情況,給每個用戶一個初始信譽度;B)文本預處理先剔除文本中正常標點符號,識別出系統設置的干擾字符記錄個數并剔除,替換特定編碼的數字及象形碼;C)提取手機號碼及URL地址,進行短信相關行為特征提取;D)關鍵詞新增垃圾度基本屬性,基于B)步驟文本預處理后的內容做關鍵詞匹配,并記錄匹配到的各關鍵詞;E)相似內容界定,基于相似度計算短息垃圾度;F)結合用戶的信譽度和短息垃圾度,判斷是否攔截。本發明基于用戶信譽度和短信垃圾度可以更加精準的實現對垃圾短息的過濾,減少垃圾短息的誤判。
文檔編號H04W12/12GK103037339SQ20121058060
公開日2013年4月10日 申請日期2012年12月28日 優先權日2012年12月28日
發明者楊東洋 申請人:深圳市彩訊科技有限公司