一種基于用戶評論的ugc垃圾內容過濾方法及系統的制作方法
【專利摘要】本發明公開了一種基于用戶評論的UGC垃圾內容過濾方法,包括以下步驟:將發表正文數據的用戶作為第一用戶,將發表評論數據的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數據進行分析,判斷所述評論數據是否為垃圾內容,若是,則刪除用戶生產內容,所述用戶生產內容包括正文數據和所有評論數據。相應地,本發明還公開了一種基于用戶評論的UGC垃圾內容過濾系統。本發明方法及系統可以針對正文和評論進行一體化打擊,能夠識別并有力打擊看似正常的垃圾內容,對垃圾內容實現有效管控,提高平臺的生態健康和用戶體驗。
【專利說明】
一種基于用戶評論的UGC垃圾內容過濾方法及系統
技術領域
[0001]本發明涉及通信技術領域,尤其涉及一種基于用戶評論的UGC垃圾內容過濾方法及系統。
【背景技術】
[0002]UGC(User Generated Content,用戶生產內容)是當前國際主流媒體興起的一種思路,即在編輯的規范和指導下,把內容的產生過程交付到用戶手上,讓用戶獲得主語權。每一個UGC內容平臺在發展壯大之后,必然伴隨著垃圾內容的滋生和成長。這些垃圾內容主要包括色情、廣告、欺詐等。如果不能有效管控,垃圾內容的泛濫將嚴重影響平臺的生態健康、用戶體驗,甚至危及平臺的生存。
[0003]基于文本內容,通過機器學習手段,對正文進行分類并識別出垃圾內容。這種手段已經被廣泛用于各大內容平臺上。用戶在發表新的內容之后,可以立刻通過事先訓練好的分類模型判斷其是否為垃圾內容。這種方法實現簡單,對于有著明顯文本特征的正文來說有著非常不錯的效果。
[0004]然而,對抗的雙方都會不斷進化。實踐中發現,惡意用戶發明了一些新的形式來規避這種基于正文文本的打擊。在這些形式中,正文通常并沒有包括明顯的惡意特征,甚至看起來非常健康,通過吸引人的故事,漂亮的圖片吸引其他用戶瀏覽與互動,而垃圾部分則被轉移至評論。
[0005]例如,某社區帖子的正文為漂亮圖片以及具有文藝氣息的文本,從帖子正文來看,完全無法看得出這是一個護膚類的廣告貼。然而,發帖者通過優質的圖文引起讀者的興趣之后,通過小號的問答形式,在評論中打了一個非常明顯的護膚類廣告。此類廣告形式已經在某些社區內產品中大量出現,對社區生態、用戶體驗,甚至用戶的個人利益都造成了很大的傷害,需要有效的打擊方法。然而目前的主流做法是針對正文和評論單獨進行打擊,對于這種形式的垃圾帖子無法成功識別。
[0006]針對正文的垃圾文本過濾在業界有著非常成熟的應用,基于圖片內容的識別也在部分平臺上有了嘗試。此外,基于用戶關系鏈的垃圾內容打擊也在一些社交型內容平臺上有應用。但是所有這些都是基于內容本身或者是用戶維度的,對于本文所描述的新的垃圾內容形式無法做到有效打擊。
【發明內容】
[0007]為了解決上述技術問題,本發明提供了一種基于用戶評論的UGC垃圾內容過濾方法,包括以下步驟:
[0008]將發表正文數據的用戶作為第一用戶,將發表評論數據的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數據進行分析,判斷所述評論數據是否為垃圾內容,若是,則刪除用戶生產內容,所述用戶生產內容包括正文數據和所有評論數據。
[0009]本發明方法中的第二用戶在狹義上僅僅代表發表評論的第二用戶,在廣義上包括第一用戶和第二用戶,廣義上的第二用戶包括針對第二用戶的評論進行回復的第一用戶,此時第一用戶則作為第二用戶。在本發明中當判斷第一用戶與第二用戶之間的互動是否頻繁時,使用的是狹義上的第二用戶,當判斷第二用戶與第二用戶之間的互動是否頻繁時,使用的是廣義上的第二用戶。另外,在本
【發明內容】
中沒有注明是為狹義上的第二用戶還是廣義上的第二用戶時,均為狹義上的第二用戶。
[0010]進一步地,所述判斷所述第二用戶與第一用戶是否為同一聚類的方法為:若所述第一用戶和第二用戶滿足以下條件,則判斷所述第一用戶與第二用戶是同一聚類:
[0011]所述第一用戶與第二用戶為同一用戶,
[0012]所述第一用戶與第二用戶的登陸位置相同或基本相同,或
[0013]所述第一用戶與第二用戶或第二用戶與第二用戶之間的互動頻繁。
[0014]進一步地,所述判斷所述第一用戶與第二用戶是否為同一聚類之前還包括:
[0015]獲取第一用戶的用戶信息和發表的正文數據,所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數據包括正文內容和與正文內容對應的正文ID;建立第一用戶的用戶ID和正文ID的第一映射關系;存儲第一用戶的用戶信息、第一映射關系和正文數據;
[0016]獲取第二用戶的用戶信息和發表的評論數據,所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數據包括評論內容;建立第二用戶的用戶ID和正文ID的第二映射關系;存儲第二用戶的用戶信息、第二映射關系和評論數據。
[0017]進一步地,若所述第二用戶為新用戶,則根據所述新用戶的注冊信息判斷所述新用戶與所述第一用戶是否為同一聚類。
[0018]進一步地,所述判斷所述第一用戶與第二用戶是否為同一聚類,還包括:
[0019]若不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關系。
[0020]進一步地,所述判斷所述評論數據是否為垃圾內容,還包括:
[0021]若不是垃圾內容,則丟棄所述評論數據、第二用戶的用戶信息和第二映射關系。
[0022]進一步地,所述方法還包括:
[0023]在預設時間內,若所有第二用戶發表的評論數據沒有出現垃圾內容,則丟棄用戶生產內容,所述用戶生產內容包括第一用戶的用戶信息、第一映射關系、第二用戶的用戶信息和第二映射關系。其中,該處的第二用戶則為廣義上的第二用戶。
[0024]相應地,本發明還提供了一種基于用戶評論的UGC垃圾內容過濾系統,所述系統包括判斷模塊,
[0025]所述判斷模塊,用于將發表正文數據的用戶作為第一用戶,將發表評論數據的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數據進行分析,判斷所述評論數據是否為垃圾內容,若是,則刪除用戶生產內容,所述用戶生產內容包括正文數據和所有評論數據。
[0026]進一步地,所述系統還包括獲取模塊、關系建立模塊和存儲模塊,
[0027]所述獲取模塊,用于獲取第一用戶的用戶信息和發表的正文數據,所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數據包括正文內容和與正文內容對應的正文ID;還用于獲取第二用戶的用戶信息和發表的評論數據,所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數據包括評論內容;
[0028]所述關系建立模塊,用于在建立第一用戶的用戶ID和正文ID的第一映射關系;還用于建立第二用戶的用戶ID和正文ID的第二映射關系;
[0029]所述存儲模塊,用于第一用戶的用戶信息、第一映射關系和正文數據;還用于存儲第二用戶的用戶信息、第二映射關系和評論數據。
[0030]進一步地,所述判斷模塊,還用于:
[0031]若判斷不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關系;
[0032]若判斷所述評論數據不是垃圾內容,則丟棄所述評論數據、第二用戶的用戶信息和第二映射關系;
[0033]若判斷在預設時間內,所有第二用戶發表的評論數據沒有出現垃圾內容,則丟棄用戶生產內容,所述用戶生產內容包括第一用戶的用戶信息、第一映射關系、第二用戶的用戶信息和第二映射關系。其中,該處的第二用戶則為廣義上的第二用戶。
[0034]本發明的基于用戶評論的UGC垃圾內容過濾方法及系統,具有如下有益效果:
[0035]1、本發明方法及系統可以針對正文和評論進行一體化打擊,對垃圾內容的識別精度高,首先確定第一用戶與第二用戶之間的關系,若為同一聚類,則判斷同一聚類中第二用戶的評論數據是否為垃圾內容,若為垃圾內容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內容,對垃圾內容實現有效管控,提高平臺的生態健康和用戶體驗。
[0036]2、本發明方法及系統能夠有效打擊第一用戶利用小號發布垃圾內容的情況,對第一用戶的小號、“托”以及垃圾內容識別精度都非常高,不僅判斷第二用戶與第一用戶的關系,還判斷第二用戶與第二用戶之間的關系,即便第一用戶本身不發布垃圾內容,而利用小號進行發布,也會被識別出,進一步提高了平臺的生態健康和用戶體驗,用時對垃圾內容實現了有效管控。
【附圖說明】
[0037]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它附圖。
[0038]圖1是本發明實施例一的基于用戶評論的UGC垃圾內容過濾方法的流程圖;
[0039]圖2是本發明實施例一中的用戶A發表的帖子正文效果圖;
[0040]圖3是本發明實施例一中的用戶A發表的帖子正文中未顯示部分的效果圖;
[0041]圖4是本發明實施例一中的用戶C和D發表的評論效果圖;
[0042]圖5是本發明實施例三的基于用戶評論的UGC垃圾內容過濾系統的框圖。
【具體實施方式】
[0043]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0044]實施例一:
[0045]本發明提供了一種基于用戶評論的UGC垃圾內容過濾方法,包括以下步驟:
[0046]S101、離線收集評論數據,并進行特征提取,通過機器學習方法進行訓練,建立分類模型;
[0047]具體為:離線收集用戶評論數據的正負樣本,其中,正樣本為垃圾評論,負樣本為正常評論,評論數據包括但不限于文本、圖片、視頻等形式。提取正負樣本中的相應特征,通過樸素貝葉斯算法進行訓練;
[0048]從正樣本和負樣本中構成分類器,學習正負樣本的結構和CPT,例如,正樣本中的垃圾評論的特征包括但不限于“皮膚”Cl、“最美俏佳人”C2、“美女”C3、“激情”c4、“代理”C5、“優惠券” c6、“有獎銷售” c7、“處理” c8、“削價” c9,將上述特征進行歸一化處理,將“皮膚” Cl和“最美俏佳人” c2歸為“護膚”廣告Xl,將“美女” c3和“激情,,c4歸為“色情”內容x2,將“代理” c5和“優惠券” c6歸為“代理”廣告x3,將“有獎銷售” c7、“處理” c8和“削價” c9歸為“欺詐”廣告x4,則cl-c9可以構成類集合C,所述類集合歸一化后組成一組節點X,即貝葉斯網絡中包含類結點C,其中,C的取值來自于類集合(cl,c2,c3,c4…,c9),X的取值為(xl,x2,...,x4);與正樣本的學習方式相同,負樣本也通過樸素貝葉斯算法進行訓練,從而建立分類模型。
[0049]S102、在發帖用戶成功發表新帖子之后,后臺服務器建立發帖用戶ID和正文ID的第一映射關系,并存儲所述新帖子的正文數據和所述第一映射關系,其中,正文ID即為帖子的正文ID;
[0050]在所述評論用戶發表評論數據后,建立所述評論用戶ID和正文ID的第二映射關系,并存儲評論數據和所述第二映射關系,考慮到打擊的時效性和服務器存儲能力,只緩存最近N個小時(例如最近48個小時)的帖子發表的數據。
[0051]S103、對用戶進行聚類,得到用戶聚類結果,所述用戶包括第一用戶和若干第二用戶,所述第一用戶發表正文數據,所述第二用戶發表評論數據,本實施例中的第一用戶為發帖用戶,第二用戶為評論用戶;
[0052]具體為:根據用戶屬性、行為,如用戶ID、用戶名稱,用戶注冊時的其他資料信息,以及該用戶與其他用戶之間的互動等行為,對用戶進行聚類,使得符合以下情況中任意一種的用戶被聚類到同一類中:
[0053]I)發帖用戶在真實世界中與評論用戶為同一用戶;
[0054]是否為用一用戶,可以根據用戶在注冊時填寫的資料或用戶ID等信息進行判斷,例如,發帖用戶使用一個或多個小號,而該一個或多個小號與發帖用戶在真實世界中實際上是同一個人。
[0055]2)所述發帖用戶與評論用戶的登陸位置基本相同或相同;
[0056]例如,A為發帖用戶,B、C和D都是評論用戶,若A、B、C和D用戶的登陸位置都是在X處,或登陸IP相近,則該A、B、C和D用戶可以被認為是同一聚類;
[0057]3)所述發帖用戶與評論用戶或評論用戶與評論用戶之間的互動頻繁。
[0058]例如,A為發帖用戶,B、C和D都是評論用戶,若A與B、C和D中的任意一個或多個之間的互動非常頻繁,互動包括瀏覽、評論、點贊、轉發等行為,則B、C和D中的任意一個或多個非常有可能是A的“托”,則將B、C和D中的任意一個或多個與A歸為同一聚類;
[0059]若B與C和D中的任意一個或兩個之間的互動非常頻繁,則B、C和D中的任意一個或多個非常有可能是A的“托”,或者B、C和D都有可能是A的小號,則將B、C和D中的任意一個或多個與A歸為同一聚類。
[0060]S104、實時監控基于該帖子的用戶評論,對于出現新的評論,則執行以下步驟:
[0061 ] S1041、若判斷該用戶評論是否為最近N個小時內的,若是在最近N個小時之前,則直接丟棄該數據并結束,否則,執行步驟S1042;
[0062]S1042、判斷用戶是否為新注冊用戶,若是,則執行步驟S1043,否則,根據離線的用戶聚類結果,檢查評論用戶與發帖用戶是否處于同一聚類中,若不在同一聚類中,則丟棄該數據并結束,否則,執行步驟S1044;
[0063]S1043、根據新用戶在注冊時填寫的資料、登陸信息等,例如登陸IP、移動設備碼等,對用戶進行在線聚類,聚類有兩種情況,一種是分配到已有的聚類中,另一種是自成一個新的聚類,若不在同一聚類中,則丟棄該數據并結束,否則轉步驟S1044;
[0064]S1044、利用離線訓練的評論分類模型,對評論內容進行分類,判斷評論內容是否為垃圾內容,若不是,則丟棄該數據并結束,否則,轉步驟S1045;
[0065]S1045、將正文標識為垃圾內容,進行下架處理,即刪除用戶生產內容UGC,其中,所述用戶生產內容UGC包括正文數據和所有評論數據,同時將存儲的所有用戶信息和用戶ID與正文ID的映射關系移除,防止歷史數據占用內存過大。
[0066]例如,只緩存最近48小時內帖子數據,A為發帖用戶,B、C和D都是評論用戶,其中C為新注冊用戶,其他都為老用戶,C在注冊時登陸地址與A基本相同,B、C和D均與A互動很頻繁,且他們發表的內容都是在48小時內的;
[0067]如圖2和圖3所示,A發表帖子的正文為一張美女圖片和一句話,該句話的內容為“心若沒有棲息的地方,到哪都是流浪。有些人一直沒有機會見,等有機會見了,卻又猶豫了,相見不如不見。有些話埋葬在心中好久,沒有機會說,等有機會說的時候,卻說不出口了。有些愛一直沒有機會愛,等有機會了,已經不愛,真的不愛了嗎?”;
[0068]B發表的評論內容為“彩虹的美麗,讓我們都學會了堅強,堅強面對突如其來的愛情,,;
[0069]如圖4所示,C與A的其中一段對話為:C發表評論“姐姐好漂亮,皮膚真好,怎么保養的,好羨慕你啊,有沒有什么秘方啊?”,A回復“謝謝夸獎啊,我也沒有什么秘方,就是在最美俏佳人節目里認識一個達人,她教我的”;
[0070]D與A的其中一段對話為:D發表評論“我也好羨慕姐姐,皮膚真好,能否告訴我那位達人的聯系方式啊?”,A回復“好吧,我告訴你們吧,她的QQ號為207864681,你看還能加上不? ”;
[0071 ]按照發表評論的時間先后順序依次執行本實施例方法,例如,先對A執行下述I )-3)的步驟,再對B執行下述1)-3)的步驟,再對C執行下述1)-3)的步驟,最后對D執行下述1)-3)的步驟,為了方便,下面就沒有區分先后順序,在一個方法中統一描述:
[0072]I )A、B、C和D發表的內容都是在48小時內的;
[0073]2)B、C和D中C屬于新注冊用戶,則對于C,根據C在注冊時填寫的資料,以及登陸IP等信息,對C進行在線聚類,由于C在注冊時登陸地址與A基本相同,則將C分配到已有的聚類中,即C與A屬于同一聚類;
[0074]對于B和D,根據離線的用戶聚類結果,B和D均與A互動很頻繁,則將B和D分配到已有的聚類中,即B和D與A屬于同一聚類;
[0075]判斷完B、C和D的聚類之后,則對于B、C和D用戶執行下一步驟;
[0076]3)利用離線訓練的分類模型,對A、B、C和D的評論內容進行分類;
[0077]通過判斷,B為正常內容,則丟棄B的評論內容,并結束;
[0078]通過判斷,A、C和D的評論內容為垃圾內容,則將正文標識為垃圾內容,進行下架處理,即刪除用戶生產內容UGC,其中,所述用戶生產內容UGC包括正文數據和所有評論數據,同時將存儲的所有用戶信息和用戶ID與正文ID的映射關系移除,防止歷史數據占用內存過大。
[0079]另外,還可以設置定時器或自動超時機制,對于在預設時間內沒有出現垃圾評論的帖子,從內存中清除基于該帖子的用戶生產內容UGC。
[0080]本發明實施例中的評論內容包括發帖用戶對評論用戶的回復和評論用戶發表的評論,所以評論用戶也屬于廣義上的評論用戶,評論用戶包括上述情況的發帖用戶和評論用戶,狹義上的評論用戶僅指發表評論的用戶。
[0081]本發明實施例中的基于用戶評論的UGC垃圾內容過濾方法具有如下有益效果:本發明方法可以針對帖子正文和評論進行一體化打擊,對垃圾內容的識別精度高,首先確定發帖用戶與評論用戶之間的關系,若為同一聚類,則判斷同一聚類中評論用戶的評論數據是否為垃圾內容,若為垃圾內容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內容,對垃圾內容實現有效管控,提高平臺的生態健康和用戶體驗。
[0082]實施例二:
[0083]本發明實施例與實施例一的區別在于:
[0084]本發明實施例在對樣本進行訓練時是通過神經網絡算法進行訓練,建立分類模型的。
[0085]例如,只緩存最近72小時內的帖子數據,A為發帖用戶,B、C、D和E都是評論用戶,其中B為新注冊用戶,其他都為老用戶,根據B注冊時的信息與登錄IP等能夠確定其與A不屬于同一聚類,C在現實世界中與A是同一個用戶,具體為C為A的小號,D和E與A的登陸位置基本相同或D和E與C的登陸位置基本相同,且與C的互動很頻繁,但是與A的互動不頻繁,所有這些用戶發表的內容都是在48小時內的;
[0086]A發表帖子的正文為一段新聞和與該段話相關的圖片,該段話的內容為“XX食藥監局關于復原乳標注不醒目的通知引發熱議”,圖片的內容是市場上賣的各類牛奶的加工工藝以及如何挑選優質好牛奶;
[0087]B發表的評論內容為“我中招了,之前喝過好多都是什么乳、什么調制奶的,原來都算是飲料,不是牛奶”;
[0088]C與A的其中一段對話為:C發表評論“我之前喝過XX奶,是國外進口的,且價格也非常合理,我們一家人還到他們加工牛奶的工廠看過,非常安全,喝起來放心”;
[0089]D與C的其中一段對話為:D發表評論“現在市場上賣的都不放心啊,你喝的XX奶,在哪買的啊?”,C回復“好牛奶就要廣泛推廣,你可以到XX網站XX店購買”;
[0090]E與C的其中一段對話為:E發表評論“我們家剛在XX網站XX店購買了,正好趕上活動,第二件半價呢,非常劃算,最重要的是,奶源很好啊”,C回復“還有活動,現在還有嗎?正好我家的奶喝完了,去看看”;[0091 ]按照發表評論的時間先后順序依次執行本實施例方法,例如,先對A執行下述I )-3)的步驟,再對B執行下述1)-3)的步驟,再對C執行下述1)-3)的步驟,最后對D執行下述1)-3)的步驟,為了方便,下面就沒有區分先后順序,在一個方法中統一描述:
[0092]1)A、B、C、D和E發表的內容都是在48小時內的;
[0093]2)B、C、D和E中B屬于新注冊用戶,則對于B,根據B在注冊時填寫的資料,以及登陸IP等信息,對B進行在線聚類,根據B注冊時的信息與登錄IP等能夠確定其與A不屬于同一聚類,則直接丟棄B的數據,并結束;
[0094]對于C、D和E,根據離線的用戶聚類結果,由于C為A的小號,則C與A屬于同一聚類,由于D和E與A的登陸位置基本相同或D和E與C的登陸位置基本相同,則D和E與A也屬于同一聚類或D和E與C屬于同一聚類;即當判斷出C為A的小號或者“托”的時候,則可以將C作為A執行實施例一中的S102步驟,判斷D和E與C是否為同一聚類;
[0095]3)利用離線訓練的分類模型,對C、D和E的評論內容進行分類;
[0096]通過判斷,C、D和E的評論內容為垃圾內容,則將正文標識為垃圾內容,進行下架處理,即刪除用戶生產內容UGC,其中,所述用戶生產內容UGC包括正文數據和所有評論數據,同時將存儲的所有用戶信息和用戶ID與正文ID的映射關系移除,防止歷史數據占用內存過大;
[0097]或者刪除C、D和E的評論內容的評論內容,同時移除C、D和E的用戶信息和用戶ID與正文ID的映射關系移除。
[0098]本發明實施例中的基于用戶評論的UGC垃圾內容過濾方法具有如下有益效果:本發明方法有效打擊發帖用戶利用小號發布垃圾內容的情況,對發帖用戶的小號、“托”以及垃圾內容識別精度都非常高,不僅判斷評論用戶與發帖用戶的關系,還判斷評論用戶與評論用戶之間的關系,即便發帖用戶本身不發布垃圾內容,而利用小號進行發布,也會被識別出,進一步提高平臺的生態健康和用戶體驗,用時對垃圾內容實現了有效管控。
[0099]實施例三:
[0100]相應地,如圖5所示,本發明還提供了一種基于用戶評論的UGC垃圾內容過濾系統,所述系統包括模型建立模塊、聚類模塊、判斷模塊、獲取模塊、關系建立模塊和存儲模塊,
[0101]所述模型建立模塊,用于離線收集評論數據,并進行特征提取,通過機器學習方法進行訓練,建立分類模型;
[0102]具體地:所述模型建立模塊,用于離線收集用戶評論數據的正負樣本,其中,正樣本為垃圾評論,負樣本為正常評論,評論數據包括但不限于文本、圖片、視頻等形式。提取正負樣本中的相應特征,通過樸素貝葉斯算法進行訓練;
[0103]所述模型建立模塊,用于從正樣本和負樣本中構成分類器,學習正負樣本的結構和CPT,例如,正樣本中的垃圾評論的特征包括但不限于“皮膚” Cl、“最美俏佳人” C2、“美女”c3、“激情” c4、“代理” c5、“優惠券” c6、“有獎銷售” c7、“處理” c8、“削價” c9,將上述特征進行歸一化處理,將“皮膚” cI和“最美俏佳人” c2歸為“護膚”廣告Xl,將“美女” c3和“激情,,c4歸為“色情”內容x2,將“代理” c5和“優惠券” c6歸為“代理”廣告x3,將“有獎銷售” c7、“處理” c8和“削價” c9歸為“欺詐”廣告x4,則cl-c9可以構成類集合C,所述類集合歸一化后組成一組節點X,即貝葉斯網絡中包含類結點C,其中,C的取值來自于類集合(cI,c2,c3,c4…,c9),X的取值為(11^2,-_^4);與正樣本的學習方式相同,負樣本也通過樸素貝葉斯算法進行訓練,從而建立分類模型。
[0104]所述聚類模塊,用于對用戶進行聚類,得到用戶聚類結果,所述用戶包括第一用戶和若干第二用戶,所述第一用戶發表正文數據,所述第二用戶發表評論數據,本實施例中的第一用戶為發帖用戶,第二用戶為評論用戶;
[0105]具體為:所述聚類模塊,用于根據用戶屬性、行為,如用戶ID、用戶名稱,用戶注冊時的其他資料信息,以及該用戶與其他用戶之間的互動等行為,對用戶進行聚類,使得符合以下情況中任意一種的用戶被聚類到同一類中:
[0106]I)發帖用戶在真實世界中與評論用戶為同一用戶;
[0107]是否為用一用戶,可以根據用戶在注冊時填寫的資料或用戶ID等信息進行判斷,例如,發帖用戶使用一個或多個小號,而該一個或多個小號與發帖用戶在真實世界中實際上是同一個人。
[0108]2)所述發帖用戶與評論用戶的登陸位置基本相同或相同;
[0109]例如,A為發帖用戶,B、C和D都是評論用戶,若A、B、C和D用戶的登陸位置都是在X處,或登陸IP相近,則該A、B、C和D用戶可以被認為是同一聚類;
[0110]3)所述發帖用戶與評論用戶或評論用戶與評論用戶之間的互動頻繁。
[0111]例如,A為發帖用戶,B、C和D都是評論用戶,若A與B、C和D中的任意一個或多個之間的互動非常頻繁,互動包括瀏覽、評論、點贊、轉發等行為,則B、C和D中的任意一個或多個非常有可能是A的“托”,則將B、C和D中的任意一個或多個與A歸為同一聚類;
[0112]若B與C和D中的任意一個或兩個之間的互動非常頻繁,則B、C和D中的任意一個或多個非常有可能是A的“托”,或者B、C和D都有可能是A的小號,則將B、C和D中的任意一個或多個與A歸為同一聚類。
[0113]所述獲取模塊,用于獲取第一用戶的用戶信息和發表的正文數據,所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數據包括正文內容和與正文內容對應的正文ID;還用于獲取第二用戶的用戶信息和發表的評論數據,所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數據包括評論內容;
[0114]所述關系建立模塊,用于在發帖用戶成功發表新帖子之后,后臺服務器建立發帖用戶ID和正文ID的第一映射關系;
[0115]所述存儲模塊,用于存儲所述新帖子的正文數據和所述第一映射關系,其中,內容為帖子,貝lJ正文ID即為帖子ID;
[0116]所述關系建立模塊,還用于在所述評論用戶發表評論數據后,建立所述評論用戶ID和正文ID的第二映射關系;
[0117]所述存儲模塊,還用于存儲評論數據和所述第二映射關系,考慮到打擊的時效性和服務器存儲能力,只緩存最近N個小時(例如最近48個小時)的帖子發表的數據。
[0118]所述判斷模塊,還用于對于出現新的評論,判斷該用戶評論是否為最近N個小時內的,若是在最近N個小時之前,則直接丟棄該數據并結束,否則,判斷用戶是否為新注冊用戶,
[0119]若是新注冊用戶,則根據新用戶在注冊時填寫的資料、登陸信息等,例如登陸IP、移動設備碼等,對用戶進行在線聚類,聚類有兩種情況,一種是分配到已有的聚類中,另一種是自成一個新的聚類,若不在同一聚類中,則丟棄該數據并結束,否則,利用離線訓練的評論分類模型,對評論內容進行分類,判斷評論內容是否為垃圾內容,若不是,則丟棄該數據并結束,否則,將正文標識為垃圾內容,進行下架處理,即刪除用戶生產內容UGC,其中,所述用戶生產內容UGC包括正文數據和所有評論數據,同時將存儲的所有用戶信息和用戶ID與正文ID的映射關系移除,防止歷史數據占用內存過大。
[0120]若不是新注冊用戶,根據離線的用戶聚類結果,檢查評論用戶與發帖用戶是否處于同一聚類中,若不在同一聚類中,則丟棄該數據并結束,否則,利用離線訓練的評論分類模型,對評論內容進行分類,判斷評論內容是否為垃圾內容,若不是,則丟棄該數據并結束,否則,將正文標識為垃圾內容,進行下架處理,即刪除用戶生產內容UGC,其中,所述用戶生產內容UGC包括正文數據和所有評論數據,同時將存儲的所有用戶信息和用戶ID與正文ID的映射關系移除,防止歷史數據占用內存過大。
[0121]另外,還可以設置定時器或自動超時機制,對于在預設時間內沒有出現垃圾評論的帖子,從內存中清除基于該帖子的用戶生產內容UGC。
[0122]本發明實施例中的評論內容包括發帖用戶對評論用戶的回復和評論用戶發表的評論,所以評論用戶也屬于廣義上的評論用戶,評論用戶包括上述情況的發帖用戶和評論用戶,狹義上的評論用戶僅指發表評論的用戶。
[0123]本發明實施例中的基于用戶評論的UGC垃圾內容過濾系統具有如下有益效果:本發明系統可以針對帖子正文和評論進行一體化打擊,對垃圾內容的識別精度高,首先確定發帖用戶與評論用戶之間的關系,若為同一聚類,則判斷同一聚類中評論用戶的評論數據是否為垃圾內容,若為垃圾內容,則直接刪除帖子,能夠識別并有力打擊看似正常的垃圾內容,對垃圾內容實現有效管控,提高平臺的生態健康和用戶體驗。
[0124]在另一實施例中,第一用戶發表的正文內容可以包括文章、用戶發表的狀態等等。
[0125]以上所述是本發明的優選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發明的保護范圍。
【主權項】
1.一種基于用戶評論的UGC垃圾內容過濾方法,其特征在于,包括以下步驟: 將發表正文數據的用戶作為第一用戶,將發表評論數據的用戶作為第二用戶,判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數據進行分析,判斷所述評論數據是否為垃圾內容,若是,則刪除用戶生產內容,所述用戶生產內容包括正文數據和所有評論數據。2.根據權利要求1所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,所述判斷所述第二用戶與第一用戶是否為同一聚類的方法為:若所述第一用戶和第二用戶滿足以下條件,則判斷所述第一用戶與第二用戶是同一聚類: 所述第一用戶與第二用戶為同一用戶, 所述第一用戶與第二用戶的登陸位置相同或基本相同,或 所述第一用戶與第二用戶或第二用戶與第二用戶之間的互動頻繁。3.根據權利要求1或2所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,所述判斷所述第一用戶與第二用戶是否為同一聚類之前還包括: 獲取第一用戶的用戶信息和發表的正文數據,所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數據包括正文內容和與正文內容對應的正文ID;建立第一用戶的用戶ID和正文ID的第一映射關系;存儲第一用戶的用戶信息、第一映射關系和正文數據; 獲取第二用戶的用戶信息和發表的評論數據,所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數據包括評論內容;建立第二用戶的用戶ID和正文ID的第二映射關系;存儲第二用戶的用戶信息、第二映射關系和評論數據。4.根據權利要求3所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,若所述第二用戶為新用戶,則根據所述新用戶的注冊信息判斷所述新用戶與所述第一用戶是否為同一聚類。5.根據權利要求4所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,所述判斷所述第一用戶與第二用戶是否為同一聚類,還包括: 若不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關系。6.根據權利要求4所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,所述判斷所述評論數據是否為垃圾內容,還包括: 若不是垃圾內容,則丟棄所述評論數據、第二用戶的用戶信息和第二映射關系。7.根據權利要求4-6中任意一項所述的基于用戶評論的UGC垃圾內容過濾方法,其特征在于,所述方法還包括: 在預設時間內,若所有第二用戶發表的評論數據沒有出現垃圾內容,則丟棄用戶生產內容,所述用戶生產內容包括第一用戶的用戶信息、第一映射關系、第二用戶的用戶信息和第二映射關系。8.一種基于用戶評論的UGC垃圾內容過濾系統,其特征在于,所述系統包括判斷模塊, 所述判斷模塊,用于判斷所述第一用戶與第二用戶是否為同一聚類,若是,則對所述評論數據進行分析,判斷所述評論數據是否為垃圾內容,若是,則刪除用戶生產內容,所述用戶生產內容包括正文數據和所有評論數據,所述第一用戶為發表正文數據的用戶,所述第二用戶為發表評論數據的用戶。9.根據權利要求8所述的基于用戶評論的UGC垃圾內容過濾系統,其特征在于,所述系統還包括獲取模塊、關系建立模塊和存儲模塊, 所述獲取模塊,用于獲取第一用戶的用戶信息和發表的正文數據,所述第一用戶的用戶信息包括第一用戶的用戶ID,所述正文數據包括正文內容和與正文內容對應的正文ID;還用于獲取第二用戶的用戶信息和發表的評論數據,所述第二用戶的用戶信息包括第二用戶的用戶ID,所述評論數據包括評論內容; 所述關系建立模塊,用于在建立第一用戶的用戶ID和正文ID的第一映射關系;還用于建立第二用戶的用戶ID和正文ID的第二映射關系; 所述存儲模塊,用于第一用戶的用戶信息、第一映射關系和正文數據;還用于存儲第二用戶的用戶信息、第二映射關系和評論數據。10.根據權利要求8或9所述的基于用戶評論的UGC垃圾內容過濾系統,其特征在于,所述判斷模塊,還用于: 若判斷不是同一聚類,則丟棄第二用戶的用戶信息和第二映射關系; 若判斷所述評論數據不是垃圾內容,則丟棄所述評論數據、第二用戶的用戶信息和第一■映射關系; 若判斷在預設時間內,所有第二用戶發表的評論數據沒有出現垃圾內容,則丟棄用戶生產內容,所述用戶生產內容包括第一用戶的用戶信息、第一映射關系、第二用戶的用戶信息和第二映射關系。
【文檔編號】G06F17/30GK106055664SQ201610389812
【公開日】2016年10月26日
【申請日】2016年6月3日
【發明人】梁傳明, 漆仁, 尹鵬達, 劉雪飄
【申請人】騰訊科技(深圳)有限公司