一種公眾賬號的質量評價方法和裝置的制造方法
【專利摘要】本發明公開了一種公眾賬號的質量評價方法和裝置,用于實現對公眾賬號的質量做出有效且準確的評價。本發明實施例提供一種公眾賬號的質量評價方法,包括:獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據;將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測;獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。
【專利說明】
一種公眾賬號的質量評價方法和裝置
技術領域
[0001]本發明涉及計算機技術領域,尤其涉及一種公眾賬號的質量評價方法和裝置。
【背景技術】
[0002]公眾平臺的最終定位在于為公眾服務,用戶對公眾平臺給予很高的期望。公眾平臺擁有大量的用戶,公眾平臺希望能夠不斷挖掘自己用戶的價值,為這個平臺增加更優質的內容,創造更好的粘性,形成一個不一樣的生態循環,這是公眾平臺在發展階段的更重要方向。在公眾平臺中各種組織、企業以及個人都可以注冊進來,不同的注冊使用方都有不同的公眾賬號,利用公眾賬號可以在公眾平臺上進行自媒體活動,簡單來說就是進行一對多的媒體行為活動,比如商家通過申請公眾平臺中的公眾賬號,可以展示商家的官網、各種活動等,從而形成了線上線下互動的營銷方式。
[0003]公眾賬號在公眾平臺中處于重要的地位,隨著公眾平臺的推出和積累,目前公眾賬號的數量越來越多,甚至達到數百億級別,但是各種公眾賬號的質量參差不齊,比如存在很多的僵尸公眾賬號、傳銷公眾賬號等等。隨著公眾平臺的快速開展,高質量的公眾賬號在很多場景下均有廣泛的需求,但是目前的公眾平臺中對于公眾賬號的質量優劣無法做出有效的評價。
【發明內容】
[0004]本發明實施例提供了一種公眾賬號的質量評價方法和裝置,用于實現對公眾賬號的質量做出有效的評價。
[0005]為解決上述技術問題,本發明實施例提供以下技術方案:
[0006]第一方面,本發明實施例提供一種公眾賬號的質量評價方法,包括:
[0007]獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據;
[0008]將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測;
[0009]獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。
[0010]第二方面,本發明實施例還提供一種公眾賬號的質量評價裝置,包括:
[0011]模型獲取模塊,用于獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據;
[0012]模型預測模塊,用于將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測;
[0013]質量評價模塊,用于獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。
[0014]從以上技術方案可以看出,本發明實施例具有以下優點:
[0015]在本發明實施例中,首先獲取通過回歸算法從樣本數據中學習得到的回歸模型,樣本數據包括:公眾平臺中的多個公眾賬號以及多個公眾賬號對應的指標統計數據,然后將待評價的公眾賬號輸入到回歸模型中,通過回歸模型對待評價的公眾賬號進行分數值預測,最后獲取回歸模型預測后輸出的分數值作為待評價的公眾賬號的質量分數。本發明實施例中可以從公眾平臺中提取到樣本數據來訓練得到回歸模型,通過回歸模型可以對待評價的公眾賬號進行分數值預測,從而得到待評價的公眾賬號的質量分數。由于回歸模型是通過從公眾平臺中提取出的樣本數據訓練得到,樣本數據來源于公眾平臺,公眾平臺中的公眾賬號可以通過該回歸模型進行質量評價,從而可以實現對公眾賬號的質量做出有效的評價。
【附圖說明】
[0016]為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域的技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0017]圖1為本發明實施例提供的一種公眾賬號的質量評價方法的流程方框示意圖;
[0018]圖2為本發明實施例提供的公眾賬號的質量評價方法的一種應用場景示意圖;
[0019]圖3_a為本發明實施例提供的一種公眾賬號的質量評價裝置的組成結構示意圖;
[0020]圖3_b為本發明實施例提供的另一種公眾賬號的質量評價裝置的組成結構示意圖;
[0021]圖3-c為本發明實施例提供的一種模型訓練模塊的組成結構示意圖;
[0022]圖3-d為本發明實施例提供的另一種模型訓練模塊的組成結構示意圖;
[0023]圖3-e為本發明實施例提供的一種第一模型處理模塊的組成結構示意圖;
[0024]圖4為本發明實施例提供的公眾賬號的質量評價方法應用于服務器的組成結構示意圖。
【具體實施方式】
[0025]本發明實施例提供了一種公眾賬號的質量評價方法和裝置,用于實現對公眾賬號的質量做出有效的評價。
[0026]為使得本發明的發明目的、特征、優點能夠更加的明顯和易懂,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發明一部分實施例,而非全部實施例。基于本發明中的實施例,本領域的技術人員所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0027]本發明的說明書和權利要求書及上述附圖中的術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,以便包含一系列單元的過程、方法、系統、產品或設備不必限于那些單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它單元。
[0028]以下分別進行詳細說明。
[0029]本發明公眾賬號的質量評價方法的一個實施例,具體可以應用于對公眾平臺中的公眾賬號進行質量評價,該公眾賬號可以是社交網站中的賬號,也可以是游戲場景中的賬號,也可以是支付場景中的賬號,此處不做限定。請參閱圖1所示,本發明一個實施例提供的公眾賬號的質量評價方法,可以包括如下步驟:
[0030]101、獲取通過回歸算法從樣本數據中學習得到的回歸模型,樣本數據包括:公眾平臺中的多個公眾賬號以及多個公眾賬號對應的指標統計數據。
[0031]在本發明實施例中,首先獲取到可用于預測公眾賬號質量得分的回歸模型,本發明實施例采用回歸模型來預測公眾賬號質量得分,該回歸模型的實現方式可以有多種,例如,邏輯回歸(英文全稱:Logist Regress1n,英文簡稱:LR)模型,也可以是隨機森林回歸(英文全稱:Random Frorest Regressor,英文簡稱:RFReg)模型,隨機梯度下降(英文全稱:Stochastic Gradient Descent Regressor,英文簡稱:SGD Reg),支持向量回歸(英文全稱:Support Vector Regress1n,英文簡稱:SVR)模型等,具體實現方式不做限定。本發明實施例中回歸模型通過回歸算法從樣本數據中學習得到,其中,樣本數據包括:公眾平臺中的多個公眾賬號以及多個公眾賬號對應的指標統計數據。在公眾平臺中記錄有多個公眾賬號,以及每個公眾賬號產生的指標統計數據,從公眾平臺中提取到樣本數據,通過該樣本數據訓練出來的回歸模型可以用于對公眾平臺中的公眾賬號進行質量評價。
[0032]在本發明的一些實施例中,步驟101獲取通過回歸算法從樣本數據中學習得到的回歸模型之前,本發明實施例提供的公眾賬號的質量評價方法還可以包括如下步驟:
[0033]Al、從公眾平臺中獲取到多個公眾賬號以及多個公眾賬號對應的指標統計數據;
[0034]A2、以多個公眾賬號以及多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型。
[0035]其中,公眾平臺中記錄有大量的公眾賬號,可以從這些公眾賬號中選取部分公眾賬號用于樣本數據,樣本數據中除了包括多個公眾賬號,還包括多個公眾賬號對應的指標統計數據,公眾賬號的指標統計數據是指針對多個指標分別從公眾平臺中收集到的與該公眾賬號有關的數據。在實際應用中可以根據公眾平臺中對公眾賬號設置的具體指標來獲取統計數據。獲取到樣本數據之后,可以使用回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型。其中,可使用的回歸算法可以有多種,舉例說明如下:可以采用邏輯回歸、支持向量回歸等回歸算法對回歸模型進行訓練學習,當回歸模型的特征數據滿足預置的條件要求時可以輸出學習得到的回歸模型,對于不同的回歸模型可以設置相應的條件要求,此處不做限定。
[0036]在本發明的一些實施例中,步驟A2以多個公眾賬號以及多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型,具體可以包括如下步驟:
[0037]A20、以多個公眾賬號以及多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法分別對多個回歸模型進行訓練學習,輸出學習得到的多個回歸模型。
[0038]也就是說,本發明實施例中在模型訓練階段可以使用樣本數據來訓練多個回歸模型,則可以輸出學習得到的多個回歸模型。在這種實現場景下,步驟101獲取通過回歸算法從樣本數據中學習得到的回歸模型,具體可以包括如下步驟:
[0039]1010、對多個回歸模型分別進行預測效果評估,從多個回歸模型中選擇出評估效果最好的回歸模型作為獲取到的回歸模型。
[0040]在執行步驟A20的實現場景下,本發明實施例可以執行步驟1010,對多個回歸模型分別進行預測效果評估,從多個回歸模型中選擇出評估效果最好的回歸模型作為獲取到的回歸模型。其中,可以使用效果評估方法來對多個回歸模型分別進行評估,例如可以使用的效果評估方法是最小均方誤差(英文全稱:Mean squared error,英文簡稱:MSE),也可以采用平方相關系數(英文名稱:Squared Correlat1n Coefficient),具體此處不做限定。從多個回歸模型中選擇出的回歸模型可以作為后續步驟102中預測評分所用的模型。通過多個回歸模型的選擇,可以使用評估效果最好的回歸模型,從而提高對公眾賬號的質量評分預測的準確性。
[0041]在本發明的一些實施例中,公眾賬號對應的指標統計數據可以包括:運營指標統計數據、粉絲指標統計數據、文章指標統計數據和互動指標統計數據。其中,運營指標統計數據是指從公眾平臺針對平臺運營所設置的運營指標中收集到的數據,該運營指標可以指的是公眾賬號的文章原創度、抄襲比例等,運營指標可以根據公眾平臺的具體實現來配置。粉絲指標統計數據是指公眾平臺中從公眾賬號的粉絲指標中收集到的數據,粉絲指標可以指的是公眾賬號所擁有的粉絲數據,例如粉絲數量、粉絲的等級分布、粉絲的活躍程度等。文章指標統計數據可以指的是從公眾平臺針對公眾賬號設置的文章指標收集到的數據,該文章指標可以指的是公眾賬號的文章發表數據、文章被閱讀的數據、文章被轉發的數據等。互動指標統計數據可以指的是從公眾平臺中公眾賬號和粉絲的互動指標收集到的數據,例如公眾賬號發送的消息數據、粉絲留言的消息數據等。針對上述描述的運營指標、粉絲指標、文章指標、互動指標分別收集到的數據可以構成公眾賬號對應的指標統計數據。
[0042]在本發明的另一些實施例中,公眾賬號對應的指標統計數據可以包括:粉絲對公眾賬號的上行行為指標統計數據、公眾賬號支付指標統計數據、公眾賬號對粉絲的下行消息指標統計數據。其中,上行行為指標統計數據指的是從公眾平臺中粉絲主動執行的行為,例如粉絲發送消息給公眾賬號,粉絲閱讀公眾賬號發表的文章,粉絲轉發公眾賬號發表的文章等。公眾賬號支付指標統計數據指的是公眾平臺中粉絲給公眾賬號轉賬的支付數據,下行消息指標統計數據指的是公眾平臺中公眾賬號為粉絲回復的消息數據。針對上述描述的上行行為指標、支付指標、下行消息指標分別收集到的數據可以構成公眾賬號對應的指標統計數據。
[0043]需要說明的是,在實際應用中,公眾平臺中記錄的公眾賬號對應的指標統計數據可以有多種實現方式,具體取決于公眾平臺對公眾賬號的具體配置。舉例說明如下,在社交應用的公眾平臺中,可以從公眾平臺上收集公眾賬號及其粉絲數據及粉絲對該公眾賬號的閱讀文章、點擊菜單、發送消息等指標統計數據、該公眾賬號發送及接收消息數據、該公眾賬號發表的文章被閱讀或者轉發的數據、對應粉絲通過該公眾賬號進行支付行為的數據等等相關指標等統計數據。
[0044]在本發明的一些實施例中,步驟A2以多個公眾賬號以及多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型,具體可以包括如下步驟:
[0045]A21、將樣本數據分為兩類,得到訓練樣本數據和測試樣本數據,訓練樣本數據包括:訓練公眾賬號以及訓練公眾賬號對應的指標統計數據,測試樣本數據包括:測試公眾賬號以及測試公眾賬號對應的指標統計數據,其中,從公眾平臺獲取到的多個公眾賬號分為兩類:訓練公眾賬號和測試公眾賬號;
[0046]A22、使用訓練樣本數據,通過回歸算法對回歸模型進行特征工程分析得到回歸模型的第一特征數據,根據回歸模型的第一特征數據對回歸模型進行預測優化后輸出訓練完成的回歸模型;
[0047]A23、使用測試樣本數據,通過回歸算法對訓練完成的回歸模型進行特征工程分析得到回歸模型的第二特征數據,根據回歸模型的第二特征數據對回歸模型進行評測優化后輸出學習得到的回歸模型。
[0048]其中,在步驟A21中,首先將樣本數據分為兩類,得到訓練樣本數據和測試樣本數據,訓練樣本數據是用來訓練回歸模型的,測試樣本數據是回歸模型要識別的對象,在實際應用中,可以按照數據比例來劃分樣本數據,將樣本數據分為訓練樣本數據和測試樣本數據,例如,可以將總樣本數的70%-75%的樣本數據作為訓練樣本數據,其余的樣本數據作為測試樣本數據。
[0049]對樣本數據進行分類后,首先對訓練樣本數據執行步驟A22,使用訓練樣本數據,通過回歸算法對回歸模型進行特征工程分析得到回歸模型的第一特征數據,根據回歸模型的第一特征數據對回歸模型進行預測優化后輸出訓練完成的回歸模型。其中,特征工程是將原始數據轉化為特征,更好表示預測模型處理的實際問題,提升對于未知數據的準確性。它是用目標問題所在的公眾賬號知識或者自動化的方法來生成、提取、刪減或者組合變化得到特征。本發明實施例中,對訓練樣本數據進行特征工程分析之后,可以得到回歸模型的第一特征數據,該第一特征數據是通過回歸算法對訓練樣本數據進行分析后的特征向量,然后根據回歸模型的第一特征數據對回歸模型進行預測優化后輸出訓練完成的回歸模型,具體的預測優化方式可以結合采用的回歸算法和回歸模型來完成。
[0050]進一步的,在本發明的一些實施例中,步驟A22使用訓練樣本數據,通過回歸算法對回歸模型進行特征工程分析得到回歸模型的第一特征數據,具體可以包括如下步驟:
[0051]A221、對訓練樣本數據中訓練公眾賬號對應的指標統計數據按照特征重要性進行篩選分析,將篩選出來的特征數據寫入質量特征列表;
[0052]A222、判斷質量特征列表中的特征數據在歷史時間段內是否發生變化,將質量特征列表中按照穩定性從高到低輸出的特征數據作為回歸模型的第一特征數據。
[0053]其中,在訓練回歸模型時,可以對訓練公眾賬號對應的指標統計數據按照特征重要性進行篩選分析,按照重要程度可以將篩選出來的特征數據寫入質量特征列表中,在質量特征列表中可以包括多個特征數據,然后再對質量特征列表中的特征數據進行穩定性分析,例如可以設置一個歷史時間段,從公眾平臺中觀察質量特征列表中的特征數據是否發變化,將質量特征列表中按照穩定性從高到低輸出的特征數據作為回歸模型的第一特征數據。本發明實施例中通過對收集的特征數據按照重要性分析、穩定性分析等過程進行特征篩選,最后得到的質量特征列表中可以保留對最終分值預測有幫助的特征數據。
[0054]在輸出通過訓練樣本數據訓練完成的回歸模型之后,可以執行步驟A23,用訓練完成的回歸模型對測試樣本數據進行測試。具體的,可以使用測試樣本數據,通過回歸算法對訓練完成的回歸模型進行特征工程分析得到回歸模型的第二特征數據,根據回歸模型的第二特征數據對回歸模型進行評測優化后輸出學習得到的回歸模型。該第二特征數據是通過回歸算法對測試樣本數據進行分析后的特征向量,然后根據回歸模型的第二特征數據對回歸模型進行評測優化后輸出學習得到的回歸模型,,具體的預測優化方式可以結合采用的回歸算法和回歸模型來完成。
[0055]在本發明的一些實施例中,步驟A22使用訓練樣本數據,通過回歸算法對回歸模型進行特征工程分析得到回歸模型的第一特征數據之前,本發明實施例提供的公眾賬號的質量評價方法還可以包括如下步驟:
[0056]B1、對訓練樣本數據和測試樣本數據分別進行數據標注,得到標注后的訓練樣本數據和標注后的測試樣本數據;
[0057]B2、對標注后的訓練樣本數據和標注后的測試樣本數據分別進行數據篩選。
[0058]其中,在對樣本數據進行分類得到訓練樣本數據和測試樣本數據之后,可以按照訓練樣本數據和測試樣本數據分別進行數據標注,以從訓練樣本數據和測試樣本數據分別標注出數據,然后針對訓練樣本數據和測試樣本數據分別進行數據篩選。舉例說明如下,對于標注好的公眾賬號可以按照O?100分各個分數范圍按照相同比例進行篩選,從而可以有效的保證樣本均衡,例如共篩選出訓練樣本數據大約2萬條,篩選出測試樣本數據大約I萬多條。
[0059]在本發明的一些實施例中,公眾賬號可以包括:訂閱型公眾賬號和服務型公眾賬號。例如,運營主體是組織(比如企業、媒體、公益組織)的,可以申請服務型公眾賬號,運營主體是組織和個人的可以申請訂閱型公眾賬號。則在數據標注和篩選的過程中可以分別按照訂閱型公眾賬號和服務型公眾賬號進行數據標注和篩選,從而實現樣本數據的均衡。
[0060]102、將待評價的公眾賬號輸入到回歸模型中,通過回歸模型對待評價的公眾賬號進行分數值預測。
[0061 ]在本發明實施例中,獲取到通過回歸算法從樣本數據中學習得到的回歸模型之后,該回歸模型可以用于公眾賬號的質量預測,通過前述步驟的描述可知,回歸模型通過樣本數據使用回歸算法進行訓練,該樣本數據的數據來源是公眾平臺中的多個公眾賬號,完成訓練后的回歸模型可以識別出具體的公眾賬號的質量高低。具體的,將待評價的公眾賬號輸入到回歸模型中,則通過該回歸模型中的特征數據可以對該評價的公眾賬號進行分數值預測。其中,待評價的公眾賬號可以是一個公眾賬號,也可以指的是多個公眾賬號,此時可以通過回歸模型對多個待評價的公眾賬號進行分數值預測。
[0062]103、獲取回歸模型預測后輸出的分數值作為待評價的公眾賬號的質量分數。
[0063]在本發明實施例中,通過步驟102回歸模型對待評價的公眾賬號進行分數值預測后,可以將回歸模型預測后輸出的分數值作為待評價的公眾賬號的質量分數。例如,回歸模型預測后輸出的分數值的取值區間為從O到100,每個待評價的公眾賬號通過回歸模型預測后輸出的分數值按照從高到低進行排序,分數值越高的公眾賬號代表其質量越高。
[0064]通過以上實施例對本發明實施例的描述可知,首先獲取通過回歸算法從樣本數據中學習得到的回歸模型,樣本數據包括:公眾平臺中的多個公眾賬號以及多個公眾賬號對應的指標統計數據,然后將待評價的公眾賬號輸入到回歸模型中,通過回歸模型對待評價的公眾賬號進行分數值預測,最后獲取回歸模型預測后輸出的分數值作為待評價的公眾賬號的質量分數。本發明實施例中可以從公眾平臺中提取到樣本數據來訓練得到回歸模型,通過回歸模型可以對待評價的公眾賬號進行分數值預測,從而得到待評價的公眾賬號的質量分數。由于回歸模型是通過從公眾平臺中提取出的樣本數據訓練得到,樣本數據來源于公眾平臺,公眾平臺中的公眾賬號可以通過該回歸模型進行質量評價,從而可以實現對公眾賬號的質量做出有效的評價。
[0065]為便于更好的理解和實施本發明實施例的上述方案,下面舉例相應的應用場景來進行具體說明。
[0066]隨著公眾賬號平臺的商業化進程的開展,具有優質文章質量、高活躍粉絲等等特征的高質量公眾賬號在很多業務比如像廣告投放、商業營銷、征信業務等等均有需求并使用到,而高質量的公眾賬號更能達到事倍功半的效果,因此高質量的公眾賬號挖掘迫在眉急,本發明實施例中可以將公眾賬號的質量打通過回歸模型來實現,并通過公眾平臺上的一些指標統計數據(比如每周發布文章數、文章被閱讀比例、活躍粉絲等等)進行再加工處理匯總成各個瑋度的特征數據,并利用機器學習模型進行質量打分。其中,指標統計數據可以包括:從公眾平臺上收集公眾賬號及其粉絲數據及粉絲對該公眾賬號的閱讀文章、點擊菜單、發送消息、該公眾賬號發送及接收消息數據、該公眾賬號發表的文章被閱讀或者轉發的數據、對應粉絲通過該公眾賬號進行支付行為的數據等等相關運營指標等統計數據。
[0067]請參閱圖2所示,為本發明實施例提供的公眾賬號的質量評價方法的一種應用場景示意圖。本發明實施例中可以將公眾賬號的質量評分問題通過機器學習中的回歸模型來實現,結合公眾平臺標注出的數據,利用回歸算法如邏輯回歸、支持向量回歸等等首先訓練出回歸模型,最終實現對每個公眾賬號進行分數預測打分,分數值范圍可以為[0,100],其中,分數值越高越好代表該公眾賬號的質量越好越優質,其中O分為最差,100分為最好。整個回歸模型框架如圖2所示,可以分為:前期公眾賬號數據準備分析、訓練樣本數據和測試樣本數據的標注以及篩選、特征工程分析、模型預測及評測優化、結果預測等幾個步驟。其中,機器學習中需要對收集的特征進行按照重要性分析、穩定性分析等過程進行特征篩選,從而得到對最終結果有幫助的特征。
[0068]如圖2所示,在本發明實施例提供的公眾賬號的質量挖掘框架中,訓練樣本數據首先對回歸模型進行人工特征工程分析,從而完成對回歸模型的訓練,測試樣本數據也對回歸模型進行人工特征工程分析,從而完成對回歸模型的評測,接下來再對該回歸模型進行迭代優化,從而確定出回歸模型的特征數據。該回歸模型可以用于對待評價的公眾賬號進行分數值預測,然后輸出預測結果。
[0069]在本發明實施例中,樣本數據可以從公眾平臺中來選擇,回歸模型的特征數據通過對指標統計數據進行篩選后得到。例如,圖2中用到的基礎特征數據來自公眾賬號的底層一些統計數據,主要有粉絲與公眾賬號的上行行為數據、公眾賬號支付數據、公眾賬號給粉絲的下行消息數據等三大類數據。其中,公眾賬號支付數據是指粉絲給該公眾賬號支付的數據。具體的,指標統計數據可以包括公眾賬號相關數據,以及相關的屬性信息,主要有公眾賬號粉絲情況、公眾賬號與粉絲上行消息數據、公眾賬號支付數據、公眾賬號與粉絲下行消息、公眾賬號接口數據等等,其中公眾賬號接口數據指的是在公眾賬號里面打開的一些外面鏈接數據。為增加模型的可信度及魯棒性,在模型訓練的時候,同時考慮過去一段時間內各類特征的相關統計數值。
[0070]在本發明實施例中,還可以按照訂閱型公眾賬號和服務型公眾賬號分別進行數據標注以及模型訓練,例如,對于標注好的公眾賬號可以按照O?100分各個分數范圍按照相同比例進行刷選,這樣保證樣本均衡問題,共篩選出訓練樣本數據大約2萬條,測試樣本數據大約I萬多條。
[0071]需要說明的是,在本發明實施例中,可以使用的回歸模型有多種,例如LR模型,也可以是RFReg模型,S⑶Reg模型,SVR模型等,不限定的是,本發明實施例中采用的回歸模型還可以是其它可用的模型,比如決策樹及其變體、神經網絡、深度學習等等模型。本發明實施例中提到特征數據的替換,還可以改用文本、文章等等公眾賬號其它可涉及的數據指標等等。本發明實施例中可以使用機器學習模型,還可以替換成一些人工經驗對一些相關指標,比如從運營指標、粉絲指標、文章指標和互動指標這四個大出發分別計算相關統計指標,然后進行加權組合算出最終的分數值來表示這個公眾賬號的質量分的方案。另外,本發明實施例中標注數據除了圖2所示的人工進行標注之外,還可以利用主動學習(英文全稱:active I earning)方法進行逐步標注。例如,每次人工標注少量樣本,然后回歸模型利用人工標注的樣本進行擴學習更多的樣本,人工再對模型標注的樣本進行確認,整個過程不斷持續,直到標注樣本達到足夠數量。
[0072]通過前述對本發明的舉例說明可知,本發明實施例中利用回歸算法對公眾賬號的指標進行重要性篩選,并結合過去一段時間內的這些指標值的變化情況,匯總成公眾賬號的質量特征列表,然后利用回歸模型進行訓練和預測,因此更具有魯棒性和穩定性。本發明實施例產出的高質量的公眾賬號有著廣泛的應用場景,比如像廣告投放、商業營銷活動、征信業務等等,通常情況下,20%的高質量公眾賬號能夠覆蓋80%的用戶群體,因此能夠在這些應用場景中往往能達到事倍功半的效果。
[0073]需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明并不受所描述的動作順序的限制,因為依據本發明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優選實施例,所涉及的動作和模塊并不一定是本發明所必須的。
[0074]為便于更好的實施本發明實施例的上述方案,下面還提供用于實施上述方案的相關裝置。
[0075]請參閱圖3-a所示,本發明實施例提供的一種公眾賬號的質量評價裝置300,可以包括:模型獲取模塊301、模型預測模塊302和質量評價模塊303,其中,
[0076]模型獲取模塊301,用于獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據;
[0077]模型預測模塊302,用于將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測;
[0078]質量評價模塊303,用于獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。
[0079]在本發明的一些實施例中,請參閱圖3-b所示,所述公眾賬號的質量評價裝置300,還包括:數據獲取模塊304和模型訓練模塊305,其中,
[0080]所述數據獲取模塊304,用于所述模型獲取模塊301獲取通過回歸算法從樣本數據中學習得到的回歸模型之前,從公眾平臺中獲取到多個公眾賬號以及所述多個公眾賬號對應的指標統計數據;
[0081]所述模型訓練模塊305,用于以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型。
[0082]在本發明的一些實施例中,請參閱圖3-c所示,所述模型訓練模塊305,包括:
[0083]數據分類模塊3051,用于將樣本數據分為兩類,得到訓練樣本數據和測試樣本數據,所述訓練樣本數據包括:訓練公眾賬號以及所述訓練公眾賬號對應的指標統計數據,所述測試樣本數據包括:測試公眾賬號以及所述測試公眾賬號對應的指標統計數據,其中,從公眾平臺獲取到的所述多個公眾賬號分為兩類:所述訓練公眾賬號和所述測試公眾賬號;
[0084]第一模型處理模塊3052,用于使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據,根據所述回歸模型的第一特征數據對所述回歸模型進行預測優化后輸出訓練完成的回歸模型;
[0085]第二模型處理模塊3053,用于使用所述測試樣本數據,通過所述回歸算法對所述訓練完成的回歸模型進行特征工程分析得到回歸模型的第二特征數據,根據所述回歸模型的第二特征數據對所述回歸模型進行評測優化后輸出學習得到的回歸模型。
[0086]在本發明的一些實施例中,請參閱圖3-d所示,相對于圖3-c所示,所述模型訓練模塊300,還包括:數據標注模塊3054和數據篩選模塊3055,其中,
[0087]所述數據標注模塊3054,用于所述第一模型處理模塊3052使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據之前,對所述訓練樣本數據和所述測試樣本數據分別進行數據標注,得到標注后的訓練樣本數據和標注后的測試樣本數據;
[0088]所述數據篩選模塊3055,用于對所述標注后的訓練樣本數據和所述標注后的測試樣本數據分別進行數據篩選。
[0089]在本發明的一些實施例中,請參閱圖3-e所示,所述第一模型處理模塊3052,包括:
[0090]重要性分析模塊30521,用于對所述訓練樣本數據中所述訓練公眾賬號對應的指標統計數據按照特征重要性進行篩選分析,將篩選出來的特征數據寫入質量特征列表;
[0091]穩定性分析模塊30522,用于判斷所述質量特征列表中的特征數據在歷史時間段內是否發生變化,將所述質量特征列表中按照穩定性從高到低輸出的特征數據作為所述回歸模型的第一特征數據。
[0092]在本發明的一些實施例中,所述模型訓練模塊305,具體用于以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法分別對多個回歸模型進行訓練學習,輸出學習得到的多個回歸模型;
[0093]所述模型獲取模塊301,具體用于對所述多個回歸模型分別進行預測效果評估,從所述多個回歸模型中選擇出評估效果最好的回歸模型作為獲取到的回歸模型。
[0094]在本發明的一些實施例中,所述指標統計數據,包括:運營指標統計數據、粉絲指標統計數據、文章指標統計數據和互動指標統計數據。
[0095]在本發明的一些實施例中,所述指標統計數據,包括:粉絲對公眾賬號的上行行為指標統計數據、公眾賬號支付指標統計數據、公眾賬號對粉絲的下行消息指標統計數據。
[0096]通過以上實施例對本發明實施例的描述可知,首先獲取通過回歸算法從樣本數據中學習得到的回歸模型,樣本數據包括:公眾平臺中的多個公眾賬號以及多個公眾賬號對應的指標統計數據,然后將待評價的公眾賬號輸入到回歸模型中,通過回歸模型對待評價的公眾賬號進行分數值預測,最后獲取回歸模型預測后輸出的分數值作為待評價的公眾賬號的質量分數。本發明實施例中可以從公眾平臺中提取到樣本數據來訓練得到回歸模型,通過回歸模型可以對待評價的公眾賬號進行分數值預測,從而得到待評價的公眾賬號的質量分數。由于回歸模型是通過從公眾平臺中提取出的樣本數據訓練得到,樣本數據來源于公眾平臺,公眾平臺中的公眾賬號可以通過該回歸模型進行質量評價,從而可以實現對公眾賬號的質量做出有效的評價。
[0097]圖4是本發明實施例提供的一種服務器結構示意圖,該服務器1100可因配置或性能不同而產生比較大的差異,可以包括一個或一個以上中央處理器(central processingunits,CPU) 1122(例如,一個或一個以上處理器)和存儲器1132,一個或一個以上存儲應用程序1142或數據1144的存儲介質1130(例如一個或一個以上海量存儲設備)。其中,存儲器1132和存儲介質1130可以是短暫存儲或持久存儲。存儲在存儲介質1130的程序可以包括一個或一個以上模塊(圖示沒標出),每個模塊可以包括對服務器中的一系列指令操作。更進一步地,中央處理器1122可以設置為與存儲介質1130通信,在服務器1100上執行存儲介質1130中的一系列指令操作。
[0098]服務器1100還可以包括一個或一個以上電源1126,一個或一個以上有線或無線網絡接口 1150,一個或一個以上輸入輸出接口 1158,和/或,一個或一個以上操作系統1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
[0099]上述實施例中由服務器所執行的公眾賬號的質量評價方法步驟可以基于該圖4所示的服務器結構。
[0100]另外需說明的是,以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。另外,本發明提供的裝置實施例附圖中,模塊之間的連接關系表示它們之間具有通信連接,具體可以實現為一條或多條通信總線或信號線。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解并實施。
[0101]通過以上的實施方式的描述,所屬領域的技術人員可以清楚地了解到本發明可借助軟件加必需的通用硬件的方式來實現,當然也可以通過專用硬件包括專用集成電路、專用CPU、專用存儲器、專用元器件等來實現。一般情況下,凡由計算機程序完成的功能都可以很容易地用相應的硬件來實現,而且,用來實現同一功能的具體硬件結構也可以是多種多樣的,例如模擬電路、數字電路或專用電路等。但是,對本發明而言更多情況下軟件程序實現是更佳的實施方式。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在可讀取的存儲介質中,如計算機的軟盤,U盤、移動硬盤、只讀存儲器(R0M,Read-0nly Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執行本發明各個實施例所述的方法。
[0102]綜上所述,以上實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照上述實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對上述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的精神和范圍。
【主權項】
1.一種公眾賬號的質量評價方法,其特征在于,包括: 獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據; 將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測; 獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。2.根據權利要求1所述的方法,其特征在于,所述獲取通過回歸算法從樣本數據中學習得到的回歸模型之前,所述方法還包括: 從公眾平臺中獲取到多個公眾賬號以及所述多個公眾賬號對應的指標統計數據; 以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型。3.根據權利要求2所述的方法,其特征在于,所述以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型,包括: 將樣本數據分為兩類,得到訓練樣本數據和測試樣本數據,所述訓練樣本數據包括:訓練公眾賬號以及所述訓練公眾賬號對應的指標統計數據,所述測試樣本數據包括:測試公眾賬號以及所述測試公眾賬號對應的指標統計數據,其中,從公眾平臺獲取到的所述多個公眾賬號分為兩類:所述訓練公眾賬號和所述測試公眾賬號; 使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據,根據所述回歸模型的第一特征數據對所述回歸模型進行預測優化后輸出訓練完成的回歸申旲型; 使用所述測試樣本數據,通過所述回歸算法對所述訓練完成的回歸模型進行特征工程分析得到回歸模型的第二特征數據,根據所述回歸模型的第二特征數據對所述回歸模型進行評測優化后輸出學習得到的回歸模型。4.根據權利要求3所述的方法,其特征在于,所述使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據之前,所述方法還包括: 對所述訓練樣本數據和所述測試樣本數據分別進行數據標注,得到標注后的訓練樣本數據和標注后的測試樣本數據; 對所述標注后的訓練樣本數據和所述標注后的測試樣本數據分別進行數據篩選。5.根據權利要求3所述的方法,其特征在于,所述使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據,包括: 對所述訓練樣本數據中所述訓練公眾賬號對應的指標統計數據按照特征重要性進行篩選分析,將篩選出來的特征數據寫入質量特征列表; 判斷所述質量特征列表中的特征數據在歷史時間段內是否發生變化,將所述質量特征列表中按照穩定性從高到低輸出的特征數據作為所述回歸模型的第一特征數據。6.根據權利要求2所述的方法,其特征在于,所述以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型,包括: 以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法分別對多個回歸模型進行訓練學習,輸出學習得到的多個回歸模型; 所述獲取通過回歸算法從樣本數據中學習得到的回歸模型,包括: 對所述多個回歸模型分別進行預測效果評估,從所述多個回歸模型中選擇出評估效果最好的回歸模型作為獲取到的回歸模型。7.根據權利要求1至6中任一項所述的方法,其特征在于,所述指標統計數據,包括:運營指標統計數據、粉絲指標統計數據、文章指標統計數據和互動指標統計數據。8.根據權利要求1至6中任一項所述的方法,其特征在于,所述指標統計數據,包括:粉絲對公眾賬號的上行行為指標統計數據、公眾賬號支付指標統計數據、公眾賬號對粉絲的下行消息指標統計數據。9.一種公眾賬號的質量評價裝置,其特征在于,包括: 模型獲取模塊,用于獲取通過回歸算法從樣本數據中學習得到的回歸模型,所述樣本數據包括:公眾平臺中的多個公眾賬號以及所述多個公眾賬號對應的指標統計數據; 模型預測模塊,用于將待評價的公眾賬號輸入到所述回歸模型中,通過所述回歸模型對所述待評價的公眾賬號進行分數值預測; 質量評價模塊,用于獲取所述回歸模型預測后輸出的分數值作為所述待評價的公眾賬號的質量分數。10.根據權利要求9所述的裝置,其特征在于,所述公眾賬號的質量評價裝置,還包括:數據獲取模塊和模型訓練模塊,其中, 所述數據獲取模塊,用于所述模型獲取模塊獲取通過回歸算法從樣本數據中學習得到的回歸模型之前,從公眾平臺中獲取到多個公眾賬號以及所述多個公眾賬號對應的指標統計數據; 所述模型訓練模塊,用于以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法對回歸模型進行訓練學習,輸出學習得到的回歸模型。11.根據權利要求10所述的裝置,其特征在于,所述模型訓練模塊,包括: 數據分類模塊,用于將樣本數據分為兩類,得到訓練樣本數據和測試樣本數據,所述訓練樣本數據包括:訓練公眾賬號以及所述訓練公眾賬號對應的指標統計數據,所述測試樣本數據包括:測試公眾賬號以及所述測試公眾賬號對應的指標統計數據,其中,從公眾平臺獲取到的所述多個公眾賬號分為兩類:所述訓練公眾賬號和所述測試公眾賬號; 第一模型處理模塊,用于使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據,根據所述回歸模型的第一特征數據對所述回歸模型進行預測優化后輸出訓練完成的回歸模型; 第二模型處理模塊,用于使用所述測試樣本數據,通過所述回歸算法對所述訓練完成的回歸模型進行特征工程分析得到回歸模型的第二特征數據,根據所述回歸模型的第二特征數據對所述回歸模型進行評測優化后輸出學習得到的回歸模型。12.根據權利要求11所述的裝置,其特征在于,所述模型訓練模塊,還包括:數據標注模塊和數據篩選模塊,其中, 所述數據標注模塊,用于所述第一模型處理模塊使用所述訓練樣本數據,通過回歸算法對所述回歸模型進行特征工程分析得到回歸模型的第一特征數據之前,對所述訓練樣本數據和所述測試樣本數據分別進行數據標注,得到標注后的訓練樣本數據和標注后的測試樣本數據; 所述數據篩選模塊,用于對所述標注后的訓練樣本數據和所述標注后的測試樣本數據分別進行數據篩選。13.根據權利要求11所述的裝置,其特征在于,所述第一模型處理模塊,包括: 重要性分析模塊,用于對所述訓練樣本數據中所述訓練公眾賬號對應的指標統計數據按照特征重要性進行篩選分析,將篩選出來的特征數據寫入質量特征列表; 穩定性分析模塊,用于判斷所述質量特征列表中的特征數據在歷史時間段內是否發生變化,將所述質量特征列表中按照穩定性從高到低輸出的特征數據作為所述回歸模型的第一特征數據。14.根據權利要求10所述的裝置,其特征在于,所述模型訓練模塊,具體用于以所述多個公眾賬號以及所述多個公眾賬號對應的指標統計數據作為樣本數據,通過回歸算法分別對多個回歸模型進行訓練學習,輸出學習得到的多個回歸模型; 所述模型獲取模塊,具體用于對所述多個回歸模型分別進行預測效果評估,從所述多個回歸模型中選擇出評估效果最好的回歸模型作為獲取到的回歸模型。15.根據權利要求9至14中任一項所述的裝置,其特征在于,所述指標統計數據,包括:運營指標統計數據、粉絲指標統計數據、文章指標統計數據和互動指標統計數據。16.根據權利要求9至14中任一項所述的裝置,其特征在于,所述指標統計數據,包括:粉絲對公眾賬號的上行行為指標統計數據、公眾賬號支付指標統計數據、公眾賬號對粉絲的下行消息指標統計數據。
【文檔編號】G06F17/27GK105824806SQ201610420186
【公開日】2016年8月3日
【申請日】2016年6月13日
【發明人】陳明星, 陳謙, 萬偉
【申請人】騰訊科技(深圳)有限公司