主題模型的生成方法及裝置、主題分布的獲取方法及裝置的制造方法
【專利說明】主題模型的生成方法及裝置、主題分布的獲取方法及裝置 【技術領域】
[0001] 本發明涉及計算機技術領域,尤其涉及一種主題模型的生成方法及裝置、主題分 布的獲取方法及裝置。 【【背景技術】】
[0002] 在機器學習與自然語言處理領域中,常常需要從大量文本中,挖掘文本域詞語之 間所蘊含的潛在語義關系,即所主題。通過主題模型的學習和預測,可以獲得文本的主題分 布,用于實現文本聚類,以及應用于后續分類、檢索、擴展、推薦等任務。
[0003] 現有技術中,傳統的主題模型,如概率潛語義分析(Probabi 1 ity Latent Semantic Analysis,PLSA)算法、非負矩陣分角軍(Non-negative Matrix Factorization, NMF)算法、隱含迪利克萊分布(Latent Dirichlet Allocation,LDA)算法,均采取詞袋(bag of words)的概念,忽略了詞條之間的關系,用多項分布(multinomial)描述每個詞條的主 題分布。然而,傳統的主題模型都是針對長文本而提出,隨著社交網絡的興起,互聯網上產 生了大量如微博、評論等短文本,由于短文本中包含的詞條數目較少,受限于其共現詞的低 頻性,利用傳統的主題模型獲得文本的主題分布的準確性和穩定性比較低。 【
【發明內容】
】
[0004] 有鑒于此,本發明實施例提供了一種主題模型的生成方法及裝置、主題分布的獲 取方法及裝置,用以解決現有技術中利用傳統的主題模型獲得文本的主題分布的準確性和 穩定性比較低的問題。
[0005] 本發明實施例的一方面,提供一種主題模型的生成方法,所述主題模型包括主題 分布的目標期望;包括:
[0006] 獲得訓練樣本中詞對的第一后驗概率參數;
[0007] 依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望; 其中,所述詞對包含所述訓練樣本中兩個不同的詞條;
[0008] 依據所述訓練樣本中詞對的主題分布的候選期望,獲得主題模型的收斂度;
[0009] 若所述主題模型的收斂度滿足終止條件,將所述訓練樣本中詞對的主題分布的候 選期望作為所述主題分布的目標期望。
[0010] 如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得訓 練樣本中詞對的第一后驗概率參數,包括:
[0011] 獲得訓練樣本中詞對的迪利克萊分布的先驗概率參數;
[0012] 依據隨機數與所述迪利克萊分布的先驗概率參數之和,獲得所述訓練樣本中詞對 的迪利克萊分布的第一后驗概率參數,以作為所述訓練樣本中詞對的第一后驗概率參數。
[0013] 如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述獲得訓 練樣本中詞對的第一后驗概率參數,包括:
[0014] 依據服從泊松分布的所述訓練樣本中詞對的出現次數,并利用如下公式,獲得所 述迪利克萊分布的第一后驗概率參數4k,以作為所述訓練樣本中詞對的第一后驗概率參 數:
【主權項】
1. 一種主題模型的生成方法,其特征在于,所述主題模型包括主題分布的目標期望; 所述方法包括: 獲得訓練樣本中詞對的第一后驗概率參數; 依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望;其中, 所述詞對包含所述訓練樣本中兩個不同的詞條; 依據所述訓練樣本中詞對的主題分布的候選期望,獲得主題模型的收斂度; 若所述主題模型的收斂度滿足終止條件,將所述訓練樣本中詞對的主題分布的候選期 望作為所述主題分布的目標期望。
2. 根據權利要求1所述的方法,其特征在于,所述獲得訓練樣本中詞對的第一后驗概 率參數,包括: 獲得訓練樣本中詞對的迪利克萊分布的先驗概率參數; 依據隨機數與所述迪利克萊分布的先驗概率參數之和,獲得所述訓練樣本中詞對的迪 利克萊分布的第一后驗概率參數,以作為所述訓練樣本中詞對的第一后驗概率參數。
3. 根據權利要求1所述的方法,其特征在于,所述獲得訓練樣本中詞對的第一后驗概 率參數,包括: 依據服從泊松分布的所述訓練樣本中詞對的出現次數,并利用如下公式,獲得所述迪 利克萊分布的第一后驗概率參數以作為所述訓練樣本中詞對的第一后驗概率參數:
其中,ε表示所述訓練樣本中詞對b的迪利克萊分布的先驗概率參數;nb表示服從泊 松分布的所述訓練樣本中詞對b的出現次數;口[1〇11;表示詞對b的中間參數P #中第b行、 第k列的M維向量中的第m個數值。
4. 根據權利要求2或3所述的方法,其特征在于,所述依據所述第一后驗概率參數,獲 得所述訓練樣本中詞對的主題分布的候選期望,包括: 依據所述迪利克萊分布的第一后驗概率參數并利用如下公式,獲得所述訓練樣本 中詞對的主題分布的候選期望:
其中,〈Θ bk>表示所述訓練樣本中詞對b的主題分布的候選期望;表示迪利克萊分 布的第一后驗概率參數;K表示主題的總數目,k表示主題的序號,k的取值范圍是[1,Κ]。
5. 根據權利要求1所述的方法,其特征在于,所述依據所述訓練樣本中詞對的主題分 布的候選期望,獲得主題模型的收斂度,包括: 依據所述訓練樣本中詞對的主題分布的候選期望,獲得所述訓練樣本中詞對的伽瑪分 布的后驗概率參數的期望、詞對的中間參數、所述訓練樣本中詞對的迪利克萊分布的第二 后驗概率參數、所述訓練樣本中詞對的伽瑪分布的后驗概率參數中至少一個; 依據所述訓練樣本中詞對的伽瑪分布的后驗概率參數的期望、詞對的中間參數、所述 訓練樣本中詞對的迪利克萊分布的第二后驗概率參數、所述訓練樣本中詞對的伽瑪分布的 后驗概率參數中至少一個,獲得所述主題模型的收斂度。
6. 根據權利要求5所述的方法,其特征在于,所述方法還包括: 若所述主題模型的收斂度不滿足所述終止條件,利用所述迪利克萊分布的第二后驗概 率參數更新所述第一后驗概率參數,以及依據更新后的所述第一后驗概率參數,執行依據 所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望的操作。
7. -種主題分布的獲取方法,其特征在于,所述方法包括: 獲得待處理文本; 依據所述待處理文本,獲得至少一個詞對; 利用預先生成的主題模型,獲得每個所述詞對的主題分布的期望; 依據每個所述詞對的主題分布的期望,獲得所述待處理文本的主題分布; 其中,所述主題模型為上述權利要求1?6中任一項所述的主題模型的生成方法生成 的。
8. -種主題模型的生成裝置,其特征在于,所述主題模型包括主題分布的目標期望; 所述裝置包括: 參數獲取單元,用于獲得訓練樣本中詞對的第一后驗概率參數; 參數處理單元,用于依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分 布的候選期望;其中,所述詞對包含所述訓練樣本中兩個不同的詞條; 收斂獲取單元,用于依據所述訓練樣本中詞對的主題分布的候選期望,獲得主題模型 的收斂度; 模型獲取單元,用于若所述主題模型的收斂度滿足終止條件,將所述訓練樣本中詞對 的主題分布的候選期望作為所述主題分布的目標期望。
9. 根據權利要求8所述的裝置,其特征在于,所述參數獲取單元,具體用于: 獲得訓練樣本中詞對的迪利克萊分布的先驗概率參數; 依據隨機數與所述迪利克萊分布的先驗概率參數之和,獲得所述訓練樣本中詞對的迪 利克萊分布的第一后驗概率參數,以作為所述訓練樣本中詞對的第一后驗概率參數。
10. 根據權利要求8所述的裝置,其特征在于,所述參數獲取單元,具體用于: 依據服從泊松分布的所述訓練樣本中詞對的出現次數,并利用如下公式,獲得所述迪 利克萊分布的第一后驗概率參數gk,以作為所述訓練樣本中詞對的第一后驗概率參數:
其中,ε表示所述訓練樣本中詞對b的迪利克萊分布的先驗概率參數;nb表示服從泊 松分布的所述訓練樣本中詞對b的出現次數;p[km表示詞對b的中間參數P #中第b行、 第k列的M維向量中的第m個數值。
11. 根據權利要求9或10所述的裝置,其特征在于,所述參數處理單元,具體用于: 依據所述迪利克萊分布的第一后驗概率參數ε^,并利用如下公式,獲得所述訓練樣 本中詞對的主題分布的候選期望:
其中,〈θ bk>表示所述訓練樣本中詞對b的主題分布的候選期望;ε^.表示迪利克萊分 布的第一后驗概率參數;K表示主題的總數目,k表示主題的序號,k的取值范圍是[1,Κ]。
12. 根據權利要求8所述的裝置,其特征在于,所述收斂獲取單元,具體用于: 依據所述訓練樣本中詞對的主題分布的候選期望,獲得所述訓練樣本中詞對的伽瑪分 布的后驗概率參數的期望、詞對的中間參數、所述訓練樣本中詞對的迪利克萊分布的第二 后驗概率參數、所述訓練樣本中詞對的伽瑪分布的后驗概率參數中至少一個; 依據所述訓練樣本中詞對的伽瑪分布的后驗概率參數的期望、詞對的中間參數、所述 訓練樣本中詞對的迪利克萊分布的第二后驗概率參數、所述訓練樣本中詞對的伽瑪分布的 后驗概率參數中至少一個,獲得所述主題模型的收斂度。
13. 根據權利要求12所述的裝置,其特征在于, 所述裝置還包括:參數更新單元,用于若所述主題模型的收斂度不滿足所述終止條件, 利用所述迪利克萊分布的第二后驗概率參數更新所述第一后驗概率參數; 所述參數處理單元,還用于依據更新后的所述第一后驗概率參數,執行依據所述第一 后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望的操作。
14. 一種主題分布的獲取裝置,其特征在于,所述裝置包括: 文本獲取單元,用于獲得待處理文本; 切詞處理單元,用于依據所述待處理文本,獲得至少一個詞對; 第一獲取單元,用于利用預先生成的主題模型,獲得每個所述詞對的主題分布的期 望; 第二獲取單元,用于依據每個所述詞對的主題分布的期望,獲得所述待處理文本的主 題分布; 其中,所述主題模型為上述權利要求8?13中任一項所述的主題模型的生成裝置生成 的。
【專利摘要】本發明實施例提供了一種主題模型的生成方法及裝置、主題分布的獲取方法及裝置。一方面,本發明實施例通過獲得訓練樣本中詞對的第一后驗概率參數;從而,依據所述第一后驗概率參數,獲得所述訓練樣本中詞對的主題分布的候選期望;其中,所述詞對包含所述訓練樣本中兩個不同的詞條,以及依據所述訓練樣本中詞對的主題分布的候選期望,獲得主題模型的收斂度;進而,若所述主題模型的收斂度滿足終止條件,將所述訓練樣本中詞對的主題分布的候選期望作為所述主題分布的目標期望。因此,本發明實施例提供的技術方案用以解決現有技術中利用傳統的主題模型獲得文本的主題分布的準確性和穩定性比較低的問題。
【IPC分類】G06F17-30
【公開號】CN104536979
【申請號】CN201410738272
【發明人】石磊, 蔣佳軍
【申請人】百度在線網絡技術(北京)有限公司
【公開日】2015年4月22日
【申請日】2014年12月5日