中文字幕无码日韩视频无码三区

建立語句編輯模型的方法、語句自動編輯方法及對應裝置的制造方法

文檔序號:10612880閱(yue)讀:235來源:國知局
建立語句編輯模型的方法、語句自動編輯方法及對應裝置的制造方法
【專利摘要】本發明提供了一種建立語句編輯模型的方法、語句自動編輯方法及對應裝置,具體包括:從搜索日志中獲取搜索關鍵詞query以及query對應的被點擊搜索結果的標題,構成query?title對;將各query?title對中的title作為待編輯語句,query作為對應的編輯后語句,構成訓練語料;利用所述訓練語料訓練翻譯模型和第一語言模型,得到包含所述翻譯模型和第一語言模型的語句編輯模型。獲取到待編輯語句后,將所述待編輯語句輸入語句編輯模型,得到各候選編輯語句的編輯得分;選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語句。本發明能夠實現語句的自動編輯,提高可讀性,降低人力成本。
【專利說明】建立語句編輯模型的方法、語句自動編輯方法及對應裝置 【技術領域】
[0001] 本發明涉及自然語言處理領域,特別涉及一種建立語句編輯模型的方法、語句自 動編輯方法及對應裝置。 【【背景技術】】
[0002] 隨著網絡技術的迅速發展,人們通過網絡能夠獲得多種多樣的信息,各服務商除 了向用戶提供數量繁多的信息之外,對信息的質量要求也越來越高。同樣一句話,采用不同 的詞語和表達方式會給用戶帶來不同的體驗。
[0003] 在很多場景下,一些信息是自動生成的。例如在一些網站或者網絡服務中,對于諸 如人物、動物、地點、影視等實體詞的簡介,是通過從網絡上抓取并從中提取主要信息后自 動形成的語句。但這種自動形成的語句往往可讀性較差,給用戶帶來很差的閱讀體驗,更談 不上達到"信、達、雅"的要求。如果對于這些語句都由人工參與進行編輯,那么人力成本太 尚。 【
【發明內容】

[0004] 有鑒于此,本發明提供了一種建立語句編輯模型的方法、語句自動編輯方法及對 應裝置,以便于實現語句的自動編輯,提高可讀性,降低人力成本。
[0005] 具體技術方案如下:
[0006] 本發明提供了一種建立語句編輯模型的方法,該方法包括:
[0007 ]從搜索日志中獲取搜索關鍵詞query以及query對應的被點擊搜索結果的標題,構 成query-title對;
[0008]將各query-title對中的title作為待編輯語句,query作為對應的編輯后語句,構 成訓練語料;
[0009]利用所述訓練語料訓練翻譯模型和第一語言模型,得到包含所述翻譯模型和第一 語言模型的語句編輯模型。
[00? 0]根據本發明一優選實施方式,所述從搜索日志中獲取搜索關鍵詞query以及query 對應的被點擊搜索結果的標題,構成query-t i 11 e對包括:
[0011]從搜索日志中獲取query;
[0012]利用預先訓練得到的分類器對所述query進行分類,得到屬于優選表達類別的 query;
[0013]從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的tit le,構 成query-t i 11 一對。
[0014] 根據本發明一優選實施方式,所述分類器的訓練包括:
[0015] 從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表達語句模板從網頁 上獲取優選表達語句;
[0016] 利用獲取的優選表達語句作為正樣本訓練所述分類器。
[0017]根據本發明一優選實施方式,從搜索日志中獲取屬于優選表達類別的query對應 的被點擊搜索結果的t i 11 e,構成query-t i 11 e對包括:
[0018]從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的t i 11 e;
[0019] 將獲取的title拆分為一個以上的子title;
[0020] 利用query及其對應的子title,分別構成query-title對。
[0021 ]根據本發明一優選實施方式,該方法還包括:在訓練語句編輯模型之前,對所述訓 練語料進行以下過濾處理中的至少一種:
[0022] 若query-title對中query和title沒有任何詞語重疊,貝lj過濾掉該query-title 對;
[0023] 若query-title對中query和title完全相同,貝lj過濾掉該query-title對;
[0024] 若query-title對中query的長度不滿足預設長度要求,貝lj過濾掉該query-title 對;
[0025]若query-title對中長度較短者與長度較長者之間的長度比例小于預設的比例閾 值,貝過濾掉該query-title對。
[0026] 根據本發明一優選實施方式,利用所述訓練語料訓練翻譯模型包括:
[0027] 利用訓練語料中的待編輯語句及其對應的編輯后語句,訓練翻譯模型,所述翻譯 模型用于計算各待編輯語句對應的編輯后語句的翻譯得分。
[0028] 根據本發明一優選實施方式,利用所述訓練語料訓練第一語言模型包括:
[0029] 利用訓練語料中的編輯后語句,訓練第一語言模型,所述第一語言模型用于計算η 元詞組之間的搭配得分,所述η為預設的正整數。
[0030] 根據本發明一優選實施方式,所述語句編輯模型還包括長度模型,所述長度模型 用于計算不同長度的語句的長度得分。
[0031] 根據本發明一優選實施方式,所述語句編輯模型還包括第二語言模型;
[0032] 該方法還包括:利用新聞標題作為訓練語料,訓練第二語言模型,所述第二語言模 型用于計算m元詞組之間的搭配得分,所述m為預設的正整數。
[0033] 根據本發明一優選實施方式,所述語句編輯模型還包括句法結構模型;
[0034] 該方法還包括:將人工編輯的語句作為訓練樣本,訓練句法結構模型,所述句法結 構模型用于計算各語句與人工編輯的語句在句法結構上的相似度評分。
[0035] 根據本發明一優選實施方式,所述語句編輯模型為其所包含各模型進行加權融合 后得到的模型。
[0036] 本發明還提供了一種語句自動編輯方法,該方法包括:
[0037]獲取待編輯語句;
[0038]將所述待編輯語句輸入語句編輯模型,得到各候選編輯語句的編輯得分;
[0039]選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語句;
[0040] 其中所述語句編輯模型利用上述建立語句編輯模型的方法建立。
[0041] 根據本發明一優選實施方式,所述待編輯語句為針對實體詞的描述語句;
[0042]所述編輯后的語句為:所述實體詞作為搜索結果頁中query對應的推薦實體詞的 推薦理由。
[0043]本發明還提供了一種建立語句編輯模型的裝置,該裝置包括:
[0044]語料獲取單元,用于從搜索日志中獲取搜索關鍵詞query以及query對應的被點擊 搜索結果的標題,構成query-title對;將各query-title對中的title作為待編輯語句, query作為對應的編輯后語句,構成訓練語料;
[0045] 模型訓練單元,用于利用所述訓練語料訓練翻譯模型和第一語言模型,得到包含 所述翻譯模型和第一語言模型的語句編輯模型。
[0046] 根據本發明一優選實施方式,所述語料獲取單元包括:
[0047]第一獲取子單元,用于從搜索日志中獲取query;
[0048] 分類子單元,用于利用預先訓練得到的分類器對所述query進行分類,得到屬于優 選表達類別的query;
[0049] 第二獲取子單元,用于從搜索日志中獲取屬于優選表達類別的query對應的被點 擊搜索結果的title,構成query-title對。
[0050] 根據本發明一優選實施方式,所述語料獲取單元還包括:
[0051] 訓練子單元,用于從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表 達語句模板從網頁上獲取優選表達語句;利用獲取的優選表達語句作為正樣本訓練所述分 類器。
[0052]根據本發明一優選實施方式,所述第二獲取子單元,具體執行:
[0053 ]從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的t i 11 e;
[0054] 將獲取的title拆分為一個以上的子title;
[0055] 利用query及其對應的子title,分別構成query-title對。
[0056] 根據本發明一優選實施方式,該裝置還包括:
[0057] 過濾處理單元,用于對所述訓練語料進行以下過濾處理中的至少一種:
[0058] 若query-title對中query和title沒有任何詞語重疊,貝IJ過濾掉該query-title 對;
[0059] 若query-title對中query和title完全相同,貝lj過濾掉該query-title對;
[0000] 若query-title對中query的長度不滿足預設長度要求,貝lj過濾掉該query-title 對;
[0061] 若query-title對中長度較短者與長度較長者之間的長度比例小于預設的比例閾 值,貝過濾掉該query-title對。
[0062] 根據本發明一優選實施方式,所述模型訓練單元包括:
[0063] 翻譯模型訓練子單元,用于利用訓練語料中的待編輯語句及其對應的編輯后語 句,訓練翻譯模型,所述翻譯模型用于計算各待編輯語句對應的編輯后語句的翻譯得分。
[0064] 根據本發明一優選實施方式,所述模型訓練單元包括:
[0065] 第一語言模型訓練子單元,用于利用訓練語料中的編輯后語句,訓練第一語言模 型,所述第一語言模型用于計算η元詞組之間的搭配得分,所述η為預設的正整數。
[0066] 根據本發明一優選實施方式,所述語句編輯模型還包括長度模型,所述長度模型 用于計算不同長度的語句的長度得分。
[0067] 根據本發明一優選實施方式,所述語句編輯模型還包括第二語言模型;
[0068]所述模型訓練單元包括:
[0069]第二語言模型訓練子單元,用于利用新聞標題作為訓練語料,訓練第二語言模型, 所述第二語言模型用于計算m元詞組之間的搭配得分,所述m為預設的正整數。
[0070] 根據本發明一優選實施方式,所述語句編輯模型還包括句法結構模型;
[0071] 所述模型訓練單元包括:
[0072] 句法模型訓練子單元,用于將人工編輯的語句作為訓練樣本,訓練句法結構模型, 所述句法結構模型用于計算各語句與人工編輯的語句在句法結構上的相似度評分。
[0073] 根據本發明一優選實施方式,所述模型訓練單元包括:
[0074] 模型融合子單元,用于將語句編輯模型所包含的各模型進行加權融合,得到語句 編輯模型。
[0075] 本發明還提供了一種語句自動編輯裝置,該裝置包括:
[0076] 輸入獲取單元,用于獲取待編輯語句;
[0077] 得分獲取單元,用于將所述待編輯語句輸入語句編輯模型,得到各候選編輯語句 的編輯得分;
[0078] 語句輸出單元,用于選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語 句;
[0079] 其中所述語句編輯模型利用上述建立語句編輯模型的裝置建立。
[0080] 根據本發明一優選實施方式,所述待編輯語句為針對實體詞的描述語句;
[0081] 將所述編輯后的語句為:所述實體詞作為搜索結果頁中query對應的推薦實體詞 的推薦理由。
[0082]由以上技術方案可以看出,本發明能夠從搜索日志獲取由query以及query對應的 被點擊搜索結果的標題構成的query-title對,并將其中的title作為待編輯語句,可讀性 較高的query作為對應的編輯后語句進行語句編輯模型的訓練,并基于該語句編輯模型進 行語句的自動編輯,提高可讀性,降低人力成本。 【【附圖說明】】
[0083] 圖1為本發明實施例提供的主要方法流程圖;
[0084] 圖2為本發明實施例提供的獲得訓練語料的方法流程圖;
[0085] 圖3為本發明實施例提供的建立語句編輯模型的裝置;
[0086] 圖4為本發明實施例提供的一種語句自動編輯裝置;
[0087] 圖5為本發明實施例提供的一個應用場景的實例圖。 【【具體實施方式】】
[0088] 為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對 本發明進行詳細描述。
[0089] 在本發明實施例中使用的術語是僅僅出于描述特定實施例的目的,而非旨在限制 本發明。在本發明實施例和所附權利要求書中所使用的單數形式的"一種"、"所述"和"該" 也旨在包括多數形式,除非上下文清楚地表示其他含義。
[0090] 應當理解,本文中使用的術語"和/或"僅僅是一種描述關聯對象的關聯關系,表示 可以存在三種關系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種 情況。另外,本文中字符7",一般表示前后關聯對象是一種"或"的關系。
[0091] 取決于語境,如在此所使用的詞語"如果"可以被解釋成為"在……時"或"當…… 時"或"響應于確定"或"響應于檢測"。類似地,取決于語境,短語"如果確定"或"如果檢測 (陳述的條件或事件)"可以被解釋成為"當確定時"或"響應于確定"或"當檢測(陳述的條件 或事件)時"或"響應于檢測(陳述的條件或事件)"。
[0092] 圖1為本發明實施例提供的主要方法流程圖,在本實施例中主要包括兩個階段:第 一個階段是模型建立階段,第二個階段為語句編輯階段。本發明通過建立一個語句編輯模 型來實現語句的自動編輯,如圖1中所示,該方法可以主要包括以下步驟:
[0093]在101中,從搜索日志中獲取query (搜索關鍵詞)以及query對應的被點擊搜索結 果的title(標題),構成query-title對。
[0094]為了訓練語句編輯模型,需要一個大規模的單語平行語料。所謂平行語料指的是 由兩個平行對應的語句構成的語料,這兩個語句表達相同含義,可能采用不同的詞匯或表 達方式。平行語料可以包括雙語/多語平行語料、單語平行語料。其中,雙語/多語平行語料 多用于不同語言的翻譯,由于本發明涉及的是同一語言下的語句編輯,因此采用的是單語 平行語料,即語料中兩個語句是相同的語言。
[0095]經過觀察和研究論證后發現,用戶在搜索引擎進行搜索時,往往會采用較為精簡、 清楚的query,并且該query是通常是用戶手工輸入的,更接近于人的實際表達,可讀性往往 很高。當用戶獲取到與該query對應的搜索結果頁后,點擊的搜索結果通常是與該query非 常相關的搜索結果,該搜索結果的標題所表述的含義可以認為與該query非常接近,但并沒 有query簡明,因此可以將query看做該被點擊搜索結果的簡明描述,即可讀性更高的描述。 因此,query-title對構成的語料是很好的單語平行語料源。基于上述理由,在本發明實施 例中可以將從搜索引擎的點擊數據中獲取的query-t i 11 e對來生成訓練語料。
[0096]在本發明實施例中提供一種本步驟的優選實現方式,如圖2所示,獲得query-title對可以包括以下步驟:
[0097]在201中,從搜索日志中獲取query。
[0098]在202中,利用預先訓練得到的分類器對201獲取的query進行分類,得到屬于優選 表達類別的query。
[00"]由于query的數量巨大,且質量參差不齊,需要從這些query中進行篩選。在篩選時 可以采用分類器,即預先訓練一個分類器,該分類器能夠將query至少分成兩類:優選表達 類別和非優選表達類別。將從搜索日志中獲取的query送入該分類器進行分類,然后獲取屬 于優選表達類別的query。
[0100]對于分類器的訓練,可以預先選擇一些優選表達的語句作為訓練語料來訓練。在 選擇訓練語料時,可以從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表達語 句模板從網頁上獲取與模板匹配的優選表達語句,所述優選表達語句模板可以采用例如: 【實體詞】是/即/為【優選表達語句】。
[0101 ]舉個例子,語句:劉德華是影視歌多棲發展藝人。
[0102] 該語句正好與上述模板匹配,那么就可以將"影視歌多棲發展藝人"作為優選表達 語句提取出來。
[0103] 在203中,從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的 title,構成query-title對。
[0104] 在本步驟中,可以直接將query對應的被點擊搜索結果的title構成query-title 對。但由于模型訓練采用的訓練樣本越多,訓練得到的模型越準確,因此為了提高語句編輯 模型的準確性,可以在本步驟中進行擴展。在從搜索日志中獲取屬于優選表達類別的query 對應的被點擊搜索結果的title后,可以將獲取的title拆分成一個以上的子title,例如基 于標點進行拆分,利用query及其對應的各子t i 11 e,分別構成query-t i 11 e對。
[0105] 繼續參見圖1。
[0106] 在102中,將各query-title對中的title作為待編輯語句,query作為對應的編輯 后語句構成訓練語料。
[0107] 在執行本步驟之前,還可以進一步對得到的query-title對進行過濾,采用的過濾 原則可以包括但不限于以下幾種:
[0108] 第一種過濾:若title和query沒有任何詞語重疊,則過濾掉該query-title對。 [0109] 第二種過濾:若title和query完全相同,貝lj過濾掉該query-title對。
[0110] 第三種過濾:query的長度不滿足預設要求,則過濾掉該query-title對。這種過濾 的目的是對編輯后語句的長度進行限制,使其在一定長度范圍內,例如如果query的長度大 于10個字符或者小于6個字符,則過濾掉該query-title對。
[0111]第四種過濾:若query和title中長度較短者與長度較長者之間的長度比例小于預 設的比例閾值,例如小于!,則過濾掉該query-title對。 .3
[0112] 在103中,利用訓練語料訓練翻譯模型和第一語言模型,得到包含翻譯模型和語言 模型的語句編輯模型。
[0113] 本發明所建立的語句編輯模型可以包括翻譯模型和語言模型,還可以進一步包括 長度模型和吸引力模型,其中翻譯模型用于對待編輯語句進行同義改寫,提高語句的精確 性,語言模型用于提高語句的流暢性,長度模型用于提高語句的精簡度,吸引力模型是用于 使語句表達更加生動、有趣,即對用戶而言更有吸引力。吸引力模型可以具體包括兩個模 型:語言模型和句法結構模型。上述的兩個語言模型所采用的訓練語料并不相同,因此產生 的效果也不相同,為了對兩個語言模型進行區分,將這兩個語言模型分別稱為第一語言模 型和第二語言模型。下面對語句編輯模型包含的上述模型進行詳細描述:
[0114] 1)翻譯模型。
[0115] 翻譯模型有很多種,本發明實施例中優選統計翻譯模型(SMT),SMT是目前非限定 領域翻譯模型中性能較佳的一種。統計翻譯的基本思想是通過對大量的平行語料進行統計 分析,構建統計翻譯模型,進而使用此模型進行翻譯。
[0116] 本發明中涉及的是單語的翻譯,即輸入語言和目標語言是同一種語言。那么采用 的平行語料也是單語平行語料,在本發明實施例中可以利用訓練語料中的待編輯語句及其 對應的編輯后語句(即title-query對),訓練翻譯模型,訓練得到的翻譯模型包括各待編輯 語句對應的編輯后語句的翻譯得分。
[0117] 翻譯模型的工作原理是:輸入的句子s(對應于待編輯的語句)被分割成各片段構 成的序列艾,然后各片段分別被翻譯后構成序列2。將Gij )作為一組翻譯單元,利用函 數~仏舊;)計算該翻譯單元的翻譯似然值,然后按照下面的公式得到dPe之間的翻譯得分 PtmU,e[).
[0118]
Cl)
[0119] 其中,i是之中的第i個片段,&是石對應的翻譯片段,1是語句s被分割得到的片段 數量,Xtm是翻譯模型的權重參數。
[0120] 2)第一語言模型。
[0121] 語言模型描述給定詞序列在語言中出現的概率分布,主要用于計算一個給定語句 片段成為流暢、通順句子的概率。通常可以體現為η元詞組之間的搭配得分,所述η為預設的 正整數。η元詞組即n-gram,指的是η個詞語按順序組合成的詞組。在本發明實施例中,可以 利用訓練語料中的編輯后語句,訓練第一語言模型,在本發明實施例中η優選3,即構建三元 語言模型,對于編輯后的語句e的打分得到的搭配得分Pi m(e)可以采用如下公式:
[0122]
Γ2)
[0123] 其中,J為e中的詞語數量,是e的第j個詞語,λ1η是第一語言模型的權重參數。
[0124] 3)長度模型。
[0125] 設置長度模型,是為了使得編輯后的語句能夠盡可能在一定長度范圍內,從而盡 量精簡。長度模型包括不同長度的語句的長度得分,在本發明實施例中,可以采用長度懲罰 機制來實現長度模型。長度模型對編輯后的語句e進行打分得到的長度得分可以采用如下 公式:
[0126] (3)
[0127] 其中,N為e中的字符數量,Lth為預設的長度閾值,例如選擇10,將編輯后的語句盡 可能控制在10個中文字符之內。
[0128] 4)第二語言模型。
[0129] 這里的第二語言模型與第一語言模型的機制是相同的,都是為了體現語句的搭配 得分,即第二語言模型包括m元詞組之間的搭配得分,m為預設的正整數。不同的是兩者的目 的不同,采用的訓練語料不同。第二語言模型也可以計算一個給定語句片段成為流暢、通順 的句子的概率,但更偏重于計算一個給定語句片段成為有吸引力的句子的概率。對于上面 的翻譯模型而言,其實現的是編輯的"信",即精確性,對于第一語言模型而言,其實現的是 編輯的"達",即流暢性,對于第二語言模型而言,其實現的是編輯的"雅",即表述的更加優 雅,更美,從而能夠吸引用戶進行閱讀。因此,在訓練第二語言模型時,采用的訓練語料應該 是表述比較吸引人的語句。經過觀察和研究發現,通常新聞編輯人員在編輯新聞標題時,會 盡可能做到新聞標題非常精簡有趣,從而吸引用戶進行點擊和閱讀。因此,在本發明實施例 中,可以采用新聞標題作為訓練語料訓練第二語言模型。其模型與第一語言模型類似,在本 發明實施例中η優選3,即構建三元語言模型,對于編輯后的語句e的打分得到的搭配得分p hl (e)可以采用如下公式:
[0130]
/=ι '
[0131] 其中,L為e中的詞語數量,的是6的第1個詞語,是第二語言模型的權重參數。
[0132] 5)句法結構模型。
[0133] 句法結構模型同樣是為了實現編輯的"雅",從而吸引用戶閱讀,通過句法結構模 型能夠將語句編輯為更符合人表達方式的句法結構。在訓練句法結構模型時,可以將人工 編輯的語句作為訓練樣本,例如可以采用眾包的方式將一些待編輯語句提供給編輯者,多 個編輯者對同一個待編輯語句分別進行編輯,然后再由多個編輯者分別對各編輯后的語句 進行評分,將評分情況滿足要求的語句作為訓練樣本。
[0134] 最終訓練得到的句法結構模型主要用于計算語句與人工編輯的語句在句法結構 上的相似度評分。在句法結構模型中,編輯后的語句e與人工編輯的語句在句法結構上的相 似度評分可以采用如下公式:
[0135] …. ^
[0136] 其中,Tx表示語句X的依存句法樹,ti為人工標注的推薦理由,K( ·,·)為依存句法 樹的核函數,其體現語句之間的在句法結構上的相似度。
[0137] 最終得到的語句編輯模型可以為其所包含各模型進行加權融合后得到的模型。若 加權融合方式采用對數線性關系,則可以得到如下的語句編輯模型:
[0138]
[0139] 其中,P(e | s)為e作為語句s的編輯后語句的編輯得分,λΗ是長度模型的權重參數, Ass是句法結構模型的權重參數。
[0140] 各模型的權重參數人^人^山以^和'可以采用預設值沒預設值可以是經驗值、 試驗值等,并且可以靈活調整。在確定權重參數時,可以采用最小錯誤率訓練(MERT, Minimum Error Rate Training)的方式。
[0141] 以上為模型建立階段的流程,是預先執行的線下過程,也就是說,預先建立語句編 輯模型。當有語句需要進行編輯時,可以針對待編輯語句執行以下步驟。
[0142] 在104中,獲取待編輯語句。
[0143] 在105中,將待編輯語句輸入語句編輯模型,得到各候選編輯語句的編輯得分。
[0144] 當獲取到待編輯語句后,利用語句編輯模型就能夠得到各候選編輯語句以及各候 選編輯語句的編輯得分。由上述公式(6)可以看出,各候選編輯語句的編輯得分可以由翻譯 模型、第一語言模型、長度模型、第二語言模型和句法結構模型共同決定,綜合考慮了各候 選編輯語句在準確度、流暢度、長度、吸引程度等幾個因素,得到的綜合評分。
[0145] 在106中,選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語句。
[0146] 在選擇編輯后的語句時,可以依據編輯得分選擇編輯得分超過預設閾值的語句, 或者選擇編輯得分排在前N個的語句,其中N為預設的正整數。例如,選擇編輯得分最高的一 個候選編輯語句作為編輯后的語句,該編輯后的語句盡可能達到"信、達、雅"的要求。
[0147] 以上是對本發明所提供方法進行的詳細描述,下面結合實施例對本發明所提供的 裝置進行詳細描述。
[0148]圖3為本發明實施例提供的建立語句編輯模型的裝置,如圖3所示,該裝置可以包 括:語料獲取單元〇〇和模型訓練單元10,還可以進一步包括過濾處理單元20。各單元的組成 和主要功能如下:
[0149]語料獲取單元00負責從搜索日志中獲取搜索關鍵詞query以及query對應的被點 擊搜索結果的標題,構成query-title對;將各query-title對中的title作為待編輯語句, query作為對應的編輯后語句,構成訓練語料。
[0150] 模型訓練單元10負責利用訓練語料訓練翻譯模型和第一語言模型,得到包含翻譯 模型和第一語言模型的語句編輯模型。該語言編輯模型還可以進一步包含長度模型、第二 語言模型和/或句法結構模型。
[0151] 為了訓練語句編輯模型,需要一個大規模的單語平行語料。其中,語料獲取單元00 可以包括:第一獲取子單元01、分類子單元02和第二獲取子單元03,還可以進一步包括訓練 子單元04。
[0152]第一獲取子單元01負責從搜索日志中獲取query。
[0153]分類子單元02負責利用預先訓練得到的分類器對query進行分類,得到屬于優選 表達類別的query。對query進行分類的目的在于搜索日志中query的質量參差不起,需要對 作為訓練語料的query進行篩選,從中找到優選表達的query。
[0154]第二獲取子單元03負責從搜索日志中獲取屬于優選表達類別的query對應的被點 擊搜索結果的title,構成query-title對。
[0155] 訓練子單元04負責從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表 達語句模板從網頁上獲取與模板匹配的優選表達語句,所述優選表達語句模板可以采用例 如:【實體詞】是/即/為【優選表達語句】;利用獲取的優選表達語句作為正樣本訓練分類器。
[0156] 由于模型訓練采用的訓練樣本越多,訓練得到的模型越準確,因此為了提高語句 編輯模型的準確性,可以通過第二獲取子單元03進行擴展。第二獲取子單元03,具體執行: 從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的title;將獲取的 title拆分為一個以上的子title;利用query及其對應的子title,分別構成query-title 對。
[0157]另外,對于得到的query-title對可以進行進一步過濾,由過濾處理單元20將過濾 后的query-title對作為訓練樣本,采用的過濾原則可以包括但不限于以下幾種:
[0158] 第一種過濾:若title和query沒有任何詞語重疊,則過濾掉該query-title對。 [0159] 第二種過濾:若title和query完全相同,貝lj過濾掉該query-title對。
[0160] 第三種過濾:query的長度不滿足預設要求,貝丨】過濾掉該query-title對。這種過濾 的目的是對編輯后語句的長度進行限制,使其在一定長度范圍內,例如如果query的長度大 于10個字符或者小于6個字符,則過濾掉該query-title對。
[0161]第四種過濾:若query和title中長度較短者與長度較長者之間的長度比例小于預 設的比例閾值,例如小于7,則過濾掉該Query-title對。 i
[0162]上述的模型訓練單元10可以包括:翻譯模型訓練子單元11和第一語言模型訓練子 單元12,還可以進一步包括:第二語言模型訓練子單元13、句法模型訓練子單元14和模型融 合子單元15中的一個或多個。
[0163] 翻譯模型訓練子單元11負責利用訓練語料中的待編輯語句及其對應的編輯后語 句,訓練翻譯模型,翻譯模型用于對待編輯語句進行同義詞改寫,其用于計算各待編輯語句 對應的編輯后語句的翻譯得分,翻譯得分可以采用如上述方法實施例中所述的公式(1)。
[0164] 第一語言模型訓練子單元12負責利用訓練語料中的編輯后語句,訓練第一語言模 型,第一語言模型用于計算η元詞組之間的搭配得分,η為預設的正整數,即主要用于計算一 個給定語句片段成為流暢、通順句子的概率。搭配得分可以采用如上述方法實施例中所述 的公式(2)。
[0165] 語句編輯模型還可以包括長度模型,長度模型用于計算不同長度的語句的長度得 分,長度得分可以采用如上述方法實施例中所述的公式(3)。
[0166] 第二語言模型訓練子單元13負責利用新聞標題作為訓練語料,訓練第二語言模 型,第二語言模型用于計算m元詞組之間的搭配得分,m為預設的正整數,第二語言模型也可 以計算一個給定語句片段成為流暢、通順的句子的概率,但更偏重于計算一個給定語句片 段成為有吸引力的句子的概率。搭配得分可以采用如上述方法實施例中所述的公式(4)。
[0167] 句法模型訓練子單元14負責將人工編輯的語句作為訓練樣本,訓練句法結構模 型,句法結構模型用于計算各語句與人工編輯的語句在句法結構上的相似度評分,相似度 評分可以采用如上述方法實施例中所述的公式(5)。
[0168] 模型融合子單元15負責將語句編輯模型所包含的各模型進行加權融合,得到語句 編輯模型。加權融合方式采用對數線性關系,則可以得到如公式(6)的推薦理由生成模型。
[0169] 圖4為本發明實施例提供的一種語句自動編輯裝置,該語句自動編輯裝置基于上 述語句自動編輯模型實現語句的自動編輯。如圖4所示,該裝置可以包括:輸入獲取單元21、 得分獲取單元22和語句輸出單元23,其中各組成單元的主要功能如下:
[0170] 輸入獲取單元21負責獲取待編輯語句。
[0171]得分獲取單元22負責將待編輯語句輸入語句編輯模型,得到各候選編輯語句的編 輯得分。
[0172] 語句輸出單元23負責選取編輯得分滿足預設要求的候選編輯語句作為編輯后的 語句。在選擇編輯后的語句時,可以依據編輯得分選擇編輯得分超過預設閾值的語句,或者 選擇編輯得分排在前N個的語句,其中N為預設的正整數。例如,選擇編輯得分最高的一個候 選編輯語句作為編輯后的語句。
[0173] 本發明提供的方式對領域和語言并不加以限制,因為所采用的各模型和特征是與 語言不相關的。不同語言或不同類型的實體均適用。在本發明實施例中均以中文為例。
[0174] 本發明實施例提供的上述方法和裝置可以應用于多種應用場景,在此舉一個上述 方法和裝置的應用場景實例:
[0175] 在過去的幾年中,網絡搜索引擎通過向用戶提供實體推薦極大地豐富和改進了用 戶體驗。當用戶在搜索引擎輸入搜索關鍵詞時,搜索引擎會向用戶提供與該搜索關鍵詞相 關的實體推薦,并在搜索結果的旁邊展示推薦的實體詞,如圖5中所示。當用戶向搜索引擎 輸入搜索關鍵詞"奧巴馬"時,會在搜索結果的右側(圖中的相關人物部分)展示一系列人名 作為"奧巴馬"的推薦實體詞,使得用戶能夠快速訪問其感興趣的推薦實體詞,從而提高用 戶信息發現的體驗。
[0176] 實體推薦已經成為當今網絡搜索的關鍵技術。盡管推薦實體詞是與用戶輸入的搜 索關鍵詞相關的,但很多情況下,如果用戶沒有對關于實體推薦詞的相關背景知識的了解, 很可能會因為不能夠明白為何會推薦該實體詞而產生困惑,并不會使用該推薦實體詞。為 了幫助用戶快速獲知推薦實體詞是否以及如何滿足其興趣,進一步向用戶提供推薦實體詞 的推薦理由是很有必要的。例如圖5中所示,對于推薦實體詞"吳韓馬",如果用戶對其并不 了解,根本不明白為何會存在該推薦實體詞,若在"吳韓馬"的下方展示推薦理由"韓國為奧 巴馬起韓語名",則會給用戶帶來很好的體驗。
[0177] 目前針對推薦實體詞的推薦理由,一種方式是通過人工標注,但這種方式工作量 太大,人工成本高;另一種方式是從百科這類頁面中抽取結構化數據作為推薦理由,但這種 方式覆蓋率太低,有很多推薦實體詞完全無法覆蓋到。但若采用本發明實施例中提供的方 式,可以獲取針對實體詞的描述語句,采用本發明提供的上述方法和裝置,可以對該針對實 體詞的描述語句進行編輯,得到編輯后的語句。當該實體詞作為搜索結果頁中query對應的 推薦實體詞時,該編輯后的語句就可以作為推薦實體詞的推薦理由。
[0178] 通過上述方式得到的推薦實體詞的推薦理由可以達到如下效果:1)推薦理由準確 地描述該實體詞;2)推薦理由的表達較為流暢;3)推薦理由足夠簡明以能夠在有限的區域 展現;4)推薦理由的表達能夠吸引用戶瀏覽和點擊對應的推薦實體詞。
[0179 ]舉個例子,針對"吳韓馬"的一個描述語句為s,將其進行編輯后形成e。
[0180] s:韓國為美國第44任總統奧巴馬起的一個韓語名字。
[0181] e:韓國為奧巴馬起韓語名。
[0182] 可以看出,后者更加簡明、流暢和吸引人。
[0183] 在本發明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法,可以通過其 它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅 僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。
[0184]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個 網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目 的。
[0185] 另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以 是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單 元既可以采用硬件的形式實現,也可以采用硬件加軟件功能單元的形式實現。
[0186] 上述以軟件功能單元的形式實現的集成的單元,可以存儲在一個計算機可讀取存 儲介質中。上述軟件功能單元存儲在一個存儲介質中,包括若干指令用以使得一臺計算機 設備(可以是個人計算機,服務器,或者網絡設備等)或處理器(processor)執行本發明各個 實施例所述方法的部分步驟。而前述的存儲介質包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory ,R0M)、隨機存取存儲器 (Random Access Memory ,RAM)、磁碟或者光盤等各種 可以存儲程序代碼的介質。
[0187] 以上所述僅為本發明的較佳實施例而已,并不用以限制本發明,凡在本發明的精 神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的范圍之內。
【主權項】
1. 一種建立語句編輯模型的方法,其特征在于,該方法包括: 從搜索日志中獲取搜索關鍵詞query以及query對應的被點擊搜索結果的標題,構成 query-title對; 將各query-title對中的title作為待編輯語句,query作為對應的編輯后語句,構成訓 練語料; 利用所述訓練語料訓練翻譯模型和第一語言模型,得到包含所述翻譯模型和第一語言 模型的語句編輯模型。2. 根據權利要求1所述的方法,其特征在于,所述從搜索日志中獲取搜索關鍵詞query 以及query對應的被點擊搜索結果的標題,構成query-t i 11 e對包括: 從搜索日志中獲取query; 利用預先訓練得到的分類器對所述query進行分類,得到屬于優選表達類別的query; 從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的title,構成 query-title對。3. 根據權利要求2所述的方法,其特征在于,所述分類器的訓練包括: 從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表達語句模板從網頁上獲 取優選表達語句; 利用獲取的優選表達語句作為正樣本訓練所述分類器。4. 根據權利要求2所述的方法,其特征在于,從搜索日志中獲取屬于優選表達類別的 query對應的被點擊搜索結果的t i 11 e,構成query-t i 11 e對包括: 從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的t i 11 e; 將獲取的title拆分為一個以上的子title; 利用query及其對應的子title,分別構成query-title對。5. 根據權利要求1所述的方法,其特征在于,該方法還包括:在訓練語句編輯模型之前, 對所述訓練語料進行以下過濾處理中的至少一種: 若query-title對中query和title沒有任何詞語重疊,則過濾掉該query-title對; 若query-t i 11 e對中query和title完全相同,貝1J過濾掉該query-t i 11 e對; 若query-title對中query的長度不滿足預設長度要求,貝lj過濾掉該query-title對; 若query-title對中長度較短者與長度較長者之間的長度比例小于預設的比例閾值, 則過濾掉該query-title對。6. 根據權利要求1所述的方法,其特征在于,利用所述訓練語料訓練翻譯模型包括: 利用訓練語料中的待編輯語句及其對應的編輯后語句,訓練翻譯模型,所述翻譯模型 用于計算各待編輯語句對應的編輯后語句的翻譯得分。7. 根據權利要求1所述的方法,其特征在于,利用所述訓練語料訓練第一語言模型包 括: 利用訓練語料中的編輯后語句,訓練第一語言模型,所述第一語言模型用于計算η元詞 組之間的搭配得分,所述η為預設的正整數。8. 根據權利要求1所述的方法,其特征在于,所述語句編輯模型還包括長度模型,所述 長度模型用于計算不同長度的語句的長度得分。9. 根據權利要求1所述的方法,其特征在于,所述語句編輯模型還包括第二語言模型; 該方法還包括:利用新聞標題作為訓練語料,訓練第二語言模型,所述第二語言模型用 于計算m元詞組之間的搭配得分,所述m為預設的正整數。10. 根據權利要求1所述的方法,其特征在于,所述語句編輯模型還包括句法結構模型; 該方法還包括:將人工編輯的語句作為訓練樣本,訓練句法結構模型,所述句法結構模 型用于計算各語句與人工編輯的語句在句法結構上的相似度評分。11. 根據權利要求1所述的方法,其特征在于,所述語句編輯模型為其所包含各模型進 行加權融合后得到的模型。12. -種語句自動編輯方法,其特征在于,該方法包括: 獲取待編輯語句; 將所述待編輯語句輸入語句編輯模型,得到各候選編輯語句的編輯得分; 選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語句; 其中所述語句編輯模型利用如權利要求1至11任一權項所述的方法建立。13. 根據權利要求12所述的方法,其特征在于,所述待編輯語句為針對實體詞的描述語 句; 所述編輯后的語句為:所述實體詞作為搜索結果頁中query對應的推薦實體詞的推薦 理由。14. 一種建立語句編輯模型的裝置,其特征在于,該裝置包括: 語料獲取單元,用于從搜索日志中獲取搜索關鍵詞query以及query對應的被點擊搜索 結果的標題,構成query-title對;將各query-title對中的title作為待編輯語句,query作 為對應的編輯后語句,構成訓練語料; 模型訓練單元,用于利用所述訓練語料訓練翻譯模型和第一語言模型,得到包含所述 翻譯模型和第一語言模型的語句編輯模型。15. 根據權利要求14所述的裝置,其特征在于,所述語料獲取單元包括: 第一獲取子單元,用于從搜索日志中獲取query; 分類子單元,用于利用預先訓練得到的分類器對所述query進行分類,得到屬于優選表 達類別的query; 第二獲取子單元,用于從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜 索結果的title,構成query-title對。16. 根據權利要求15所述的裝置,其特征在于,所述語料獲取單元還包括: 訓練子單元,用于從百科網頁中獲取詞條對應的優選表達語句,或者利用優選表達語 句模板從網頁上獲取優選表達語句;利用獲取的優選表達語句作為正樣本訓練所述分類 器。17. 根據權利要求15所述的裝置,其特征在于,所述第二獲取子單元,具體執行: 從搜索日志中獲取屬于優選表達類別的query對應的被點擊搜索結果的t i 11 e; 將獲取的title拆分為一個以上的子title; 利用query及其對應的子title,分別構成query-title對。18. 根據權利要求14所述的裝置,其特征在于,該裝置還包括: 過濾處理單元,用于對所述訓練語料進行以下過濾處理中的至少一種: 若query-title對中query和title沒有任何詞語重疊,則過濾掉該query-title對; 若query-t i 11 e對中query和title完全相同,則過濾掉該query-t i 11 e對; 若query-title對中query的長度不滿足預設長度要求,貝lj過濾掉該query-title對; 若query-title對中長度較短者與長度較長者之間的長度比例小于預設的比例閾值, 則過濾掉該query-title對。19. 根據權利要求14所述的裝置,其特征在于,所述模型訓練單元包括: 翻譯模型訓練子單元,用于利用訓練語料中的待編輯語句及其對應的編輯后語句,訓 練翻譯模型,所述翻譯模型用于計算各待編輯語句對應的編輯后語句的翻譯得分。20. 根據權利要求14所述的裝置,其特征在于,所述模型訓練單元包括: 第一語言模型訓練子單元,用于利用訓練語料中的編輯后語句,訓練第一語言模型,所 述第一語言模型用于計算η元詞組之間的搭配得分,所述η為預設的正整數。21. 根據權利要求14所述的裝置,其特征在于,所述語句編輯模型還包括長度模型,所 述長度模型用于計算不同長度的語句的長度得分。22. 根據權利要求14所述的裝置,其特征在于,所述語句編輯模型還包括第二語言模 型; 所述模型訓練單元包括: 第二語言模型訓練子單元,用于利用新聞標題作為訓練語料,訓練第二語言模型,所述 第二語言模型用于計算m元詞組之間的搭配得分,所述m為預設的正整數。23. 根據權利要求14所述的裝置,其特征在于,所述語句編輯模型還包括句法結構模 型; 所述模型訓練單元包括: 句法模型訓練子單元,用于將人工編輯的語句作為訓練樣本,訓練句法結構模型,所述 句法結構模型用于計算各語句與人工編輯的語句在句法結構上的相似度評分。24. 根據權利要求14所述的裝置,其特征在于,所述模型訓練單元包括: 模型融合子單元,用于將語句編輯模型所包含的各模型進行加權融合,得到語句編輯 模型。25. -種語句自動編輯裝置,其特征在于,該裝置包括: 輸入獲取單元,用于獲取待編輯語句; 得分獲取單元,用于將所述待編輯語句輸入語句編輯模型,得到各候選編輯語句的編 輯得分; 語句輸出單元,用于選取編輯得分滿足預設要求的候選編輯語句作為編輯后的語句; 其中所述語句編輯模型利用如權利要求14至24任一權項所述的裝置建立。
【文檔編號】G06F17/30GK105975558SQ201610285425
【公開日】2016年9月28日
【申請日】2016年4月29日
【發明人】黃際洲, 趙世奇, 王海峰
【申請人】百度在線網絡技術(北京)有限公司
網(wang)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1