新聞分類方法及裝置的制造方法
【專利摘要】本申請提出一種新聞分類方法及裝置,其中,該方法包括:接收新聞稿件;確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別;根據所述各匹配度,確定所述新聞稿件所屬的初級分類;根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分;根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
【專利說明】
新聞分類方法及裝置
技術領域
[0001 ]本申請涉及信息處理技術領域,尤其涉及一種新聞分類方法及裝置。
【背景技術】
[0002]現在,新聞閱讀產品一般是按照新聞內容所屬的領域進行組織和整理的,如根據熱點、國內和國際等進行首層分類,同一類別下再進行子分類,將最終將新聞進行分類發行。
[0003]目前,上述對新聞進行分類發行的過程,通常是由人工進行的,這不僅浪費了人力,而且使得新聞分類結果受個人主觀感受的影響較大,使得分類結果不夠精準。
【發明內容】
[0004]本申請旨在至少在一定程度上解決相關技術中的技術問題之一。
[0005]為此,本申請的第一個目的在于提出一種新聞分類方法,該方法實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0006]本申請的第二個目的在于提出一種新聞分類裝置。
[0007]為達上述目的,本申請第一方面實施例提出了一種新聞分類方法,包括:
[0008]接收新聞稿件;
[0009]確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別;
[0010]根據所述各匹配度,確定所述新聞稿件所屬的初級分類;
[0011]根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分;
[0012]根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,其中,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。
[0013]本申請實施例的新聞分類方法,收到新聞稿件后,首先確定新聞稿件與預設的新聞模板之間的各匹配度,根據各匹配度,確定新聞稿件所屬的初級分類,然后根據預設的算法,確定新聞稿件中各個關鍵詞的得分,然后根據各關鍵詞的得分,確定新聞稿件在初級分類中的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0014]為達上述目的,本申請第二方面實施例提出了一種新聞分類裝置,包括:
[0015]接收模塊,用于接收新聞稿件;第一確定模塊,用于確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別;第二確定模塊,用于根據所述各匹配度,確定所述新聞稿件所屬的初級分類;運算模塊,用于根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分;第三確定模塊,用于根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,其中,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。
[0016]本申請實施例的新聞分類裝置,收到新聞稿件后,首先確定新聞稿件與預設的新聞模板之間的各匹配度,根據各匹配度,確定新聞稿件所屬的初級分類,然后根據預設的算法,確定新聞稿件中各個關鍵詞的得分,然后根據各關鍵詞的得分,確定新聞稿件在初級分類中的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
【附圖說明】
[0017]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0018]圖1是本申請一個實施例的新聞分類方法的流程圖;
[0019]圖2是本申請另一個實施例的新聞分類方法的流程圖;
[0020]圖3是本申請一個實施例的新聞分類裝置的結構示意圖;
[0021 ]圖4是本申請另一個實施例的新聞分類裝置的結構示意圖。
【具體實施方式】
[0022]下面詳細描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本申請,而不能理解為對本申請的限制。
[0023]下面參考附圖描述本申請實施例的新聞分類方法及裝置。
[0024]圖1是本申請一個實施例的新聞分類方法的流程圖。
[0025]如圖1所示,該新聞分類方法包括:
[0026]步驟101,接收新聞稿件。
[0027]具體的,本申請實施例提供的新聞分類方法的執行主體為新聞分類裝置。
[0028]步驟102,確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別。
[0029]其中,新聞分類裝置中可以預先存儲多種新聞模板,每個新聞模板對應一種新聞類別。
[0030]舉例來說,軍事類新聞的新聞模板可以包括如:軍事-兵器、軍事-軍情、軍事-軍史、軍事-時事等等。
[0031]在收到新聞稿件后,即可將新聞稿件與預設的新聞模板進行匹配,從而確定新聞稿件與新聞模板之間的匹配度。
[0032]具體的,可以根據新聞稿件中的詞語與新聞模板中的詞語相同的數量,確定新聞稿件與新聞模板之間的匹配度。
[0033]步驟103,根據所述各匹配度,確定所述新聞稿件所屬的初級分類。
[0034]通常,與新聞稿件匹配度最高的新聞模板對應的新聞類別,即為新聞稿件所屬的初級分類。
[0035]舉例來說,若某新聞稿件與軍事-兵器的匹配度為0.9,與軍事-軍史的匹配度為0.88,與軍事-軍情的匹配度為0.5,與軍事-時事的匹配對為0.7,則可以確定該新聞稿件所屬的初級分類為:軍事-兵器。
[0036]需要說明的是,還可以設定一個匹配度閾值,當新聞稿件與模板的匹配度大于設定的閾值時,則認為新聞稿件屬于該新聞模板對應的初級分類,且匹配度的閾值可以根據文本類形自行設定調整,如指定匹配度的閾值為0.8,則可認為該新聞稿件屬于軍事-軍史和軍事-兵器兩個新聞模板對應的新聞類別,也就是說,可將該新聞稿件分別劃分至兩個新聞模板中。
[0037]步驟104,根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分。
[0038]其中,新聞稿件中的關鍵詞,可以采用任意關鍵詞抓取方法獲得,或者,可以將在新聞稿件的標題和正文中均出現的詞,確定為關鍵詞,或者將在新聞稿件中出現次數超過預設值的詞確定為關鍵詞,本實施例對此不作限定。
[0039]具體的,可以利用下式,確定各個關鍵詞的得分:
[0040]s = aXti+bXt2+cXt3
[0041]其中,s為關鍵詞的得分,a、b、c為比例常數,為關鍵詞在標題中出現的次數,t:*關鍵詞在新聞正文中出現的次數,t3為根據所述初級分類獲取的與所述關鍵詞相近的詞在新聞稿件中出現的次數。
[0042]其中,a、b、c的和為I,比如,在計算新聞稿件中各關鍵詞得分時,a可以取0.5、b為
0.3,c為0.2。
[0043]應說明的是,比例常數a、b、c的取值是動態變化的,對于不同的關鍵詞,該比例常數可以取不同值。
[0044]舉例來說,若接收的新聞稿件內容如下:
[0045][三八節特輯]射導彈開戰機登航母進叢林:誰說女子不如男
[0046]這是一個有著堅強戰斗精神又不失女性特有細膩的集體。她們從事的專業不再像過去局限于醫療和服務領域,而是奮戰在操舵、機電、損管、監察、雷達等遼寧艦幾乎所有戰斗部門,為走向深藍的中國海軍注入了更多活力。
[0047]這個由90多名女軍人組成的光榮集體一一海軍遼寧艦女艦員隊,組建以來,出色完成遼寧艦歷次試驗試航和艦載戰斗機著艦起飛等重大任務。
[0048]通過關鍵詞提取后,確定的關鍵詞包括:女軍人,遼寧艦,戰斗機,導彈,航母,戰機。
[0049]其中,關鍵詞“女軍人”在標題中未出現,在文章中出現過I次,與女軍人相近的詞“女子”在標題中出現過I次,“女性”、“女艦員”在正文中分別出現過一次,從而根據上式,即可確定關鍵詞“女軍人”的得分為:
[0050]s = a X 0+b X 1+c X 3
[0051]相同的方法,可以確定其它各個關鍵詞的得分。
[0052]需要說明的是,新聞自動分類裝置中,還可以存儲近義詞詞典,在獲取關鍵詞后,可以通過查詢該詞典,獲取各關鍵詞相近的詞,進而確定與關鍵詞相近的詞在新聞稿件中出現的次數。
[0053]步驟105,根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,其中,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。
[0054]具體的,為了對新聞稿件進行精確的分類,可以在每個新聞類別下,再根據關鍵詞將每個新聞類別進行不同維度的劃分,即將新聞稿件在初級分類下再進行進一步的精確的分類。
[0055]實際應用時,在根據新聞稿件中各個關鍵詞的得分,確定新聞稿件在初級分類中的維度時,可以根據關鍵詞的得分,從高到低,依次確定各個關鍵詞所屬的維度,進而確定新聞稿件所屬的維度。
[0056]具體的,上述步驟105,包括:
[0057]1051:根據所述各個關鍵詞的得分,確定所述新聞稿件的關鍵詞排序列表;
[0058]本實施例中,若共有η個關鍵詞,可將所有η個關鍵詞根據上述步驟計算得分,并根據得分,由高向低進行排序。
[0059]1052:從所述關鍵詞排序列表中選取前N個關鍵詞;
[0060]可以理解的是,為了提高分類的準確性,可選取一部分關鍵詞,而不是所有的關鍵詞,其中,I彡Ν<η/2,Ν為整數。
[0061]舉例說明,若關鍵詞共有5個,則可以根據關鍵詞排序列表選取得分較高的前I個或前2個關鍵詞進行后續操作。
[0062]1053:根據所述前N個關鍵詞,確定所述新聞稿件在所述初級分類中的維度。
[0063]需要說明的是,可以采用上述方式,選取得分最高的前N個關鍵詞作為確定新聞稿件維度的標準,也可以根據所有的關鍵詞,確定新聞稿件的維度,從而使確定的維度更精確,但是會對新聞分類裝置的數據處理能力和速度要求較高。
[0064]舉例來說,若通過與預設的新聞模板匹配后,確定上述新聞稿件所屬的初級分類為“軍事-兵器”,然后采用上述方式,選取的上述新聞稿件對應的得分最高的關鍵詞為“遼寧艦”。而在“軍事-兵器”的初級分類下,包括由I個關鍵詞定義的8個分類,分別為“戰斗機”、“軍艦”、“步槍”、“導彈”、“坦克”、“潛艇”、“核武器”,通過查詢新聞分類裝置中的近義詞詞典,確定“遼寧艦”與“軍艦”相近,或者將“遼寧艦”上位后可歸屬到“軍艦”中,從而可確定上述新聞稿件的具體的分類為“軍事-兵器-軍艦”,從而實現了對新聞稿件的精確分類。
[0065]需要說明的是,若預設的各初級分類下的一個維度對應I個關鍵詞,而根據上述方式選擇的一個新聞稿件對應2個或多個得分相同的關鍵詞,則可以將該新聞稿件同時歸屬到兩個維度中。
[0066]本申請實施例的新聞分類方法,收到新聞稿件后,首先確定新聞稿件與預設的新聞模板之間的各匹配度,根據各匹配度,確定新聞稿件所屬的初級分類,然后根據預設的算法,確定新聞稿件中各個關鍵詞的得分,然后根據各關鍵詞的得分,確定新聞稿件在初級分類中的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0067]通過上述分析可知,新聞分類裝置在接收到新聞稿件后,可以根據新聞稿件與預設的新聞模板之間的匹配度,確定新聞稿件所屬的初級分類。相應的,新聞分類裝置中需要預先存儲各個初級分類對應的新聞模板,或者,該新聞模板,還可以是新聞分類裝置對新聞庫中的所有新聞稿件進行模型訓練后得到的。即該方法還包括:
[0068]對新聞稿件庫進行模型訓練,確定各個初級分類對應的新聞模板。
[0069]舉例來說,可以采用支持向量機(Support Vector Machine,簡稱SVM)的算法,對新聞稿件庫進行模型訓練,從而確定各個初級分類對應的新聞模板。
[0070]可以理解是,通過上述實施例可知,新聞模板對應的初級分類由兩個特征限定。如“軍事-兵器”分類,就由“軍事”和“兵器”兩個特征限定,因此,可以通過SVM算法,首先將新聞稿件庫中的新聞進行第一層級分類,比如將新聞稿件首先分為“時事”、“娛樂”、“房地產”、“經濟”、“軍事”等等,進而再利用SVM算法,將各個第一層級再進行第二層級的分類,比如將“軍事”最終分為:軍事-兵器、軍事-軍情、軍事-軍史、軍事-時事等等,且每個二級分類分別對應一個新聞模板。從而可以根據新聞稿件與各新聞模板的匹配度直接確定新聞稿件對應的初級分類。
[0071]需要說明的是,在根據新聞稿件庫確定了新聞模板后,新聞分類裝置,還可以對新接收的新聞繼續進行模型訓練,從而對確定的新聞模板進行補充和完善,進而使根據新聞模板確定的新聞的初級分類越來越精準。
[0072]進一步的,上述實施例中,在確定各關鍵詞的得分時,可以利用新聞分類裝置中的詞典,確定與關鍵詞相近的詞,為了進一步提高對新聞分類的精度,在根據關鍵詞得分確定新聞稿件的維度時,還可以對各關鍵詞進行去重處理。下面結合圖2,對本申請提供的新聞分類方法進行進一步的說明。
[0073]圖2是本申請另一個實施例的新聞分類方法的流程圖。
[0074]如圖2所示,該新聞分類方法可以包括以下步驟:
[0075]步驟201,對新聞稿件庫進行模型訓練,確定各個初級分類對應的新聞模板。
[0076]步驟202,接收新聞稿件。
[0077]步驟203,確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別。
[0078]步驟204,根據與新聞稿件匹配度最高的新聞模板對應的新聞類別,確定所述新聞稿件所屬的初級分類。
[0079]步驟205,獲取所述新聞稿件中的各個關鍵詞。
[0080]具體的,可以采用現有的關鍵詞抓取方法獲取新聞稿件中的關鍵詞,也可以選取在標題和正文中均出現的詞作為關鍵詞,或者,還可以選取在新聞稿件中出現次數達到預設的值的詞作為關鍵詞,本實施例對此不作限定。
[0081]步驟206,查詢預設的詞典,確定所述各個關鍵詞的近義詞和/或替換詞。
[0082]具體的,預設的詞典,可以是新聞分類裝置根據對新聞稿件庫的訓練,自己生成的,或者,也可以是根據用戶的輸入確定的。
[0083]其中,預設的詞典中,可以包括各種詞的近義詞和替換詞。其中,替換詞可以指該詞的上位詞。舉例來說,“氫彈” 一詞,可以通過替換詞,替換為“核武器”。
[0084]步驟207,利用預設的算法,確定各個關鍵詞的得分。
[0085]步驟208,根據所述各個關鍵詞的得分,確定所述新聞稿件的關鍵詞排序列表。
[0086]步驟209,從所述關鍵詞排序列表中選取得分較高的前N個關鍵詞。
[0087]其中,N可以為一個固定的數值,比如為1、3、5、6或8等等,也可以根據實際的場景確定。
[0088]舉例來說,首先僅選取關鍵詞排序列表中的前2個或3個關鍵詞,若僅根據前2個就可以準確確定新聞稿件的維度,那么就可以只選前2個關鍵詞;而若根據前3個關鍵詞,確定的新聞稿件的維度并不唯一,此時,可以繼續選擇關鍵詞,來對之前確定的新聞稿件的維度進行修正或者校正,從而最終確定新聞稿件所屬的維度。
[0089]步驟210,根據所述N個關鍵詞,確定所述新聞稿件在在所述初級分類中的維度。
[0090]本申請實施例的新聞分類方法,首先接收新聞稿件,然后確定新聞稿件與預設的新聞模板的匹配度,根據與新聞稿件匹配度最高的新聞模板對應的新聞分類,確定新聞稿件的初級分類,進而再從新聞稿件中選取關鍵詞,然后通過查詢預設的詞典,確定各個關鍵詞的近義詞和/或替換詞,再根據預設的算法,確定新聞稿件中各個關鍵詞的得分,根據各個關鍵詞的得分,確定新聞稿件的關鍵詞排序列表,從排序列表中選取前N個關鍵詞后,再根據前N個關鍵詞,確定新聞稿件的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0091]為了實現上述實施例,本申請還提出一種新聞分類裝置。
[0092]圖3是本申請一個實施例的新聞分類裝置的結構示意圖。
[0093]如圖3所示,該新聞分類裝置包括:
[0094]接收模塊31,用于接收新聞稿件;
[0095]第一確定模塊32,用于確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別;
[0096]第二確定模塊33,用于根據所述各匹配度,確定所述新聞稿件所屬的初級分類;
[0097]運算模塊34,用于根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分;
[0098]第三確定模塊35,用于根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,其中,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。
[0099]其中,本實施例提供的新聞分類裝置,用于執行上述實施例提供的新聞分類方法。
[0100]具體的,上述運算模塊34,具體用于:
[0101 ] 利用s = a X ti+b X t2+c X t3,確定各個關鍵詞的得分;
[0102]其中,s為關鍵詞的得分,a、b、c為比例常數,t為關鍵詞在標題中出現的次數,t2為關鍵詞在新聞正文中出現的次數,t3為根據所述初級分類獲取的與所述關鍵詞相近的詞在新聞稿件中出現的次數。
[0103]在一種實施例中,第三確定模塊35,具體用于:
[0104]根據所述各個關鍵詞的得分,確定所述新聞稿件的關鍵詞排序列表;
[0105]從所述關鍵詞排序中選取得分較高的前N個關鍵詞;
[0106]根據所述N個關鍵詞,確定所述新聞稿件在所述初級分類中的維度。
[0107]需要說明的是,前述對新聞分類方法實施例的解釋說明也適用于該實施例的新聞分類裝置,此處不再贅述。
[0108]本申請實施例的新聞分類裝置,收到新聞稿件后,首先確定新聞稿件與預設的新聞模板之間的各匹配度,根據各匹配度,確定新聞稿件所屬的初級分類,然后根據預設的算法,確定新聞稿件中各個關鍵詞的得分,然后根據各關鍵詞的得分,確定新聞稿件在初級分類中的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0109]圖4是本申請另一個實施例的新聞分類裝置的結構示意圖。
[0110]如圖4所示,在上述圖3所示的基層上,該新聞分類裝置,還包括:
[0111]查詢模塊41,用于查詢預設的詞典,確定所述各個關鍵詞的近義詞和/或替換詞。
[0112]進一步地,通過上述分析可知,新聞分類裝置在接收到新聞稿件后,可以根據新聞稿件與預設的新聞模板之間的匹配度,確定新聞稿件所屬的初級分類。相應的,新聞分類裝置中需要預先存儲各個初級分類對應的新聞模板,或者,該新聞模板,還可以是新聞分類裝置對新聞庫中的所有新聞稿件進行模型訓練后得到的。則該裝置,還包括:
[0113]訓練模塊42,用于對新聞稿件庫進行模型訓練,確定各個初級分類對應的新聞模板。
[0114]需要說明的是,前述對新聞分類方法實施例的解釋說明也適用于該實施例的新聞分類裝置,此處不再贅述。
[0115]本申請實施例的新聞分類裝置,首先接收新聞稿件,然后確定新聞稿件與預設的新聞模板的匹配度,根據與新聞稿件匹配度最高的新聞模板對應的新聞分類,確定新聞稿件的初級分類,進而再從新聞稿件中選取關鍵詞,然后通過查詢預設的詞典,確定各個關鍵詞的近義詞和/或替換詞,再根據預設的算法,確定新聞稿件中各個關鍵詞的得分,根據各個關鍵詞的得分,確定新聞稿件的關鍵詞排序列表,從排序列表中選取如N個的關鍵詞后,再根據前N個關鍵詞,確定新聞稿件的維度。由此,實現了對新聞稿件的自動分級分類,提高了對新聞稿件分類的效率,并且分類結果不受個人主觀感受影響,分類結果較精準。
[0116]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本申請的至少一個實施例或示例中。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。
[0117]應當理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟件或固件來實現。例如,如果用硬件來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用于對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
[0118]本技術領域的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執行時,包括方法實施例的步驟之一或其組合。
[0119]上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。盡管上面已經示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領域的普通技術人員在本申請的范圍內可以對上述實施例進行變化、修改、替換和變型。
【主權項】
1.一種新聞分類方法,其特征在于,包括以下步驟: 接收新聞稿件; 確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別; 根據所述各匹配度,確定所述新聞稿件所屬的初級分類; 根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分; 根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。2.如權利要求1所述的方法,其特征在于,所述根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分,包括: 利用s = a X ti+b X t2+c X t3,確定各個關鍵詞的得分; 其中,s為關鍵詞的得分,a、b、c為比例常數,為關鍵詞在標題中出現的次數,t2為關鍵詞在新聞正文中出現的次數,t3為根據所述初級分類獲取的與所述關鍵詞相近的詞在新聞稿件中出現的次數。3.如權利要求2所述的方法,其特征在于,所述根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分之前,還包括: 查詢預設的詞典,確定所述各個關鍵詞的近義詞和/或替換詞。4.如權利要求1所述的方法,其特征在于,所述根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,包括: 根據所述各個關鍵詞的得分,確定所述新聞稿件的關鍵詞排序列表; 從所述關鍵詞排序中選取得分較高的前N個關鍵詞; 根據所述N個關鍵詞,確定所述新聞稿件在所述初級分類中的維度。5.如權利要求1所述的方法,其特征在于,還包括: 對新聞稿件庫進行模型訓練,確定各個初級分類對應的新聞模板。6.一種新聞分類裝置,其特征在于,包括: 接收模塊,用于接收新聞稿件; 第一確定模塊,用于確定所述新聞稿件與各預設的新聞模板之間的各匹配度,其中,每個新聞模板對應一種新聞類別; 第二確定模塊,用于根據所述各匹配度,確定所述新聞稿件所屬的初級分類; 運算模塊,用于根據預設的算法,確定所述新聞稿件中各個關鍵詞的得分; 第三確定模塊,用于根據所述各個關鍵詞的得分,確定所述新聞稿件在所述初級分類中的維度,其中,初級分類中的每個維度對應N個關鍵詞,N為大于或等于I的正整數。7.如權利要求1所述的裝置,其特征在于,所述運算模塊,具體用于: 利用s = a X ti+b X t2+c X t3,確定各個關鍵詞的得分; 其中,s為關鍵詞的得分,a、b、c為比例常數,為關鍵詞在標題中出現的次數,t2為關鍵詞在新聞正文中出現的次數,t3為根據所述初級分類獲取的與所述關鍵詞相近的詞在新聞稿件中出現的次數。8.如權利要求7所述的裝置,其特征在于,還包括: 查詢模塊,用于查詢預設的詞典,確定所述各個關鍵詞的近義詞和/或替換詞。9.如權利要求6所述的裝置,其特征在于,所述第三確定模塊,具體用于:根據所述各個關鍵詞的得分,確定所述新聞稿件的關鍵詞排序列表;從所述關鍵詞排序中選取得分較高的前N個的關鍵詞;根據所述N個關鍵詞,確定所述新聞稿件在所述初級分類中的維度。10.如權利要求6所述的裝置,其特征在于,還包括:訓練模塊,用于對新聞稿件庫進行模型訓練,確定各個初級分類對應的新聞模板。
【文檔編號】G06F17/30GK106021526SQ201610352644
【公開日】2016年10月12日
【申請日】2016年5月25日
【發明人】麥濤
【申請人】東軟集團股份有限公司