中文字幕无码日韩视频无码三区

一種基于多種檢索模型的實時微博分類器的制作方法

文(wen)檔(dang)序號:11155263閱讀:637來源:國(guo)知局(ju)
一種基于多種檢索模型的實時微博分類器的制造方法與工藝

本發明涉及微(wei)博檢索分類(lei)器(qi)(qi),具體為(wei)一種基于多(duo)種檢索模型(xing)的實時微(wei)博分類(lei)器(qi)(qi)。



背景技術:

目前,不(bu)同的微博檢索(suo)技(ji)術(shu)都是應用一(yi)種(zhong)檢索(suo)模(mo)(mo)(mo)型(xing)或者一(yi)種(zhong)分(fen)(fen)類(lei)技(ji)術(shu),且(qie)不(bu)具(ju)備實時性的特點。一(yi)般(ban)可以利用多(duo)種(zhong)檢索(suo)模(mo)(mo)(mo)型(xing)中(zhong)的一(yi)種(zhong),比如:布(bu)爾(er)模(mo)(mo)(mo)型(xing),向(xiang)量(liang)空間模(mo)(mo)(mo)型(xing),概率模(mo)(mo)(mo)型(xing),語言模(mo)(mo)(mo)型(xing),詞嵌(qian)入模(mo)(mo)(mo)型(xing)。分(fen)(fen)類(lei)技(ji)術(shu)也有很多(duo)種(zhong),比如:樸素貝葉斯分(fen)(fen)類(lei),最近鄰分(fen)(fen)類(lei),邏(luo)輯(ji)回歸分(fen)(fen)類(lei),隨(sui)機(ji)森(sen)林(lin)分(fen)(fen)類(lei),決策(ce)樹(shu)分(fen)(fen)類(lei),梯度(du)提升分(fen)(fen)類(lei),支(zhi)持向(xiang)量(liang)機(ji)分(fen)(fen)類(lei)。

當前分類(lei)器都(dou)是(shi)(shi)基(ji)于一種檢(jian)(jian)(jian)索(suo)模(mo)(mo)型(xing)(xing),常見的是(shi)(shi)向量空間模(mo)(mo)型(xing)(xing),采用TF-IDF加權,應(ying)用某種分類(lei)技(ji)術(shu)對(dui)(dui)微(wei)博進行分類(lei),且沒有(you)針(zhen)(zhen)對(dui)(dui)微(wei)博實時性的特點。向量空間模(mo)(mo)型(xing)(xing)實現簡(jian)單但(dan)是(shi)(shi)對(dui)(dui)訓練(lian)集和測試(shi)集有(you)限制,訓練(lian)與測試(shi)模(mo)(mo)型(xing)(xing)時必(bi)須(xu)是(shi)(shi)針(zhen)(zhen)對(dui)(dui)相同(tong)(tong)的檢(jian)(jian)(jian)索(suo)問(wen)題(ti),如(ru)果出現不(bu)(bu)同(tong)(tong)的檢(jian)(jian)(jian)索(suo)問(wen)題(ti),則(ze)需要重(zhong)新(xin)訓練(lian)模(mo)(mo)型(xing)(xing)。不(bu)(bu)能針(zhen)(zhen)對(dui)(dui)不(bu)(bu)同(tong)(tong)用戶,不(bu)(bu)同(tong)(tong)檢(jian)(jian)(jian)索(suo)問(wen)題(ti)實現實時的檢(jian)(jian)(jian)索(suo)。



技術實現要素:

本發明的目的在(zai)于提供一種基于多種檢索模型的實時微博分類器,以解決上述背景技(ji)術中提出(chu)的問題(ti)。

本發明的(de)目的(de)是通過(guo)下述技(ji)術方(fang)案予以(yi)實(shi)現:一種(zhong)基(ji)于多種(zhong)檢索模型(xing)的(de)實(shi)時微博分(fen)類器(qi),其特征在于,包括:

(1)用戶在(zai)指(zhi)定網站下(xia)載指(zhi)定電(dian)腦版微(wei)博檢(jian)索軟(ruan)件或者手(shou)機版微(wei)博檢(jian)索軟(ruan)件;

(2)用戶在微(wei)博檢(jian)(jian)索(suo)軟件注冊成功后,使用手機或(huo)者電腦向微(wei)博檢(jian)(jian)索(suo)軟件信息統計處理中(zhong)心發送檢(jian)(jian)索(suo)信息內容;

(3)信息統計(ji)處理中心接(jie)收到用戶發出(chu)的檢(jian)索內容(rong)后,首先采用布爾(er)模(mo)型信息檢(jian)索模(mo)型,文字(zi)、數字(zi)或者(zhe)單詞等用戶查詢的內容(rong)由(you)其(qi)包含(han)的單詞集合來(lai)表示,兩(liang)者(zhe)的相似性則通(tong)過布爾(er)代數運算來(lai)進行判定,隨后得出(chu)初(chu)級檢(jian)索結果。

在本發明一個較佳的(de)實施例中(zhong),所述(shu)得(de)(de)出的(de)初級(ji)(ji)檢索結(jie)(jie)果后由(you)處理(li)器將用戶輸入的(de)搜索內容編輯(ji)成(cheng)由(you)t維特征(zheng)組(zu)成(cheng)的(de)一個向量(liang),同(tong)時處理(li)器將得(de)(de)出的(de)初級(ji)(ji)檢索結(jie)(jie)果編輯(ji)成(cheng)若干(gan)個t維特征(zheng)組(zu)成(cheng)的(de)若干(gan)個個向量(liang),進(jin)而檢索內容向量(liang)與初級(ji)(ji)檢索結(jie)(jie)果向量(liang)相互對比,得(de)(de)出更(geng)進(jin)一步的(de)匹配結(jie)(jie)果。

在本發(fa)明(ming)一(yi)個較佳(jia)的實(shi)施例中,所(suo)述隨后(hou)系統根據(ju)進(jin)(jin)(jin)一(yi)步的匹(pi)配結(jie)(jie)果(guo)與谷歌(ge)搜(sou)索引擎向(xiang)結(jie)(jie)合(he)(he),將用戶所(suo)需要搜(sou)索的內容與谷歌(ge)網(wang)實(shi)時進(jin)(jin)(jin)行(xing)相似(si)度(du)計算,得到不(bu)同的相似(si)度(du)計算結(jie)(jie)果(guo),每種相似(si)度(du)作為(wei)一(yi)個高級(ji)特征(zheng),這樣將一(yi)條博文(wen)轉換為(wei)高級(ji)特征(zheng)向(xiang)量,還有(you)一(yi)些其他高級(ji)特征(zheng)包(bao)括詞性(xing)統計,重合(he)(he)單詞統計、博文(wen)客觀(guan)度(du),博文(wen)極性(xing)等,再根據(ju)有(you)標注的訓(xun)練集對(dui)分類(lei)(lei)器進(jin)(jin)(jin)行(xing)訓(xun)練,分類(lei)(lei)器選(xuan)擇了以上所(suo)有(you)分類(lei)(lei)器進(jin)(jin)(jin)行(xing)測試(shi),通(tong)過訓(xun)練測試(shi)找出最佳(jia)分類(lei)(lei)器,分類(lei)(lei)特征(zheng)綜合(he)(he)話題、話題擴(kuo)展(zhan)和上述各種檢索模型(xing)計算得出進(jin)(jin)(jin)一(yi)步結(jie)(jie)果(guo)。

在本發明(ming)一個較佳的(de)實(shi)(shi)施例中(zhong),所述(shu)最(zui)后中(zhong)央處理器(qi)將上述(shu)得(de)出(chu)更(geng)進一步的(de)匹配結果與谷歌搜索引擎分類得(de)出(chu)的(de)結果進行(xing)對(dui)比排除(chu),進而得(de)出(chu)具有實(shi)(shi)時意義的(de)匹配結果。

在本發(fa)明(ming)一個(ge)較佳的(de)實(shi)施例中,所述該微博分類(lei)器具(ju)有機械學習功能,能夠在日常工作中進(jin)行自我學習,通過(guo)算法讓機器自我減少誤差,可(ke)以根據函數預測(ce)結果,通過(guo)有監(jian)督學習方式訓(xun)練的(de)分類(lei)器在性能具(ju)有優勢。

本發明的(de)有益效果是:該發明一種(zhong)基于多(duo)種(zhong)檢(jian)(jian)索(suo)(suo)(suo)(suo)模型的(de)實(shi)時(shi)微博分(fen)類(lei)器,通(tong)過(guo)使用這種(zhong)方法,通(tong)過(guo)多(duo)種(zhong)檢(jian)(jian)索(suo)(suo)(suo)(suo)方式可以(yi)(yi)得(de)出最佳分(fen)類(lei)器,由于分(fen)類(lei)器采用高級特征,可以(yi)(yi)對任意不(bu)同(tong)話題做檢(jian)(jian)索(suo)(suo)(suo)(suo),同(tong)時(shi)通(tong)過(guo)與谷(gu)歌(ge)檢(jian)(jian)索(suo)(suo)(suo)(suo)可以(yi)(yi)得(de)到(dao)最新的(de)檢(jian)(jian)索(suo)(suo)(suo)(suo)結果,實(shi)現(xian)排除陳舊信息的(de)目的(de),同(tong)時(shi)使用多(duo)重檢(jian)(jian)索(suo)(suo)(suo)(suo)方式,使檢(jian)(jian)索(suo)(suo)(suo)(suo)效率(lv)和檢(jian)(jian)索(suo)(suo)(suo)(suo)的(de)準確率(lv)上升,進而增加(jia)檢(jian)(jian)索(suo)(suo)(suo)(suo)分(fen)類(lei)器的(de)工作量,同(tong)時(shi)可以(yi)(yi)實(shi)現(xian)實(shi)時(shi)檢(jian)(jian)索(suo)(suo)(suo)(suo)的(de)功能。

附圖說明

圖1為本(ben)發(fa)明整體示(shi)意圖。

具體實施方式

下面(mian)結(jie)合(he)具體(ti)實施(shi)方(fang)式進一(yi)步的(de)說(shuo)明,但(dan)是下文中的(de)具體(ti)實施(shi)方(fang)式不應當(dang)做(zuo)被(bei)理解為(wei)對本(ben)體(ti)發明的(de)限制。本(ben)領域普(pu)通技術人員(yuan)能(neng)夠在本(ben)發明基(ji)礎上(shang)顯(xian)而易見地作出的(de)各種改(gai)變(bian)和變(bian)化(hua),應該均在發明的(de)范圍之內。

實施例

如圖(tu)1所示:一種基于多種檢索模(mo)型的實時微(wei)博(bo)分類(lei)器,包(bao)括:

(1)用戶在(zai)指定網站下(xia)載指定電腦版微博(bo)檢索軟件或者手機(ji)版微博(bo)檢索軟件;

(2)用(yong)(yong)戶在(zai)微博檢索軟(ruan)件(jian)注冊(ce)成功后(hou),使用(yong)(yong)手機或(huo)者電(dian)腦向(xiang)微博檢索軟(ruan)件(jian)信息(xi)統計處理(li)中心發送檢索信息(xi)內容;

(3)信息(xi)統計處理中心接(jie)收(shou)到用戶(hu)發出的檢索內容后,首先采用布爾(er)模型信息(xi)檢索模型,文字、數字或者單詞(ci)等用戶(hu)查詢的內容由其包含的單詞(ci)集合來表示,兩者的相似(si)性則通(tong)過布爾(er)代(dai)數運算來進(jin)行判定,隨后得出初(chu)級檢索結(jie)果。

所(suo)述得出的(de)初級(ji)檢索(suo)(suo)(suo)結(jie)果后(hou)由處(chu)(chu)理(li)器(qi)將(jiang)用戶輸入(ru)的(de)搜(sou)索(suo)(suo)(suo)內(nei)容編輯(ji)成由t維特(te)征組成的(de)一個向(xiang)(xiang)量,同(tong)時處(chu)(chu)理(li)器(qi)將(jiang)得出的(de)初級(ji)檢索(suo)(suo)(suo)結(jie)果編輯(ji)成若干個t維特(te)征組成的(de)若干個個向(xiang)(xiang)量,進而(er)檢索(suo)(suo)(suo)內(nei)容向(xiang)(xiang)量與初級(ji)檢索(suo)(suo)(suo)結(jie)果向(xiang)(xiang)量相互對比,得出更進一步的(de)匹配結(jie)果。

所述(shu)隨后系統根據(ju)進(jin)(jin)一(yi)(yi)步的(de)匹配結(jie)果(guo)與(yu)谷歌搜索(suo)引擎向結(jie)合(he),將用戶所需要搜索(suo)的(de)內容與(yu)谷歌網實時進(jin)(jin)行(xing)相(xiang)似(si)度(du)計(ji)算,得到不(bu)同的(de)相(xiang)似(si)度(du)計(ji)算結(jie)果(guo),每種相(xiang)似(si)度(du)作為一(yi)(yi)個高級特征,這樣將一(yi)(yi)條博文(wen)轉換(huan)為高級特征向量,還有一(yi)(yi)些(xie)其他(ta)高級特征包括詞性(xing)統計(ji),重合(he)單詞統計(ji)、博文(wen)客觀度(du),博文(wen)極性(xing)等,再(zai)根據(ju)有標注(zhu)的(de)訓練(lian)集對分(fen)類(lei)(lei)(lei)器(qi)進(jin)(jin)行(xing)訓練(lian),分(fen)類(lei)(lei)(lei)器(qi)選擇了以(yi)上(shang)所有分(fen)類(lei)(lei)(lei)器(qi)進(jin)(jin)行(xing)測試,通過訓練(lian)測試找出最佳分(fen)類(lei)(lei)(lei)器(qi),分(fen)類(lei)(lei)(lei)特征綜合(he)話題(ti)、話題(ti)擴展和上(shang)述(shu)各(ge)種檢索(suo)模型計(ji)算得出進(jin)(jin)一(yi)(yi)步結(jie)果(guo)。

所(suo)述(shu)后中央處理器將(jiang)上述(shu)得(de)出(chu)更進一步的(de)匹(pi)配(pei)結果與谷歌(ge)搜索引擎分(fen)類得(de)出(chu)的(de)結果進行(xing)對比排(pai)除,進而得(de)出(chu)具有實時(shi)意義的(de)匹(pi)配(pei)結果。

所述該微博分類器具有機械(xie)學(xue)習(xi)功能(neng)(neng),能(neng)(neng)夠在(zai)日常工(gong)作中進行自我學(xue)習(xi),通過算法(fa)讓機器自我減(jian)少(shao)誤(wu)差(cha),可以根(gen)據函數預測結果,通過有監督學(xue)習(xi)方(fang)式訓練的分類器在(zai)性能(neng)(neng)具有優勢(shi)。

以上描述(shu)僅為本(ben)申請(qing)(qing)的較佳實施例以及對所運用技(ji)術(shu)原理(li)的說明。本(ben)領域技(ji)術(shu)人員(yuan)應當理(li)解,本(ben)申請(qing)(qing)中所涉及的發明范(fan)圍,并不限于上述(shu)技(ji)術(shu)特(te)(te)征(zheng)的特(te)(te)定組(zu)合而(er)(er)成的技(ji)術(shu)方(fang)案,同時也應涵蓋在不脫離(li)所述(shu)發明構(gou)思的情況下,由上述(shu)技(ji)術(shu)特(te)(te)征(zheng)或其等(deng)同特(te)(te)征(zheng)進(jin)行(xing)任(ren)意組(zu)合而(er)(er)形成的其它技(ji)術(shu)方(fang)案。例如上述(shu)特(te)(te)征(zheng)與本(ben)申請(qing)(qing)中公開的(但不限于)具有類似功(gong)能的技(ji)術(shu)特(te)(te)征(zheng)進(jin)行(xing)互相(xiang)替換而(er)(er)形成的技(ji)術(shu)方(fang)案。

當前第1頁1 2 3 
網友詢問(wen)留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1