本(ben)發(fa)明(ming)涉(she)及數據檢索領域,具體涉(she)及一種基于統計規律的資訊內(nei)容異常(chang)檢測方法。
背景技術:
隨著互聯網資訊的快速傳播(bo),基(ji)于人工(gong)(gong)識(shi)別的資訊內(nei)容檢測(ce)方式已經不能滿(man)足各大(da)媒(mei)體(ti)的業務發展要求,人工(gong)(gong)的檢測(ce)方式準確度和工(gong)(gong)作(zuo)效率難以保(bao)證。
技術實現要素:
本發明的(de)(de)目的(de)(de)是針對現(xian)有的(de)(de)技術存在(zai)的(de)(de)不足,提出了一種工作效率高的(de)(de)基于統計規律(lv)的(de)(de)資(zi)訊內容異常檢測(ce)方法。
本發明所解決的(de)技(ji)術問題采用以下(xia)技(ji)術方案(an)來實現一種基于(yu)統(tong)計規律的(de)資訊(xun)(xun)內容(rong)異(yi)常檢(jian)測(ce)(ce)方法,包括如下(xia)步(bu)驟(zou):步(bu)驟(zou)一、準備(bei)語料;步(bu)驟(zou)二、將語料進(jin)行nlp分詞(ci);步(bu)驟(zou)三、分詞(ci)結(jie)果(guo)構成(cheng)(cheng)多維向(xiang)量(liang);步(bu)驟(zou)四、多維向(xiang)量(liang)積攢成(cheng)(cheng)多維向(xiang)量(liang)庫;步(bu)驟(zou)五、形(xing)成(cheng)(cheng)多維向(xiang)量(liang)庫擴(kuo)展;步(bu)驟(zou)六(liu)、需要檢(jian)測(ce)(ce)時準備(bei)目(mu)標(biao)資訊(xun)(xun);步(bu)驟(zou)七(qi)、將目(mu)標(biao)資訊(xun)(xun)進(jin)行nlp分詞(ci);步(bu)驟(zou)八、分詞(ci)結(jie)果(guo)構成(cheng)(cheng)多維向(xiang)量(liang);步(bu)驟(zou)九、在多維向(xiang)量(liang)庫內檢(jian)測(ce)(ce)目(mu)標(biao)資訊(xun)(xun)是否正確;步(bu)驟(zou)十、計算(suan)出詞(ci)項(xiang)的(de)概率大(da)于(yu)閾(yu)值;步(bu)驟(zou)十一、檢(jian)測(ce)(ce)通過;步(bu)驟(zou)十二、計算(suan)出詞(ci)項(xiang)的(de)概率小于(yu)閾(yu)值;步(bu)驟(zou)十三、檢(jian)測(ce)(ce)不通過;步(bu)驟(zou)十四、預警處(chu)理。
本發(fa)明的(de)有益效(xiao)果(guo)為(wei)(wei):提(ti)出了(le)一種基于統(tong)計規律的(de)資訊內(nei)容(rong)異常檢測方法,通過基于統(tong)計規律的(de)資訊內(nei)容(rong)錯(cuo)誤(wu)檢測方法,可以給媒體機構提(ti)供(gong)智(zhi)能的(de)資訊內(nei)容(rong)錯(cuo)誤(wu)提(ti)醒(xing)機制,減少人為(wei)(wei)的(de)錯(cuo)誤(wu)發(fa)生(sheng),保障互聯網的(de)媒體事業健康(kang)穩(wen)定的(de)發(fa)展。
相(xiang)比(bi)采用黑白(bai)名單,簡單的過濾敏(min)感詞,本(ben)發明更能(neng)高效(xiao)準確的檢測資訊內容的錯誤。
附圖說明
圖(tu)1是本發明的基于(yu)統計規律的資訊內容異常檢測方法的流(liu)程(cheng)圖(tu)。
具體實施方式
參照附圖(tu),一種基于(yu)(yu)統計(ji)規律的資(zi)訊(xun)內容(rong)異常(chang)檢(jian)測(ce)方法,包括(kuo)如下(xia)步(bu)(bu)驟(zou)(zou):步(bu)(bu)驟(zou)(zou)一、準備語料;步(bu)(bu)驟(zou)(zou)二(er)、將語料進行nlp分(fen)詞(ci)(ci)(ci);步(bu)(bu)驟(zou)(zou)三、分(fen)詞(ci)(ci)(ci)結(jie)果(guo)(guo)構成多(duo)(duo)(duo)維向(xiang)(xiang)量;步(bu)(bu)驟(zou)(zou)四(si)、多(duo)(duo)(duo)維向(xiang)(xiang)量積攢成多(duo)(duo)(duo)維向(xiang)(xiang)量庫(ku)(ku);步(bu)(bu)驟(zou)(zou)五、形成多(duo)(duo)(duo)維向(xiang)(xiang)量庫(ku)(ku)擴展;步(bu)(bu)驟(zou)(zou)六、需要檢(jian)測(ce)時準備目(mu)(mu)標資(zi)訊(xun);步(bu)(bu)驟(zou)(zou)七、將目(mu)(mu)標資(zi)訊(xun)進行nlp分(fen)詞(ci)(ci)(ci);步(bu)(bu)驟(zou)(zou)八、分(fen)詞(ci)(ci)(ci)結(jie)果(guo)(guo)構成多(duo)(duo)(duo)維向(xiang)(xiang)量;步(bu)(bu)驟(zou)(zou)九、在多(duo)(duo)(duo)維向(xiang)(xiang)量庫(ku)(ku)內檢(jian)測(ce)目(mu)(mu)標資(zi)訊(xun)是(shi)否正確(que);步(bu)(bu)驟(zou)(zou)十、計(ji)算出(chu)詞(ci)(ci)(ci)項的概(gai)率大于(yu)(yu)閾(yu)值;步(bu)(bu)驟(zou)(zou)十一、檢(jian)測(ce)通(tong)過(guo);步(bu)(bu)驟(zou)(zou)十二(er)、計(ji)算出(chu)詞(ci)(ci)(ci)項的概(gai)率小于(yu)(yu)閾(yu)值;步(bu)(bu)驟(zou)(zou)十三、檢(jian)測(ce)不通(tong)過(guo);步(bu)(bu)驟(zou)(zou)十四(si)、預警(jing)處理。
本發(fa)(fa)明提出了(le)一種基(ji)于統計(ji)規律的(de)資訊內容異(yi)常(chang)檢(jian)測(ce)方法,通過基(ji)于統計(ji)規律的(de)資訊內容錯(cuo)誤(wu)檢(jian)測(ce)方法,可以給媒(mei)體(ti)機構提供(gong)智能(neng)的(de)資訊內容錯(cuo)誤(wu)提醒機制,減少人為的(de)錯(cuo)誤(wu)發(fa)(fa)生,保(bao)障互聯(lian)網的(de)媒(mei)體(ti)事業健(jian)康穩定的(de)發(fa)(fa)展。
相比(bi)采用(yong)黑白名單(dan),簡單(dan)的(de)(de)過濾敏感(gan)詞,本發(fa)明(ming)更能高效準確的(de)(de)檢(jian)測資(zi)訊內容的(de)(de)錯誤。