一種網絡事件的綜合情感度量方法
【專利摘要】本發明涉及一種網絡事件的綜合情感度量方法,屬于社交網絡數據挖掘的技術應用領域。本發明的優點是:本發明基于民眾對現實事件在網絡的情感表述的內在特性,提出了基于情感時間段的賬戶情感相似評定的方法,處理中基于用戶信息建立了分段時間標準的二次特征,并進行了綜合分段的規則評判。計算時都采用線性復雜度的算法進行分析,計算資源需求小,具有較低的時間和空間代價。此信息在現實提取中更具實用價值。本發明有效實現了對網絡事件的情感信息的綜合情感的分析,能夠將指定的情感信息傾向的自動識別,在指定影響級別情況下,可供后續人工分析及影響干預。
【專利說明】
一種網絡事件的綜合情感度量方法
技術領域
[0001] 本發明涉及一種網絡事件的綜合情感度量方法,屬于社交網絡數據挖掘的技術應 用領域。
【背景技術】
[0002] 隨著網絡在現代生活的普及和影響程度的擴大,各種現實中的事件必然在網絡空 間報導并被討論,而民眾在網絡環境下對于各事件的態度評判,是相當重要的輿情信息.
[0003] 中國人傳統上較為含蓄,而比較于傳統面對面的交流表達,網絡中由于ID(網絡 標識)的保密作用,人們甚至不必擔心任何來自現實秩序、社會道德等因素對自己的言說 帶來的束縛,也不用擔心年齡、職業與地域方面的差異,網絡空間的許多話語往往具有"私 密性"的特征,而這種"私密性",剛好是個體心靈自由敞開的表征。由此,在網上的信息討 論由于雙方被隔離在網絡兩端,可以不受現實身份人格等多方面因素的干擾影響,所以在 一定程度上,網絡事件能表達出民眾對現實事件的真實情感.
[0004] 同時網絡交流主體身體的缺場和身份的隱匿,使得網上的情感交流相對于現實或 傳統的交流顯得更為直接,語言更加淺俗化,情感極性也表達得更為強烈.
[0005] 由此,通過收集民眾與網絡的接觸中必然在網上留下的行為和語言記錄,并基于 分析這些記錄,可以更真實有效的反映出民眾對事件的綜合情感,為進一步的輿情監控和 引導提供服務.
【發明內容】
[0006] 本發明是為了解決自動快速發現挖掘信息網絡上的事件的態度分析難題,提供了 一種快速的網絡事件的綜合情感度量方法。
[0007] 本發明所述綜合情感的度量方法,它包括以下步驟:
[0008] 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應此情感傾向 的情感詞數量和表情符號的總數量需多于400個;人工給定一個否定詞詞典;根據要分析 的不同的情感傾向,人工給定一個閾值θ (Θ >〇)
[0009] 步驟二:人為指定欲分析的網絡事件在網絡社區中相關的所有主題帖,記主題帖 的數目為G,則各主題帖可記為:1\(1彡i彡G).獲取所有主題帖的帖子的完整文字內容 C 1Q < i < G)、帖子的發布時間H1Q < i < G);獲取各個對應的要分析的主題帖的所有回 復評論的完整文字內容RCljO)彡j彡L(i))、所有回復評論的時間RH ljO)彡j彡L(i)),其 中L(i)為第i個主題帖對應的回復評論總數。
[0010] 步驟三:根據步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準 化,得到標準化后的結果NT,其中包括以下10個度量量:
[0011] n? d? Γπ^ ? ΠΙ2 ? ITi^? Q2 ? Q3 ? Q4
[0012] 其中各標準化量的計算方法為:
[0013] η = 0· 667sin(0. 2618*t)+0. 333, t為此主題帖的發布時間,24小時制
[0014] d = 0. 6304* (-1) s(Pn) \ P為此主題帖的文字中包含的情感詞總數,S為對應的否 定詞數
[0015] Hi1= M lCl \ M1為評論時間在5點起至11點止的帖子總數目
[0016] m2= M 2d \ M2為評論時間在11點起至14點止的帖子總數目
[0017] m3= M 3d \ M3為評論時間在14點起至20點止的帖子總數目
[0018] m4= M 4d \ M4為評論時間在0點起至5點止和20點起至24點止的帖子總數目
[0019]
[0020] Q1為評論時間在5點至11點止的帖子中包含的情感詞總數,S i為對應的否定詞數
[0021]
[0022] Q2為評論時間在11點至14點止的帖子中包含的情感詞總數,S 2為對應的否定詞 數
[0023]
[0024] Q3為評論時間在14點起至20點止的帖子中包含的情感詞總數,S 3為對應的否定 詞數
[0025]
[0026] Q4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數,S 4為 對應的否定詞數
[0027] 其中抑郁情感詞總數為發布或回復評論的帖子中,出現抑郁情感詞列表中的詞的 頻次。
[0028] 由此,而第i個主題帖所有的特征結果NT⑴為:
[0029] NT ⑴=(η;,山,ι?η,m2i,m3i,m4i,q H,q2i,q3i,q4i)
[0030] 步驟四:對各個主題帖的相關信息,根據標準化后的信息NT,計算對應的特征系 數,可表示為ZT,包括以下8個系數:
[0031] PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
[0032] 各系數算的具體方法為:
[0033] RNY, RNG, RNL, RNF 的計筧方法為:
[0034]
[0035]
[0036]
[0037]
[0038] 其中In1,m2, m3, m4為步驟三所得到的結果
[0039] RYY,RYG,RYL,RYF 的計算方式為:
[0040] RYY = 0. 6366*arctan Cq1)
[0041 ] RYG = 0· 6366*arctan (q2)
[0042] RYL = 0· 6366*arctan (q3)
[0043] RYF = 0· 6366*arctan (q4)
[0044] 其中qp q2, q3, q4為步驟三所得到的結果
[0045] 由此,而第i個主題帖對應的特征系數結果ZT (i)為
[0046] ZT (i) = (RNY1, RNG1, RNL1, RNF1, RYY1, RYG1, RYL1, RYF1)
[0047] 步驟五:根據每個主題帖的特征結果ZT,計算各對應主題帖的情感信息值F1
[0048] F1= RNY ,+RNG.+RNL.+RNF.+RYY.+RYG.+RYL.+RYF,
[0049] 步驟六:根據各主題帖的情感信息值F1,計算對應網絡事件在此情感傾向上的綜 合度量值:
[0050]
[0051] 步驟七:根據步驟六得到的的情感綜合度量值GF,將之與設定的情感閾值Θ比 較,GF大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
[0052] 本發明的優點是:本發明基于民眾對現實事件在網絡的情感表述的內在特性,提 出了基于情感時間段的賬戶情感相似評定的方法,處理中基于用戶信息建立了分段時間標 準的二次特征,并進行了綜合分段的規則評判。計算時都采用線性復雜度的算法進行分析, 計算資源需求小,具有較低的時間和空間代價。此信息在現實提取中更具實用價值。
[0053] 本發明有效實現了對網絡事件的情感信息的綜合情感的分析,能夠將指定的情感 信息傾向的自動識別,在指定影響級別情況下,可供后續人工分析及影響干預。
【附圖說明】
[0054] 圖1為本發明檢測方法的流程圖。
【具體實施方式】
【具體實施方式】 [0055] 一:下面結合圖1說明本實施方式,本實施方式所述一種網絡事件 的綜合情感度量方法,它包括以下步驟:
[0056] 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應此情感傾向 的情感詞數量和表情符號的總數量需多于400個;人工給定一個否定詞詞典;根據要分析 的不同的情感傾向,人工給定一個閾值θ (Θ >〇)
[0057] 步驟二:人為指定欲分析的網絡事件在網絡社區中相關的所有主題帖,記主題帖 的數目為G,則各主題帖可記為:1\(1彡i彡G).獲取所有主題帖的帖子的完整文字內容 C 1Q < i < G)、帖子的發布時間H1Q < i < G);獲取各個對應的要分析的主題帖的所有回 復評論的完整文字內容RCljO)彡j彡L(i))、所有回復評論的時間RH ljO)彡j彡L(i)),其 中L(i)為第i個主題帖對應的回復評論總數。
[0058] 步驟三:根據步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準 化,得到標準化后的結果NT,其中包括以下10個度量量:
[0059] n,d,nv m2, m3, m4, q!,q2, q3, q4
[0060] 其中各標準化量的計算方法為:
[0061] η = 0· 667sin(0. 2618*t)+0. 333, t為此主題帖的發布時間,24小時制
[0062] d = 0. 6304* (-Ds(Pn) \ P為此主題帖的文字中包含的情感詞總數,S為對應的否 定詞數
[0063] Hi1= M lCl \ M1為評論時間在5點起至11點止的帖子總數目
[0064] m2= M 2d \ M2為評論時間在11點起至14點止的帖子總數目
[0065] m3= m 3d \ M3為評論時間在14點起至20點止的帖子總數目
[0066] m4= M 4d \ M4為評論時間在0點起至5點止和20點起至24點止的帖子總數目
[0067]
[0068] Q1為評論時間在5點至11點止的帖子中包含的情感詞總數,S i為對應的否定詞數
[0069] ^r2= (-If2Q2iT1,
[0070] Q2為評論時間在11點至14點止的帖子中包含的情感詞總數,S 2為對應的否定詞 數
[0071] (-If3Q3A
[0072] Q3為評論時間在14點起至20點止的帖子中包含的情感詞總數,S 3為對應的否定 詞數
[0073] q4 = (-l)s,Q4d~\
[0074] Q4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數,S 4為 對應的否定詞數
[0075] 其中抑郁情感詞總數為發布或回復評論的帖子中,出現抑郁情感詞列表中的詞的 頻次。
[0076] 由此,而第i個主題帖所有的特征結果NT⑴為:
[0077] NT ⑴=(η;,山,ι?η,m2i,m3i,m4i,q H,q2i,q3i,q4i)
[0078] 步驟四:對各個主題帖的相關信息,根據標準化后的信息NT,計算對應的特征系 數,可表示為ZT,包括以下8個系數:
[0079] PNF,RNY,RNG,RNL,RNF,RYY,RYG,RYL,RYF
[0080] 各系數算的具體方法為:
[0081] RNY,RNG,RNL,RNF 的計算方法為:
[0082]
[0083]
[0084]
[0085]
[0086] 其中In1,m2,m3,m 4為步驟三所得到的結果
[0087] RYY,RYG,RYL,RYF 的計算方式為:
[0088] RYY = 0. 6366*arctan Cq1)
[0089] RYG = 0. 6366*arctan (q2)
[0090] RYL = 0· 6366*arctan (q3)
[0091] RYF = 0· 6366*arctan (q4)
[0092] 其中qi,q2, q3, q4S步驟三所得到的結果
[0093] 由此,而第i個主題帖對應的特征系數結果ZT (i)為
[0094] ZT (i) = (RNY1, RNG1, RNL1, RNF1, RYY1, RYG1, RYL1, RYF1)
[0095] 步驟五:根據每個主題帖的特征結果ZT,計算各對應主題帖的情感信息值F1
[0096] F1= RNY ,+RNG.+RNL.+RNF.+RYY.+RYG.+RYL.+RYF,
[0097] 步驟六:根據各主題帖的情感信息值F1,計算對應網絡事件在此情感傾向上的綜 合度量值,
[0098]
[0099] 步驟七:根據步驟六得到的的情感綜合度量值GF,將之與設定的情感閾值Θ比 較,GF大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
【主權項】
1. 一種網絡事件的綜合情感度量方法,其特征在于:它包括W下步驟: 步驟一:針對要分析的情感傾向,人工給定一個情感詞典,詞典中對應此情感傾向的情 感詞數量和表情符號的總數量需多于400個;人工給定一個否定詞詞典;根據要分析的不 同的情感傾向,人工給定一個闊值Θ (Θ >0) 步驟二:人為指定欲分析的網絡事件在網絡社區中相關的所有主題帖,記主題帖的 數目為G,則各主題帖可記為:Τι(1《i《G).獲取所有主題帖的帖子的完整文字內容 。(1《i《G)、帖子的發布時間Hi (1《i《G);獲取各個對應的要分析的主題帖的所有回 復評論的完整文字內容RCii(0《j《L(i))、所有回復評論的時間RHii(0《j《L(i)),其 中L(i)為第i個主題帖對應的回復評論總數。 步驟Ξ :根據步驟二得到的對每個主題帖的信息的完整記錄,將各信息進行標準化,得 到標準化后的結果NT,其中包括W下10個度量量: η,d,nil,m2, m;3, nv Qi,屯,屯,Q4 其中各標準化量的計算方法為: η = 0. 667sin(0. 2618*t)+0. 333, t為此主題帖的發布時間,24小時制 d = 0. 6304* (-1) S (Pn) 1,P為此主題帖的文字中包含的情感詞總數,S為對應的否定詞 數 mi= Μ id 1,Ml為評論時間在5點起至11點止的帖子總數目 π?2= Μ 2d 1,M2為評論時間在11點起至14點止的帖子總數目 η?3= Μ 3d 1,Ms為評論時間在14點起至20點止的帖子總數目 π?4= Μ 4d 1,M4為評論時間在0點起至5點止和20點起至24點止的帖子總數目Qi為評論時間在5點至11點止的帖子中包含的情感詞總數,S 1為對應的否定詞數〇2為評論時間在11點至14點止的帖子中包含的情感詞總數,S 2為對應的否定詞數為評論時間在14點起至20點止的帖子中包含的情感詞總數,S 3為對應的否定詞數〇4為評論時間在0點至5點止和20點至24點的帖子中包含的情感詞總數,S巧對應 的否定詞數 其中抑郁情感詞總數為發布或回復評論的帖子中,出現抑郁情感詞列表中的詞的頻 次。 由此,而第i個主題帖所有的特征結果NT (i)為: NT(i) = (n;,山,niii,1%,1%,1%,Qii,化;,Q3i,Q4i) 步驟四:對各個主題帖的相關信息,根據標準化后的信息NT,計算對應的特征系數,可 表示為ZT,包括W下8個系數: PNF,RNY,RNG,腳L,RNF,RYY,RYG,R化,RYF 各系數算的具體方法為: RNY,RNG,RNL,RNF的計算方法為:其中叫,m2, m3,1?為步驟Ξ所得到的結果 RYY,RYG,RYL RYF的計算方式為: RYY = 0. 6366*arctan (qj) RYG = 0. 6366*a;rctan (屯) RYL = 0. 6366*a;rctan (屯) RYF = 0. 6366*a;rctan (Q4) 其中Ql,Q2, Q4為步驟Ξ所得到的結果 由此,而第i個主題帖對應的特征系數結果ΖΤ (i)為 ΖΤα) = (RNYi,RNGi,RNLi,RNFi,RYYi,RYGi,RYLi,RYFi) 步驟五:根據每個主題帖的特征結果ZT,計算各對應主題帖的情感信息值Fi Fi= RNY i+RNGi+R化i+RNFi+R化+RYG1+R化 1+R化 步驟六:根據各主題帖的情感信息值Fi,計算對應網絡事件在此情感傾向上的綜合度 量值:步驟屯:根據步驟六得到的的情感綜合度量值GF,將之與設定的情感闊值Θ比較,GF 大于Θ時,判定此事件在此情感維度上有明顯的情感傾向。
【文檔編號】G06F17/27GK105843792SQ201510695073
【公開日】2016年8月10日
【申請日】2015年10月26日
【發明人】于霄
【申請人】北京宏博知微科技有限公司, 于霄