通信網絡告警系統的告警消息傳輸和處理方法
【技術領域】
[0001] 本發明涉及網絡通信技術,尤其涉及一種通信網絡告警系統的告警消息傳輸和處 理方法。
【背景技術】
[0002] 通信網絡告警系統是通信運營商在運營支撐管理中必不可少的工具。告警的實時 采集、響應的及時性以及高可靠性是對告警系統的基本要求。如圖1所示,告警系統一般為 采集、處理、功能展現的分層模式,即告警系統包括多個系統終端,多個告警處理單元(圖 中示例性的示出一個)和多個告警采集單元。告警采集單元采集所負責的被管網元的告警 消息并上報給告警處理單元,告警處理單元將待處理的告警消息放入到告警消息隊列中并 且對告警消息隊列中的告警消息進行告警分析處理。告警系統還可以包括數據庫,用于存 儲告警消息。
[0003] 告警處理單元往往管理成百上千個網元經告警采集單元上報的告警消息。一個告 警處理單元可以接收和處理來自多個告警采集單元上報的告警消息。一個告警采集單元管 理多個網元,各個網元直接或者若干網元組成一組通過網元代理的方式,將網元產生的告 警消息發送給該一個告警采集單元,由告警采集單元將告警消息上報給告警采集處理單元 進行處理。顯然,一個告警處理單元可能處理來自多個告警采集單元的告警消息。
[0004] 一般來說,告警處理單元的告警接收和處理能力能夠應對正常情況的告警消息, 但是在一些特殊情況下會產生告警風暴,導致網元的告警發送與告警處理單元的告警接收 和處理會嚴重不對稱。例如,網元由于某些原因出現大面積的故障,導致網元的告警數量急 劇增加,告警采集單元發送的告警消息也隨之大量增加。這就很容易導致網路的堵塞、告警 的丟失,以及告警處理單元的告警消息隊列中積累的告警消息量過大,從而影響了告警處 理的及時性,尤其是對程度嚴重的重要告警處理的及時性;再比如,告警處理單元部分設備 出現故障,告警消息接收和處理的任務轉移到尚能正常運行的高興處理單元設備上,導致 某些告警處理單元處理任務大大增加,眾多的告警消息擁堵在網路上,或者已接收待處理 的告警消息積累和排列過多,也會導致重要告警處理的及時性得不到保證。
[0005] 為了解決上述問題,現有技術中公開了一種告警消息傳輸方法,其中,網絡側的服 務器根據告警消息的數量超過預定數量值時,根據已接收的所有告警消息的優先級確定一 個優先級閾值并將該優先級閾值發送給具有告警消息采集能力的網元設備,網元設備停止 向服務器發送低于優先級閾值的告警消息。其中,優先級閾值的確定是一個指定的數值或 者是服務器尚未處理的所有告警消息的優先級的平均值。雖然該方法中每個網元設備可以 保證在服務器中的告警消息較多時本網元設備中優先級高于優先級閾值的告警消息被發 送,但是由于優先級閾值的確定是直接指定一個數值或者是服務器尚未處理的告警消息的 優先級的平均值,并沒有考慮服務器的當前告警消息處理能力;而且,該現有技術也沒有注 意到這些尚未處理的告警消息中可能存在可以不考慮處理的輔告警消息。因此,該現有技 術的優先級閾值并不能夠正確反映故障發生時網絡的狀況,并且與發生故障時當前告警消 息處理能力無關,網元設備根據該優先級閾值來確定不發送的告警消息的方式仍然解決不 了在一些特殊情況下產生告警風暴時,導致網路堵塞、告警丟失的問題,從而仍會導致重要 告警處理的及時性得不到保證。
[0006] 同樣,為了解決在一些特殊情況下產生告警風暴,導致網元的告警發送與告警處 理單元的告警接收和處理會嚴重不對稱的問題,現有技術中還公開了一種網元管理系統和 網絡管理系統之間過濾告警的方法,其中,網絡管理系統向網元管理系統設置告警相關性 規則,該告警相關性規則將最能夠說明故障根源的告警的特征設為主告警特征,其他的與 所述故障相關的告警的特征設為輔告警特征;網元管理系統根據告警相關性規則確定故障 時產生的告警為主告警還是輔告警;如果是輔告警,并且輔告警符合告警相關性規則的過 濾條件,則不發送該輔告警。該現有技術通過告警相關性規則的應用,阻止了部分輔告警的 發送,一定程度降低了故障發生時的告警風暴帶來的問題。但是,該現有技術由于是沒有考 慮網絡管理系統的故障處理能力而不發送所有符合告警相關性規則的過濾條件的告警消 息,盡管有助于緩解產生告警風暴的可能,但是對于存在大量輔告警消息的情形,則會嚴重 破壞告警消息的完整性,可能導致無法分析故障;對于存在少量輔告警消息的情形,少量輔 告警消息的不發送的方式并不能夠真正緩解報警風暴的問題。
[0007] 因此,存在對能夠在告警處理單元對告警消息的接收和處理告警能力暫時相對的 嚴重不足時,根據告警處理單元的故障處理能力來保證優先級別高的告警消息的發送和傳 輸處理的告警消息傳輸和處理技術的需要。
【發明內容】
[0008] 本發明的實施例提供了一種通信網絡告警系統的告警消息傳輸和處理方法,用以 緩解網路堵塞、告警丟失的問題,并更為及時地處理優先級較高的告警消息。
[0009] 根據本發明的一個方面,提供了一種通信網絡告警系統的告警消息傳輸和處理方 法,所述通信網絡告警系統包括用于告警分析的告警處理單元,網元設備和采集所管理的 所述網元設備產生的告警消息的告警采集單元,所述方法包括:
[0010] 當所述告警處理單元按照預定時間周期確定其告警消息處理能力下降時,所述告 警處理單元啟動預先配置的過濾規則過濾告警消息隊列中的輔告警消息,并且計算告警消 息隊列中的過濾后的所有告警消息的平均優先級,向所述告警采集單元發送攜帶有告警消 息處理能力下降值VPM和所述平均優先級Pm的告警消息處理能力下降的通知消息;
[0011] 所述告警采集單元從接收的通知消息中解析出告警消息處理能力下降值和所 述平均優先級pm,并根據從所管理的網元設備采集的告警消息中最高優先級的告警消息的 占比來確定該告警采集單元的名義優先級調整因子0,按照如下公式確定本告警采集單元 的名義優先級pn:
[0012] Pn=Pm(l+f3XVpro) (公式 1)
[0013] 其中,e大于等于0小于等于1 ;
[0014] 告警采集單元利用預先配置的屏蔽規則過濾掉本告警采集單元的已采集的告警 消息中的匹配屏蔽規則的告警消息,同時,停止向告警處理單元發送優先級低于本告警采 集單元的名義優先級過濾后的告警消息。
[0015] 其中,所述告警處理單元根據如下規則確定告警消息處理能力下降值vPM:
[0016] 當所述告警處理單元確定告警消息處理能力下降是由于告警處理單元的故障導 致時:
「00171 卑所沭告*々卜理里元確宙告警消息處理能力下降是由于網元故障導致時,
[0018] 當所述告警處理單元確定告警消息處理能力下降是由于告警處理單元網絡側故 障和網元告警消息增加導致下降時,Vpr〇C:n (公式4);
[0019] 式中,AlarmMinal為所述告警處理單元預定時間周期內可以處理的額定告警消息 數量,所述告警消息隊列中的告警消息數量為Length,Alarm表示告警處理單元在預定時 間周期內當前可以處理的告警消息數量,Alarm,Length和AlarmMinal均為整數。
[0020] 其中,所述根據從所管理的網元設備采集的告警消息中最高優先級的告警消息的 占比來確定該告警采集單元的名義優先級調整因子0包括:
[0021] 統計該告警采集單元所采集的所有告警消息的數量以及最高優先級的告警消息 的數量;
[0022] 計算所述告警采集單元中的最高優先級的告警消息的數量相對于該告警采集單 元中的所有告警消息的數量的比值;
[0023] 如果所述比值低于第一調整因子閾值,則確定名義優先級調整因子為: 0. 2<0 ^ 1 ;
[0024] 如果所述比值不低于第一調整因子閾值,則確定名義優先級調整因子為: 0 ^ ^ 0. 2〇
[0025] 優選地,第一調整因子閾值從20%至30%中選取。
[0026] 本發明的告警消息傳輸和處理方法還包括步驟:當所述告警處理單元按照預定時 間周期根據告警消息長隊列長度確定其告警消息處理能力下降時,所述告警處理單元對告 警消息隊列中過濾后的告警消息進行告警消息相關性分析,將所述告警消息隊列中具有相 關性的告警消息作為一組處理。
[0027] 優選地,所述告警處理單元對告警消息隊列中過濾后的告警消息進行告警消息相 關性分析,將所述告警消息隊列中