一種日志處理方法及裝置的制造方法
【專利摘要】本發明公開了一種日志處理方法及裝置,對不同的實時性處理需求,采用不同的方式處理相應的日志信息,實現對日志信息的實時快速處理與非實時高效處理的目的。所述日志處理方法包括:將節目播放日志實時記錄到Kafka中;根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,所述預設的時間周期小于所述Kafka中日志刪除的時間周期。該方法能夠根據實際處理需求,讀取相應的日志信息,實現對日志信息的實時與非實時的高效處理。
【專利說明】
一種日志處理方法及裝置
技術領域
[0001 ]本發明涉及多媒體技術領域,尤其涉及一種日志處理方法及裝置。
【背景技術】
[0002]隨著計算機網絡的發展,數字電視或網絡電視等得到了普遍應用。對于電視或視頻運營商而言,統計分析諸多用戶對各種節目的喜好程度或播放習慣如某個節目的觀看頻率、播放時長、播放時間等是非常重要的,因此,電視或視頻運營商都需要對節目播放日志進行記錄及統計。
[0003]目前,對節目播放日志進行處理的方法主要有采用消息隊列記錄日志并實時統計以及大數據存儲日志并事后離線統計兩種方法。采用消息隊列處理日志的方法對日志的處理速度快,得到的統計結果實時性好,但是由于消息隊列不能長時間存儲數據,因此無法進行長時段的統計,如周、月、季度統計等。采用大數據如Hadoop文件存儲系統(HadoopDistributed File System,HDFS)對日志進行存儲后離線統計的方法,具有日志存儲量大,能夠進行長時段內日志統計的優點,但是由于需要進行日志數據的大量存儲及統計,存在處理速度比消息隊列處理方法慢,實時性不夠好的問題。
【發明內容】
[0004]本發明提供一種日志處理方法及裝置,通過根據實時性處理要求,獲取相關日志信息,采用Storm處理Kafka中記錄的實時統計相關的日志信息,并采用Hadoop分布式文件系統存儲離線統計相關的日志信息后再對其離線處理,兼具實時性日志信息快速處理及非實時性日志信息大數據存儲后離線處理的優點。
[0005]本發明提供一種日志處理方法,包括:
[0006]將節目播放日志實時記錄到Kafka中;
[0007]根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,所述預設的時間周期小于所述Kafka中日志刪除的時間周期。
[0008]本發明實施例的一些有益效果可以包括:
[0009]所述日志處理方法根據實時處理需求將相關的日志信息實時統計分析,并按照預定時間周期,根據離線處理需求從Kafka獲取相關日志信息存入Hadoop分布式文件系統中以便于以后離線分析處理,兼具需要實時處理的日志信息快速處理及需要離線處理的日志信息大數據存儲后離線處理的優點。
[0010]在一個實施例中,所述根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理,包括:
[0011]根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息;
[0012]使用Storm對讀取到的信息進行分析統計。
[0013]在該實施例中,日志數據的存儲采用Kafka,在需要實時統計時,根據實時統計指令從Kaf ka中獲得相關數據,統計算法采用storm統計,數據的處理速度快。
[0014]在一個實施例中,所述按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理,包括:
[0015]按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息;
[0016]將本次讀取到的信息寫入Hadoop分布式文件系統中;
[0017]根據用戶輸入的離線統計指令,在Hadoop平臺上對所述Hadoop分布式文件系統中存儲的信息進行離線分析統計。
[0018]在該實施例中,根據預設的時間周期,周期性地將Kafka中需要離線處理的信息寫入Hadoop分布式文件系統中,然后根據離線統計指令,在Hadoop平臺上對這些信息進行離線分析,由于Hadoop平臺能夠大數據處理,該方法減少了單一采用Kafka存儲及處理日志的數據量,而且能夠對不需要實時處理的大量數據進行離線高速運算和存儲。
[0019]在一個實施例中,所述在Hadoop平臺上對所述Hadoop分布式文件系統中存儲的信息進行離線分析統計,包括:
[0020]在Hadoop平臺上采用數據挖掘中的分類、回歸分析、聚類算法中的任一種算法對所述Hadoop分布式文件系統中存儲的信息進行離線分析統計。
[0021]在一個實施例中,所述將本次讀取到的信息寫入Hadoop分布式文件系統中,包括:
[0022]使用Storm對本次讀取到的信息進行處理;
[0023]將使用Storm處理后的信息寫入Hadoop分布式文件系統中。
[0024]在一個實施例中,所述將使用Storm處理后的信息寫入Hadoop分布式文件系統中,包括:
[0025]通過Storm中的邏輯處理組件bolt直接將使用Storm處理后的信息寫入Hadoop分布式文件系統中。
[0026]在一個實施例中,所述按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息之前,還包括:
[0027]將Kafka的每個主題topic的分區partat1n抽象為Hadoop MapReduce中的一個文件分片split;
[0028]基于所述文件分片split編寫用于將信息從Kafka輸出到Hadoop分布式文件系統的MapReduce程序;所述MapReduce程序中預先設置有所述時間周期;
[0029]所述將本次讀取到的信息寫入Hadoop分布式文件系統中,包括:根據所述MapReduce程序,將本次讀取到的信息寫入Hadoop分布式文件系統中。
[0030]該實施例中,預先將Kafka的每個主題topic的分區partat1n抽象為HadoopMapReduce中的一個split,編寫將信息從Kafka輸出到Hadoop分布式文件系統的MapReduce程序,則在將Kafka中需要離線處理的信息寫入Hadoop分布式文件系統中時可直接根據該MapReduce程序進行數據的轉移存儲,存儲簡單快捷。
[0031]本發明提供一種日志處理裝置,包括:
[0032]記錄模塊,用于將節目播放日志實時記錄到Kafka中;
[0033]處理模塊,用于根據實時統計指令從所述記錄模塊的Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,所述預設的時間周期小于所述Kafka中日志刪除的時間周期。
[0034]本發明實施例提供的日志處理裝置能夠根據實時處理需求將相關的日志信息實時統計分析,并按照預定時間周期,根據離線處理需求從Kafka獲取相關日志信息存入Hadoop分布式文件系統中以便于以后離線分析處理,兼具需要實時處理的日志信息快速處理及需要離線處理的日志信息大數據存儲后離線處理的優點。
[0035]在一個實施例中,所述處理模塊包括:
[0036]實時處理模塊,用于根據實時統計指令從所述記錄模塊的Kafka中記錄的日志中讀取所述實時統計指令所指信息,并使用Storm對讀取到的信息進行分析統計;
[0037]非實時處理模塊,用于按照預設的時間周期,從所述記錄模塊的Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中,并根據用戶輸入的離線統計指令,在Hadoop平臺上對Hadoop分布式文件系統中存儲的信息進行離線分析統計。
[0038]在一個實施例中,所述非實時處理模塊包括:
[0039]讀取模塊,用于按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息,并將本次讀取到的信息發送給第一處理模塊;
[0040]第一處理模塊,用于使用Storm對所述讀取模塊發來的信息進行處理,并將使用Storm處理后的信息發送給第二處理模塊;
[0041]第二處理模塊,用于通過Storm中的邏輯處理組件bolt直接將所述第一處理模塊發來的使用Storm處理后的信息寫入Hadoop分布式文件系統中。
[0042]本發明的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
[0043]下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
【附圖說明】
[0044]附圖用來提供對本發明的進一步理解,并且構成說明書的一部分,與本發明的實施例一起用于解釋本發明,并不構成對本發明的限制。在附圖中:
[0045]圖1為本發明實施例提供的一種日志處理方法流程圖;
[0046]圖2為步驟S2中讀取實時統計指令所指信息并對讀取的信息實時處理的方法流程圖;
[0047]圖3為步驟S2中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理的方法流程圖;
[0048]圖4為圖3中步驟S302的一種實施方法流程圖;
[0049]圖5為本發明實施例一中一種日志處理方法的流程圖;
[0050]圖6為本發明實施例提供的一種日志處理裝置結構框圖;
[0051 ]圖7為本發明實施例提供的另一種日志處理裝置的結構框圖;
[0052]圖8為圖7中非實時處理模塊的結構框圖。
【具體實施方式】
[0053]以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用于說明和解釋本發明,并不用于限定本發明。
[0054]圖1為本發明實施例提供的一種日志處理方法流程圖,如圖1中所示,該方法包括以下步驟S1-S2:
[°°55] 步驟S1:將節目播放日志實時記錄到Kafka中;其中,Kafka是由Linkedin開發的一個分布式的發布訂閱系統,是一種成熟的技術,此處不再贅述。
[0056]步驟S2:根據實時統計指令從Kafka中記錄的日志中讀取實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,周期性地從Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,預設的時間周期小于Kafka中日志刪除的時間周期。
[0057]其中,根據實時/離線統計的需求,需要讀取的信息有所不同,例如:對于直播回看資源,與實時統計相關的信息有:某個頻道,看了多少次,有多少用戶再看,觀看時長是多少;與離線(非實時)統計相關的信息有:按日、周、月及季度等對日志進行統計,對視頻的清晰度、流暢度、視頻大小等進行統計的相關數據。對于點播資源,與實時統計相關的信息有:某個節目,看了多少次,有多少用戶看過,觀看時長是多少;離與離線(非實時)統計相關的信息有:按日、周、月及季度等對日志進行統計,對視頻的清晰度、流暢度、視頻大小等進行統計的相關數據。由于具體的統計方法不是本發明的重點,此處不再對其進行贅述,根據實時統計指令讀取的信息根據具體的統計要求來選擇,離線統計類似。
[0058]本發明實施例提供的日志處理方法根據實時處理需求將相關的日志信息實時統計分析,并按照預定時間周期,根據離線處理需求從Kafka獲取相關日志信息存入Hadoop分布式文件系統中以便于以后離線分析處理,兼具需要實時處理的日志信息快速處理及需要離線處理的日志信息大數據存儲后離線處理的優點。相對于現有的單一隊列存儲并處理日志的方法而言,數據處理量大,離線處理性好;相對于現有的單一大數據處理日志的方法而言,實時數據處理速度更快。
[0059]在一個實施例中,如圖2所示,步驟S2中根據實時統計指令從Kafka中記錄的日志中讀取實時統計指令所指信息并對讀取的信息實時處理,包括以下步驟S201-S202:
[0000]步驟S201:根據實時統計指令從Kafka中記錄的日志中讀取實時統計指令所指信息;
[0061 ]步驟S202:使用分布式實時計算系統Storm對讀取到的信息進行分析統計。
[0062]在該實施例中,日志數據的存儲采用Kafka,由于需要統計的日志數據間的關聯系較大,需要進行數據的多級交互處理,因此采用非常有效的實時計算工具Storm統計,在保證高可靠性的前提下還可以讓從日志中讀取的信息的處理進行的更加實時。
[0063]在一個實施例中,如圖3所示,步驟S2中按照預設的時間周期,周期性地從Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理,包括步驟S301-S303:
[0064]步驟S301:按照預設的時間周期,周期性地從所述Kafka中記錄的日志中讀取離線統計相關信息。
[0065]步驟S302:將本次讀取到的信息寫入Hadoop分布式文件系統中。
[0066]其中,將從Kafka中讀取到的信息寫入HDFS中的方法可以為兩種:(I)將從Kafka中讀取到的信息經Storm做簡單處理后再寫入到HDFS中;(2)直接將從Kafka中讀取到的信息寫入HDFS中。
[0067]步驟S303:根據用戶輸入的離線統計指令,在Hadoop平臺上對Hadoop分布式文件系統中存儲的信息進行離線分析統計。
[0068]優選地,步驟S303可以在Hadoop平臺上采用數據挖掘中的分類、回歸分析、聚類算法中的任一種算法對HDFS中存儲的信息進行離線分析統計。
[0069]在該實施例中,根據預設的時間周期,即每隔固定的時間間隔(每個時間周期的時長),周期性地將Kafka中需要離線處理的信息寫入Hadoop分布式文件系統中,然后根據離線統計指令,在Hadoop平臺上對這些信息進行離線分析,由于Hadoop平臺能夠大數據處理,該方法減少了單一采用Kafka存儲及處理日志的數據量,而且能夠對不需要實時處理的大量數據進行離線高速運算和存儲。
[0070]若采用上述第(I)中方法將將從Kafka中讀取到的信息寫入HDFS中,則如圖4所示,步驟S302包括以下步驟S401-S402:
[0071]步驟S401:使用Storm對本次讀取到的信息進行處理;
[0072]步驟S402:將使用Storm處理后的信息寫入HDFS中。
[0073]優選地,可以使用Storm中的邏輯處理組件bolt直接將使用Storm處理后的信息寫入HDFS中。
[0074]若采用上述第(2)中方法將從Kafka中讀取到的信息寫入HDFS中,則在步驟S301之前,還包括步驟:
[0075]將Kafka的每個主題topic的分區partat1n抽象為Hadoop MapReduce中的一個文件分片split;然后再基于所述split編寫用于將信息從Kafka輸出到HDFS的MapReduce程序;其中,MapReduce是一種現有的編程模型,用于大規模數據集的并行運算,這里編寫的將信息從Kaf ka輸出到HDFS的MapReduce程序中預先設置有上述時間周期。
[0076]則步驟S302中,可根據預先編寫好的用于將信息從Kafka輸出到HDFS的MapReduce程序,將步驟S30 I中從Kaf ka中讀取到的信息寫入HDFS中,讀寫的時間周期即為該MapReduce程序中預先設置的時間周期。
[0077]該實施例中,預先將Kafka的每個topic的partat1n抽象為Hadoop MapReduce中的一個文件分片spl it,編寫將信息從Kafka輸出到HDFS的MapReduce程序,則在將Kafka中需要離線處理的信息寫入HDFS中時可直接根據該程序進行數據的轉移存儲,存儲簡單快捷。
[0078]下面通過具體實施例來說明本發明實施例提供的日志處理方法。
[0079]實施例一
[0080]圖5為本發明實施例一中一種日志處理方法的流程圖。如圖5所示,該方法包括以下步驟 S501-S507:
[0081 ] 步驟S501:將節目播放日志實時記錄到Kafka中;
[0082]其中,此步驟是一直在不斷執行,不受其他步驟的干擾。
[0083]步驟S502:判斷是否到達預設的時間周期(S卩:判斷和上次存儲離線統計相關信息的時間間隔是否達到預設的時間周期長)和/或收到實時統計指令?若收到實時統計指令,則執行步驟S503;若到達預設的時間周期,則執行步驟S505;否則(即既未到達預設的時間周期又未收到實時統計指令),返回步驟S502。
[0084]步驟S503:從Kafka中記錄的日志中讀取收到的實時統計指令所指信息,繼續執行步驟S504。
[0085]步驟S504:使用Storm對讀取到的信息進行分析統計,并返回S502。
[0086]步驟S505:從Kafka中記錄的日志中讀取離線統計相關信息。
[0087]步驟S506:將本次讀取到的信息寫入HDFS中;
[0088]其中,可以采用上述實施例中提供的兩種方法將本次從Kafka中讀取到的信息寫入HDFS中。
[0089]步驟S507:根據用戶輸入的離線統計指令,在Hadoop平臺上對HDFS中存儲的信息進行離線分析統計;
[0090]其中,可以采用前面所述的數據挖掘中的分類、回歸分析、聚類算法中的任一種算法對HDFS中存儲的信息進行離線分析統計。
[0091 ]本實施例一提供的日志處理方法能夠對需要實時處理的日志信息進行實時快速處理,并將需要離線處理的海量日志信息轉存到HDFS中進行離線分析處理,數據吞吐量大,離線分析方便。
[0092]對應于上述實施例提供的一種用日志處理方法,本發明實施例還提供一種日志處理裝置,如圖6所示,該裝置包括:
[0093]記錄模塊61,用于將節目播放日志實時記錄到Kafka中;
[0094]處理模塊62,用于根據實時統計指令從記錄模塊61的Kafka中記錄的日志中讀取實時統計指令所指信息并對讀取的信息實時處理,并按照預設的時間周期,周期性地從Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,預設的時間周期小于Kafka中日志刪除的時間周期。
[0095]圖6所示的裝置可以用于執行圖1所示方法實施例的技術方案,其實現原理和技術效果類似,此處不再贅述。
[0096]在一個實施例中,如圖7所示,處理模塊62包括:
[0097]實時處理模塊621,用于根據實時統計指令從記錄模塊61的Kafka中記錄的日志中讀取實時統計指令所指信息,并使用Storm對讀取到的信息進行分析統計;
[0098]非實時處理模塊622,用于按照預設的時間周期,周期性地從記錄模塊61的Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中,并根據用戶輸入的離線統計指令,在Hadoop平臺上對Hadoop分布式文件系統中存儲的信息進行離線分析統計。
[00"]在一個實施例中,如圖8所不,非實時處理模塊622包括:
[0100]讀取模塊81,用于按照預設的時間周期,周期性地從記錄模塊61的Kafka中記錄的日志中讀取離線統計相關信息,并將本次讀取到的信息發送給第一處理模塊82;
[0101]第一處理模塊82,用于使用Storm對讀取模塊81發來的信息進行處理,并將使用Storm處理后的信息發送給第二處理模塊83;
[0102]第二處理模塊83,用于通過Storm中的邏輯處理組件bolt直接將第一處理模塊82發來的使用Storm處理后的信息寫入Hadoop分布式文件系統中。
[0103]本發明實施例提供的日志處理裝置能夠將節目播放日志記錄到Kafka中,并根據實時處理需求,獲取與實時統計相關的信息直接處理,或將Kafka中與離線統計相關的信息周期性地轉存到HDFS中,隨后離線處理,兼具實時性日志信息快速處理及非實時性日志信息大數據存儲的優點。
[0104]本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計算機程序產品。因此,本發明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形式。
[0105]本發明是參照根據本發明實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0106]這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0107]這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0108]顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明的這些修改和變型屬于本發明權利要求及其等同技術的范圍之內,則本發明也意圖包含這些改動和變型在內。
【主權項】
1.一種日志處理方法,其特征在于,包括: 將節目播放日志實時記錄到Kaf ka中; 根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,所述預設的時間周期小于所述Kafka中日志刪除的時間周期。2.如權利要求1所述的一種日志處理方法,其特征在于,所述根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理,包括: 根據實時統計指令從所述Kafka中記錄的日志中讀取所述實時統計指令所指信息; 使用Storm對讀取到的信息進行分析統計。3.如權利要求1所述的一種日志處理方法,其特征在于,所述按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理,包括: 按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息; 將本次讀取到的信息寫入Hadoop分布式文件系統中; 根據用戶輸入的離線統計指令,在Hadoop平臺上對所述Hadoop分布式文件系統中存儲的信息進行離線分析統計。4.如權利要求3所述的一種日志處理方法,其特征在于,所述在Hadoop平臺上對所述Hadoop分布式文件系統中存儲的信息進行尚線分析統計,包括: 在Hadoop平臺上采用數據挖掘中的分類、回歸分析、聚類算法中的任一種算法對所述Hadoop分布式文件系統中存儲的信息進行離線分析統計。5.如權利要求3所述的一種日志處理方法,其特征在于,所述將本次讀取到的信息寫入Hadoop分布式文件系統中,包括: 使用Storm對本次讀取到的信息進行處理; 將使用Storm處理后的信息寫入Hadoop分布式文件系統中。6.如權利要求5所述的一種日志處理方法,其特征在于,所述將使用Storm處理后的信息寫入Hadoop分布式文件系統中,包括: 通過Storm中的邏輯處理組件bolt直接將使用Storm處理后的信息寫入Hadoop分布式文件系統中。7.如權利要求3所述的一種日志處理方法,其特征在于,所述按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息之前,還包括: 將Kafka的每個主題topic的分區partat1n抽象為Hadoop MapReduce中的一個文件分片split; 基于所述文件分片sp I it編寫用于將信息從Kafka輸出到Hadoop分布式文件系統的MapReduce程序;所述MapReduce程序中預先設置有所述時間周期; 所述將本次讀取到的信息寫入Hadoop分布式文件系統中,包括:根據所述MapReduce程序,將本次讀取到的信息寫入Hadoop分布式文件系統中。8.—種日志處理裝置,其特征在于,包括: 記錄模塊,用于將節目播放日志實時記錄到Kaf ka中; 處理模塊,用于根據實時統計指令從所述記錄模塊的Kafka中記錄的日志中讀取所述實時統計指令所指信息并對讀取的信息實時處理;并按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中進行離線處理;其中,所述預設的時間周期小于所述Kafka中日志刪除的時間周期。9.如權利要求8所述的一種日志處理裝置,其特征在于,所述處理模塊包括: 實時處理模塊,用于根據實時統計指令從所述記錄模塊的Kafka中記錄的日志中讀取所述實時統計指令所指信息,并使用Storm對讀取到的信息進行分析統計; 非實時處理模塊,用于按照預設的時間周期,從所述記錄模塊的Kafka中記錄的日志中讀取離線統計相關信息并將其寫入Hadoop分布式文件系統中,并根據用戶輸入的離線統計指令,在Hadoop平臺上對Hadoop分布式文件系統中存儲的信息進行離線分析統計。10.如權利要求9所述的一種日志處理裝置,其特征在于,所述非實時處理模塊包括: 讀取模塊,用于按照預設的時間周期,從所述Kafka中記錄的日志中讀取離線統計相關信息,并將本次讀取到的信息發送給第一處理模塊; 第一處理模塊,用于使用Storm對所述讀取模塊發來的信息進行處理,并將使用Storm處理后的信息發送給第二處理模塊; 第二處理模塊,用于通過Storm中的邏輯處理組件bolt直接將所述第一處理模塊發來的使用Storm處理后的信息寫入Hadoop分布式文件系統中。
【文檔編號】H04N21/235GK105933736SQ201610244023
【公開日】2016年9月7日
【申請日】2016年4月18日
【發明人】周鳴愛
【申請人】天脈聚源(北京)傳媒科技有限公司