本發明涉及大數據領域,特別是一種物聯網分析方法。
背景技術:
:隨著物聯網技術的不斷發展,基于物聯網的視頻、卡口、門禁、停車場、Wifi、IC卡等物聯網的信息資源智能化采集成為了可能,利用多網絡、多終端的智能數據感知采集模式收集海量的時空信息資源。針對上述物聯網技術發展,如何利用大數據實現公安工作效能提升,是目前大數據應用的熱點、也是研究的熱點問題。因此需要提供一種能夠完成對該時空信息數據進行分析處理的系統。技術實現要素:本發明的目的在于克服現有技術的缺點與不足,提供了一種物聯網分析方法。本發明通過以下的方案實現:一種物聯網分析方法,包括以下步驟:S1:接收物聯網設備終端的時空數據;S2:將接收的數據轉換為統一格式的數據;S3:對數據進行分布式存儲;S4:對數據進行過濾;S5:對數據進行關聯規則進行數據挖掘,獲得時空關聯數據;S6:存儲經過數據挖掘的時空關聯數據和物聯網設備終端的時空數據。進一步,所述步驟S2中,具體為:將物聯網設備終端的數據轉換為xml文件。進一步,所述步驟S4中包括以下步驟:S41:將重復的冗余數據進行過濾;S42:根據業務需要對數據進行過濾;S43:根據設定的時間范圍進行數據過濾。進一步,所述步驟S5包括以下步驟:S51:處理數據挖掘所采用的訓練數據的信息;S52:對數據挖掘模型的算法進行訓練;S53:驗證模型輸出結果;S54:對測試成功的模型進行運行;S55:對模型輸出結果進行輸出展示。進一步,所述步驟S51中包括以下步驟:S511:確定訓練數據所包含的屬性信息;S512:訓練數據的各個維度統一離散到[0,1]的取值范圍;S513:確定進行模型結果驗證的參數。進一步,所述步驟S54中包括以下步驟:S541:設置任務名稱、執行方式、開始執行時間和資源占用,并保存在任務列表中;S542:根據任務列表,按時運行模型任務;S543:在模型運行中進行監控,包括監控當前任務中的信息、當前任務運行狀態、反饋信息以及任務運行歷史記錄。進一步,所述執行方式包括:立即執行、定時執行和周期執行。進一步,所述S55中具體包括以下步驟:S551:將數據結果結合形成數據集,并存儲在數據資源池中;S552:將分析結果推送封裝為發布服務接口。進一步,所述步驟S6中,當對物聯網設備終端的時空數據進行存儲時,按照網點編號,存儲每個網點的空間數據和屬性數據;所述空間數據包括:網點位置和坐標;所述屬性數據包括:設備類型、采集信息類型、采集信息的頻率和采集信息的空間覆蓋范圍。進一步,所述步驟S6中,還根據空間和時間分析,確定每個物聯網網點的時空依賴關系,并進行儲存。相比于現有技術,本發明提供了一種分析方法,可以利用這些時空數據,從時間和空間兩個維度梳理、挖掘、分析其時空關聯關系。將海量、雜亂的時空數據,按照其內部的時空關系、時空關聯規則進行存儲,為公安的情報分析、犯罪挖掘、案件偵破提供線索、拓展情報分析手段、提高破案率、輔助警務策略的制定等,提供精準、科學、高效的大數據支持依據。為了更好地理解和實施,下面結合附圖詳細說明本發明。附圖說明圖1是本發明的時空關系分析方法的步驟流程圖。圖2是本發明的數據轉換的處理流程圖。圖3是步驟S4的具體步驟流程圖。圖4是步驟S5的具體步驟流程圖。圖5是步驟S51的具體步驟流程圖。圖6是步驟S54的具體步驟流程圖。圖7是步驟S55的具體步驟流程圖。圖8是主要設計的關系表及關系表屬性結構示意圖。圖9是對象時空關系管理關系表結構圖。圖10是對象分類關系管理關系表結構圖。具體實施方式以下結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實施方式不限于此。請參閱圖1,其為本發明的時空關系分析方法的步驟流程圖。一種物聯網分析方法,包括以下步驟:S1:接收物聯網設備終端的時空數據。具體的,以公安偵查中常用的物聯網設備終端為例,所接收的物聯網設備終端可以包括監控視頻、門禁系統、WiFi、IC卡和停車場監控視頻等。S2:將接收的數據轉換為統一格式的數據。由于智能采集網點物聯網終端采集設備的多樣性,必然存在數據異構的問題。本發明的數據轉換模塊旨在將不同終端設備采集到海量數據統一到一致的格式標準之下,便于系統的后續處理。而為了將不同數據統一為相同的格式標準,本實施例中采用的為xml格式文件。而目前在互聯網領域,已存在一個廣泛應用的數據交換接口標準XML(ExtensibleMarkupLanguange擴展標記語言)。XML文件的可讀性極強。具體的請同時參閱圖2,其為本發明的數據轉換的處理流程圖。在制定好XML文件的格式標準之后,根據不同的智能終端設備感知層協議,編寫相應的接口,就可以把相應智能終端設備的數據轉換為系統統一識別的XML文件。而在本實施例中,所采用的的系統xml文件格式規范如下表1所示:表1節點名稱說明device設備屬性name代表名稱,coordinate代表坐標times監控時間表time監控時刻INFOS獲取信息列表INFO獲取信息,屬性name為信息唯一標識S3:對數據進行分布式存儲。在本發明中,采用云計算中的Hadoop分布式框架進行分布式數據處理。由于Hadoop分布式文件系統HDFS是以支持大數據集合為目標的,故利用HDFS對物聯網產生的異構海量數據進行分布式存儲。S4:對數據進行過濾。在本發明中,根據具體需求,采用基于Spark編程模型的Hive分布式數據倉庫對智能終端采集的數據進行數據清洗過濾、刪除兀余信息。進一步請參閱圖3,其為步驟S4的具體步驟流程圖。所述步驟S4中包括以下步驟:S41:將重復的冗余數據進行過濾。對于待清洗數據,首先進行異常冗余數據的檢驗,這里主要對于數據是否完全重復且基于服務的數據長度是否一致進行判斷。S42:根據業務需要對數據進行過濾。這里應與具體支撐應用平臺密切相關,在數據挖掘模型的具體應用中,業務需求可能只包括某一限定范圍的信息。例如可以定義以下幾個規則:只選定某個型號的智能終端的數據,產品號及版本號等信息;限定具體時間,地點以及應用人及相關信息。對于可能存在異常的孤立數據進行業務判定。對于不匹配的數據進行過濾處理。S43:根據設定的時間范圍進行數據過濾。根據數據的時間記錄進行過濾,可以根據業務要求指定時間范圍。對不在該時間范圍的數據進行過濾。S5:對數據進行關聯規則進行數據挖掘,獲得時空關聯數據。時空數據挖掘的過程分三個階段:時空數據的準備階段、時空數據的挖掘階段和時空數據結果的解釋和評估階段。進一步同時參閱圖4,其為本發明的步驟S5的具體步驟流程圖。所述步驟S5包括以下步驟:S51:處理數據挖掘所采用的訓練數據的信息。這里主要應用在前期的數據準備階段。進一步請參閱圖5,其為本發明的步驟S51的具體步驟流程圖。進一步,所述步驟S51中包括以下步驟:S511:確定訓練數據所包含的屬性信息;S512:訓練數據的各個維度統一離散到[0,1]的取值范圍;S513:確定進行模型結果驗證的參數。一般訓練樣本分為訓練數據和驗證數據兩個部分,直接用驗證數據去驗證訓練出來的模型效果。S52:對數據挖掘模型的算法進行訓練。在本實施例中,所采用的訓練模型見下表2所示:表2以下針對上述表格中的5中算法模型進行具體的介紹,具體如下:第一、時空關聯關聯規則(AssociationRules)的概念首先由R.Agrawal等人于1993年提出的,是反映一個事物與其他事物之間的相互依賴性或相互關聯性。關聯規則數據挖掘(簡稱關聯規則挖掘)就是從大量的數據中挖掘出有價值的描述數據項之間相互聯系的有關知識。隨著收集和存儲的數據規模越來越大,特別是類似于Hadoop這樣的分布式數據處理系統的誕生,使得數據處理的規模呈指數及增長,人們對從這些數據中挖掘相應的關聯規則越來越感興趣,關聯規則挖掘也倍受數據挖掘領域專家的關注,得到了深入的研究和發展。時空關聯規則的理論是在關聯規則的基礎之上發展而來,特制那些既有空間約束又有時態約束的關聯規則。其主要意義在于研究空間對象隨時間變化的規律,以發現海量時空數據中處于一定時間間隔的空間位置的關聯規則。本發明中所采用的算法為:目前關聯規則挖掘算法中最為流行的是Apriori算法。其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集,其實現過程主要分為兩個步驟:1.依據支持度找出所有頻繁項集(頻度)2.依據置信度產生關聯規則(強度)Apriori算法的應用非常廣泛,但其所挖掘的關聯規則一般都假定為永遠有效。針對時空關聯規則挖掘,需要在算法中加入時間約束和空間約束。其基本思路是將含有時間約束和空間約束的數據源首先按照空間位置進行整理,生成信息一地址對,然后根據Apriori算法生成侯選集,由侯選項集生成頻繁項集,直到頻繁項集不能生成更長的侯選為止。再把時間因素加入進去,將時間區間用一個適宜的推廣因子進行推廣,得出相應的含有地址約束的項目與擴展時間區間的元素對,當(項目一地址)對落入相同的推廣時間區間內,則產生關聯規則,即含有時空約束的關聯規則。第二、時空同現時空同現模式挖掘是針對復雜時空數據提取同現模式的過程。時空同現模式是在同位模式的基礎上添加了時空符合興趣度形成的模式。空間同位模式是從地理空間中發現的那些頻繁的且緊密相鄰的空間特征的集合,同位規則試圖將關聯規則泛化為空間索引的點集合數據集。時空同現模式就是在時空維下,不同對象類型子集的實例在一些時間段中在空間上是相互鄰近的(或符合某種空間關系的)。同現模式是在同位模式的基礎上,提出時空復合興趣度的概念作為同現模式的判斷標準。時空復合興趣度是將空間興趣度和時間興趣度相結合本發明采用的算法為:依據時空同現模式挖掘的基本理論,要進行時空同現模式的挖掘,首先需要挖掘同一時間段內的同位模式。空間同位模式數據挖掘方法依然是基于Apriori算法思想。其基本思路為:1、遍歷計算空間內不同特征類型下,每兩個實例(分屬于不同的特征類型)之間的期望距離(初步將期望距離定義為歐氏距離)。以任意兩個實例間的期望距離為例,可分別計算出實例一的不確定點群到實例二中心點的期望距離,和實例二的不確定點群到實例一中心點的期望距離。2、這兩個實例間的期望距離便是這兩個期望距離中的最大值。若實例間的期望距離小于等于距離閾值,則把該實例對作為候選實例對。遍歷所有類型下的所有實例對,直至不再產生候選實例對。得到所有的候選實例對之后,便需要計算候選實例對中每種特征類型所對應的空間參與度。在得出模式的空間參與度之后,同空間參與度閾值做比較,若前者大于等于后者,那么該模式即為空間同位模式。在確定所有的空間同位模式后,再計算時空同現模式。先計算空間同位模式的時間參與度,若大于等于時間參與度閾值,則該模式為時空同現模式。第三、時空聚類時空聚類就是指基于空間和時間相似度把具有相似行為的時空對象劃分到同一組中,使組間差別盡量大,而組內差別盡量小。時空聚類分析能夠更好地發現和分析地理現象發展變化的規律與本質特征并預測其發展趨勢。時空聚類分析是一種非監督分類的方法,它依據判斷相似性準則將所有時空實體劃分成一系列時空簇。同一時空簇內,對象之間的差異要盡量小于不同時空簇的對象間的差異。我們采用時空密度聚類的算法來進行基于智能采集網點的時空聚類分析。時空密度聚類是空間密度聚類在時空域上的擴展,其采用密度作為實體間相似性的度量標準,將時空簇視為一系列被低密度區域(噪聲)分割的高密度連通區域。DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一個比較有代表性的基于密度的聚類算法。與劃分和層次聚類方法不同,它將簇定義為密度相連的點的最大集合,能夠把具有足夠高密度的區域劃分為簇,并可在噪聲的空間數據集中發現任意形狀的聚類。DBSCAN中的幾個定義:E鄰域:給定對象半徑為E內的區域稱為該對象的E鄰域;核心對象:如果給定對象E鄰域內的樣本點數大于等于MinPts,則稱該對象為核心對象;直接密度可達:對于樣本集合D,如果樣本點Q在P的E鄰域內,并且P為核心對象,那么對象Q從對象P直接密度可達;密度可達:對于樣本集合D,給定一串樣本點Pi,Pv...Pn,P=P1,假如對象Pi從Pi-l直接密度可達,那么對象Q從對象P密度可達;密度相連:存在樣本集合D中的一點0,如果對象0到對象P和對象Q都是密度可達的,那么P和Q密度相聯ST-DBSCAN聚類是DBSCAN聚類在時間維上的擴展。擴展的方面是:E鄰域擴展為時空鄰域;直接密度可達擴展為時空直接密度可達。除了時空鄰域定義的改變,顧及非空間屬性的ST-DBSCAN聚類還需要定義算法中的其他概念:時空對象、屬性差函數判定閾值e、時空直接密度可達、時空核心對象判定閾值MinPts等第四、時空分類時空分類主要是基于時空對象特征構建分類模型來預測時空對象所屬類別或所在具體空間位置。與時空聚類不同,時空分類是一種監督分類算法。是以建立統計識別函數為理論基礎,依據典型樣本訓練方法進行分類的技術。即根據已知訓練區提供的樣本,通過選擇特征參數,求出特征參數作為決策規則,建立判別函數以對各待分類數據進行分類。適用于監督分類的算法很多,如SVM支持向量機、BP神經網絡、貝葉斯統計、決策樹建模等。針對智能采集網點時空數據的數值多樣性的特征,我們考慮采用BP神經網絡算法構建監督分類的預測模型。BP神經網絡首先構造一個包含輸入層、輸出層和隱藏層的多層網絡結構。其中輸入層為經處理的智能網點時空特征數據,輸出層為時空數據的目標類別。其基本特征包括:1、網絡中每個神經元包含一個連續可微的非線性激活函數2、網絡展示高度的連接線,其強度由網絡的突觸權值確定BP神經網絡應用反向傳播的方法,訓練網絡的各個突觸權值。訓練過程分為如下兩個階段:1、前向階段:網絡的突觸權值是固定的,輸入信號在網絡中一層層傳播,直到達到突出端。2、反向階段:通過比較網絡的輸出和期望輸出產生的誤差信號,將誤差信號再次通過網絡一層層傳播,并對網絡的突觸權值進行不斷的修正第五、時空軌跡頻繁人們感興趣的是從一個時空序列里發現頻繁重復的路徑,即時空軌跡頻繁模式。這些軌跡頻繁重復模式能協助完成關于移動對象的分析、預測等任務,進而可將其應用于經營商業、旅游業和管理城市交通等方面的決策。除了對軌跡數據之外,序列挖掘對象還包括諸如時空事件數據集等其他時空數據,在這些事件數據集中不包含對象的軌跡數據,而是由不同類型事件序列組成的集合。通過掃描時空數據庫產生映射圖和軌跡信息列表,在映射圖上進行深度優先遍歷以尋找頻繁軌跡模式。許多移動對象(包括交通工具、動物、移動電話用戶等),在固定的時間區間內總是遵循相同或近似相同的路線,展現出一定的周期性規律,這些周期模式不僅可用于壓縮移動數據,還可用來預測對象未來的移動方向,這種周期模式隱含在時空數據中需要挖掘才能發現。根據現有頻繁模式挖掘的理論成果,采用一種基于后綴樹的時空軌跡頻繁模式挖掘算法結合DBSCAN算法較為符合物聯網時空數據關聯挖掘的項目需求。后綴樹是一種數據結構,能快速解決很多關于字符串的問題。時空軌跡頻繁模式挖掘可以轉換為頻繁序列模式的挖掘,而后綴樹作為一種數據結構,可以存儲序列數據并且其查詢性能較好。通過對后綴樹進行改進使其可以存儲興趣區域序列和時間信息,而且可以減少數據的存儲,并可以增量挖掘軌跡模式。算法實現的具體步驟為:首先通過后綴樹挖掘出候選的軌跡頻繁模式,然后進一步對產生的結果進行挖掘,通過聚類的方式提取出帶有停留時間的頻繁模式。對于軌跡化,Tb定義軌跡間的距離,若二者有著不同的置序列,則距離為正無窮,若二者之間有著相同的位置序列,則計算其距離。最后通過基于密度的DBSCAN算法迸行軌跡頻繁項聚類。S53:驗證模型輸出結果。本步驟主要對已保存的模型作驗證,通常采用訓練樣本數據集交叉驗證的方法,驗證數據模型是否符合訓練數據的期望輸出。S54:對測試成功的模型進行運行。進一步請參閱圖6,其為本發明的步驟S54的具體步驟流程圖。所述步驟S54中包括以下步驟:S541:設置任務名稱、執行方式、開始執行時間和資源占用,并保存在任務列表中。進一步,所述執行方式包括:立即執行、定時執行和周期執行。S542:根據任務列表,按時運行模型任務;S543:在模型運行中進行監控,包括監控當前任務中的信息、當前任務運行狀態、反饋信息以及任務運行歷史記錄。S55:對模型輸出結果進行輸出展示。進一步請同時參閱圖7,其為步驟S55的具體步驟流程圖。進一步,所述S55中具體包括以下步驟:S551:將數據結果結合形成數據集,并存儲在數據資源池中。其中,有權限的用戶可直接到資源池中查詢查看。S552:將分析結果推送封裝為發布服務接口。該推送的內容可以為預警內容。這里的預警推送方式可以通過與當前分析總線進行對接,將分析結果中預警信息推送封裝為預警發布服務接口,各警種業務系統可調用該接口,查詢數據挖掘分析推送發布的結果數據集。S6:存儲經過數據挖掘的時空關聯數據和物聯網設備終端的時空數據。進一步,所述步驟S6中,當對物聯網設備終端的時空數據進行存儲時,按照網點編號,存儲每個網點的空間數據和屬性數據;所述空間數據包括:網點位置和坐標;所述屬性數據包括:設備類型、采集信息類型、采集信息的頻率和采集信息的空間覆蓋范圍。進一步請同時參閱圖8,其為主要設計的關系表及關系表屬性結構示意圖。所述步驟S6中,還根據空間和時間分析,確定每個物聯網網點的時空依賴關系,并進行儲存。所述關系數據庫模塊還根據空間和時間分析,確定每個物聯網網點的時空依賴關系,并進行儲存。本發明中利用空間鄰接分析,結合時間服務半徑,確定每個物聯網點間的時空依賴關系,并按其時空依賴關系存儲物聯網點間關系,為物聯網感知數據處理、數據挖掘做準備。另外,所述關系數據庫模塊在對經過數據挖掘的時空關聯數據進行儲存時,包括以下兩種情況:第一、對象時空關聯關系存儲請參閱圖9,其為對象時空關系管理關系表結構圖。以感知對象人、車為例,從人、地、車、時間四個維度描述對象的時空關系。主要關系分為:1、人員時空行為挖掘與存儲。2、車輛時空行為挖掘與存儲。3、人員與車輛時空關系挖掘與存儲。4、人員與人員時空關系挖掘與存儲。5、車輛與車輛時空關系挖掘與存儲。第二、對象分類關系存儲請參閱圖10,其為對象分類關系管理關系表結構圖。對象分類關系存儲主要管理某一時間段內、針對某一具體警情時間所做的聚類分析、分類分析結果。相比于現有技術,本發明提供了一種分析系統,從而利用這些時空數據,從時間和空間兩個維度梳理、挖掘、分析其時空關聯關系。將海量、雜亂的時空數據,按照其內部的時空關系、時空關聯規則進行存儲,為公安的情報分析、犯罪挖掘、案件偵破提供線索、拓展情報分析手段、提高破案率、輔助警務策略的制定等,提供精準、科學、高效的大數據支持依據。上述實施例為本發明較佳的實施方式,但本發明的實施方式并不受上述實施例的限制,其他的任何未背離本發明的精神實質與原理下所作的改變、修飾、替代、組合、簡化,均應為等效的置換方式,都包含在本發明的保護范圍之內。當前第1頁1 2 3