中文字幕无码日韩视频无码三区

未知多維數據中發現模式的計算方法

文檔序號:6422220閱讀:239來源:國知局
專利名稱:未知多維數據中發現模式的計算方法
技術領域
本發明一般性地涉及數據分析,尤其涉及用于時間序列數據中發現模式的方法。
背景技術
數據挖掘是從大規模數據庫和Internet中提取信息。數據挖掘已經應用于市場、金融、傳感器和生物數據的分析。數據挖掘不應當與對數據進行搜索以得到已知模式的模式匹配混為一談。
基本上,數據挖掘是發現數據中“有興趣的”和以前未知的模式。有興趣的模式通常是根據特定模式的重新出現頻率來定義的。因為數據挖掘并不假設任何預定的模式,所以它常常被描述為無監督的學習。
數據挖掘從大量數據中推導出規則、趨勢、規律和相關。數據挖掘常常基于人工智能(AI)、基于記憶的推理(MBR)、關聯規則生成、決策樹(DT)、神經元分析、統計分析、聚類和時間序列分析。
聚類在數據中識別出相關信息的同類組。現有技術的聚類假定數據中間的關系是已知的。聚類已經在統計學、模式識別和機器學習方面進行了廣泛的研究。聚類應用的例子包含市場分析中的顧客群劃分、傳感數據中信號數據庫的子類識別。
聚類技術在廣義上能夠分成劃分(positional)技術和分層(hiearchical)技術。劃分聚類將數據分成K個聚類,使得每個聚類中的數據都比其它不同聚類中的數據彼此更相似。K的值能夠由用戶進行賦值,或通過迭代確定以使聚類準則最小。
分層聚類是劃分的嵌套序列。凝聚(agglomerative)分層聚類將數據置于原子聚類中,然后將這些原子聚類合并成越來越大的聚類,直至所有數據均在單一大聚類中。分裂(divisive)分層聚類則顛倒這一過程,其中從一個聚類中的所有數據開始,并將這個聚類細分成更小的聚類,例如見Jain等人的“數據聚類算法”,Prentice Hall,1988,Piramuthu等人的“SOM神經網絡與分層聚類方法之比較”,EuropeanJournal of Operational Research,93(2)402-417,1996年9月,Michaud的“四種聚類技術”,FGCS Journal,Special Issue on DataMining,1997,和Zait等人的“聚類方法的比較研究”,FGCS Journal,Special Issue on Data Mining,1997。
大部分數據挖掘方法減少輸入數據的維數。在高維數據空間中形成的聚類不可能是有意義的聚類,因為在高維數據空間任意位置的預期平均點密度較低。減少數據維數的已知技術包含主成分分析(PCA)、因子分析、奇異值分解(SVD)和小波。主成分分析也被稱為Karhunen-Loeve展開,其求解出能夠說明數據特征方差的較低維表示,而因子分析則求出數據特征中的相關性。Jain等人在“特征選擇算法評估,技術報告”,計算機科學系,密執安州立大學,East Lansing,Mich.,1996中描述了用于圖像分析領域的技術。
用于分析顧客購買模式的流行數據挖掘技術是對不明顯關聯或關聯規則的識別。明顯關聯的例子是購買嬰兒代乳品的顧客也同時會購買尿布。然而,1992年發現在傍晚時間人們會經常一起購買啤酒和尿布。這樣的關聯是不明顯關聯的典型例子。正常情況下,人們不會將尿布和啤酒聯系為強相關的購買項目,因為啤酒通常不被認為是嬰兒代乳品。這樣的方法也被稱為購物籃分析法(market-basketanalysis)。
關聯定義如下。如果一個集合具有n個項I1,...,In和一次交易,例如數據庫或操作選擇這n項中的一個子集,則在兩項Ii和Ij之間的關聯被定義為規則R,兩項Ii和Ij中的任何交易都被選入該子集。規則R的條件被定義為Ii項的出現。規則R的結果被定義為Ij項的出現。規則R的支持度被定義為具有項Ii和Ij的交易的百分比。規則R的組合被定義為同一交易中Ii和Ij都出現。規則R的置信度被定義為組合的支持度與條件支持度之比。最后,規則R的改進被定義為該規則的支持度與條件Ii的支持度和結果Ij的支持度的乘積之比。
當關聯的支持度和置信度都很高時,關聯就是強的。例如,對于雜貨店的交易,牛奶與每個其它售出的物品有很強的相關性,因此支持度很高,因為大部分交易將牛奶作為其中一項。然而,對于例如像賀卡這樣的某些項,置信度很低,因為這些都不是被頻繁購買的項目。
最后,關聯的改進也需要很強,因為小于1的改進表明條件沒有預測出比使用其本身組合的原始概率具有任何更好精度的組合。因此即使該規則的支持度和置信度都很高,但如果相應的改進不大于1,則該規則沒有提供比純隨機更好的優勢。下面,我們將描述視頻特性的“標簽聚類”的關聯的使用,而不是顧客的“購買項”。
時間序列分析根據數據的時間間隔的函數將數據值關聯。例如,時間序列分析已經用于發現庫存價格、銷售量、氣候數據和EKG分析中的模式。通常假定存在產生時間序列的基礎確定性過程,并且該過程不是隨機的。然而真實世界現象的時間序列數據經常與不確定性數據,例如不可避免的隨機噪聲相互混雜。
通常,使用例如歐幾里得距離或其某種變型的相似度測量對時間序列進行比較。然而,歐幾里得距離測量往往不可靠。較健壯的相似度測量是基于動態時間翹曲(DTW)技術,見Berndt等人的“發現時間序列中的模式動態編程方法”,知識發現和數據挖掘進展,AAA/MIT Press,Menlo Park,CA.pp.229-248,1966。DTW試圖通過有選擇性地伸展和收縮時間軸來對準時間序列數據。
直至現在,大多數數據挖掘技術已經把目光聚焦在文本數據、數值數據和線性(一維)信號上。然而,現在海量的信息容易以具有空間和時間維度的多維圖像、電影和視頻的形式獲取。
某些現有技術對視頻進行初步的內容分析。最常見的方法是使用一組標記樣本訓練專家系統,因此這些技術是基于監督學習的,而不是基于無監督的數據挖掘,見Xu等人的“足球視頻中的分割和結構分析算法和系統”,IEEE國際多媒體會議及其博覽會,東京,日本,2001年8月22-25,Xu等人在2001年4月20日提交的美國專利申請09/839,924,“域特定視頻中的高級結構分析和事件檢測的方法和系統”,Naphade等人的“概率多媒體對象(multijects)多媒體系統中的索引和檢索新方法”,1998年第五屆IEEE圖像處理國際會議論文集,第三卷,pp.536-540。
現有無監督視頻分析技術大部分是內容中立的(content neutral)。例如,已經通過從識別出的分段中選擇關鍵幀對視頻進行概括。該分段通過檢測場景或“快照”的變化,例如,音量的減弱或突然變化來確定出來。場景所描述的是非實質性的。所選擇的特定幀通常是按照某種準則能夠良好地代表快照中的其它幀。其它技術利用攝像機角度或視場的變化,例如鏡頭的縮放。這樣的內容中立技術已經取得了適度的成功,并要求補充的內容特定的技術,以得到語義上滿意的性能。
然而,一般來說,與基于內容的視頻挖掘相關的問題沒有充分地加以理解。
例如,不清楚如果不進行相當大的修改,是否能夠將著名的分類和回歸樹(CART)應用于視頻挖掘中。CART方法將獨立的變量分成小群數據集,并將常值函數賦給該小數據集。在分類樹中,常值函數是一種取有限小值集合,例如是和否、或低、中和高的函數。在回歸樹中,響應的平均值適于賦給連接較少的數據集。
因此,希望提供一種用于挖掘從場景中探測的多維時間序列數據,即通過攝像機-視頻獲取的幀序列的系統和方法。視頻挖掘對于視頻中發現有興趣的模式方面特別有用,其中例如編輯模型、新聞視頻特征或體育視頻模式等等的域和內容的先驗模型不容易獲取。

發明內容
一種方法發現未知多維數據中的模式。產生時間序列多維數據并通過時間序列的自相關來構造點跨距矩陣(point cross-distancematrix)。
點跨距矩陣中的所有最小成本路徑是根據多個時間分辨率來確定的。
接著,最小成本路徑與多維數據中的子序列相關,以發現未知多維數據中的高級模式。


圖1是根據本發明的視頻挖掘方法100的流程圖;圖2是高爾夫視頻的時間序列圖;圖3是本發明使用的點跨距矩陣;圖4是具有重復模式的點跨距矩陣;圖5是準對角最小成本路徑的圖表;圖6是具有閾值角度的最小路徑的圖表。
具體實施例方式
圖1示出的是根據本發明的視頻挖掘方法100的步驟。本發明對于挖掘視頻特別有用,其中內容中的模式不是先驗已知的,例如監視或家庭視頻。發現的模式可以用于視頻的“盲(blind)”概括。“盲”概括的意思是指不必需要知道待概括的視頻的內容或類型。我們的方法對于例如廣播新聞、體育報道、電影放映等等經過仔細準備的視頻同樣有用。因此我們的方法允許對內容和產品風格存在不同差異的視頻進行盲概括(blind summarization)。
我們從任意的、也許是未知內容和產品風格的視頻101開始。該視頻包含可視和音頻數據。首先我們選擇110該內容的低級特征102,例如特征組可以由運動活性、色彩、音頻、文本等等構成,例如MPEG-7描述符。可以用一個或多個選擇的特征102進行挖掘,每個挖掘輪次的結果可以組合以推斷160輸入視頻101的更高級理解。我們使用所選擇的特征產生視頻101的時間序列200。
圖2是基于運動活性的高爾夫比賽視頻的時間序列200的例子。圖2畫出的是高爾夫視頻中運動活性的水平,它是時間的函數。根據幀數在x軸201標明時間,沿y軸202標明運動活性,它是自前一幀以來宏塊中移動的像素的平均數。未加工(raw)的運動活性用曲線203來表示。我們將運動活性數據劃分為高211、中212和低213水平的運動活性。
我們觀察運動活性中后跟陡峭上升的低運動活性的長伸展,并且用尖峰標記上升沿,如圖所示。這樣的尖峰對應于擊球。直到擊球時,運動活性通常很低。在擊球期間和緊接在擊球之后,攝像機迅速地跟隨球的運動,因此產生了運動活性的“上升沿”。
根據我們的發明,視頻101的幀序列中的運動活性構成時間序列。視頻幀的色彩直方圖是另一個多維時間序列。視頻中的時間序列數據也可以包含例如語義標記(例如,MPEG-7描述符)和音頻信號的符號值。應當明白,當我們說“時間序列”時,我們的意思是指該序列數據具有某種類型的沿x軸的順序,例如時間順序。例如空間這樣的其它序列順序也是可能的,我們的發明同樣適用于“空間”序列或其它多維數據的有序序列。當然在空間序列中,所有的路徑會具有多個空間分辨率。
我們的方法100基于視頻的時間序列200測量130低水平特征的相似表示,例如運動情形中的高、中或低,居主導的藍、綠或褐色可以是另一種表示。我們提供了“軟”匹配,其中小的差異不會使匹配無效。如上所述,我們通過數據平滑或限定低水平特征102的閾值來做到這一點。如果使用了多個特征,該時間序列數據可以進行加權處理。例如,在最終結果中,可以賦給色彩比運動活性更大的權重。在推斷160期間低水平特征之間的聯系是松散的,因此,我們寧愿將我們的數據挖掘技術分別應用到每個特征中,并通過融合160通過對所選擇的低水平特征102進行視頻挖掘而分別得到的聚類數據151,推斷出更高水平的模式161。
與只尋找具有指定分辨率的相似對的現有技術相反,我們的匹配尋找140大時間序列(例如從視頻獲得的時間序列200)中所有時間分辨率下的所有可能匹配對。
為了在時間序列S(i)200中挖掘所有的時間模式103,我們需要具有各種尺寸w的多分辨率窗口w:S(1:w),S(2:w+1),...,S(N-w+1:N)。
應當注意的是,我們不是顯式地構建多分辨率窗口w。相反,我們的窗口w是通過跨距矩陣300進行隱式定義的,我們所做的是求出這些隱式定義的窗口。這使得我們能夠在所有分辨率下求出所有的匹配。我們隱式的窗口發現技術下面將更詳細地描述。
我們測量130時間序列數據200之間的所有點跨距300,以求出140最小距離400,并且因此將該視頻101聚類150。問題是如何求出相似度,其中多分辨率窗口具有不同尺寸。
如圖3所示,我們使用點距矩陣300解決這個問題。尺寸為w的兩個窗口之間的距離301測量如下Dw(xi,xj)=Σk=0w-1(xi+k-xj+k)2]]>于是,D1(xi,xj)=(xi+k-xj+k)2,并且Dw(xi,xj)=Σk=0w-1D1(xi+k,xj+k)---(1)]]>圖3示出的是點距矩陣300的例子,其中一個窗口301是xi-xi+w,另一個窗口302是xj-xj+w的例子。線301表示方程(1)。曲線311和312分別表示時間序列200。即,同一時間序列是沿x軸和y軸,換句話說,測量是自相關的。
點距矩陣300可以被搜索以得到點跨距較短的對角線。在圖3的表示中,按灰度級對距離進行著色(render),其中較短的距離比較長的距離更亮一些,因此,所有距離是0的主對角線是白的,因為測量是自相關的。
作為一個優點,矩陣300不限于任何給定的窗口尺寸w。因此,可以求出具有短距離值的所有可能路徑,其中短是針對某個閾值距離值TD而言的。如果使用時間翹曲(time warping),路徑能夠“接近”或基本對角于圖3的主對角線。
如圖4所示,我們通過使用適于我們的視頻內容挖掘的多定標(multi-scale)技術(例如小波)對時間序列進行子抽樣來進行多分辨率分析。這產生平滑矩陣400。我們的方法自動地在不同窗口尺寸w上進行匹配,以揭示出時間序列中所有重復的時間模式401-402。
動態時間翹曲(DTW)用于在一定的限度內“伸展”和“壓縮”時間,以允許具有不同時間長度的視頻的相似分段之間具有良好對準。就分段來說,我們的意思是指幀序列。動態編程序可以用于求出提供最佳匹配的分段的時間翹曲。DTW求出一定約束條件(i,j),1≤I≤N,1≤j≤M下的柵格中的最佳路徑,其中N和M是兩個分段的長度,每個柵格點(i,j)分別是兩個分段的第i點和第j點之間的距離。
我們使用動態編程求出點跨距矩陣中的點對之間的最小成本路徑。希望路徑基本上對角,即基本上與主對角線310平行。此外,我們希望路徑通過矩陣中的低跨距值,其中低由某個閾值TD來定義。在圖3和4中,這些路徑是白的,或準白的對角曲線分段。
最小成本的可能定義是沿該路徑的跨距值的平均值。我們也對允許的路徑提出某些約束,即路徑500保持對角方向的取向,見圖5。一種可能的約束集合是沿著路徑的每一步可以是下移一格、右移一格,或對角移動一格,如圖所示。
此外,如圖6所示,對角線與路徑兩個端點間的連線之間的閾值角應當小于α°,其中0≤α≤45°。這樣的路徑成本準則和約束可以通過動態編程來表達,以求出點跨距矩陣中兩點之間的最小成本有效路徑。
即使不是精確對角的,那些獲得的有效路徑仍然指定時間序列中兩個相應子序列的動態時間翹曲。因此,我們使用動態編程求出兩個子序列之間的良好匹配的適當時間翹曲,并且求出跨距矩陣中兩點之間的最小成本路徑。
動態編程允許我們求出矩陣中兩個給定點之間的最小成本路徑。我們感興趣的是求出矩陣中所有可能點對之間的最小成本路徑,并選出成本低于給定閾值的路徑。
做到這一點的強力方式是針對每個可能的點對執行動態編程過程。因為跨距矩陣是對稱的,即時間序列的第i個樣本和第j個樣本之間的距離等于第j個樣本和第i個樣本之間的距離,我們只需要處理矩陣的上半部分,其中只有N2/2個點和N4/4個點對。然而,處理步驟的數量可以減少以增加我們的方法的效率。
首先,如圖6所示,我們要求對角線與通過該路徑兩端點間的連線之間的角度小于α°。因此,對于每個點,我們求出到這樣的點的最小成本路徑,該點位于與對角線603成+α601度的線和與對角線603成-α602度的線之間。而且,我們提出路徑上所有點應當具有低于閾值T的值的約束條件。在這種情形下,我們可以對整個矩陣限定閾值,并且求出只在高于閾值的點集之間的最小成本路徑。
在已經求出所有這樣的點之間的最小路徑成本之后,我們將端點彼此接近的較短路徑合并成較長路徑。我們也合并其中一個是另一個的超集的路徑。我們去掉兩端點間的歐幾里得距離短于一定長度的路徑。保留的路徑集為我們提供多分辨率下視頻的所有相似子序列對。
在現有技術中,進行使用動態時間翹曲(例如,使用動態編程求出跨距矩陣中的最小成本路徑)相似以查詢較大時間序列中的給定時間序列模式,見Park等人“序列數據庫中不同長度相似子序列的有效搜索”,數據工程國際會議(ICDE),pp.23-32,2000。
我們的技術也可以用于在語音分析環境中求出兩個序列之間的良好對準,見Sakoe等人的“口語識別的動態編程算法優化”,IEEETrans.Acoust.,Speech,Signal Process.,ASSP 26,pp.43-49,1978,并且可用于基因和蛋白質序列分析,見Aach等人的“使用時間翹曲算法對準基因表達時間序列”,Bioinformatics,17495-508,2001。然而,那些方法只求出給定的跨距矩陣中具有給定起始點的一條路徑,相反,我們求出所有的路徑。
在現有技術中,時間序列中子序列的自相似性通常通過使用固定窗口大小w,并且算出原始序列上移動窗之間的跨距來進行計算,見Agrawal等人“序列數據庫中的有效相似性搜索”,第四屆數據組織和算法基礎國際會議論文集,和“計算機科學的講義注釋”,730,SpringerVerlag,p.,69-84。
跨距矩陣的其它現有技術使用具有點圖的形式,其中矩陣元素是1或0,表明恰好匹配或沒有匹配。它們已經被用于定量分析并作為可視工具,見Church等人的“點圖探測數百萬行文本和代碼的自相似性的程序”,計算和圖形學統計期刊,2(2)153-174,1993,或用于沿對角線分割自相似區域,但不自動求出相似子序列對,見Jeffry,“求解主題邊界的自動算法”,第32屆計算語言學學會年會論文集,1994。我們的方法可以用于任何這樣的應用中。
哈夫(Hough)變換可以用于將多個短路徑合并成曲線。哈夫變換將矩陣400中特定形狀的特征分離出來。由于不能進行特征的簡單分析描述,我們可使用哈夫變換。作為一個優點,哈夫變換容忍特征邊界描述中的間隙(gap),并相對不受數據中噪聲的影響。此外,哈夫變換對于發現特征的全局描述特別有用,其中解類別的數量不是先驗已知的,正如這里的情形那樣。
我們使用Hough變換的動機在于每個輸入距離特征指示出它對全局一致性模式的貢獻。我們通過將特征空間量化為有限區間或累加器單元來實現Hough變換,其中隨著這條路徑上的累加器單元的遞加,累加器單元顯示出離散化的路徑。累加器陣列的結果峰強有力地表示出特征空間中存在相應路徑的證據。我們使用Hough變換識別出最佳擬合一組給定的邊的路徑。
當然,應當理解的是,可以利用使用時間序列的自相關性尋找匹配分段的其它技術。例如,可以使用點積(dot product)的技術。在這種情形中,該積的大小表明相似程度。對于例如連續幀的彩色直方圖的多維時間序列,可以使用直方圖交會法(histogram intersection)。
使用DTW求出匹配窗口之后,我們將相似分段分組并標記150成聚類151。對于分段,我們的意思是指視頻中直接對應于具有相似特征的窗口的幀序列。因此,使用時間序列數據對相似分段的識別基本上允許我們將該視頻進行劃分并將相似的分段分組成聚類。
我們同等使用術語“標記”和“項”,如上述針對關聯所定義的那樣。當我們稱之為聚類時,我們的意思是指聚類經過了標記,例如,高運動活性的幀的聚類,或視頻聲道中噪聲很大的聚類。通過使用利用不同特征所獲得的關聯和標記152的融合,允許我們推斷160聚類151中的高水平模式。因此這些模式可以用于將視頻101盲概括170成摘要171。概括基本上按照高水平模式161提取視頻中所選取的幀。
在步驟160中,我們求出聚類的標記之間的關聯。一種類型的關聯是尋找時間相關的“標記”。相關性可以是同時的,也可以是時間偏移的,例如許多運動和大噪聲表明在娛樂視頻中的“動作”事件,或許多之后接著鼓掌歡迎和歡呼的運動表明在體育視頻中的“得分”事件。
我們發現標記之間的關聯如下。每個聚類的標記被認為等價于上述的“項”。因此,我們產生含有標記Li的出現的條件和含有標記Lj的出現的結果。在這種情形下,時間軸上的每個點具有相應的交易,它含有與多于一個視頻特征102相對應的標記。
例如,我們能夠擁有兩組標記,第一組與高、中、低的運動活性的描述相對應,第二組與音頻語義類別有關,其中標記將表明例如觀眾掌聲、歡呼聲、音樂等等的音頻類別中的成員關系。于是,我們能夠發現在體育視頻中高運動活性和觀眾掌聲/歡呼聲之間的關聯。應當注意的是,即使使用了更復雜的標記,仍然能夠通過直接計算求出這種關聯。也可求出標記組合之間的復合關聯。
因此,強關聯可以幫助我們發現視頻101中相應的常見和非常見模式,因為模式越常見,支持度就越高。
因此,視頻101的摘要171含有常見和非常見事件的組合,這取決于用戶的需要。在一個極端的例子中,摘要171含有具有強關聯的稀有事件。在另一個極端的例子中,摘要含有具有強關聯的常見事件。
因此,聚類150通過基于上述的距離度量將所有相似分段聚類來開始。對部分重疊的分段進行劃分,使得它們或者具有同樣的重疊,或者完全不重疊。聚類對可以使用凝聚過程進行合并以形成更大的聚類。我們定義集合S含有至少一個相似聚類對中的所有分段。于是,集合SC∪S是整個視頻101,集合SC是集合S的補集。對聚類進行標記,例如A,B,C,...,且A∪B∪C...=S。集合SC可以被認為是“廢棄”的聚類,即對于A、B和C等等不是“有意義的”。
因此,聚類150產生各種長度和各種相互距離的非重疊分段的集合S。每個聚類151具有下列相關參數聚類的緊密性,即聚類中分段的相似程度;聚類中分段的數目;聚類中分段的總長度(幀或時間);分段的最接近點之間的平均距離(表明整個視頻中分段的散布)。
聚類中每個分段具有下列參數到其它聚類中心的平均距離,它表明分段在包含其的聚類中的代表性;及其長度(幀或時間)。
因此,概括成本函數C172可以在所需要的摘要長度,待包含在摘要171中的所選分段的集合R的總長度,(即,RS),S中每個分段和R中最靠近分段之間的平均距離之間折衷一個絕對差。這表明集合R(概括171)表示集合S適合程度,當然集合S是整個視頻101。我們可以增加一個項以及時支持R的緊密性,或者相反。因此摘要171是集合S的子集R,其使成本函數172最小化。
于是摘要可以用于例如“智能”快進和倒退的視頻控制的新特征,以及在面臨沒有任何先驗域知識時進行的即刻重新定位。
應當明白,可以在本發明的宗旨和范圍內對其進行各種其它的調整和修正。因此,附加的權利要求的目的是涵蓋本發明的真正宗旨和范圍內的所有這樣的變化和修正。
權利要求
1.一種在未知多維數據中發現模式的計算機化方法,包括生成多維數據的時間序列;通過對時間序列自相關來構造點跨距矩陣;以多個時間分辨率尋找點跨距矩陣中的所有最小成本路徑;以及使最小成本路徑與多維數據中的子序列相關以發現未知多維數據中的高水平模式。
2.如權利要求1所述的方法,其中根據多維數據的所選特征產生時間序列數據。
3.如權利要求1所述的方法,其中時間序列設有閾值的。
4.如權利要求1所述的方法,其中點跨距矩陣是經過過濾的。
5.如權利要求1所述的方法,其中未知多維數據是視頻的未知內容。
6.如權利要求1所述的方法,其中未知多維數據按照高水平模式被劃分成聚類。
7.如權利要求1所述的方法,其中使用具有尺寸w的窗口以多個時間分辨率尋找所有最小成本路徑。
8.如權利要求7所述的方法,其中針對具有尺寸w的兩個窗口,點跨距矩陣中的距離為Dw(xi,xj)=Σk=0w-1(xi+k-xj+k)2]]>和D1(xi,xj)=(xi+k-xj+k)2,并且Dw(xi,xj)=Σk=0w-1D1(xi+k,xj+k),]]>其中xi和xj是窗口的端點。
9.如權利要求8所述的方法,其中通過搜索點跨距矩陣中距離小于預定閾值的對角線分段,尋找所有最小成本路徑。
10.如權利要求1所述的方法,其中所有最小成本路徑基本與點跨距矩陣的主對角線平行。
11.如權利要求7所述的方法,其中通過使用多定標對時間序列進行子采樣來獲得多個時間分辨率。
12.如權利要求11所述的方法,其中定標使用小波。
13.如權利要求1所述的方法,其中動態時間翹曲被應用于時間序列,以對時間序列中的時間進行伸縮。
14.如權利要求1所述的方法,進一步包括應用動態編程以尋找點跨距矩陣中的最優最小成本路徑。
15.如權利要求1所述的方法,進一步包括只處理對點跨距矩陣的上半部分。
16.如權利要求1所述的方法,進一步包括合并其端點在彼此的預定距離內的任何最小成本路徑。
17.如權利要求1所述的方法,進一步包括將其中一條路徑是另一路徑的超集的任何最小成本路徑合并。
18.如權利要求1所述的方法,進一步包括去掉任何短于預定長度的最小距離路徑。
19.如權利要求1所述的方法,其中多維數據是語音信號。
20.如權利要求1所述的方法,其中多維數據是線性聚合體。
21.如權利要求20所述的方法,其中線性聚合體是蛋白質。
22.如權利要求16所述的方法,其中合并使用Hough變換。
23.如權利要求1所述的方法,進一步包括將邊緣檢測器應用到點跨距矩陣以尋找所有最小成本路徑。
全文摘要
一個方法發現未知多維數據中的模式。生成多維數據的時間序列,并通過時間序列的自相關構造點跨距矩陣。以多個時間分辨率尋找點跨距矩陣中的所有最小成本路徑。接著最小成本路徑與多維數據中的時間子序列相關,以發現未知多維數據中的高水平模式。
文檔編號G06F17/30GK1685359SQ200380100068
公開日2005年10月19日 申請日期2003年10月6日 優先權日2002年11月1日
發明者卡蒂爾·A·匹克爾 申請人:三菱電機株式會社
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1