一種數據挖掘用粗糙近似表示系統構建方法
【專利摘要】本發明公開了一種數據挖掘用粗糙近似表示系統構建方法,包括構建向量數據組,構建數據覆蓋,構建粗糙近似表示系統及數據處理等四步。本發明較傳統的智能信息識別計算方式,基于多種聚類方法結果,在包容聚類結論差異性的前提下,建立了知識系統。基于以知識系統用近似表示刻畫系統內無法精確刻畫的集合。實現了在現有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應性。
【專利說明】
一種數據挖掘用粗糙近似表示系統構建方法
技術領域
[0001] 本發明屬于智能數據辨識處理技術領域,具體涉及一種數據挖掘用粗糙近似表示 系統構建方法。
【背景技術】
[0002] 目前在搜索引擎、郵件分類等數據分類過程中,人們會使用多種判別方法將其所 得數據進行分類整理。這種分類的形成就是數據挖掘出來知識,使用這種知識,人們可以探 索,如Google使用其搜索引擎探索量子計算機構建的可能性等。在人工智能領域知識構建 方式多種多樣,如深度學習中的神經網絡、模糊控制器中經驗閾值等。粗糙集理論是一種處 理不精確、不確定和模糊知識的數學工具,它已被廣泛應用于數據挖掘、人工智能、模式識 別與智能信息處理等領域。使用擬單層覆蓋粗糙集理論構建的知識表示系統可用于存儲整 理分類知識,并其分類知識應用于識別未知信息。針對這一需要,迫切需要研發一種新型的 數據處理運算方法,以滿足實際使用的需要。
【發明內容】
[0003] 本發明目的就在于克服上述不足,提供一種數據挖掘用粗糙近似表示系統構建方 法。
[0004] 為實現上述目的,本發明是通過以下技術方案來實現: 一種數據挖掘用粗糙近似表示系統構建方法,包括如下步驟: 第一步,構建向量數據組,從數據源中提取數據特征,生成多維空間,其中每一個維度 代表一個特征,一條數據轉換為特征值向量,形成多維向量數據; 第二步,構建數據覆蓋,將第一步的構建的向量數據在各維度上進行分類標一一并形 成數據集覆蓋; 第三步,構建粗糙近似表示系統,將第二步形成數據集覆蓋的各類數據按照分類進行 匯總,從而形成數據集粗糙近似表示系統; 第四步,數據處理,在第三步形成的數據集粗糙近似表示系統中,根據需要刻畫集合生 成其DE近似表示和DA近似表示; 進一步的,所述的第二步中,向量數據使用多種聚類方法,形成數據聚類矩陣,然后通 過判斷數據對象是否在多種聚類方法結果中同屬一類,從而判斷數據屬于核心位置還是邊 緣位置,并最終通過對所有數據的判斷形成數據集覆蓋。
[0005] 進一步的,所述的數據聚類矩陣M為夂XtmXfi對稱矩陣,其中n為系統中對象的數 量,矩陣中元素為N維0,1向量,其中N為引入聚類算法數量,若對象構^與V·'.中第k種聚類方 法中為同一類別,則數據聚類矩陣中第i行第j列中第k維值為1,否則該值為0。
[0006] 進一步的,所述的數據多種聚類計算方法包括: 生成每個聚類方法結果,根據數據聚類矩陣M中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結果墨。~>私悉.…備],其中_是分類數量。
[0007] 第一個聚類標記名稱,對于1?%中分類犠__標記名稱猶雋,L =' I S ?, J , J ?^' i' = 1 5 .2, ., , , ? ^ .其它聚類標記名稱,對其它聚類結身_ . _ ...... _ ..示記名
稱為 name: name、 生成數據集覆_ _氧的核心元I 進一步的,所述的近似表示空間每對象與覆蓋集存在多對多映射,即一個對象屬于至 少一個覆蓋,一個覆蓋包含至少一個對象。
[0008] 進一步的,所述的第四步中DE近似表示和DA近似表示計算方法為: 1)在近似表示空間中,對象雜對應的覆蓋集合為興沐#場1=魏¥ 2 )對于:? Ss,若所有K都滿足承_纖.汽:1.餐:孩,則的避做表泰 瓦'€.1的.賊上近似表示,若技;^僅滿足存在覆蓋,:球寵:愛:#::艮.萍賢多^ xeX的泥上近似表示;若所有K者滿足_迄:1 :|el,則 寥的:.祕卞遊似象示 X eX的DA下近似表示,若,K僅滿足存在覆蓋K s X S £>:,則:? £}{的DE上近丨以表示 X ex的DS上近似表示; 3) 遍歷近似表示空間中所有元素 X,使用其對應覆蓋集編巧,即可生成X的DA上下近似 表示及DE上下近似表示; 4) X的DA上下近似表示即為X的DA近似表示,X的DE上下近似表示即為X的DE近似表示。
[0009] 本發明較傳統的智能信息識別計算方式,。基于多種聚類方法結果,在包容聚類結 論差異性的前提下,建立了知識系統。基于以知識系統用近似表示刻畫系統內無法精確刻 畫的集合。實現了在現有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應 性。
【附圖說明】
[0010] 圖1是本發明系統總體設計圖; 圖2是本發明中覆蓋生成模塊示意圖; 圖3是本發明中DA、DE近似表示生模塊示意圖。
【具體實施方式】
[0011] 下面將結合本發明的附圖及具體實施例,對本發明的技術方案進行清楚、完整地 描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發 明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施 例,都屬于本發明保護的范圍。
[0012] 如圖1、2和3所述,并以收集并整理出某類紅酒數據10組,形成向量化數據 >:1>:(2一...:41(^:1,3!:2,,.,,:?1{)為數據處理基礎, 一種數據挖掘用粗糙近似表示系統構建方法,包括如下步驟: 第一步,構建向量數據組,從數據源中提取數據特征,生成多維空間,其中每一個維度 代表一個特征,一條數據轉換為特征值向量,形成向量數據; 第二步,構建數據覆蓋,將第一步的構建的向量數據進行分類標記并形成數據集覆蓋; 第三步,構建粗糙近似表示系統,將第二步形成數據集覆蓋的各類數據按照分類進行 匯總,從而形成數據集粗糙近似表示系統; 第四步,數據處理,在第三步形成的數據集粗糙近似表示系統中,根據需要刻畫集合的 生成其DE近似表示和DA近似表示; 本實施例中,所述的第二步中,向量數據使用多種聚類方法,形成數據聚類矩陣,然后 通過判斷數據對象是否在多種聚類方法結果中同屬一類,從而判斷數據屬于核心位置還是 邊緣位置,并最終通過對所有數據的判斷形成數據集覆蓋,所形成的向量化數據為: 形成向量化數據&$:._〖,¥ :<:;錄_1^|..1._-.、、_?發· xl =(14.23, 1.71, 2.78) x2=( 13.2, 1.78, 2.14) x3=(13.16, 2.36, 2.67) x4=(14.37, 1.95, 2.5) x5=(13.24, 2.59, 2.87) x6=(14.2, 1.76, 2.45) x7=(14.39, 1.87, 2.45) x8=(14.06, 2.65, 2.61) x9=(14.83, 1.64, 2.17) xl0=(13.86, 1.35, 2.27) 本實施例中,所述的數據聚類矩陣M為對稱矩陣,其中n為系統中對象的數 量,矩陣中元素為N維0,1向量,其中N為引入聚類算法數量,若對象中第k種聚類方 法中為同一類別,則數據聚類矩陣中第i行第j列中第k維值為1,否則該值為0。
[0013] 本實施例中,所述的數據多種聚類計算方法包括: 生成每個聚類方法結果,根據數據聚類矩陣M中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結果^ = …..f .?.動),其中·是分類數量。
[0014] 第一個聚類標記名稱,對于_ %中分類標記名稱 其它聚類標記名稱,對其它聚類結果__(|: = %.:_事|=%<.^)中·^
稱為 narneparne;·, 生成數據集覆I 和的核心元S 具體計算時: 選擇兩種不同聚類方法,如區間均分法與KNN分類法,分類數量為2,分別對于數據每一 列進行分類得到數據聚類矩陣M,其中M為對稱矩陣,左上部分未標明位置值為(0,0)。 :x2 xS x4 jii: js:6 jsIO xi .::1) 麻銀 % 切 或 Cis I) ?:ι; |): CU) 微 ? 適 ο,?) α, :〇 mi) Jil C:i/# β,屬 惑 (IiI) (0?:::1) 邁 (i:f B ca::i) :.忒: (M) (Ui) ;ta:i) 痛 α,:?) tu) (Li :κ9 (?, ?) (?Λ:〇) si Q (1;,: I)
[0015] 形成覆蓋集 本實施例中,所述的第四步中DE近似表示和DA近似表示計算方法為: 其中:較:=::1?:?:??於'擇:故令泰%的核心兀素為各知_.辛.::|1辦齡&_ 4?;句,輯紙 霞2 齡凝浼的核心元素為 為_&:秀:__興3&每。__辭1為縣Ki與職的邊界,I
[0016] 若此時,若資,則, X的DA下近似為31X的DA上近似表示為1知顧驛兵υ E3 = P3A8A1詠 X的DE下近似為:發@,Χ的DE上近似表示為_公_ = 義 ^2?. =_、:33義:7,8沒·_; 若?[蛘_義這琪與孤餐爲乃,則, X的DA下近似為路奪觀口 Ii論餘亂X的DA上近似表示為祖· _s 綱絲 X的DE下近似為·;姿·_,Χ的DE上近似表示為?α。K2 = {iJ =:£14 賊 J;M_。
[0017] 本發明較傳統的智能信息識別計算方式,基于多種聚類方法結果,在包容聚類結 論差異性的前提下,建立了知識系統。基于以知識系統用近似表示刻畫系統內無法精確刻 畫的集合。實現了在現有知識體系下,對任意信息的識別,從而極大提高了信息識別的適應 性。
[0018]以上所述,僅為本發明的【具體實施方式】,但本發明的保護范圍并不局限于此,任何 熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵 蓋在本發明的保護范圍之內。因此,本發明的保護范圍應所述以權利要求的保護范圍為準。
【主權項】
1. 一種數據挖掘用粗糖近似表示系統構建方法,其特征在于:所述的數據挖掘用粗糖 近似表示系統構建方法包括如下步驟: 第一步,構建向量數據組,從數據源中提取數據特征,生成多維空間,其中每一個維度 代表一個特征,一條數據轉換為特征值向量,形成多維向量數據; 第二步,構建數據覆蓋,將第一步的構建的向量數據在各維度上進行分類標記,并形成 數據集覆蓋; 第Ξ步,構建粗糖近似表示系統,將第二步形成數據集覆蓋的各類數據按照分類進行 匯總,從而形成數據集粗糖近似表示系統; 第四步,數據處理,在第Ξ步形成的數據集粗糖近似表示系統中,根據需要刻畫集合生 成其DE近似表示和DA近似表示。2. 根據權利要求1所述的一種數據挖掘用粗糖近似表示系統構建方法,其特征在于:所 述的第二步中,向量數據使用多種聚類方法,形成數據聚類矩陣,然后通過判斷數據對象是 否在多種聚類方法結果中同屬一類,從而判斷數據屬于核屯、位置還是邊緣位置,并最終通 過對所有數據的判斷形成數據集覆蓋。3. 根據權利要求2所述的一種數據挖掘用粗糖近似表示系統構建方法,其特征在于:所 述的數據聚類矩陣Μ為nnx 對稱矩陣,其中η為系統中對象的數量,矩陣中元素為N維0, 1向量,其中Ν為引入聚類算法數量,若對象亭S與辦沖第k種聚類方法中為同一類別,則數 據聚類矩陣中第i行第j列中第k維值為1,否則該值為0。4. 根據權利要求3所述的一種數據挖掘用粗糖近似表示系統構建方法,其特征在于:所 述的數據多種聚類計算方法包括: 生成每個聚類方法結果,根據數據聚類矩陣Μ中向量,通過將同一維度k上值為1元素形 成聚類方法k的分類結果t;巧I彭趙髮,…廣涕誨滬.…餐苗,其中祭堤分類數量。 第一個聚類標記名稱,對于輸:?中分類鶴滿粒標記名稱驗親轅磯!難^;二物讓齡;,謹 玉,占.,…,g. 其它聚類標記名稱,對其它聚類結果難%1=%巧潑f =也-:.,雨 稱為纏麵i孩疑描薪,運里? 幽;甘舞!'二圭.系·。。,;聾. 生成數據集覆蓋浪辟》狼:,:.岡琴^ =:縱屈托.,馬},其中 :轉:苗泌踐;耗電技駭萬,秘都為巧思Ε碼讀:='表志鍵 緩鶴的核必元素馬 &。二。起;.S C,,松皂稱都為-城巧6山;二至>么.…巧'!。5. 根據權利要求3所述的一種數據挖掘用粗糖近似表示系統構建方法,其特征在于,所 述的近似表示空間每對象與覆蓋集存在多對多映射,即一個對象屬于至少一個覆蓋,一個 覆蓋包含至少一個對象。6. 根據權利要求1所述的一種數據挖掘用粗糖近似表示系統構建方法,其特征在于,所 述的第四步中DE近似表示和DA近似表示計算方法為: 1)在近似表示空間中,對象轉對應的覆蓋集合為鼓滬撰物卷湯技產繼話環; 2 )對于Κ, Κχ,若所有Κ都滿足狡貌懲栽參彰:貧料;孩,則立電滾說編鑑概崇泰 X e X的DA上近做表示,若詞秘僅滿足存在覆蓋難津黎旁竊貨玲濃摩導,則託或祗線主近極兼泰 seS的跪上近機榮示;若所有K都滿足聽拉衰裝SI,則:κ《:1肋I撫節適慨寨親 X e X的貼下近做表子,若裝,輪僅滿足存在覆蓋接巖ims器,則&運篡始:線止遼憐兼荒 X F X的跑上近似表于; 3)遍歷近似表示空間中所有元素 X,使用其對應覆蓋集類粗,即可生成X的DA上下近似表 示及DE上下近似表示; 4. X的DA上下近似表示即為X的DA近似表示,X的DE上下近似表示即為X的DE近似表示。
【文檔編號】G06F17/30GK105938488SQ201610232523
【公開日】2016年9月14日
【申請日】2016年4月15日
【發明人】吳正江, 王巖, 張江麗
【申請人】河南理工大學