一種降維映射的大數據可視化方法

文檔序號：8512568閱讀：434來源：國知局

一種降維映射的大數據可視化方法
【技術領域】
[0001]本發明涉及計算機的大數據處理領域，具體地說是一種降維映射的大數據可視化方法。
【背景技術】
[0002]大數據可視化，可視分析是大數據分析的重要方法，大數據可視分析旨在利用計算機自動化分析能力的同時，充分挖掘人對于可視化信息的認知能力優勢，將人、機的各自強項進行有機融合，借助人機交互式分析方法和交互技術，輔助人們更為直觀和高效地洞悉大數據背后的信息、知識與智慧。主要從可視分析領域所強調的認知、可視化、人機交互的綜合視角出發，分析支持大數據可視分析的基礎理論，包括支持分析過程的認知理論、信息可視化理論、人機交互與用戶界面理論等。
[0003]大數據可視分析是指在大數據自動分析挖掘方法的同時，利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術，有效融合計算機的計算能力和人的認知能力，以獲得對于大規模復雜數據集的洞察力。
[0004]降維映射中，機器學習領域中所謂的降維就是指采用某種映射方法，將原高維空間中的數據點映射到低維度的空間中。降維的本質是學習一個映射函數f: x_>y，其中X是原始數據點的表達，目前最多使用向量表達形式；y是數據點映射后的低維向量表達，通常y的維度小于X的維度(當然提高維度也是可以的)；f可能是顯式的或隱式的、線性的或非線性的。

【發明內容】

[0005]本發明的目的是克服現有技術中存在的不足，提供一種降維映射的大數據可視化方法。
[0006]本發明的技術方案是按以下方式實現的，實施步驟如下:
1)、建立一個目標函數，實現一種點對點的降維映射，能保持對應的距離不變；
2)、對目標函數采用不同的最優化方法，如梯度下降法和隨機梯度下降法。在這兩種最優化方法中，每一步迭代都需要全部數據以形成所需要的梯度，采用類似于神經網絡算法算法的位置調節規則，則每步迭代僅需一對數據；以數據為基準，對其他數據映射進行調
-K-
T ；
3)、學習率與權向量調整規則中的學習率可以完全相同，消除額外的控制參數問題。
[0007]本發明的優點是:
本發明的一種降維映射的大數據可視化方法和現有技術相比，并不采用常見的Himberg收縮模型，而根據神經元在這兩種空間中對應距離的一致性進行調節，可以證明這種調節方式類似于隨機梯度下降法。本方法具有保距映射的功能，不但實現了數據間距離信息的直觀展現，還能在不需要任何額外控制參數的情況下自動避免神經元的過度收縮問題，從而極大地提高算法的可控性和數據可視化的質量。
【具體實施方式】
[0008]下面對本發明的一種降維映射的大數據可視化方法作以下詳細說明。
[0009]本發明的一種降維映射的大數據可視化方法，對神經元的位置進行調節的依據已不再是Himberg收縮模型，而是根據神經元在原數據空間和低維空間中對應距離(或相似度)的一致性進行調節，目的是為了對數據間的距離(或相似度)信息進行直觀展現。在迭代的每一步，以獲勝神經元V為基準，對其他神經元的位置進行調節，如采用距離度量而非相似度量等。
[0010]實施步驟如下:
1)、建立一個目標函數，實現一種點對點的降維映射，能保持對應的距離不變；
2)、對目標函數采用不同的最優化方法，如梯度下降法和隨機梯度下降法。在這兩種最優化方法中，每一步迭代都需要全部數據以形成所需要的梯度，采用類似于神經網絡算法算法的位置調節規則，則每步迭代僅需一對數據。以數據為基準，對其他數據映射進行調
-K-
T ；
3)、學習率與權向量調整規則中的學習率可以完全相同，消除額外的控制參數問題。
[0011]除說明書所述的技術特征外，均為本專業技術人員的已知技術。
【主權項】
1.一種降維映射的大數據可視化方法，其特征在于實施步驟如下: 1)、建立一個目標函數，實現一種點對點的降維映射，能保持對應的距離不變； 2)、對目標函數采用不同的最優化方法，如梯度下降法和隨機梯度下降法；在這兩種最優化方法中，每一步迭代都需要全部數據以形成所需要的梯度，采用類似于神經網絡算法算法的位置調節規則，則每步迭代僅需一對數據；以數據為基準，對其他數據映射進行調-K-T ; 3)、學習率與權向量調整規則中的學習率可以完全相同，消除額外的控制參數問題。
【專利摘要】本發明提供一種降維映射的大數據可視化方法，首先建立一個目標函數，實現一種點對點的降維映射；然后對目標函數采用不同的最優化方法，如梯度下降法和隨機梯度下降法。在這兩種最優化方法中，每一步迭代都需要全部數據以形成所需要的梯度，采用類似于神經網絡算法算法的位置調節規則，則每步迭代僅需一對數據。以數據為基準，對其他數據映射進行調節；最后學習率與權向量調整規則中的學習率可以完全相同，消除額外的控制參數問題。本發明具有保距映射的功能，不但實現了數據間距離信息的直觀展現，還能在不需要任何額外控制參數的情況下自動避免神經元的過度收縮問題，從而極大地提高算法的可控性和數據可視化的質量。
【IPC分類】G06F17-30
【公開號】CN104834716
【申請號】CN201510235026
【發明人】戴鴻君, 于治樓
【申請人】浪潮集團有限公司
【公開日】2015年8月12日
【申請日】2015年5月11日

完整全部詳細技術資料下載