使能擴展大型數據集的極端可視化的制作方法
【技術領域】
[0001] 本公開涉及使能擴展大數據集的極端可視化的方法、系統和計算機程序產品。
【背景技術】
[0002] 創建數據庫中存儲的大數據集的可視化是個難題。分辨率和像素數限制了可以在 任一視覺顯示器上顯示的數據點的數量。雖然現代移動設備,例如智能電話和平板計算機, 有能力向終端用戶提供豐富多樣的數據集,但是更小的顯示器和減少的像素數進一步加劇 該問題。人眼受限的視覺敏銳度可能將在視覺顯示器上標繪符號的龐大數量的數據點減少 到不可辨別的數據點的集合。此外,可用網絡帶寬,例如與蜂窩網絡相關聯的帶寬,可能在 嘗試將大量數據集傳送到移動設備以用于可視化時充當瓶頸。所謂的"極端可視化"的各 種方法可以被用來嘗試將大數據集可視化為各種類型的圖形。例如,常用方法是將許多元 組或數據元素的集合聚集為單獨的Bin(箱),每個Bin代表數據點,該數據點是大數據集中 的一定數量的數據點的平均。然后可以在顯示器上將Bin可視化為代表數據的圖形。其他 方法包括核密度估計和累積分布函數。執行這種類型的數據聚集的經典方法是使用非實時 的、復雜的、數據-處理-和模式密集型數據庫查詢,例如結構化查詢語言(SQL)形式的查 詢,來處理數據以供顯示。
【發明內容】
[0003] 本公開涉及使能用于數據庫中存儲的大數據集的極端可視化的計算機實現的方 法、計算機可讀介質和計算機系統。一種計算機實現的方法包括:接收請求,在該請求中標 識供應給數據規范語言(DaSL)的輸入模式以及由數據庫視圖展示的類型對象的元數據要 點;請求從數據庫提取輸入模式以及元數據要點;基于輸入模式創建DaSL編譯器的實例; 由計算機生成與從元數據要點選擇的對象相對應的DaSL查詢;請求編譯DaSL查詢;以及 響應于DaSL查詢的編譯,接收計算方案和拓撲游標。
[0004] 這個方面的其他實現方式包括相應的計算機系統、裝置、和記錄在一種或多種計 算機存儲設備上的計算機程序,每一個都配置成執行所述方法的動作。一個或多個計算機 的系統可以配置成通過擁有安裝在系統上、在操作時使系統執行動作的軟件、固件、硬件或 軟件、固件、硬件的組合來執行特定操作或動作。一個或多個計算機程序可以配置成通過 包括指令來執行特定操作或動作,其中當所述指令被數據處理裝置執行時使該裝置執行動 作。
[0005] 上述和其他實現方式中的每一個可選地可以單獨或組合地包括如下特征中的一 個或多個:
[0006] 可與一般實現方式結合的第一方面還包括使用圖形用戶界面選擇與數據庫相關 聯的數據庫視圖。
[0007] 可與任何一個前述方面結合的第二方面,其中,由模型提取組件執行輸入模式以 及元數據要點的提取。
[0008] 可與任何一個前述方面結合的第三方面還包括發送元數據要點以用于顯示。
[0009] 可與任何一個前述方面結合的第四方面還包括將DaSL查詢編譯為計算方案和拓 撲游標以用于可視化數據。
[0010] 可與任何一個前述方面結合的第五方面還包括在數據庫中運行計算方案。
[0011] 可與任何一個前述方面結合的第六方面還包括使用拓撲游標響應于運行計算方 案啟動數據集的可視化。
[0012] 描述在本說明書中的主題可以在特定實現方式中實現,以便實現如下優點中的一 個或多個。首先,商業智能數據規范語言(DaSL)可以被用來高效地構建用于數據的極端可 視化的表達應用。DaSL基于從由數據源展示的數據模型中提取的輸入模式,而且它的簡化 表達可以被編譯為由數據庫支持的本機結構。在示例性實現方式中,大數據集被內存數據 庫存儲并且由內存數據庫進行查詢處理。在其它實現方式中,任何數據庫都可以使用,但是 相比于利用內存數據庫,性能可能受損。第二,DaSL查詢是簡單和簡潔的。例如,DaSL也 有專門的分箱(binning)運算符,以簡化數據聚集的執行,而無需創建具有多個資源密集 型操作的復雜查詢。第三,DaSL查詢相對于基礎數據庫模式的一些變化是健壯的,因為它 們更接近應用的語義。例如,DaSL查詢僅涉及屬性而不涉及數據庫表。第四,DaSL在資源 空間方面是高效的,在這個意義上,分配給輸入的資源空間與Bin的數量成線性,并且獨立 于輸入的大小。第五,分箱運算符在時間方面也是高效的,因為掃描兩次輸入節點表就足夠 了。第六,內存數據庫提供實時提供極端數據可視化所需的性能。其他優點對本領域的普 通技術人員來說是顯而易見的。
[0013] 本說明書的主題的一種或多種實現方式的細節展示在附圖和下面的描述中。該主 題的其他特征、方面和優點將從該描述、附圖和權利要求書中明顯看出。
【附圖說明】
[0014] 圖1示出根據一個實現方式的、存儲在數據庫中的示例性大數據集表的一部分的 示例性屏幕截圖。
[0015] 圖2A示出了根據一個實現方式的、使用由經典方法生成的圖1的數據的表的一部 分的示例性屏幕截圖。
[0016] 圖2B示出了根據一個實現方式的、用于數據規范語言(DaSL)查詢的示例性計算 方案。
[0017] 圖3示出根據一個實現方式的、輸入DaSL查詢的示例性屏幕截圖。
[0018] 圖4是根據一個實現方式的、使能用于數據庫中存儲的大數據集的極端可視化的 示例性分布式計算系統的框圖。
[0019] 圖5是示出根據一個實現方式的、使能用于數據庫中存儲的大數據集的極端可視 化的方法的序列圖。
[0020] 在各圖中,相同的參考標記和標號指示相同元件。
【具體實施方式】
[0021] 本公開一般描述用于使能存儲在數據庫中的大數據集的極端可視化的計算機實 現的方法、計算機程序產品和系統。給出以下描述以使任一本領域技術人員能做出并使用 本發明,并且在一個或多個特定實現的上下文中提供以下描述。對本領域技術人員來說,對 公開的實現的各種修改將是非常明顯的,并且本文定義的一般原理可以應用于其他實現和 應用而不脫離本公開的范圍。因此,本公開不打算限制描述和/或示出的實施例,而是符合 與本文公開的原理和特征一致的最寬的范圍。
[0022] 創建數據庫中存儲的大數據集的可視化是個難題。分辨率和像素數限制了可以在 任何視覺顯示器上顯示的數據點的數量。雖然現代移動設備,例如智能電話和平板計算機, 有能力向終端用戶提供豐富多樣的數據集,但是更小的顯示器和減少的像素數進一步加劇 該問題。人眼受限的視覺敏銳度可能將在視覺顯示器上標繪符號的龐大數量的數據點減少 到不可辨別的數據點的集合。此外,可用網絡帶寬,例如與蜂窩網絡相關聯的帶寬,可能在 嘗試將大量數據集傳送到移動設備以用于可視化時成為瓶頸。所謂的"極端可視化"的各 種方法可以被用來嘗試將大數據集可視化