一種地理空間數據的用戶隱私保護方法及系統的制作方法
【技術領域】
[0001] 本發明屬于信息安全隱私保護領域,特別涉及一種地理空間數據的用戶隱私保護 方法及系統。
【背景技術】
[0002] 信息時代的飛速發展,使得數據的獲取變得日益容易,如用戶的移動軌跡數據、購 物記錄數據和辦公/家庭地址數據等,所有這些由位置點構成的數據稱之為地理空間數 據。通過對地理空間數據進行分析,能夠獲取很多有用信息。對于交通部門,可以通過分析 用戶移動軌跡數據,得出當前交通狀況,為城市交通控制提供數據支持;對于商家,可以分 析用戶購物記錄數據或車輛移動軌跡數據,得出用戶感興趣的區域或者聚集地,為商業布 局提供數據支持;對于城市規劃局,可以分析用戶家庭地址數據,得出城市住宅布局信息, 為城市規劃提供數據支持。
[0003] 上述決策制定離不開對數據的分析,這些數據的發布與共享為決策制定與科研分 析提供了極大便利,然而,數據的分析不可避免地涉及到用戶隱私安全,存在隱私泄露風 險。例如,2015年,麻省理工學院研究員DeMontjoye等證明,在一個110萬人的匿名購物 記錄數據中,僅需要四條購物記錄中的日期和位置信息,便能識別出數據集中90%的用戶, 當今,用戶隱私問題已經成為地理空間數據應用的阻礙,如何確保數據高可用性的同時保 證用戶隱私安全是我們需要考慮的問題。
[0004] 地理空間數據的廣泛應用為數據的安全性提出了更高的要求,如安全可控和嚴格 地可證明安全性,傳統的基于匿名模型(如k-匿名、1-多樣性)的方法存在泄露用戶隱私 的風險,并且不能提供安全可控的隱私保護。與此相反,差分隱私是一種嚴格證明和安全可 控的隱私保護技術,在數據分析和應用的同時,能夠保護用戶隱私數據不被泄露,差分隱私 已經成為信息安全研究領域隱私保護事實上的標準。差分隱私通過噪音機制實現,即向輸 出結果中添加隨機噪聲來保護數據安全,添加的噪聲越大,數據越安全,然而,數據的可用 性越低,反之亦然,即數據安全性與數據可用性是一對矛盾關系。
[0005] 基于差分隱私的數據隱私保護為了提高數據的可用性,增強查詢精度,提出了基 于樹型結構的隱私空間分解方法,它主要是將一個整體數據空間劃分成為若干個獨立單元 格,然后統計每個單元格中的點數。
[0006] Cormode等基于完全四叉樹提出一種算法,此算法主要采用等比預算分配策略為 四叉樹每層分配不同隱私預算,以提高數據查詢精度。Fan等利用四叉樹將數據空間遞歸劃 分成四等份,與kd-樹劃分相比,四叉樹遞歸劃分效率高。然而,當數據比較稀疏時,會導致 較大誤差。為了降低添加噪聲大小,提高數據查詢精確度,Fan等人將相似單元格合并到一 個劃分中以克服數據的稀疏性,并向此劃分添加噪聲,降低了每個單元格中噪聲大小。針對 二維地理空間數據,通過樹型結構對數據域進行分割以提高數據可用性時,樹深是影響數 據查詢結果的關鍵因素,而上述文獻沒有給出具體樹深或者劃分粒度的理論支持。Qardaji 等從數據域的劃分粒度出發,研究如何構建差分隱私數據集,并提出一種基于噪聲誤差和 均勻假設誤差的粒度劃分模型,開辟了提高數據可用性的新方向,然而其模型建立時假設 數據查詢形狀為正方形,長等于寬,不符合數據查詢實際情況,并且設均勻假設誤差正比于 查詢邊界單元格中總點數,未考慮單元格面積因素。
【發明內容】
[0007] 針對現有技術存在的不足,本發明結合一種新穎的數據域粒度劃分模型和均勻性 度量參數,提供了一種面向地理空間數據的用戶隱私保護技術方案。
[0008] 本發明的技術方案提供一種地理空間數據的用戶隱私保護方法,包括以下步驟,
[0009] 步驟1,根據數據域粒度劃分模型對數據空間進行分割,包括以下步驟,
[0010] 步驟1. 1,根據數據空間大小得到數據空間的長度L和寬度H;
[0011] 步驟1. 2,根據以下數據域粒度劃分模型,將數據空間劃分為mXm個單元格,
[0012]
[0013] 其中,k為相對誤差與面積的比例系數,e為隱私預算,
[0014] 計算橫軸上每個單元格長度1,I=L/m,
[0015] 計算縱軸上每個單元格長度h,h=H/m,
[0016] 根據1和h的值,依次記錄每個單元格Ci的左、上、右、下四個邊框的坐標值,i= 1,2,? ? ?,mXm ;
[0017]步驟1. 3,從數據集中依次取出一個數據點point(X,y),如果point(X,y)落于單 元格C1,則C1增加一個計數,否則不增加;
[0018] 步驟1.4,返回步驟1.3從數據集中依次取出下一個數據點進行處理, 直到數據集中所有數據點都取完成為止,最后得到一個數據空間S的單元格集合 Ic1,C2,…Ci,…CmxJ,對應的計數集合為(X1,X2,…Xi,…XmxJ,Xi為單元格Ci中的數據 點計數;
[0019] 步驟2,基于均勻性度量參數,將相似單元格合并到同一個劃分,包括以下步驟,
[0020] 步驟2. 1,從數據空間S的mXm個單元格中依次取出一個單元格Ci,計算均勾性 度量參數U(S),
[0022] 其中,X(Ci)為當前單元格中數據點集計數,X(Cj)為除當前單元格的其他單元格 中數據點集計數,Ix(Ci)-X(Cj) I不超過相應給定閾值,Num為Ix(Ci)-X(Cj) I不超過相應給 定閾值的單元格總個數;
[0023] 步驟2. 2,若U(S)小于等于相應給定閾值,則單元格(^與c^合并到一個劃分,若 大于相應給定閾值,則單元格(^與c,不合并到一個劃分;
[0024] 若當前單元格C1沒有與任何單元格進行合并,則當前單元格c1單獨作為一個劃 分;
[0025] 將合并的單元格從數據空間S中移除;
[0026] 步驟2. 3,返回步驟2. 1從數據空間S中依次取出下一個單元格進行處理,直到數 據空間S為空,設得到N個劃分,最后得到一個數據空間S的劃分集合{Pl,p2,...pn,...pN}, n= 1,2,. ..,N;步驟3,向每個劃分中分別添加符合拉普拉斯分布的隨機噪聲,得到含噪數 據集,包括以下步驟,
[0027] 步驟3. 1,計算符合拉普拉斯分布的隨機噪聲noise~Lap(Af/e),相應位置參 數為〇,尺度參數為△f/e,其中,△f為全局敏感度;
[0028] 步驟3. 2,從數據空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取出一個劃分pn, 向劃分Pn中添加噪聲noise(pn);
[0029] 步驟3. 3,計算劃分pn中每個單元格噪聲的大小,設某單元格c;為劃分pn中所包 含的單元格,相應噪聲noise(Ci) =noise(pn)/pn.size(),pn.size()為劃分pn中所包含的 單元格個數;
[0030] 步驟3. 4,返回步驟3. 2從數據空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取 出下一個劃分進行處理,直到數據空間S的N個劃分都取完為止,最后得到一個含噪數據集 {無,天,....?,,...元/,,,},每個含噪計數.|;對應一個單元格 (;1;
[0031] 步驟4,基于含噪數據集對外提供數據查詢結果,包括以下步驟,
[0032] 步驟4. 1,給定一個查詢Q,指定左、上、右、下四個邊框的坐標值,Q為正方形或矩 形;
[0033] 步驟4. 2,從數據空間S的mXm個單元格中依次取出一個單元格C1,若C1完全包 含于查詢Q,則Q得到單元格C1的噪聲計數果'=笨,若C1不完全包含于查詢Q,Q與c,的交 集為I1,通過I1的面積與c,面積的比值乘以噪聲計數尾得到交集I1中的噪聲計數足、
[0034] 步驟4. 3,返回步驟4. 2從數據空間S的mXm個單元格中依次取出下一個單元格 進行處理,直到數據空間S的mXm個單元格都取完為止,求得查詢Q包含的單元格中噪聲 計數&'之和%
[0035] 步驟4. 4,為查詢Q返回含噪結果X6
[0036] 而且,步驟3. 1中,全局敏感度Af= 1。
[0037] 而且,步驟4. 2中,若C1不完全包含于查詢Q,Q與單元格ci交集Ii的噪聲計數 X' =.yXarea(/)jarea(c),area(Ii)為Q與單元格Ci交集I;的面積,area(c;)為單元格 C1的面積。
[0038] 本發明提供一種地理空間數據的用戶隱私保護系統,包括以下模塊,
[0039] 數據空間分割模塊,用于根據數據域粒度劃分模型對數據空間進行分割,包括以 下子模塊,
[