一種識別獨立用戶的方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及互聯網技術,尤指一種識別獨立用戶(UV,Unique Visitor)的方法和 裝置。
【背景技術】
[0002] 在科技產品和互聯網飛速發展的當下社會,一人多機已經成為人們生活中的普遍 現象。很多網民通常同時擁有手機,平板電腦及臺式機等電子設備,甚至一人持有多部手 機,或多臺電腦。如何準確識別獨立用戶對于信息對象的監測具有重大意義。
[0003] 現有的識別獨立用戶的方法中,將個人計算機(PC, Personal Computer)設備 和移動設備分記為兩個不同的獨立用戶。其中,對于PC設備采用cookie來識別獨立用 戶。Cookie是指某些網站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端 上的數據。對于多次出現的訪問數據,如果具有相同的Cookie,則認為是同一個獨立用 戶。對于移動設備采用設備標識(ID)來識別獨立用戶。設備ID可以是開放設備識別 碼(OpenUDID)、廣告標示符(IDFA,Identifier For Advertising)、移動設備國際身份 碼(IMEI,International Mobile Equipment Identity)、媒體訪問控制地址(MAC,Media Access Control Address)、安卓標識(AndroidID)、設備指紋、Cookie等信息中的一個或多 個。
[0004] 現有的識別獨立用戶的方法中,由于同一個獨立用戶可能在較短的時間內先后使 用多臺PC設備和/或多臺移動設備訪問相同的內容,例如某大型快餐連鎖品牌的廣告;而 使用現有的識別獨立用戶的方法來識別獨立用戶時,該獨立用戶使用的PC設備計為一個 獨立用戶,移動設備計為另一個獨立用戶。這與只有一個獨立用戶的實際情況是不符的,從 而使得識別獨立用戶的精度較低。
[0005] 現有的另一種識別獨立用戶的方法是根據互聯網協議(IP,InternetProtocol) 地址來識別獨立用戶,即相同IP地址的用戶為同一獨立用戶,而不同IP地址的用戶為不同 的獨立用戶。該方法忽略了相同IP地址的用戶也可能是不同的獨立用戶,例如,網吧中多 臺設備通過光纖專線接入網絡,雖然具有相同的IP地址,但大多數為不同的獨立用戶,從 而識別獨立用戶的精度較低。
【發明內容】
[0006] 為了解決上述問題,本發明提出了一種識別獨立用戶的方法和裝置,能夠提高識 別獨立用戶的精度。
[0007] 為了達到上述目的,本發明提出了一種識別獨立用戶的方法,包括:
[0008] 獲取第一閾值;
[0009] 在第二預設時間內獲取不同設備的上網行為數據,所述上網行為數據至少包括通 用唯一識別碼UUID、互聯網協議IP地址和時間;
[0010] 計算同一 IP地址對應的UUID的個數,判斷出計算得到的UUID的個數大于第一閾 值,所述同一 IP地址對應的各UUID均為不同的獨立用戶。
[0011] 優選地,所述獲取第一閾值包括:
[0012] 選取第一樣本用戶集合,在第一預設時間或第一預設時間周期內統計所述第一樣 本用戶集合中每個樣本用戶使用過的UUID的個數,計算第一樣本用戶集合中所有樣本用 戶的UUID的個數的均值和標準差,將高于均值三個標準差的UUID的個數作為第一閾值。
[0013] 優選地,當判斷出計算得到的UUID的個數小于或等于第一閾值時,該方法還包 括:
[0014] 為所述同一 IP地址對應的各UUID分配關聯標識;
[0015] 所述關聯標識相同的UUID為同一獨立用戶,所述關聯標識不同的各UUID均為不 同的獨立用戶。
[0016] 優選地,所述為所述同一 IP地址對應的各UUID分配關聯標識包括:
[0017] 獲取第二閾值;
[0018] 將所述同一 IP地址對應的各UUID的所有上網行為數據按照時間順序排列;
[0019] 將排列好的第一項上網行為數據設置為當前項;
[0020] 根據自身保存的UUID和關聯標識之間的對應關系判斷出所述當前項中的UUID 存在關聯標識,且判斷出所述當前項存在下一項,計算所述當前項和下一項之間的時間間 隔;
[0021] 判斷出計算得到的時間間隔大于所述第二閾值,將所述下一項上網行為數據設置 為所述當前項,重復判斷直至所述當前項不存在下一項。
[0022] 優選地,所述獲取第二閾值包括:
[0023] 選取第二樣本用戶集合,在第三預設時間內或者在第二預設時間周期內統計第二 樣本用戶集合中每個樣本用戶使用的UUID和IP均發生變化時,前一次和后一次產生上網 行為的時間間隔,計算第二樣本用戶集合中所有樣本用戶的時間間隔的均值和標準差,將 低于均值三個標準差的時間間隔作為第二閾值。
[0024] 優選地,當根據自身保存的UUID和關聯標識之間的對應關系判斷出所述當前項 中的UUID不存在關聯標識時,該方法還包括:
[0025] 為所述當前項中的UUID分配關聯標識;
[0026] 保存所述當前項中的UUID和分配的關聯標識之間的對應關系。
[0027] 優選地,當判斷出計算得到的時間間隔小于或等于所述第二閾值,且所述下一項 中的UUID不存在關聯標識時,該方法還包括:
[0028] 為所述下一項中的UUID分配與所述當前項中的UUID的關聯標識相同的關聯標 識;
[0029] 保存所述下一項中的UUID和分配的關聯標識之間的對應關系;
[0030] 將所述下一項設置為所述當前項。
[0031] 優選地,當判斷出所述下一項中的UUID存在關聯標識,且所述下一項中的UUID的 關聯標識與所述當前項中的UUID的關聯標識不相同時,該方法還包括:
[0032] 根據自身保存的UUID和關聯標識之間的對應關系,將與所述下一項中的UUID的 關聯標識相同的所有UUID的關聯標識更改為所述當前項中的UUID的關聯標識。
[0033] 本發明還提出了一種識別獨立用戶的裝置,至少包括:
[0034] 獲取模塊,用于獲取第一閾值;在第二預設時間內獲取不同設備的上網行為數據, 所述上網行為數據至少包括通用唯一識別碼UUID、互聯網協議IP地址和時間;
[0035] 計算模塊,用于計算同一 IP地址對應的UUID的個數;
[0036] 判斷模塊,用于判斷出計算得到的UUID的個數大于第一閾值,所述同一 IP地址對 應的各UUID均為不同的獨立用戶。
[0037] 優選地,所述判斷模塊,還用于:
[0038] 判斷出計算得到的UUID的個數小于或等于第一閾值,為所述同一 IP地址對應的 各UUID分配關聯標識;所述關聯標識相同的UUID為同一獨立用戶,所述關聯標識不同的各 UUID均為不同的獨立用戶。
[0039] 優選地,所述判斷模塊判斷出計算得到的UUID的個數小于或等于第一閾值后,具 體用于:
[0040] 將所述同一 IP地址對應的各UUID的所有上網行為數據按照時間順序排列;將排 列好的第一項上網行為數據設置為當前項;根據自身保存的UUID和關聯標識之間的對應 關系判斷出所述當前項中的UUID存在關聯標識,且判斷出所述當前項存在下一項,計算所 述當前項和下一項之間的時間間隔;判斷出計算得到的時間間隔大于第二閾值,將所述下 一項上網行為數據設置為所述當前項,重復判斷直至所述當前項不存在下一項;
[0041] 所述判斷模塊判斷出計算得到的UUID的個數小于或等于第一閾值后