一種基于計量模型的決策方法和裝置的制造方法
【專利摘要】本申請公開了一種基于計量模型的決策方法和裝置,該方法包括:自動化決策裝置確定每個用戶組中的各用戶在當前觀測點的數據集;自動化決策裝置利用所述各用戶在當前觀測點的數據集對每個用戶組進行調整函數的擬合,并從調整函數的擬合結果中選取調整函數;自動化決策裝置獲取當前觀測點的計量模型輸出結果以及當前選取的調整函數,利用所述調整函數對計量模型輸出結果進行調整;自動化決策裝置利用調整后的計量模型輸出結果進行決策。本申請實施例中,自動化決策裝置可進行跨模型輸出的自適應融合,為決策系統提供一個綜合的計量模型,能夠利用最新的行為數據,對不同用戶群體的計量模型進行基于累積事件發生概率一致的在線自適應調整。
【專利說明】
-種基于計量模型的決策方法和裝置
技術領域
[0001] 本申請設及互聯網領域,尤其設及一種基于計量模型的決策方法和裝置。
【背景技術】
[0002] 計量模型,通過方程定量地或者定性地描述系統各個變量之間的相互關系或者因 果關系,從而對未來事件是否會發生做出預測。計量模型可W被應用在各個領域中。例如, 在營銷領域中,通過計量模型可W對客戶是否對提供的營銷活動做出響應;在電子商務領 域中,通過計量模型可W預測客戶在未來一段時間內是否會購買某個商品。計量模型的應 用,特別是在大數據時代,已經被證明了能夠在業務決策中給企業或者個人提供很好的參 考依據。
[0003] 在計量模型開發過程中,開發人員會為每個客戶分組(獨立產品的客戶)建立一 個模型,并在系統中進行部署。在運樣的場景下,決策系統需要有對應的若干套獨立的策略 來分別處理不同的客戶群體。例如,在營銷準入策略上,產品A的客戶組準入概率為10% W 下,產品B的客戶組準入概率為20 %。
[0004] 在針對不同客戶群分別制定策略時,雖然可W在單獨的客戶群體達到最優的策略 目標,但并不能達到全局最優,并且在諸如產品準入策略中,也無法保證在不同準入客戶群 體之間的整體事件發生概率水平的一致。進一步的,為了提高計量模型在商業應用中的性 能,全體客戶通常會被先分群,然后在分別為每個子客戶群開發一套計量模型。而在策略 端,就會面臨如何基于多個子計量模型輸出進行綜合決策的困境。因此,如何進行跨模型輸 出自適應融合,為決策系統提供一個綜合的計量模型是業界遇到的一大難題。
【發明內容】
[0005] 本申請實施例提供一種基于計量模型的決策方法和裝置,W進行跨模型輸出的自 適應融合,為決策系統提供一個綜合的計量模型。
[0006] 本申請實施例提供一種基于計量模型的決策方法,所述方法包括W下步驟:自動 化決策裝置確定每個用戶組中的各用戶在當前觀測點的數據集;
[0007] 所述自動化決策裝置利用所述各用戶在當前觀測點的數據集對每個用戶組進行 調整函數的擬合,并從調整函數的擬合結果中選取調整函數;
[0008] 所述自動化決策裝置獲取當前觀測點的計量模型輸出結果W及當前選取的調整 函數,并利用所述調整函數對計量模型輸出結果進行調整;
[0009] 所述自動化決策裝置利用調整后的計量模型輸出結果進行決策。
[0010] 所述數據集內包含了用戶組中的各用戶的計量模型輸出結果、時間事件發生標 記、用戶標識。
[0011] 所述自動化決策裝置確定每個用戶組中的各用戶在當前觀測點的數據集的過程, 具體包括:
[0012] 所述自動化決策裝置獲取當前觀測點,并確定距離所述當前觀測點最近的一個含 有完整表現期的觀測點,并獲取所述含有完整表現期的觀測點的所有用戶的計量模型輸出 結果;所述自動化決策裝置獲取用戶在指定時間段內的行為數據,所述指定時間段為所述 含有完整表現期的觀測點到當前時間點的間隔;所述自動化決策裝置利用用戶在指定時間 段內的行為數據計算用戶對應的時間事件發生標記,用戶在表現期內發生事件的時間事件 發生標記為第一標識,用戶在表現期內未發生事件的時間事件發生標記為第二標識。
[0013] 所述自動化決策裝置利用所述各用戶在當前觀測點的數據集對每個用戶組進行 調整函數的擬合,并從調整函數的擬合結果中選取調整函數的過程,具體包括:基于預先 配置的函數模板,所述自動化決策裝置在相同累積事件發生率下,W最小化計量模型的概 率分界差異為目標,根據自變量與因變量W及每個用戶組中的各用戶在當前觀測點的數據 集,對每個用戶組進行調整函數的擬合,W擬合得出調整函數的函數形式,并從調整函數的 擬合結果中選取符合數據真實對應關系的調整函數。
[0014] 所述自動化決策裝置確定的每個用戶組中的各用戶在當前觀測點的數據集Μ = (Ml, M2,…,Mk},Ml為第1個用戶組中的各用戶在所述當前觀測點的數據集,Μ 2為第2個用 戶組中的各用戶在所述當前觀測點的數據集,…,Mk為第k個用戶組中的各用戶在所述當 前觀測點的數據集;所述自動化決策裝置利用所述各用戶在當前觀測點的數據集對每個用 戶組進行調整函數的擬合,并從調整函數的擬合結果中選取調整函數的過程,具體包括:
[0015] 對于Μ中的每個Mk,所述自動化決策裝置按照計量模型輸出結果從低到高進行排 序;所述自動化決策裝置按照計量模型輸出結果從低到高的順序,W-定間隔的累積事件 發生率捜索對應的計量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事件 發生率下捜索到對應的模型輸出分數;
[0016] 所述自動化決策裝置利用所述累積事件發生率列表和所述模型輸出分數得到N 組數據點Pi;其中,1《i《N,所述N為預設數值;
[0017] 所述自動化決策裝置得到k個數據點集合P =巧1,P2,…,Pk};
[001引所述自動化決策裝置在所述數據點集合P中選取一個數據點集合,對于數據點集 合P中剩下的其它k-1個數據點集合Pk,在相同累積事件發生率列表下,其它k-1個數據點 集合Pk中的模型輸出分數作為自變量,當前選取的數據點集合中的模型輸出分數作為因變 量,通過得到最小化預測標準差為目標,在線擬合出其它k-1個數據點集合Pk中的模型輸 出分數映射到當前選取的數據點集合中的模型輸出分數的調整函數,計算調整函數的擬合 優度。
[0019] 本申請實施例提供一種自動化決策裝置,所述自動化決策裝置具體包括:
[0020] 確定模塊,用于確定每個用戶組中的各用戶在當前觀測點的數據集;
[0021] 選擇模塊,用于利用所述各用戶在當前觀測點的數據集對每個用戶組進行調整函 數的擬合,并從調整函數的擬合結果中選取調整函數;
[0022] 調整模塊,用于獲取當前觀測點的計量模型輸出結果W及當前選取的調整函數, 并利用所述調整函數對計量模型輸出結果進行調整;
[0023] 決策模塊,用于利用調整后的計量模型輸出結果進行決策。
[0024] 所述數據集內包含了用戶組中的各用戶的計量模型輸出結果、時間事件發生標 記、用戶標識。
[00巧]所述確定模塊,具體用于獲取當前觀測點,并確定距離所述當前觀測點最近的一 個含有完整表現期的觀測點,并獲取所述含有完整表現期的觀測點的所有用戶的計量模型 輸出結果;獲取用戶在指定時間段內的行為數據,所述指定時間段為所述含有完整表現期 的觀測點到當前時間點的間隔;
[0026] 利用用戶在指定時間段內的行為數據計算用戶對應的時間事件發生標記,用戶在 表現期內發生事件的時間事件發生標記為第一標識,用戶在表現期內未發生事件的時間事 件發生標記為第二標識。
[0027] 所述選擇模塊,具體用于基于預先配置的函數模板,在相同累積事件發生率下,W 最小化計量模型的概率分界差異為目標,根據自變量與因變量W及每個用戶組中的各用戶 在當前觀測點的數據集,對每個用戶組進行調整函數的擬合,W擬合得出調整函數的函數 形式,并從調整函數的擬合結果中選取符合數據真實對應關系的調整函數。
[0028] 所述確定模塊確定的每個用戶組中的各用戶在當前觀測點的數據集Μ = {Ml, M2, 一,Μ,},Mi為第1個用戶組中的各用戶在所述當前觀測點的數據集,M2為第2個用戶組 中的各用戶在所述當前觀測點的數據集,…,Mk為第k個用戶組中的各用戶在所述當前觀 測點的數據集;
[0029] 所述選擇模塊,具體用于對于Μ中的每個Mk,按照計量模型輸出結果從低到高進 行排序;按照計量模型輸出結果從低到高的順序,W-定間隔的累積事件發生率捜索對應 的計量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事件發生率下捜索到 對應的模型輸出分數;利用所述累積事件發生率列表和所述模型輸出分數得到N組數據點 Pi;其中,所述N為預設數值;得到k個數據點集合P= {Pi,P2,…擊};在所述 數據點集合P中選取一個數據點集合,對于數據點集合P中剩下的其它k-1個數據點集合 Pk,在相同累積事件發生率列表下,其它k-1個數據點集合Pk中的模型輸出分數作為自變 量,當前選取的數據點集合中的模型輸出分數作為因變量,通過得到最小化預測標準差為 目標,在線擬合出其它k-1個數據點集合Pk中的模型輸出分數映射到當前選取的數據點集 合中的模型輸出分數的調整函數,計算調整函數的擬合優度。
[0030] 與現有技術相比,本申請實施例至少具有W下優點:本申請實施例中,自動化決策 裝置可進行跨模型輸出的自適應融合,為決策系統提供一個綜合的計量模型,能夠利用最 新的行為數據,對不同用戶群體的計量模型進行基于累積事件發生概率一致的在線自適應 調整,能夠對計量模型之間的輸出進行很好的整合,為決策系統提供綜合的計量模型結果, 可W利用最新的表現數據,進行線上實時擬合調整函數,達到對樣本持續跟蹤W及計量模 型整合持續調整的效果,具有很好的通用性,可被應用于商業機構決策、客戶管理等系統, 對具有預測相同事件發生概率功能的計量模型進行跨模型線上整合。
【附圖說明】
[0031] 為了更加清楚地說明本申請實施例的技術方案,下面將對本申請實施例描述中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施 例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W根據本申請實施 例的運些附圖獲得其他的附圖。
[0032] 圖1是本申請實施例一提供的一種基于計量模型的決策方法流程示意圖;
[0033] 圖2是本申請實施例一中提出的自動化決策裝置的結構示意圖;
[0034] 圖3是本申請實施例一中提出的樣本觀測點及表現期示意圖;
[0035] 圖4是本申請實施例一中提出的自動化決策裝置的結構示意圖;
[0036] 圖5是本申請實施例一中提出的跨模型分數融合自適應系統的流程圖;
[0037] 圖6是本申請實施例一中提出的模型B分數與模型A分數的映射關系;
[0038] 圖7是本申請實施例一中提出的在測試數據集上,Ξ個模型的結果在通過分數融 合自適應系統前后的對比結果的示意圖;
[0039] 圖8是本申請實施例二提供的一種自動化決策裝置的結構示意圖。
【具體實施方式】
[0040] 下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請的一部分實施例,而不是全部的實施例。基 于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其 他實施例,都屬于本申請保護的范圍。 柳41] 實施例一
[0042] 針對現有技術中存在的問題,本申請實施例一提供一種基于計量模型的決策方 法,如圖1所示,該基于計量模型的決策方法具體可W包括W下步驟:
[0043] 步驟101,自動化決策裝置確定每個用戶組中的各用戶在當前觀測點的數據集。其 中,每個用戶組中的各用戶在當前觀測點的數據集內包含了用戶組中的各用戶的計量模型 輸出結果、時間事件發生標記、用戶標識。 W44] 本申請實施例中,自動化決策裝置確定每個用戶組中的各用戶在當前觀測點的數 據集的過程,具體包括但不限于如下方式:自動化決策裝置獲取當前觀測點,并確定距離該 當前觀測點最近的一個含有完整表現期的觀測點,并獲取含有完整表現期的觀測點的所有 用戶的計量模型輸出結果;進一步的,自動化決策裝置獲取用戶在指定時間段內的行為數 據,該指定時間段為含有完整表現期的觀測點到當前時間點的間隔;進一步的,自動化決策 裝置利用用戶在指定時間段內的行為數據計算用戶對應的時間事件發生標記;其中,用戶 在表現期內發生事件的時間事件發生標記為第一標識(如0),用戶在表現期內未發生事件 的時間事件發生標記為第二標識(如1)。
[0045] 步驟102,自動化決策裝置利用各用戶在當前觀測點的數據集對每個用戶組進行 調整函數的擬合,并從調整函數的擬合結果中選取調整函數。
[0046] 本申請實施例中,自動化決策裝置利用各用戶在當前觀測點的數據集對每個用戶 組進行調整函數的擬合,并從調整函數的擬合結果中選取調整函數的過程,具體可W包括 但不限于如下方式:基于預先配置的函數模板,自動化決策裝置在相同累積事件發生率下, W最小化計量模型的概率分界差異為目標,根據自變量與因變量W及每個用戶組中的各用 戶在當前觀測點的數據集,對每個用戶組進行調整函數的擬合,W擬合得出調整函數的函 數形式,并從調整函數的擬合結果中選取符合數據真實對應關系的調整函數。
[0047] 本申請實施例中,自動化決策裝置確定的每個用戶組中的各用戶在當前觀測點的 數據集M= {Ml, M2, 一,Μ,ΚΜι為第1個用戶組中的各用戶在所述當前觀測點的數據集,M2 為第2個用戶組中的各用戶在所述當前觀測點的數據集,…,Mk為第k個用戶組中的各用 戶在所述當前觀測點的數據集。基于此,自動化決策裝置利用各用戶在當前觀測點的數據 集對每個用戶組進行調整函數的擬合,并從調整函數的擬合結果中選取調整函數的過程, 具體包括但不限于:對于Μ中的每個Mk,自動化決策裝置按照計量模型輸出結果從低到高 進行排序;自動化決策裝置按照計量模型輸出結果從低到高的順序,W-定間隔的累積事 件發生率捜索對應的計量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事 件發生率下捜索到對應的模型輸出分數;自動化決策裝置利用累積事件發生率列表和模型 輸出分數得到N組數據點Pi;其中,1《i《N,N為預設數值;自動化決策裝置得到k個數據 點集合P=巧i,P2,…,PJ ;自動化決策裝置在數據點集合P中選取一個數據點集合,對于 數據點集合P中剩下的其它k-1個數據點集合Pk,在相同累積事件發生率列表下,其它k-1 個數據點集合Pk中的模型輸出分數作作為自變量,當前選取的數據點集合中的模型輸出分 數作作為因變量,通過得到最小化預測標準差為目標,在線擬合出其它k-1個數據點集合Pk 中的模型輸出分數作映射到當前選取的數據點集合中的模型輸出分數作的調整函數,計算 調整函數的擬合優度。
[0048] 本發明實施例中,累積事件發生率列表可通過cum_event_rate(i)表示,在每個 累積事件發生率下捜索到對應的模型輸出分數可通過predict_edge(i)表示。1《i《N, N為預設數值,cum_event_rate (腳為k個用戶組中的整體事件發生率最低的用戶組的整體 發生率值。基于此,自動化決策裝置得到的N組數據點Pi= (cum_event_rate(i),predict_ edge(i))。進一步的,對于數據點集合P中剩下的其它k-1個數據點集合Pk,在相同cum_ event_rate (i)下,其它k-1個數據點集合Pk中的predict_edge (i)作為自變量,當前選取 的數據點集合中的predict_edge (i)作為因變量,通過得到最小化預測標準差為目標,在 線擬合出其它k-1個數據點集合Pk中的predict_edge映射到當前選取的數據點集合中的 predict_edge的調整函數,計算調整函數的擬合優度。
[0049] 步驟103,自動化決策裝置獲取當前觀測點的計量模型輸出結果W及當前選取的 調整函數,并利用調整函數對計量模型輸出結果進行調整。
[0050] 步驟104,自動化決策裝置利用調整后的計量模型輸出結果進行決策。
[0051] 與現有技術相比,本申請實施例至少具有W下優點:本申請實施例中,自動化決策 裝置可W實現跨模型分數融合的自適應系統,可W進行跨模型輸出的自適應融合,為決策 系統提供一個綜合的計量模型,能夠利用最新的行為數據,對不同用戶群體的計量模型進 行基于累積事件發生概率一致的在線自適應調整,能夠對計量模型之間的輸出進行很好的 整合,為決策系統提供綜合的計量模型結果,可W利用最新的表現數據,進行線上實時擬合 調整函數,達到對樣本持續跟蹤W及計量模型整合持續調整的效果,具有很好的通用性,可 被應用于商業機構決策、客戶管理等系統,對具有預測相同事件發生概率功能的計量模型 進行跨模型線上整合。其中,跨模型分數融合,指對具有預測同一事件發生概率的若干子模 型輸出進行綜合性整合,使得整合結果能夠被使用在針對全體客戶群體上的策略,同時滿 足保持子客戶群體間某些屬性一致性要求。自適應系統,指系統按照環境的變化,調整其 自身使得其行為在新的或者已經改變了的環境下,達到最好的或者至少是容許的特性和功 能,運種對環境變化具有自適應能力的系統稱為自適應系統。
[0052] W下結合具體的應用場景,對本申請實施例的技術方案進行詳細說明。
[0053] 本申請實施例中,跨模型分數融合的自適應系統(即自動化決策裝置)可W適用 于已經部署在自動化決策系統(線上)運行的各類計量模型。由于計量模型的運行周期可 w是日、周、月等,也可w是實時運行,本申請實施例中,假定計量模型是每月運行一次,運 也是計量模型中最常見的運行周期。
[0054] 如圖2所示,為自動化決策裝置的結構示意圖,該自動化決策裝置具體包括:數據 存儲模塊、模型模塊和決策模塊。如圖3所示,為樣本觀測點及表現期的示意圖。數據存儲 模塊用于存儲基礎數據(如交易明細數據等)、線上計量模型所需的基礎指標、所有客戶在 每個觀測點的模型評分結果等。模型模塊在每月的固定時間(稱之為觀測點,如圖3所示) 運行,且模型模塊在運行時,從數據存儲模塊獲取計量模型對應的當前最新的基礎指標,然 后調用計量模型或者規則,給所有客戶打分,并將打分結果存儲到數據存儲模塊。決策模塊 在需要做出決策時,從數據存儲模塊提取客戶對應的計量模型評分,做出對客戶的某個決 策,如拒絕用戶準入或者計算用戶貸款額度等。 陽化5] 在圖2所示的自動化決策裝置結構的基礎上,如圖4所示,為本申請實施例中提出 的基于跨模型分數融合自適應系統的自動化決策裝置的結構示意圖。本申請實施例中,通 過在決策模塊之前部署數據自動準備模塊、函數自適應訓練模塊、分數自動調整模塊,W切 斷決策模塊直接獲取計量模型結果的機制,而是在獲取客戶的計量模型評分之后,通過數 據自動準備模塊、函數自適應訓練模塊、分數自動調整模塊,W對計量模型的分數進行實時 調整,在得到調整后的事件發生概率值后,才提供給決策模塊進行后續決策。
[0056] 數據自動準備模塊的功能是數據抽取和計算。企業的數據,如交易數據,客戶行為 數據等,都會在數據存儲模塊進行存儲和管理。數據自動準備模塊與數據存儲模塊連接,是 自適應調整系統的數據入口。數據自動準備模塊從數據存儲模塊中提取由決策系統中運行 的計量模型輸出結果。數據自動準備模塊還需要從數據存儲模塊中提取最近一段固定時間 內用戶的行為數據。在提取到用戶的行為數據后,數據自動準備模塊開始計算在用戶維度 上,是否發生了某個需要關注的事件。比如:客戶是否響應了被推送的通知,是否發生了信 貸逾期等。在得到計量模型輸出結果W及用戶維度上的事件發生標記,數據自動準備模塊 將運兩部分數據進行整合,并傳輸給函數自適應訓練模塊。
[0057] 函數自適應訓練模塊是自適應調整系統的核屯、部分,其重要功能為自動訓練調整 函數,并提供訓練得到的調整函數的優度指標。函數自適應訓練模塊存儲有多個函數模板, 既有線性函數,也有非線性函數。在訓練的過程中,函數自適應訓練模塊能夠根據自變量與 因變量去擬合多個調整函數,并從中選取最符合數據真實對應關系的調整函數,并對調整 函數的參數進行存儲。另外,函數自適應訓練模塊還提供了不同的函數擬合方法,包括最小 二乘法、EM巧xpectation Maximuzation,期望最大化)算法等。對于線性函數,會調用最小 二乘法進行訓練,對于非線性函數,會調用EM算法進行訓練。
[0058] 分數自動調整模塊是跨模型分數融合自適應系統的實施單元,分數自動調整模塊 從數據存儲模塊獲得需要進行調整的計量模型輸出結果,并得到函數自適應訓練模塊的調 整函數的形式W及參數,然后利用函數自適應訓練模塊的調整函數的形式W及參數,對需 要進行調整的計量模型輸出結果進行調整,并將調整后的結果提供給決策模塊。由決策模 塊做出對客戶的某個決策。
[0059] 如圖5所示,為跨模型分數融合自適應系統的流程圖,具體流程包括: W60] 步驟1、在當前觀測點(如圖3所示的觀測點4),可W找到距離當前最近的一個含 有完整表現期的觀測點(圖3中的觀測點3)。數據自動準備模塊從數據存儲模塊中獲取觀 測點3的所有客戶的模型輸出結果(predict)。
[0061] 步驟2、數據自動準備模塊從數據存儲模塊中抽取用戶最新一段時間內的行為數 據,運個時間段為最近一個含有完整表現期的觀測點(如觀測點3)到當前時間點的間隔。 之后,數據自動準備模塊可W計算每個客戶在對應表現期內是否發生某個事件(event),事 件發生則event = 1,否則event = 0。
[0062] 步驟3、將步驟1和步驟2得到的數據合并成為最終數據集,該數據集包含了模型 輸出結果predict和時間事件發生標記event,并包含客戶標識字段,該最終數據集記為數 據集Mi= {ID,predict,event}。同理,重復步驟1-步驟3,可W得到需要進行分數融合的其 他k-1個客戶組模型的數據集,因此,M= 一,Μ,ΚΜι為第1個用戶組中的各用戶在 所述當前觀測點的數據集,M2為第2個用戶組中的各用戶在所述當前觀測點的數據集,…, Mk為第k個用戶組中的各用戶在所述當前觀測點的數據集。數據集Μ= {Ml, M2, 一,Μ,}被 數據自動準備模塊傳送到函數自適應訓練模塊。
[0063] 步驟4、函數自適應訓練模塊在得到數據集后,開始進行調整函數擬合。對于Μ 中的每個Mk,函數自適應訓練模塊對數據樣本按照模型結果(predict)從低到高進行排 序。之后,函數自適應訓練模塊按照模型結果從低到高的方向,W-定間隔的累積事件發 生率捜索對應的模型輸出概率(predict)邊界。假設累積事件發生率從0. 1 %開始,間隔 為〇.1%,則得到累積事件發生率列表州111_6¥6]11:_阿10=(〇.1%,〇.2%,〇.3%,.-,州111_ event_rate(i)),l《i《N,其中,州m_event_rate(N)為k個用戶組中的整體事件發生率 最低的那個用戶組的整體發生率值。對應地,每個累積事件發生率下都能捜索到對應的一 個模型輸出分數,分別記為cum_event_rate (i)和predict_edge (i)。運樣,可W得到N組 數據點Pi=(州m_event_rate(i),predict_edge(i))。一般而言,N的設置需要根據客戶 群體確定一個合適的數值,太小的N會使得擬合的數據偏少,擬合結果誤差偏大。同理,可 W得到其他k-1個數據點集合,基于此,函數自適應訓練模塊可W得到k個數據點集合P = 化,?2,…,PlJ。 W64] 函數自適應訓練模塊在數據點集合P中選取一個數據點集合,假設選取Pi作為 標準,對于數據點集合P中剩下的其它k-1個數據點集合中的任何一個Pk,在相同的cum_ event_rate (i)下,其它k-1個數據點集合Pk中的predict_edge (i)作為自變量,當前選取 的Pi中的predict_edge (i)為因變量,通過得到最小化預測標準差為目標,在線擬合出其 它k-1個數據點集合Pk中的predict_edge映射到當前選取的P 1中的predict_edge的調 整函數,并計算調整函數的擬合優度,最終,對應于k個模型,有k-1個調整函數需要擬合, 并將調整函數形式和估計參數進行存儲。至此,當前觀測點的模型分數融合自適應調整函 數已經訓練完成。
[0065] 步驟5、當決策模型需要提取客戶的計量模型評分進行決策時,會觸發分數融合自 適應系統。分數自動調整模塊從數據存儲模塊獲取當前觀測點(如圖3中的觀察點4)時 的模型輸出結果。之后,分數自動調整模塊獲取步驟4得到的對應的調整函數的形式和參 數。進一步的,客戶的模型得分通過調整函數的調整,就得到調整后的事件發生率的分數, 并提供給決策模塊使用。
[0066] 下面W某商業機構決策系統上運行的預測貸款客戶未來半年表現期內是否會發 生逾期的PD模型為例,對跨模型分數融合自適應系統的效果進行說明。效果的衡量采用 如下指標:假設貸款客戶分為κ個子客戶群,每個子客戶群的整體逾期率分別為event_ rate (i),1< = i< = K,同時對應的擁有K個子模型,每個客戶個體通過模型評分得到的預 測概率值為predict,則定義累計逾期率偏差壯為:壯(score) = max (|event_rate_p(i, score) -event_rate_p (j,score) I),1< = i,j< = Κ ;event_rate_p (i,score)為子客戶群 i 中滿足predict< = score人群的逾期率,score為(0,min(event_rate(i))]中任意值。累 積逾期率最大偏差壯_max和累積逾期率平均偏差壯_avg為:壯_max = max(壯(score)); tf_avg = avg (壯(score))。壯值越大,則說明在score的允許范圍內,群體間的整體風險差 異越大,反之,則說明風險越一致。基于此,系統上的PD模型每個月月初運行一次,每個月 運行的未來6個月為表現期窗口,W 2013/09至2013/11的數據作為訓練數據集,2013/12 月到2014/01月作為測試數據集。本申請實施例中,W 3個客戶人群為例,實驗設及到3個 PD模型之間的整合,模型分別稱為模型A,模型B和模型C。數據集基本情況如表1所示。 表2給出了函數自適應訓練模塊中對樣本數據進行處理后的結果示例。
[0067] 表 1
[0068]
[0071]函數自適應訓練模塊根據得到的累積事件發生率與對應的模型分數結果,W模型 A輸出作為標準,則W模型A概率邊界作為因變量,模型B概率邊界、模型C概率邊界作為自 變量,自適應擬合2條調整函數,并計算R-square作為擬合優度的評判指標。對于模型B 分數與模型A分數的函數關系,系統在擬合函數、對比后給出了一條指數函數,模型B分數 與模型A分數的映射關系如圖6所示,函數形式可W通過在線實現最小二乘法自適應訓練 得出。
[0072] 之后,將得到的調整函數應用到測試數據集,如圖7所示,為在測試數據集上,Ξ 個模型的結果在通過分數融合自適應系統前后的對比結果示意圖。從圖7中可W看出, 在整合前后,位于Ξ條曲線重疊部分,PD分數在Ξ個群體上對應的累積逾期率得到了很好 的整合。經過上述調整,在相同PD分數下,3組樣本的累積逾期率平均偏差從1. 6%降到 0. 3 %,最大偏差也從2 %降到了 0. 4%。從整體上來看,跨模型分數融合自適應調整有效地 利用了最新的客戶行為數據,對若干具有相同功能,建立在不同客戶群體上的模型輸出進 行了自適應調整,從而使得最終的模型輸出能夠被更廣泛的應用,同時保證了在整體客戶 上做出的決策,能夠在各子客戶群間得到一致的整體風險。 W73] 實施例二
[0074] 基于與上述方法同樣的申請構思,本申請實施例中還提供了一種自動化決策裝 置,如圖8所示,所述自動化決策裝置具體包括:
[0075] 確定模塊11,用于確定每個用戶組中的各用戶在當前觀測點的數據集;其中,所 述數據集內包含了用戶組中的各用戶的計量模型輸出結果、時間事件發生標記、用戶標 識;
[0076] 選擇模塊12,用于利用所述各用戶在當前觀測點的數據集對每個用戶組進行調整 函數的擬合,并從調整函數的擬合結果中選取調整函數;
[0077] 調整模塊13,用于獲取當前觀測點的計量模型輸出結果W及當前選取的調整函 數,并利用所述調整函數對計量模型輸出結果進行調整;
[0078] 決策模塊14,用于利用調整后的計量模型輸出結果進行決策。
[0079] 所述確定模塊11,具體用于獲取當前觀測點,并確定距離所述當前觀測點最近的 一個含有完整表現期的觀測點,并獲取所述含有完整表現期的觀測點的所有用戶的計量模 型輸出結果;獲取用戶在指定時間段內的行為數據,所述指定時間段為所述含有完整表現 期的觀測點到當前時間點的間隔;
[0080] 利用用戶在指定時間段內的行為數據計算用戶對應的時間事件發生標記,用戶在 表現期內發生事件的時間事件發生標記為第一標識,用戶在表現期內未發生事件的時間事 件發生標記為第二標識。
[0081] 所述選擇模塊12,具體用于基于預先配置的函數模板,在相同累積事件發生率下, W最小化計量模型的概率分界差異為目標,根據自變量與因變量W及每個用戶組中的各用 戶在當前觀測點的數據集,對每個用戶組進行調整函數的擬合,W擬合得出調整函數的函 數形式,并從調整函數的擬合結果中選取符合數據真實對應關系的調整函數。
[0082] 所述確定模塊11確定的每個用戶組中的各用戶在當前觀測點的數據集Μ = {Ml, M2, 一,Μ,},Mi為第1個用戶組中的各用戶在所述當前觀測點的數據集,M2為第2個用戶組 中的各用戶在所述當前觀測點的數據集,…,Mk為第k個用戶組中的各用戶在所述當前觀 測點的數據集;
[0083] 所述選擇模塊12,具體用于對于Μ中的每個Mk,按照計量模型輸出結果從低到高 進行排序;按照計量模型輸出結果從低到高的順序,W-定間隔的累積事件發生率捜索對 應的計量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事件發生率下捜索 到對應的模型輸出分數;利用所述累積事件發生率列表和所述模型輸出分數得到N組數據 點Pi;其中,i《N,所述N為預設數值;得到k個數據點集合P=巧1,?2,…,Pk};在 所述數據點集合P中選取一個數據點集合,對于數據點集合P中剩下的其它k-1個數據點 集合Pk,在相同累積事件發生率列表下,其它k-1個數據點集合Pk中的模型輸出分數作為 自變量,當前選取的數據點集合中的模型輸出分數作為因變量,通過得到最小化預測標準 差為目標,在線擬合出其它k-1個數據點集合Pk中的模型輸出分數映射到當前選取的數據 點集合中的模型輸出分數的調整函數,計算調整函數的擬合優度。
[0084] 其中,本申請裝置的各個模塊可W集成于一體,也可W分離部署。上述模塊可化合 并為一個模塊,也可W進一步拆分成多個子模塊。
[0085] 通過W上的實施方式的描述,本領域的技術人員可W清楚地了解到本申請可借助 軟件加必需的通用硬件平臺的方式來實現,當然也可W通過硬件,但很多情況下前者是更 佳的實施方式。基于運樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的 部分可W W軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若 干指令用W使得一臺計算機設備(可W是個人計算機,服務器,或者網絡設備等)執行本申 請各個實施例所述的方法。本領域技術人員可W理解附圖只是一個優選實施例的示意圖, 附圖中的模塊或流程并不一定是實施本申請所必須的。本領域技術人員可W理解實施例中 的裝置中的模塊可W按照實施例描述進行分布于實施例的裝置中,也可W進行相應變化位 于不同于本實施例的一個或多個裝置中。上述實施例的模塊可化合并為一個模塊,也可W 進一步拆分成多個子模塊。上述本申請實施例序號僅僅為了描述,不代表實施例的優劣。W 上公開的僅為本申請的幾個具體實施例,但是,本申請并非局限于此,任何本領域的技術人 員能思之的變化都應落入本申請的保護范圍。
【主權項】
1. 一種基于計量模型的決策方法,其特征在于,所述方法包括以下步驟: 自動化決策裝置確定每個用戶組中的各用戶在當前觀測點的數據集; 所述自動化決策裝置利用所述各用戶在當前觀測點的數據集對每個用戶組進行調整 函數的擬合,并從調整函數的擬合結果中選取調整函數; 所述自動化決策裝置獲取當前觀測點的計量模型輸出結果以及當前選取的調整函數, 并利用所述調整函數對計量模型輸出結果進行調整; 所述自動化決策裝置利用調整后的計量模型輸出結果進行決策。2. 如權利要求1所述的方法,其特征在于,所述數據集內包含了用戶組中的各用戶的 計量模型輸出結果、時間事件發生標記、用戶標識。3. 如權利要求2所述的方法,其特征在于,所述自動化決策裝置確定每個用戶組中的 各用戶在當前觀測點的數據集的過程,具體包括: 所述自動化決策裝置獲取當前觀測點,并確定距離所述當前觀測點最近的一個含有 完整表現期的觀測點,并獲取所述含有完整表現期的觀測點的所有用戶的計量模型輸出結 果;所述自動化決策裝置獲取用戶在指定時間段內的行為數據,所述指定時間段為所述含 有完整表現期的觀測點到當前時間點的間隔;所述自動化決策裝置利用用戶在指定時間段 內的行為數據計算用戶對應的時間事件發生標記,用戶在表現期內發生事件的時間事件發 生標記為第一標識,用戶在表現期內未發生事件的時間事件發生標記為第二標識。4. 如權利要求1-3任一項所述的方法,其特征在于,所述自動化決策裝置利用所述各 用戶在當前觀測點的數據集對每個用戶組進行調整函數的擬合,并從調整函數的擬合結果 中選取調整函數的過程,具體包括: 基于預先配置的函數模板,所述自動化決策裝置在相同累積事件發生率下,以最小化 計量模型的概率分界差異為目標,根據自變量與因變量以及每個用戶組中的各用戶在當前 觀測點的數據集,對每個用戶組進行調整函數的擬合,以擬合得出調整函數的函數形式,并 從調整函數的擬合結果中選取符合數據真實對應關系的調整函數。5. 如權利要求2或3所述的方法,其特征在于,所述自動化決策裝置確定的每個用戶組 中的各用戶在當前觀測點的數據集Μ = {ΜρΜ2,…,Mk},Mi為第1個用戶組中的各用戶在 所述當前觀測點的數據集,M 2為第2個用戶組中的各用戶在所述當前觀測點的數據集,…, Mk為第k個用戶組中的各用戶在所述當前觀測點的數據集;所述自動化決策裝置利用所述 各用戶在當前觀測點的數據集對每個用戶組進行調整函數的擬合,并從調整函數的擬合結 果中選取調整函數的過程,具體包括: 對于Μ中的每個Mk,所述自動化決策裝置按照計量模型輸出結果從低到高進行排序; 所述自動化決策裝置按照計量模型輸出結果從低到高的順序,以一定間隔的累積事件發生 率搜索對應的計量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事件發生 率下搜索到對應的模型輸出分數; 所述自動化決策裝置利用所述累積事件發生率列表和所述模型輸出分數得到N組數 據點P1;其中,1彡i彡N,所述N為預設數值; 所述自動化決策裝置得到k個數據點集合P = {Ρρ P2,…,Pk}; 所述自動化決策裝置在所述數據點集合P中選取一個數據點集合,對于數據點集合P 中剩下的其它k-1個數據點集合Pk,在相同累積事件發生率列表下,其它k-1個數據點集合 匕中的模型輸出分數作為自變量,當前選取的數據點集合中的模型輸出分數作為因變量, 通過得到最小化預測標準差為目標,在線擬合出其它k-1個數據點集合Pk中的模型輸出 分數映射到當前選取的數據點集合中的模型輸出分數的調整函數,計算調整函數的擬合優 度。6. -種自動化決策裝置,其特征在于,所述自動化決策裝置具體包括: 確定模塊,用于確定每個用戶組中的各用戶在當前觀測點的數據集; 選擇模塊,用于利用所述各用戶在當前觀測點的數據集對每個用戶組進行調整函數的 擬合,并從調整函數的擬合結果中選取調整函數; 調整模塊,用于獲取當前觀測點的計量模型輸出結果以及當前選取的調整函數,并利 用所述調整函數對計量模型輸出結果進行調整; 決策模塊,用于利用調整后的計量模型輸出結果進行決策。7. 如權利要求6所述的自動化決策裝置,其特征在于,所述數據集內包含了用戶組中 的各用戶的計量模型輸出結果、時間事件發生標記、用戶標識。8. 如權利要求7所述的自動化決策裝置,其特征在于, 所述確定模塊,具體用于獲取當前觀測點,并確定距離所述當前觀測點最近的一個含 有完整表現期的觀測點,并獲取所述含有完整表現期的觀測點的所有用戶的計量模型輸出 結果;獲取用戶在指定時間段內的行為數據,所述指定時間段為所述含有完整表現期的觀 測點到當前時間點的間隔; 利用用戶在指定時間段內的行為數據計算用戶對應的時間事件發生標記,用戶在表現 期內發生事件的時間事件發生標記為第一標識,用戶在表現期內未發生事件的時間事件發 生標記為第二標識。9. 如權利要求6-8任一項所述的自動化決策裝置,其特征在于, 所述選擇模塊,具體用于基于預先配置的函數模板,在相同累積事件發生率下,以最小 化計量模型的概率分界差異為目標,根據自變量與因變量以及每個用戶組中的各用戶在當 前觀測點的數據集,對每個用戶組進行調整函數的擬合,以擬合得出調整函數的函數形式, 并從調整函數的擬合結果中選取符合數據真實對應關系的調整函數。10. 如權利要求7或8所述的自動化決策裝置,其特征在于,所述確定模塊確定的每個 用戶組中的各用戶在當前觀測點的數據集Μ = {ΜρΜ2,…,Mk},Mi為第1個用戶組中的各 用戶在所述當前觀測點的數據集,M 2為第2個用戶組中的各用戶在所述當前觀測點的數據 集,…,Mk為第k個用戶組中的各用戶在所述當前觀測點的數據集; 所述選擇模塊,具體用于對于Μ中的每個Mk,按照計量模型輸出結果從低到高進行排 序;按照計量模型輸出結果從低到高的順序,以一定間隔的累積事件發生率搜索對應的計 量模型輸出概率邊界,得到累積事件發生率列表,并在每個累積事件發生率下搜索到對應 的模型輸出分數;利用所述累積事件發生率列表和所述模型輸出分數得到N組數據點P 1; 其中,1彡i彡N,所述N為預設數值;得到k個數據點集合Ρ= {ΡρΡ2,…,Pk};在所述數據 點集合P中選取一個數據點集合,對于數據點集合P中剩下的其它k-Ι個數據點集合P k,在 相同累積事件發生率列表下,其它k-Ι個數據點集合匕中的模型輸出分數作為自變量,當 前選取的數據點集合中的模型輸出分數作為因變量,通過得到最小化預測標準差為目標, 在線擬合出其它k-Ι個數據點集合P k*的模型輸出分數映射到當前選取的數據點集合中 的模型輸出分數的調整函數,計算調整函數的擬合優度。
【文檔編號】G06Q30/02GK105825393SQ201510013239
【公開日】2016年8月3日
【申請日】2015年1月9日
【發明人】黃承偉, 操穎平, 盛子夏
【申請人】阿里巴巴集團控股有限公司