專利名稱:用于診斷和計劃病人狀態的病人數據挖掘的制作方法
技術領域:
本發明涉及醫療信息處理系統,更具體而言,涉及一種用于診斷病人的目前狀態或狀況、根據各種可用的治療選擇來計劃(project)病人的未來狀態、以及推薦一種療法過程的計算機化的系統和方法。
背景技術:
衛生保健提供商在目前環境下所面臨的主要難題是實現在降低成本的愿望與維持病人保健質量的首要需要之間達到平衡。在不折衷質量的情況下降低成本的嘗試集中于花費兩倍的努力,用來消除無用舉措和用來把資源集中在鑒別那些最有可能存在不良結果的病人上。由于它們的特殊性質,這兩種努力都需要使用準確而全面且能夠被提取和分析的數據庫,以便提供干預的基礎。具有干預可能性的兩種這樣的領域是例如通過確定病人的未來狀態來鑒別將受益于主動方法的高危病人,以及例如通過準確地診斷病人的目前狀態來消除在無相應質量改進的情況下而增加成本或者拖延停留時間的無用舉措。
然而,面臨任何此類努力的問題是由于多數醫院數據庫都是以基于文本的格式或其它非結構化的格式創建的,因此缺乏能夠以任何有意義的或可靠的方式而被提取和分析的高質量數據。多數的醫院要么訴諸于采取使用隨機抽樣來人工檢查小部分的病人圖表,要么集中于相對容易地可獲得的結構化的信息(例如,基于DRG或ICD-9代碼)以便指導他們作出決策。這樣一來,任何事實上地全面改變被遺留給不完善的處理,或者必須等待預期的數據輸入系統,該系統具有充當一個所有不同格式的充足的存儲庫(repository)的能力,采用所述格式來存儲病人數據。目前,管理所有這些不同的格式帶來了艱巨的挑戰,即使是在一個醫院數據庫中也是如此,就更不用說在不同的系統中了。
鑒于上述原因,存在對這樣一種技術的需要,即從各種源收集病人信息以便迅速而有效地診斷病人的目前狀態或狀況,并且計劃病人的未來狀態以便幫助迅速地鑒別高危病人,并確定成本有效的治療和/或療法。
發明內容
提供了一種用于確定病人的狀態或狀況的系統和方法。
根據本發明的一個方面,提供了一種用于確定病人狀態的方法,該方法包括以下步驟利用與感興趣疾病有關的領域知識庫來對病人記錄進行數據挖掘;把挖掘出的數據輸入到感興趣疾病的模型中;以及根據模型來確定病人的狀態。
根據本發明的另一個方面,提供了一種用于確定病人狀態的系統,包括數據挖掘器,用于利用與感興趣疾病有關的領域知識庫來從病人記錄中挖掘信息;和處理器,用于創建感興趣疾病的病人模型和處理模型中挖掘出的數據,以便針對治療的不同過程而確定病人的目前狀態及未來狀態,以及根據所估計的未來的疾病狀態來推薦一種療法。
本發明的上述及其它方面、特征和優勢當結合附圖,從下面結合附圖描述的詳細說明中將變得更加明顯,在附圖中圖1是一個計算機處理系統框圖,根據本發明的一個實施例可以將本發明應用于它;圖2舉例說明了示例性的計算機化的病人記錄(CPR);和圖3舉例說明了用于挖掘高質量結構化的醫療信息的示例性數據挖掘框架;圖4舉例說明了一個根據本發明實施例的示例性診斷和計劃系統的框圖;圖5舉例說明了根據本發明一個實施例的用于診斷和計劃病人狀態的流程圖;和圖6是用于診斷目前病人狀態、計劃未來病人狀態以及根據病人狀態來建議療法和治療的工作流程圖。
具體實施例方式
為了輔助對本發明的清晰理解,這里提供了一些說明性示例,它們描述了本發明的某些方面。但是,應該理解這些說明并不是為了限制本發明的范圍,而是為了描述與本發明相關的確定概念。
提供了一種用于確定病人的狀態或狀況系統和方法。通過對來自于各種源的信息進行數據挖掘,例如,結構化的和非結構化的,本發明能夠采集病人記錄當中的全部可獲得的信息,并使用此采集后的信息來產生關于特定病人的早先狀態和目前狀態的概率性斷言。然后,將病人的早先狀態和目前狀態用在病人模型中,以便確定該病人的未來狀態。
應該理解本發明可以用硬件、軟件、固件、專用處理器或它們的組合各種形式來實現。優選地,本發明以作為確實包括在程序存儲設備上的程序的軟件加以實現。程序可被上載到包含任意合適的體系結構的機器上并由其執行。優選地,該機器被實現在擁有下列硬件的計算機平臺上例如一個或多個中央處理單元(CPU)、一個隨機訪問存儲器(RAM)和輸入/輸出(I/O)接口。該計算機平臺還包括操作系統和微指令代碼。這里所描述的多個過程和功能可以是通過操作系統執行的微指令代碼的一部分或者程序的一部分(或者是它們的組合)。另外,多種其它外圍設備可以被連接到該計算機平臺,諸如附加數據存儲設備和打印設備。
應該理解,因為附圖中所描繪的組成系統部件和方法步驟中的一些優選地是以軟件實現的,系統部件(或過程步驟)之間的實際連接會有所不同,取決于隨編程本發明的方式。
圖1是計算機處理系統100的框圖,根據本發明的一個實施例,可以將本發明應用于它。系統100包括至少一個處理器(下文稱處理器)102,它通過系統總線104和其它部件可操作地相耦合。只讀存儲器(ROM)106、隨機訪問存儲器(RAM)108、I/O接口110、網絡接口112和外部存儲器114都與系統總線104可操作地相耦合。各種外圍設備,例如顯示設備、盤式存儲設備(例如,磁盤或光盤存儲設備)、鍵盤和鼠標,可以通過I/O接口110或網絡接口112與系統總線104可操作地相耦合。
計算機系統100可以是獨立系統或通過網絡接口112與網絡相連。網絡接口112可以是硬布線接口。然而,在多種示例性實施例中,網絡接口112可以包括適于向另一設備傳送信息或從另一設備傳出信息的任意設備,諸如通用異步收發器(UART)、并行數字接口、軟件接口或已知或后來開發的軟件和硬件的任意組合。網絡接口可以連接到各種類型的網絡,包括局域網(LAN)、廣域網(WAN)、內聯網、虛擬專用網(VPN)和因特網。
外部存儲器114可以用數據庫管理系統(DBMS)來實現,其由處理器102加以管理并駐留在像硬盤這樣的存儲器上。但是,應該意識到外部存儲器114可以實現在一個或多個附加計算機系統上。例如,外部存儲器114可以包括駐留在一個單獨的計算機系統上的數據倉庫系統。
本領域的技術人員將會理解在不偏離本發明的精神和范圍的前提下也可以使用其它替代的計算環境。
衛生保健提供商越來越多地使用自動化的技術來存儲和檢索信息。使用計算機化的病人記錄(CPR)來維護病人信息就是一個這樣的例子。如圖2所示,示例性CPR(200)包括在病人治療過程期間收集到的信息。這一信息可以包括,例如,計算機層析造影(CT)圖像、X-光圖像、實驗室測試結果、醫生進展注釋、與醫療過程有關的細節、處方藥信息、放療報告、其它專家報告、人口統計學信息和計帳(財務)信息。
一個CPR通常來自多個數據源,每個數據源通常反映病人保健的不同方面。結構化的數據源,例如財務、實驗室和藥房數據庫,通常用數據庫表維護病人信息。信息也可存儲在非結構化的數據源中,例如自由文本、圖像和波形。通常,關鍵的臨床發現都只存儲在醫師報告中,例如口述。
圖3說明了用于利用如下數據挖掘技術來挖掘高質量結構化的臨床信息的示例性數據挖掘系統,所述數據挖掘技術在同本申請一起提交的Rao等人的“病人數據挖掘(Patient Data Mining)”的共同待審美國專利申請序列號10/__,__,(代理人證號8706-600)中作了描述,將其全部內容引入于此以供參考。該數據挖掘系統包括數據挖掘器(350),它使用知識庫(330)中包含的領域專用知識從CPR(310)挖掘信息。數據挖掘器(350)包括從CPR提取信息的部件(352)、隨時間用有原則的方式組合所有可用證據的部件(354)以及從這個組合過程得出推理的部件(356)。挖掘出的信息可以被存儲在結構化的CPR(380)中。照此,包含在CPR中的所有信息,不論它們是來自于結構化的源還是非結構化的源,都將以結構化的方式加以存儲。
提取部件(352)負責從與病人有關的每個數據源收集小塊信息,這些信息被表示為在特定時間的、與病人有關的概率斷言。這些概率斷言被稱為元素。組合部件(354)組合在相同時間周期中引用相同變量的所有元素以形成一個與該變量有關的統一的概率斷言。這些統一的概率斷言被稱為仿真陳述(factoid)。推理部件(356)在相同和/或不同的時間點上處理對這些仿真陳述的組合,以產生病人狀態隨時間進展的連貫且簡潔的圖片。病人狀態的這種進展被稱為狀態序列。
本發明能夠建立病人狀態的個體模式。病人狀態僅僅是人們能夠關心的、與病人有關的變量的集合。所感興趣的信息可能包括一個狀態序列,即病人狀態在病人治療期間不同時間點上的值。
上述組件中的每一個都使用與感興趣的領域(諸如,例如,感興趣的疾病)有關的詳細知識。這個領域知識庫(330)可以有兩種形式。它可被編碼為系統的輸入,或者編碼為產生能夠被系統所理解的信息的程序。領域知識庫(330)中被輸入系統的當前形式的那部分也可從數據獲悉。
如上所述,提取部件(352)從CPR(310)獲取信息以產生與病人有關的概率斷言(元素),這些斷言與時刻或與時段有關。這個過程在領域知識庫(330)中所包含的領域知識的引導下實施。提取所需的領域知識對每個數據源來說通常是具體的。
參照圖4,舉例說明了根據本發明一個實施例的示例性診斷和計劃系統400。該系統400包括處理器402,用于從結構化的CPR數據庫380中提取信息,用于創建感興趣疾病的模型,以及用于處理在模型中已提取出的信息,以便計劃病人的未來狀態。
該處理器進一步耦合于第二數據庫412,該第二數據庫包括與感興趣疾病有關的“現有技術狀態”的信息。這種信息可以包括標準過程、用于治療的已制定的方針、用于評估的標準化試驗等等。另外,該處理器402適合于接收人工輸入的病人數據414,可以處理所述病人數據并將其存儲在結構化的數據庫380中。
由系統400執行的每個任務都是通過可執行模塊來執行的,所述可執行模塊駐留在系統402的處理器中和/或駐留在該系統的存儲設備中(例如,RAM、ROM、外部存儲器等)。
參照圖4和5,將連同如下方法一起來進一步描述所述診斷和計劃系統,所述方法用于診斷病人的目前狀態,用于根據感興趣疾病來創建病人模型,以及用于根據該病人的目前狀態和該模型來計劃病人的未來狀態。
首先,在隨時間治療病人的過程中,匯集病人記錄310。另外,可以為特定醫院匯集不同病人的多個病人記錄(即,基于群體的數據),并將其作為單獨的病人記錄310而存儲在公用數據存儲區中。利用與感興趣疾病有關的領域知識庫來挖掘這種歷史資料,并且將其編制到結構化的CPR數據庫380中(步驟502)。把病人的目前數據人工地414或者通過從現行測試中挖掘數據而輸入到系統中(步驟504)。
創建一個模型來仿真一個與正在診斷的病人有相似特征的病人。處理器402利用感興趣疾病的領域知識庫330、通過經由數據挖掘器350從基于群體的數據源中挖掘相似病人的數據,來生成用于模型的數據(步驟506)。然后,處理器402將根據已挖掘的數據來創建感興趣疾病的模型(步驟510)。另外,處理器可以從第二醫療知識數據庫412中編制關于感興趣疾病的知識(步驟508),并且利用這種知識來精煉該模型。
一旦創建了病人模型,所有可用的病人數據(即從結構化的源和非結構化的源中挖掘的數據或人工輸入的數據)將被輸入到模型中,并且將會進行各種仿真。處理器將根據該模型來為病人確定隨時間的狀態序列(步驟512)。處理器能夠進一步根據該狀態序列來確定在特定時間t的未來狀態,以便為該病人確定優選的治療方針(步驟514)。
現在將在下面詳細描述根據本發明優選實施例的所述方法的展開。
假設S是采用表示系統狀態的∑中的值的連續時間隨機過程。假設T={t1,t2,...,tn},其中ti<ti+1,n是當必須推理S時的“感興趣的次數”。假設Si指的是在時間ti∈T時S的樣本。假設V是依賴于S的變量集合。假設O是對所有變量v∈V的所有(概率)觀察的集合。假設O1是“指派”給ti∈T的所有觀察的集合;即,與和這個時間步長ti相關的變量v∈V有關的所有觀察。同樣,假設Oji(v)是指派給ti的變量v的第j個觀察。假設seq=<S1,S2,...,Sn>是∑n中的隨機變量;即,seq的每個實現是跨越T的一個狀態序列。目標給定O,估計最可能的狀態序列seqMAP,(seq的最大后驗(MAP)估計)seqMAP=arg maxseqP[seq|O]我們感興趣的主要焦點是估計跨越感興趣的持續時間T、在病人身上發生了什么。對MAP狀態序列的估計可以按兩步進行,其中第一步是在固定時間點上觀察的一個組合,第二步是這些推理跨越時間的傳播。
每個(平滑的)Oi采用在給定變量從其被提取的小的上下文環境(context)的情況下變量的后驗概率的形式。通過利用貝葉斯定理,以直接的方式將針對單個時間ti變量的所有觀察Oji(v)組合到一個斷言中P[vi|Oil(vi),...,Oik(vi)]∝P[vi]·Πj=1kP[Oij(vi)|vi]∝Πj=1kP[vi|Oij(vi)]P[vi]k-1]]>在每個ti∈T,使用貝葉斯網絡建立Si和V之間關系的模型。因為該狀態過程的模型被建立成馬爾可夫,并且該狀態是我們觀察的所有變量的起因(直接或間接),我們有下列方程P[seq|O]∝P[S0]·Πi=2nP[Si|Si-1]·Πi=1nP[Oi|Si]]]>∝Πi=2nP[Si|Si-1]P[Si]·Πi=1nP[Si|Oi]]]>這個方程把給定所有觀察時seq(跨時間的狀態過程的樣本的任意序列)的后驗概率連接到給定對應每個時刻的觀察時該狀態的時間局部-一個后驗概率P(Si|Oi)。基本上,我們通過把每個狀態樣本Si的模型建立成下一個樣本Si+1的起因來把時間局部的貝葉斯網絡串在一起。
所述診斷問題是在時間tn處按照如下來估計病人的疾病狀態P[Sn|O]=∑P[seq|O]其中對那些順序seq求和,其中最后狀態等于Sn。
此外,所述方法將估計(預測)在未來時間tf時病人的狀態(或任意其它的病人變量)。下列表達式源自于上述方程,用于執行對于病人的預測P[Sf|O]=∑P[Sf|Sn]P[Sn|O]其中Sf是病人的未來狀態,并且P[Vf|O]=∑P[Vf|Sf]P[Sf|Sn]P[Sn|O]其中Vf是病人的未來變量。
此外,所述方法還可以用于利用相同的病人疾病狀態模型及其它感興趣的變量來預測病人可能經歷的各種治療選擇的結果(包括治療選擇與其結果之間的關系)。所述方法確定每個療法選擇Ti的P[Sf|O,Ti],然后向醫師展現這一信息,以便他們可以作出關于病人未來治療的更理性決策。
圖6是用于診斷目前病人狀態、計劃未來病人狀態以及根據病人狀態來建議療法和治療的工作流程圖。
首先,通過數據挖掘器612來實施多個CPR 610的追溯性分析602,所述數據挖掘器也稱為REMIND(從非結構化的數據進行可靠的提取與有意義的推理)系統。數據挖掘器612使用近似知識庫614來編制結構化的CPR 616。該結構化的CPR 616用來精煉近似知識庫614,以便編制將要用在診斷階段604中的精煉知識庫618。
在診斷階段604中,數據挖掘器612(即,REMIND系統)使用精煉知識庫618來與特定個體的CPR 620進行交互,以便確定個體的目前狀態622,如上所述。另外,該系統可以被配置成根據病人的癥狀來確定導致病人處于危險的疾病,并且在病人記錄中向醫師展現與上述疾病有關的全部信息。例如,如果有胸痛的病人進入急診室,那么該系統將識別出該病人很可能有急性心肌梗塞(心臟病發作)并向醫生展現關于病人肌鈣蛋白水平、ECG報告等任何有用的信息。
一旦追溯性分析和診斷階段結束,本發明的所述系統和方法就能夠被動地606或主動地608推薦療法。在被動治療階段606中,該系統將提取相似病人624的CPR來編制特定病人群體的知識庫626,以便確定治療方式和相似病人的結果。該系統將通過查找與該病人相似的病人來給未來狀態指派一個結果。該系統將通過求出相似病人的加權結果的平均結果來給未來狀態指派一個概率。然后,這個知識庫626將被用于根據最良好的結果來為個體病人建議治療和療法。
作為選擇,將通過改變可能的未來治療來主動地確定療法,且又依次根據未來治療630來計劃未來病人狀態。數據挖掘器612將使用來自于個體病人記錄620的信息,以便利用療法知識628來進行各種仿真,所述療法知識是從結構化的數據庫616、療法領域知識加上主動反饋中學習到的。基本上,該系統評估許多可能的未來治療選擇(其中一個就是“什么也不做”)并把疾病狀態的投入到未來,即如果我們給病人用藥物1的話則將會發生什么。
然后,該系統通過考察病人的未來狀態來評估這些治療中的每一種。簡單來講,如果使用藥物1的話則他有95%的死亡概率,但如果使用藥物2的話則他有10%的死亡概率,那么該系統就建議使用藥物2。該系統還將考慮到其它問題,比如像成本。如果藥物1確定P(不良結果)=84%,而“什么也不做”(治療2)是P(不良結果)=85%,并且藥物1花費5,000,000美元,那么該系統可能會不推薦給定的藥物1。同樣,該系統將考察生活質量量度,其中如果藥物1具有嚴重的副作用且僅提高了1%的生存幾率,則它就不會被推薦,或者可以使用結果、成本、生活質量及其它測算的組合來挑選最好的治療方法。
盡管在這里已經參考附圖描述了本發明的說明性實施例,應該理解本發明并不受限于那些具體的實施例,在不偏離本發明的范圍和精神的前提下本領域的技術人員可以進行多種其它的改動和變更。
權利要求
1.一種用于確定病人狀態的方法,該方法包括以下步驟利用與感興趣疾病有關的領域知識庫來對病人記錄進行數據挖掘;把挖掘出的數據輸入到感興趣疾病的模型中;以及根據該模型來確定病人的狀態。
2.如權利要求1所述的方法,其中給所述病人狀態指派一個概率。
3.如權利要求1所述的方法,還包括確定病人狀態序列的步驟。
4.如權利要求3所述的方法,其中給所述狀態序列指派一個概率。
5.如權利要求1所述的方法,還包括確定病人的未來狀態的步驟。
6.如權利要求5所述的方法,其中給所述未來狀態指派一個概率。
7.如權利要求1所述的方法,還包括利用感興趣疾病的領域知識,通過挖掘基于群體的數據來創建感興趣疾病的模型的步驟。
8.如權利要求1所述的方法,還包括確定病人狀態的變量的步驟。
9.如權利要求8所述的方法,其中給所述變量指派一個概率。
10.一種用于確定病人狀態的系統,包括數據挖掘器,用于利用與感興趣疾病有關的領域知識庫來從病人記錄中挖掘信息;和處理器,用于創建感興趣疾病的病人模型,并處理模型中挖掘出的數據以便確定病人的狀態。
11.如權利要求10所述的系統,其中所述處理器給病人狀態指派一個概率。
12.如權利要求10所述的系統,其中所述處理器確定病人的狀態序列。
13.如權利要求12所述的系統,其中所述處理器給狀態序列指派一個概率。
14.如權利要求10所述的系統,其中所述處理器確定病人的未來狀態。
15.如權利要求14所述的系統,其中所述處理器給未來狀態指派一個概率。
16.如權利要求10所述的系統,其中所述數據挖掘器利用感興趣疾病的領域知識來挖掘基于群體的數據,并且所述處理器根據基于群體的挖掘出的數據來創建感興趣疾病的模型。
17.如權利要求14所述的系統,其中所述處理器通過查找與該病人相似的病人來給未來狀態指派一個結果。
18.如權利要求14所述的系統,其中所述處理器確定多個相似的病人,并且通過求出相似病人的平均結果來給未來狀態指派概率。
19.如權利要求18所述的系統,其中所述處理器給多個相似病人的結果指派權值。
20.如權利要求10所述的系統,其中所述處理器確定與病人狀態相關的變量。
21.如權利要求20所述的系統,其中給所述變量指派一個概率。
22.如權利要求14所述的系統,其中所述處理器根據挖掘出的病人數據、通過仿真多種治療來確定多個結果。
23.如權利要求22所述的系統,其中所述處理器給結果指派概率并建議療法。
24.一種機器可讀的程序存儲設備,確實地包括一個指令程序,該指令程序可由機器執行以執行用于確定病人狀態的方法步驟,所述方法步驟包括利用與感興趣疾病有關的領域知識庫來對病人記錄進行數據挖掘;把挖掘出的數據輸入到感興趣疾病的模型中;以及根據該模型來確定病人的狀態。
全文摘要
提供了一種用于確定病人狀態的方法和系統。該方法包括以下步驟利用與感興趣疾病有關的領域知識庫來對病人記錄進行數據挖掘(502);把挖掘出的數據輸入到感興趣疾病的模型中(512);以及根據該模型來確定病人的狀態(514)。該系統包括數據挖掘器(350),用于利用與感興趣疾病有關的領域知識庫(330)來從病人記錄(310)中挖掘信息;和處理器(402),用于創建感興趣疾病的病人模型,處理模型中已挖掘出的數據以便針對不同治療過程確定病人的目前狀態及未來狀態,以及根據所確定的未來狀態來推薦療法。
文檔編號G06F19/00GK1613068SQ02826659
公開日2005年5月4日 申請日期2002年11月4日 優先權日2001年11月2日
發明者B·R·勞, S·桑迪亞, R·S·尼庫萊斯庫, A·K·格爾 申請人:美國西門子醫療解決公司, 西門子共同研究公司