本發明的一些實施例涉及用于確定受試者中的醫療狀況的存在的方法和裝置。具體地,盡管不是排他地,但本發明的一些實施例涉及用于確定受試者中癌癥(包括前列腺癌)的存在的方法和裝置。本發明的一些實施例涉及用于創建指示受試者中的醫療狀況的存在的分類器的方法和裝置。
背景
前列腺癌是全世界男性的第二大常見疾病,每年約有1,111,000例新發病例。當許多患有膀胱流出癥狀的男性被發現有升高的血清psa水平時,經常針對前列腺癌對他們進行研究。然而,psa水平缺乏特異性,因此,這些男性必須經受侵入性測試以確認或反駁前列腺癌的診斷。在許多情況下,沒有發現癌癥。這往往使人擔心,而不是放心,并且可能會跟進重復的psa水平測量的無休止的循環。當前,psa在大多數國家并不被認為是診斷標志物并且尚未被批準用于篩查項目。膀胱癌是全世界第9大常見癌癥,并且治理是最昂貴的。沒有生物標志物被批準用于隨訪,并且進行的重復的膀胱鏡檢查是侵入性的、昂貴的并且并不是沒有風險。炎癥性腸疾病(ibd)是由腸道中的異常免疫應答引起的慢性胃腸疾病,而腸易激綜合征(ibs)是沒有已知原因的消化道疾病。對于可用于診斷和篩查包括前列腺癌、前列腺癌、ibd和ibs在內的醫療狀況的更好的生物標志物存在迫切的臨床需求。這樣將節省健康護理提供者的錢,減輕患者痛苦,并還將加快患者急需的治療。
本發明的實施例的目的在于至少緩解現有技術的一個或更多個問題。
發明陳述
根據本發明的方面,提供了如所附權利要求中所闡述的方法和裝置。
根據本發明的方面,提供了確定受試者中的醫療狀況的存在的方法,包括:接收指示來自受試者的樣本中的揮發性有機化合物的概況的色譜數據;將色譜數據與參考色譜數據匹配;使用一個或更多個預定尺度的墨西哥帽小波變換從色譜數據中提取一個或更多個預定特征;以及使用分類器確定所提取的特征是否指示受試者中的醫療狀況的存在。
附圖簡述
現在將參考附圖僅通過示例對本發明的實施例進行描述,其中:
圖1示出了根據本發明的實施例的方法;
圖2示出了根據本發明的實施例的系統;
圖3示出了色譜數據的圖示;
圖4示出了根據本發明的實施例的反演的色譜數據的圖示;
圖5示出了根據本發明的實施例的預處理的色譜數據;
圖6示出了根據本發明的實施例的歸一化的色譜數據;
圖7示出了根據本發明的實施例的對齊的色譜數據;
圖8示出了根據本發明的實施例的選擇用于數據對齊的參考色譜樣本的方法;
圖9示出了根據本發明的實施例的對齊色譜數據的方法;
圖10示出了根據本發明的實施例的對于色譜數據確定的小波系數;
圖11示出了根據本發明的實施例的變換的色譜數據;
圖12示出了根據本發明的實施例的確定受試者中的醫療狀況的存在的方法;以及
圖13示出了根據本發明的實施例的對齊所接收的色譜數據的方法。
發明的實施例的具體描述
圖1圖示了根據本發明的實施例的方法100。方法100是創建指示受試者是否具有一種或更多種醫療狀況的分類器的方法。醫療狀況可包括一種或更多種癌癥(包括膀胱癌和/或前列腺癌)、腸易激疾病(ibd)、腸易激綜合征(ibs)、一種或更多種預定細菌(諸如,艱難梭菌(c-dif))的存在、一種或更多種預定寄生蟲的存在、一種或多種預定真菌的存在。方法100是用于創建分類器并將分類器儲存在計算機可讀介質(諸如,非暫時性計算機可讀介質)中的基于計算機的方法。
該方法可由根據如圖2中所圖示的本發明的實施例的裝置200執行。裝置200包括控制單元210,該控制單元包括處理單元220和存儲器單元230。裝置210被布置為從感測單元240接收色譜數據。色譜數據指示從受試者采集或獲取的樣本中的揮發性化合物的存在。樣本可以是來自受試者的呼吸、尿液或糞便的樣本,但是將意識到該列表并不詳盡。
感測單元可包括一個或更多個金屬氧化物(mo)傳感器。感測單元240可以與諸如wo/2011/061308中所述的裝置相關聯,其通過引用并入本文以用于所有目的。裝置200可包括耦合到一個或更多個傳感器的氣相色譜柱。該柱可以與用于根據預定方案加熱柱的爐相關聯。
色譜數據可借助于專用通信信道(即,直接電連接)或借助于在一個或更多個計算機網絡上形成的通信信道,在感測單元240和控制單元210之間傳送。色譜數據可在控制單元210處以一個或更多個文件的形式被接收,每個文件都包括對于相應樣本的色譜數據。
為了產生色譜數據,樣本可根據預定方案來加熱。方案可在從樣本采樣預定體積的氣體之前定義在一個或更多個預定溫度下加熱樣本的一段時間。
爐的初始溫度可保持在40℃13.4分鐘,以5℃/分鐘的速率升溫至100℃,保持30分鐘,并使用10℃/分鐘的溫度斜坡冷卻至40℃。將意識到可使用用于爐加熱的其它方案。
mo傳感器的電阻在一段時間內被確定。色譜數據可包括指示一個或更多個mo傳感器在預定間隔(諸如,0.5秒)處的電阻的數據,但是將意識到可使用其它間隔。
圖3圖示了根據本發明的實施例的色譜數據。圖3包括來自相應樣本的色譜數據的多個項的曲線圖。色譜數據是隨著時間(x軸)繪制的,并指示傳感器在每個相應的采樣時間處的電阻(y軸)。在步驟105中,色譜數據由控制單元210接收。色譜數據可被儲存在控制單元210的存儲器單元230中。
為了創建指示受試者是否具有一個或更多個醫療狀況的分類器,來自多個樣本的色譜數據由具有相應的一個或更多個醫療狀況的受試者提供。如將解釋的,分類器基于來自這些受試者的色譜數據。因此,來自具有一個或更多個醫療狀況的多個樣本的一組色譜數據在步驟105中被接收。另一組色譜數據由不具有一個或更多個醫療狀況的多個樣本提供,該另一組色譜數據可被稱為對照組色譜數據。
在步驟110中,在步驟105中接收的色譜數據的電阻信號被反演,以便于使用代謝組學工具對它們進行處理。該反演使用以下數學方程式對每個樣本單獨執行:
x=|x-(max(x)+1)|
其中,x包含為單個樣本登記的電阻值。圖4包括反演的色譜數據的曲線圖。
在步驟120中,所接收的色譜數據被處理。步驟120包括基線移除過程。基線是色譜數據的基線電阻水平。基線可作為多數或僅由流動相發揮作用。流動相是通過氣相色譜柱攜帶代謝物的氣體。在一些實施例中,氣體可以是合成氣體。閾值也可在步驟120中被確定。在一些實施例中,色譜數據的基線通過最小二乘擬合過程被移除。
在一些實施例中,步驟120還包括確定電阻閾值。電阻閾值被定義為來自樣本的色譜數據的平均電阻值減去其電阻值的標準偏差。然后,低于電阻閾值的任何電阻值被設置為可以為零的預定值。圖5圖示了根據步驟120的實施例處理的色譜數據。
在步驟130中,對于每個樣本的色譜數據的值被歸一化。在一個實施例中,樣本的電阻值通過將它們的值除以為特定樣本登記的最高電阻值來被歸一化。圖6圖示了根據步驟130的實施例處理的色譜數據。
在步驟140中,參考色譜樣本被選擇用于數據對齊。步驟140包括從通過步驟130提供的色譜數據中選擇參考色譜數據。在一些實施例中,選擇參考色譜數據包括確定指示每對色譜數據之間的相關性的系數。如本領域技術人員將認識到的,該系數可以是皮爾森積矩相關系數,通常被稱為皮爾森系數。
圖8中圖示了根據本發明的實施例選擇用于對齊色譜數據的參考色譜的方法700。
參照圖8,在步驟705中,創建了包含實驗狀況1中的所有樣本(例如,癌癥樣本)的兩個列表。這些列表中的一個可被命名為樣本列表參考(samplelistref),而第二列表可被命名為樣本列表測試(samplelisttest)。
在步驟710中,樣本可從樣本列表參考中隨機選擇,加載到存儲器中并從樣本列表參考中移除。為了清楚起見,該樣本將在此被描述為樣本參考(sampleref)。
在步驟715中,樣本可從樣本列表測試中隨機選擇,加載到存儲器中并從樣本列表測試中移除。為了清楚起見,該樣本將在此被描述為樣本測試(sampletest)。在步驟710和715的第一迭代中,選擇的樣本可以是數據集中的第一色譜。例如,在色譜數據是全部被分配id的情況下,可在步驟710和715的第一迭代中選擇具有最低id值的色譜。
在步驟720和725中,樣本參考和樣本測試之間的皮爾森相關系數被確定,并被儲存在可被命名為r的矩陣中。
在步驟730至765中,樣本參考被移位預定數量的采樣點,其中相關系數在每次采樣點移位之后用樣本測試來計算,并且得到的相關系數被儲存在矩陣r中。將認識到的是,在一些實施例中,樣本參考將相對于樣本測試在正的和負的時間點方向二者上移位。在一個實施例中,移位窗口是±15個采樣點,但將意識到的是,可選擇其它尺寸的移位窗口。
當樣本參考移位升至移位窗口的一個或更多個極端時,方法移動到步驟775。將認識到的是,當到達步驟775時,在一些實施例中,每個色譜與p系數如下相關聯:
p=(2s+1)×(n-1)
其中,s是移位窗口的幅度,諸如15(因此,2s計算從負到正的移位的極差),以及n是實驗狀況1中的樣本數量。因此,在一個實施例中,每個色譜數據與實驗狀況1中的其余色譜數據中的每個的31個相關系數相關聯。
在步驟775中,獲取矩陣r中的最大值,其被儲存在命名為m的新矩陣中,并且r的內容被清除或復位。重復步驟715至775,直到樣本列表測試為空,并且方法移動到步驟785。
在步驟785中,計算儲存在m中的所有值的平均值,并將其連同識別參考樣本的信息(諸如,樣本參考的id)一起儲存在命名為c的矩陣中,并且m的內容被清除。重復步驟710至785,直到樣本列表參考為空,并且方法移動到步驟795。在步驟795中,與矩陣c中的最高正值相關聯的樣本被確定為用于色譜對齊的參考樣本。如將要解釋的,步驟795可包括將與被選擇為參考色譜樣本的色譜相關聯的id,以允許其它色譜數據在稍后的時間對齊。
返回到圖1,在步驟150中,色譜數據被對齊。對齊旨在確保相同特征在來自不同數據類別或分析中的不同醫療狀況的樣本中進行比較。步驟150包括將色譜數據相對于在步驟140處選擇的參考色譜樣本對齊。圖9中圖示了根據本發明的實施例的對齊色譜數據的方法800。
參照圖9,在方法800中,每個色譜數據相對于在圖1的方法100的步驟140處選擇的參考色譜對齊。
在步驟805中,在步驟140處選擇的參考色譜樣本被加載到存儲器中。為了清楚起見,參考色譜樣本將在此被描述為參考樣本。在步驟810中,創建了包含分析中的一個或更多個數據集中的所有樣本(例如,癌癥樣本和對照樣本)的列表。為了清楚起見,該列表將在此被描述為對齊的樣本。
在步驟815中,來自對齊的樣本的隨機樣本被加載。為了清楚起見,該樣本將在此被描述為樣本對齊。在步驟820至870中,樣本對齊被移位預定數量的采樣點,其中在每個采樣點被移位之后單個相關系數在參考樣本和樣本對齊之間進行計算,并且所得到的相關系數存儲在矩陣r中。在一個實施例中,移位窗口是±15個采樣點,但是將意識到的是,可選擇其他數量的時間點。將認識到的是,在一些實施例中,樣本對齊將相對于參考樣本在正的和負的時間點方向上移位。當樣本對齊移位升至移位窗口的一個或更多個極端時,方法移動到步驟875。將認識到的是,當到達步驟875時,在一些實施例中,樣本對齊與p系數如下相關聯:
p=2s+1
其中,s是時間移位窗口的幅度,諸如15(因此,2s計算從負到正的時間移位的極差)。因此,在一個實施例中,樣本對齊與31個相關系數相關聯。在步驟875中,與r中的最高值相關聯的移位采樣點被確定,并被儲存為移位的采樣點。在步驟880中,樣本對齊被移位在移位的采樣點中定義的采樣點的數量,并且矩陣r的內容被清除。重復步驟815到880,直到對齊的樣本列表為空。圖7圖示了根據步驟150的實施例對齊的色譜數據。
返回到圖1,在步驟160中,對齊的色譜數據的值使用墨西哥帽母小波(其也可被稱為ricker小波)變換成小波系數。可使用其他母小波。在一個實施例中,小波系數可使用墨西哥帽母小波的多個尺度來確定。多個尺度可以是介于下限和上限之間的尺度。在一個實施例中,上限和下限可分別為100和1。在一個實施例中,系數可在下限和上限之間的每個整數尺度處被確定。系數可被確定為計算出的系數的模數。也就是說,盡管可使用由墨西哥帽母小波提取的原始值,但對于每個樣本的色譜數據的值使用墨西哥帽母小波的尺度被轉換為它們的小波系數的模數。然后,如將要解釋的,小波系數被儲存以供將來使用。小波尺度值中的一個被選擇為對于色譜數據的最佳匹配。如將要解釋的,最佳匹配可以是具有最高分類準確度的小波尺度。每個小波尺度的準確度可基于驗證過程的最小、中值、平均和最大準確度中的一個或更多個來確定。圖10圖示了根據步驟160的實施例的被變換為小波系數的色譜數據。
在步驟170中,對數、極差和空間符號(spatialsign)的變換過程中的一個或更多個應用于色譜數據。在一個實施例中,在對數、極差和空間符號的變換過程之前,色譜數據的每個值都具有預定值,諸如添加到其的值1。然后,色譜數據可使用自然對數為基準進行對數變換,盡管將意識到其他基值可用于對數變換。在一個實施例中,然后應用極差變換,以將色譜數據的值設置在預定極差內,諸如介于0和1之間的極差。極差變換可確定在色譜數據的每個時間點處的變換的值xt,其中,x是色譜數據的數據值,min(x)和max(x)分別是色譜數據的最小值和最大值。極差變換可使用以下方程來執行:
在一些實施例中,可應用進一步的變換,其可被稱為如在由s.serneels、e.denolf、p.j.vanespen于2006年在journalofchemicalinformationandmodeling46的第1402-1409頁發表的spatialsignpreprocessing:asimplewaytoimpartmoderaterobustnesstomultivariateestimators中所描述的空間符號變換,其通過引用并入本文。圖11圖示了根據步驟170的實施例變換的色譜數據。
在步驟180中,選擇色譜數據的一個或更多個特征。選擇一個或更多個特征來指示一個或更多個醫療狀況的存在。在本發明的實施例中,一個或更多個特征通過使用隨機森林的特征選擇算法來選擇。在該算法中,決策樹是基于不同的樣本組來開發的,并且當特征的值被隨機排列在樣本組之間時,隨機森林用于計算分類準確度的損失。然后,選擇與分類準確度的損失相關聯的一個或更多個特征。
在本發明的一些實施例中,在步驟180中應用了基于隨機森林的被稱為boruta和rfe的兩種不同算法中的一種,以便選擇待使用的特征。boruta算法涉及基于不同樣本組的決策樹的開發。然后,當特征的值被隨機排列在樣本組之間時,應用隨機森林來計算分類準確度的損失。然后,選擇與準確度的損失相關聯的特征作為指示特征。rfe算法運作類似于boruta,但它消除了不產生準確度水平的變化的特征,而不是選擇產生準確度的損失的特征。boruta和rfe算法在journalofstatisticalsoftware36(11)的第1-13頁公開的“featureselectionwiththeborutapackage”,以及由anderssen,e.、k.dyrstad、f.westad和h.martens于2006年在chemometricsandintelligentlaboratorysystems84(1-2)的第69-74頁發表的“reducingover-optimisminvariableselectionbycross-modelvalidation”中進行了描述。這些參考通過引用并入本文。在步驟180中,一個或更多個選擇的特征被儲存以供稍后使用。
在步驟190中,分類器被確定。分類器用于將樣本分類為來自具有一個或更多個醫療狀況的受試者的樣本或不具有一個或更多個醫療狀況的樣本。分類器可根據以下之一來確定:線性判別分析(lda);偏最小二乘法(pls);隨機森林;k最近鄰(knn);具有徑向基核函數的支持向量機(svm)(svm徑向);具有線性基核函數的svm(svm線性);以及具有多項式基核函數的svm(svm多項式)。分類器可使用例如諸如r包脫字符(kuhn,m.于2014年公開的caret:classificationandregressiontraining)的軟件包來確定。
在同一數據集上建立和測試分類器可能會由于潛在的過度擬合而產生偏置和過于樂觀的結果。因此,在步驟190中,驗證過程可用于防止這樣的過度擬合。驗證過程可以是重復的k重交叉驗證和重復的雙交叉驗證中的一種。特別地,在本發明的示例性實施例中,使用兩個驗證過程:30次重復的10重交叉驗證和30次重復的3重雙交叉驗證,其中,重復5次10重的內循環。另外,這兩個交叉驗證過程在相同的數據集上重復,但在每次重復中應用類別標簽的蒙特卡羅隨機排列。
如在步驟160的以上描述中所述,方法100針對多個小波尺度重復。然后選擇產生最高分類準確度的標度作為對于處理的色譜數據的最佳匹配。作為圖1中所圖示的方法100的實施例的結果,產生分類器,其能夠將色譜數據分類為源自具有一個或更多個醫療狀況或不具有一個或更多個醫療狀況的樣本。
圖12圖示了根據本發明的實施例的確定受試者中的醫療狀況的存在的方法1000。該方法基于取自受試者的樣本來執行。色譜數據可由如上參照圖2所述的裝置提供。相同的可以是從受試者排出的物質。樣本可以是來自受試者的呼吸、尿液或糞便的樣本,盡管將意識到該列表并不詳盡。如上所述,醫療狀況可包括一種或更多種癌癥(包括膀胱癌和/或前列腺癌)、腸易激疾病(ibd)、腸易激綜合征(ibs)、一種或更多種預定細菌(諸如艱難梭菌(c-dif))的存在、一種或更多種預定寄生蟲的存在、一種或多種預定真菌的存在。
方法1000的多個步驟結合圖1中所圖示的方法100進行描述。因此,將省略對這些步驟的重復描述,并且讀者參考與圖1中的等效步驟相關聯的描述。
在步驟1050中,色譜數據被接收。為了清楚起見,接收的色譜數據將在此被描述為新樣本。在本發明的一些實施例中,如前所述,在步驟1100中,新樣本將其基線移除,并且其數據值在步驟1150中被歸一化。在步驟1200中,新樣本隨后被對齊。在圖13中圖示了根據本發明的實施例的對齊新樣本的方法2000。
參照圖13,在步驟2050中,在方法100的步驟140處選擇的參考色譜樣本被加載到存儲器中。為了清楚起見,參考色譜數據將在此被描述為參考樣本。在步驟2100中,新樣本色譜數據被加載到存儲器中。
在步驟2150至2650中,新樣本的保留時間被移位預定數量的采樣點,其中在每個采樣點被移位之后單個相關系數在參考樣本和新樣本之間被計算并且得到的相關系數被儲存在矩陣r中。在一個實施例中,移位窗口是±15個采樣點,但是將意識到的是,可選擇其他數量的移位點。應認識到的是,在一些實施例中,新樣本色譜數據將相對于參考樣本在正的和負的時間點方向上移位。當新樣本色譜數據移位升至移位窗口的一個或更多個極端時,方法移動到步驟2700。將認識到的是,在到達步驟2700時,在一些實施例中,新樣本色譜數據與p系數如下相關聯:
p=2s+1
其中,s是時間移位窗口的幅度,諸如15(因此,2s計算從負到正的時間移位的極差)。因此,在一個實施例中,新樣本色譜數據與31個相關系數相關聯。在步驟2700中,與r中的系數相關聯的采樣點被確定,并被儲存為移位的采樣點。在步驟2750中,新樣本色譜數據被移位在移位的采樣點中定義的采樣點的數量,以根據圖1中所圖示的方法將新樣本色譜數據與參考色譜數據對齊。
返回到圖12,在步驟1250中,新樣本色譜數據使用墨西哥帽小波和預定尺度被變換為小波系數。如上所述,預定尺度可以是在參照圖1所描述的方法100中被確定產生了最高準確度的那個尺度。
在步驟1300中,由預定小波尺度產生的小波系數被加載,該預定小波尺度可以是與最高準確度相關聯并在方法100的步驟160中被儲存的小波尺度。方法100的步驟160中使用的小波尺度的值與方法1000的步驟1250中使用的小波尺度的值相同。為了清楚起見,在方法100的步驟160中產生的小波系數將在此被描述為預處理的數據。在步驟1350中,新樣本與命名為變換數據的單個數據集中的預處理的數據組合。
然后,在步驟1400中,變換數據如方法100的步驟170中所描述的被變換。然后,在方法100的步驟180中定義的特征從變換數據中被選擇。新樣本與變換數據隔離,并通過在方法100的步驟190中確定的模型進行預測或分類。
上述方法應用于兩個不同的數據集。首先,它們應用于對來自患有前列腺癌、膀胱癌的患者的尿樣和患有泌尿癥狀混合(血尿和前列腺癥狀(對照))的患者的尿樣進行分類。表1示出了對于建立的七個分類器的30次重復的雙交叉驗證的結果。svm徑向能夠分別以89.6%和96.2%的準確度對前列腺癌樣本和膀胱癌樣本進行分類。前列腺癌樣本和膀胱癌樣本以93.5%的準確度進行區分。然后,上述方法應用于對來自患有炎癥性腸病(ibd)、腸易激綜合征(ibs)的患者和健康供體(對照)的糞便樣本進行分類。表2和表3示出了對于建立的七個分類器的30次重復的雙交叉驗證的結果。ibd和ibs分別以88.9%和94.4%與對照樣本進行區分。ibd樣本以85.2%的準確度與ibs樣本區分。ibd樣本以84.9%的準確度與非ibd樣本區分。ibs樣本以92.1%的準確度與非ibs樣本區分。最后,對照樣本以86.8%的準確度與非對照樣本區分。因此,可認識到的是,本發明的實施例能夠準確地確定樣本是否來自具有預定狀況的人。
形成本發明的實施例的方法可以是計算機實現的。
將認識到的是,本發明的實施例可以以硬件、軟件或硬件和軟件的組合的形式來實現。任何這樣的軟件可以以易失性或非易失性儲存器的形式儲存,諸如例如,像rom的儲存設備,不管是否可擦除或是否可重寫;或者以存儲器的形式儲存,諸如例如,ram、存儲器芯片、器件或集成電路;或者儲存在光學或磁性可讀介質上,諸如例如,cd、dvd、磁盤或磁帶。將認識到的是,儲存設備和儲存介質是適于儲存一個或更多個程序的機器可讀儲存器的實施例,該一個或更多個程序在執行時實現本發明的實施例。因此,實施例提供了程序,其包括用于實現如任一前述權利要求中所要求保護的系統或方法的代碼和儲存這樣的程序的機器可讀儲存器。此外,本發明的實施例可經由任何介質(諸如,通過有線或無線連接運載的通信信號)被電子地傳輸,并且實施例適當地包含它們。
本說明書(包括任何所附權利要求、摘要和附圖)中公開的所有特征,和/或如此公開的任何方法或過程的所有步驟可以以任何組合來進行組合,除了其中這樣的特征和/或步驟中的至少一些是互斥的組合之外。
除非另有明確說明,否則本說明書(包括任何所附權利要求、摘要和附圖)中公開的每個特征可由服務于相同、等效或類似目的的可替代特征來代替。因此,除非另有明確說明,否則所公開的每個特征僅僅是等效或類似特征的通用系列的一個示例。
本發明并不限于任何前述實施例的細節。本發明擴展至在本說明書(包括任何所附權利要求、摘要和附圖)中公開的特征中的任何新穎的一個特征或任何新穎的組合,或擴展至如此公開的任何方法或過程中的步驟中的任何新穎的一個步驟或任何新穎的組合。權利要求不應被解釋為僅僅涵蓋前述實施例,而是也包括落在權利要求范圍內的任何實施例。
前列腺vs對照
膀胱vs對照
膀胱vs前列腺
表1
ibdvs對照
ibsvs對照
ibdvsibs
表2
ibdvs非ibd
ibsvs非ibs
控制vs非控制
表3