中文字幕无码日韩视频无码三区

使用分類系統及其試劑盒識別和診斷肺部疾病的方法

文檔序號(hao):6165787閱讀:368來(lai)源:國(guo)知局
使用分類系統及其試劑盒識別和診斷肺部疾病的方法
【專利摘要】本發明提供用于診斷肺部疾病,例如反應性氣道疾病的非小細胞肺癌的生物標記物和生物標記物組合。將這些生物標記物的測定值輸入諸如支持向量機或AdaBoost的分類系統,以幫助確定個體患有肺部疾病的可能性。還提供了包括檢測所述生物標記物和生物標記物組合的試劑的試劑盒,以及幫助診斷肺部疾病的系統。
【專利說明】使用分類系統及其試劑盒識別和診斷肺部疾病的方法
[0001]發明背景
[0002](a)【技術領域】
[0003]本發明涉及使用生物標記物及其試劑盒對肺部疾病的檢測、識別和診斷,以及根據生物標記物幫助確定疾病存在或不存在的可能性的系統。更具體地講,本發明涉及通過測定特定生物標記物的表達水平,并且將這些測定值輸入分類系統,例如支持向量機對非小細胞肺癌和反應性氣道疾病進行的診斷。
[0004](b)相關技術的描述
[0005]人類肺組織的病變
[0006]數以百萬計的美國人患有呼吸系統的病變,例如哮喘和肺癌。事實上,據American
Lung Association &報告,幾乎有 2000 萬美國人患有哮喘。American Cancer Society, Inc.估計,僅在2007年新增的呼吸系統癌癥為229,400例,呼吸系統癌癥死亡為164,840例。雖然在檢測到癌癥還處于原位時,所有癌癥病例的五年存活率均為46%,但肺癌患者的五年存活率僅為13%。相應地,僅有16%的肺癌在疾病擴散之前被發現。根據癌細胞的病變,肺癌通常分為兩種主要類型。每種類型根據轉化變為癌性的細胞類型命名。小細胞肺癌來源于人類肺組織中的小細胞,而非小細胞肺癌通常涵蓋非小細胞類型的所有肺癌。非小細胞肺癌組合在一起,因為對于所有非小細胞類型治療通常是相同的。非小細胞肺癌或NSCLC —起構成了約75%的所有肺癌。
[0007]肺癌難以在早期診斷,這一事實是肺癌患者低存活率的主要因素。當前診斷肺癌或識別其在人體中存在的方法僅限于采取肺部的X-射線、計算機斷層成像(CT)掃描以及類似的測試,物理確定腫瘤的存在或不存在。因此,肺癌的診斷通常僅響應于明顯或存在一段顯著時間的癥狀,以及疾病存在于人體中的時間足以產生可物理檢測的腫塊之后作出。
[0008]相似地,當前檢測哮喘的方法通常在癥狀,例如反復喘息、咳嗽和胸悶的出現很久以后才進行。當前檢測哮喘的方法通常僅限于肺功能測試,例如肺活量測試或挑戰測試。此夕卜,這些測試通常由內科醫生安排,隨著多個其他測試進行,以排除其他病變或反應性氣道疾病,例如慢性阻塞性肺病(COPD)、支氣管炎、肺炎和充血性心力衰竭。
[0009]分類系統
[0010]已經廣泛探索了各種分類系統,例如用于數據分析和數據挖掘的機器學習方法,用于識別模式,以及在存在恰為無關數據的其他信息的情況下啟動包含于大數據庫中的重要信息的提取。學習機器包括可訓練為使用具有已知分類的數據歸納的算法。然后,訓練的學習機器算法可用于在未知結果的情況下預測結果,即根據學習模式對數據分類。機器學習方法,包括神經網絡、隱藏馬爾可夫模型、信度網絡和基于核的分類器例如支持向量機,可用于特征為大量數據、噪聲模式以及一般理論缺乏的問題。
[0011]模式分類、回歸和群集問題的多個成功方法依賴于確定一對模式的相似性的核。這些核通常定義為可以實數的向量表示的模式。例如,線性核、徑向基核和多項式核均測定一對實數向量的相似性。當數據以該方式最佳地表示為實數序列時,此類核是適當的。核的選擇對應于數據在特征空間中表示的選擇。在多個應用中,模式具有更大的結構度。可開發這些結構用于改善學習算法的性能。機器學習應用中常見的結構化數據類型的例子為字符串、文檔、樹、圖例如網站或化學分子、信號例如微陣列表達譜、光譜、圖像、時空數據、關系數據和生物化學濃度等等。
[0012]分類系統已用于醫療領域。例如,使用各種計算機系統和分類系統例如支持向量機提出了診斷和預測醫學病癥出現的方法。參見,如美國專利N0.7, 321,881,7,467, 119、7,505,948,7, 617,163,7, 676,442,7, 702,598,7, 707,134 和 7,747,547,這些專利的公開內容據此全文以引用方式并入。然而,這些方法未提供診斷和/或預測人類肺組織病變,例如非小細胞肺癌和/或反應性氣道疾病的高度準確性。
[0013]同樣,本領域也不存在診斷人類肺組織病變,尤其是在其發展的早期的簡單、可靠方法。此外,目前也不存在能夠指示特定肺組織病變存在的血測試法。因此,開發在疾病進展的早期確定肺癌存在的方法是所期望的。同樣,開發在臨床上明顯癥狀的最早出現之前診斷哮喘和非小細胞肺癌,使它們彼此區分并且區別于其他肺部疾病例如感染的方法也是所期望的。
[0014]本發明的優選實施方案的概述
[0015]本發明通過提供使用各種分類系統例如支持向量機評估受試者中某些生物標記物的可靠方法來滿足這些需要。
[0016]本發明提供了受試者的生理表征方法,其包括首先獲得受試者的生理樣品;然后確定該樣品中多個生物標記物的生物標記物測定值;以及最后根據生物標記物測定值使用分類系統對樣品分類,其中樣品的分類與生理狀態或病癥,或受試者疾病狀態的變化相關。通常,分類系統是機器學習系統,優選地核或分類以及基于回歸樹的分類系統,甚至更優選地支持向量機(SVM)或AdaBoost。
[0017]在一個實施方案中,該生理表征方法提供表征受試者中存在或不存在非小細胞肺癌,或非小細胞肺癌發展階段的診斷。在另一個實施方案中,該生理表征方法提供表征受試者的反應性氣道疾病,例如哮喘或阻塞性肺病的診斷。在又一個實施方案中,該生理表征方法提供表征受試者的肺部疾病的診斷,其中多個生物標記物包括幫助識別反應性氣道疾病和非小細胞肺癌的征兆的標記物、多個表征反應性氣道疾病的生物標記物,以及多個表征非小細胞肺癌的生物標記物,在所述樣品中,多個生物標記物不是相同的;并且樣品根據生物標記物測定值使用三種分類系統分類,其中樣品的三種分類方式幫助識別受試者的(i)反應性氣道疾病和非小細胞肺癌;(ii)存在或不存在反應性氣道疾病;以及(iii)存在或不存在非小細胞肺癌的征兆;從而確定受試者患有(I)反應性氣道疾病;(2)非小細胞肺癌,或(3)不存在疾病,這取決于存在于三種分類的兩種中的病癥。
[0018]本發明還提供對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括以下步驟:接收測試數據,所述測試數據包括哺乳動物測試受試者中生物標記物集的多個生物標記物測定值,然后通過經訓練的支持向量機的電子表示使用電子存儲的訓練數據向量集合評估測試數據,每個訓練數據向量代表單個哺乳動物,并且包括相應哺乳動物的生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于相應哺乳動物的疾病狀態的分類;以及最后根據評估步驟輸出哺乳動物測試受試者的分類。優選地,哺乳動物測試受試者是人。在另一個模型中,評估步驟包括訪問電子存儲的訓練數據向量集合。[0019]在另一個模型中,本發明提供訓練支持向量機以生成對測試數據分類的模型的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括以下步驟:訪問電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括相應人的生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于相應人的疾病狀態的分類,以及使用電子存儲的訓練數據向量集合訓練支持向量機的電子表示。隨后,本發明提供接收測試數據,所述測試數據包括人測試受試者中生物標記物集的多個生物標記物測定值,使用訓練支持向量機的電子表示(即,訓練支持向量機生成的模型)評估測試數據;以及最后根據評估步驟輸出人測試受試者的分類。
[0020]在又一個實施方案中,本發明提供對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值。該方法包括接收人測試受試者的測試數據,所述測試數據包括生物標記物集的至少每個生物標記物的生物標記物測定值。該方法還包括使用通過電子存儲的第一訓練數據向量集合訓練的支持向量機的電子表示評估測試數據,第一訓練數據向量集合中的每個訓練數據向量代表單個人,并且包括相應人的生物標記物集的至少每個生物標記物的生物標記物測定值。第一訓練數據向量集合的每個訓練數據向量還包括相對于相應人的疾病狀態的分類。該方法還包括根據評估步驟輸出人測試受試者的分類。在該實施方案中,生物標記物集中的每個生物標記物(A)處于根據每個生物標記物的兩組濃度測定值的邊緣分布的集中趨勢函數從最大至最小排序的生物標記物初始段中,其中排序的生物標記物的初始段是相對于第二訓練數據向量集合的正確分類的百分比排序的生物標記物的其他初始段中最大的,其中第二訓練數據向量集合的每個訓練數據向量表示單個人,并且包括相應人的生物標記物集的至少每個生物標記物的生物標記物測定值,第二訓練數據向量集合的每個訓練數據向量還包括相對于相應人的疾病狀態的分類,或(B)為在(A)中識別的生物標記物初始段中的生物標記物的一級相互作用因子。
[0021]通常,本發明的方法相對于疾病狀態的存在或不存在對測試受試者分類,所述疾病狀態優選地為肺部疾病,更優選地為非小細胞肺癌或反應性氣道疾病,例如哮喘。生物標記物測定值可包括選自實例中所描述的生物標記物的至少一個蛋白質的血漿濃度測定值。優選地,生物標記物測定值包括至少四個不同生物標記物的血漿濃度,或者生物標記物測定值可包括至少六個不同生物標記物,或甚至至少十個不同生物標記物或至少十八個不同生物標記物的血衆濃度。訓練向量集合可包括至少30個向量、50個向量,或甚至100個向量。在一個模型中,分類器是支持向量機,其包括一個或多個選自線性核、徑向基核、多項式核、均勻核、三角核、Epanechnikov核、四次方(雙權)核、三次立方(三權)核和余弦核的核函數。在另一個模型中,使用AdaBoost從基于如ID3或C4.5的初始分類器開發分類器。
[0022]本發明還提供對測試數據分類的系統,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,其中所述系統包括計算機,所述計算機包括支持向量機的電子表示,所述支持向量機可使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括相應人的生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于相應人的疾病狀態的分類,電子存儲的訓練數據向量集合可操作地聯接到計算機,所述計算機還被配置為接收測試數據,所述測試數據包括人測試受試者中生物標記物集的多個生物標記物測定值,所述計算機還被配置為在訓練后使用支持向量機的電子表示評估測試數據,并且根據評估輸出人測試受試者的分類。[0023]在另一個實施方案中,本發明提供對測試數據分類的系統,所述測試數據包括生物標記物集的每個的生物標記物測定值,其中所述系統包括計算機,所述計算機又包括支持向量機的電子表示,所述支持向量機訓練為相對于測試受試者的疾病狀態對測試數據分類,所述訓練基于電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括相應人的生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于相應人的疾病狀態的分類;所述計算機被配置為接收測試數據,所述測試數據包括人測試受試者中生物標記物集的多個生物標記物測定值,所述計算機還被配置為使用支持向量機的訓練電子表示評估測試數據,并且根據評估輸出人測試受試者的分類。
[0024]在任何實施方案中,本發明的系統適用于實施上述任何方法。在具體模型中,系統的任何實施方案中的計算機可另外配置為使用邏輯從生物標記物超集選擇生物標記物集,所述邏輯被配置為(a)對于生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離;(b)根據距離對生物標記物超集中的生物標記物排序,從而生成生物標記物的有序集合;(c)對于生物標記物的有序集合的多個初始段的每個,根據訓練數據計算模型擬合的測定值;(d)根據模型擬合的最大測定值選擇生物標記物的有序集合的初始段,以選擇生物標記物的有序集合的優選初始段;(e)從生物標記物的零集開始,從生物標記物的有序集合的優選初始段遞歸添加另外的生物標記物,生成生物標記物的子集,其中如果(I)其添加最大地提高了優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集;以及(f)當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的預定閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
[0025]本文提供的方法和系統能夠診斷和預測肺部病變(如,肺癌、哮喘),通常準確性(如,靈敏度和特異性)超過90%。這些結果與現有診斷和預測肺部病變例如非小細胞肺癌的方法相比提供了顯著改進。
[0026]附圖簡述
[0027]圖1A示出了實施例1的正常(NO)群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0028]圖1B示出了實施例1的非小細胞肺癌(LC)群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0029]圖1C示出了實施例1的哮喘(AST)群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0030]圖1D示出了實施例1的AST群體對NO群體、LC群體對NO群體和AST群體對LC群體中每個生物標記物的熒光強度平均值的百分比變化。
[0031]圖2A示出了實施例1的正常(NO)女性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0032]圖2B示出了實施例1的非小細胞肺癌(LC)女性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0033]圖2C示出了實施例1的哮喘(AST)女性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。[0034]圖2D示出了實施例1的AST群體對NO女性群體、LC群體對NO女性群體和AST群體對LC女性群體中每個生物標記物的熒光強度平均值的百分比變化。
[0035]圖3A示出了實施例1的正常(NO)男性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0036]圖3B示出了實施例1的非小細胞肺癌(LC)男性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0037]圖3C示出了實施例1的哮喘(AST)男性群體中生物標記物的平均熒光強度水平,以及標準偏差和相對標準偏差。
[0038]圖3D示出了實施例1的AST群體對NO男性群體、LC群體對NO男性群體和AST群體對LC男性群體中每個生物標記物的熒光強度平均值的百分比變化。
[0039]圖4示出了實施例1的AST男性群體對AST女性群體、LC男性群體對LC女性群體和NO男性群體對NO女性群體中每個生物標記物的熒光強度平均值的百分比變化。
[0040]圖5不出了各種分子與HGF (肝細胞生長因子)的關系。該圖由ARIADNEPATHWAY STUDIO? 生成。
[0041]圖6 不出了 Adaboost 的 ROC 曲線。
[0042]圖7示出了 SVM的ROC曲線。
[0043]圖8示出了僅限于男性的Adaboost的ROC曲線。
[0044]圖9示出了僅限于女性的Adaboost的ROC曲線。
[0045]圖10示出了基于Adaboost模型的變量選擇圖。
[0046]圖11示出了基于男性的Adaboost模型的變量選擇圖。
[0047]圖12示出了基于女性的Adaboost模型的變量選擇圖。
[0048]圖13示出了 Adaboost模型的準確性分布。
[0049]圖14示出了 Adaboost模型的靈敏度分布。
[0050]圖15示出了 Adaboost模型的特異性分布。
[0051]發明詳述
[0052]本發明涉及使用生物標記物檢測、識別和診斷肺部疾病的各種方法。這些方法涉及確定特定生物標記物的生物標記物測定值以及使用分類系統中的這些生物標記物測定值確定個體患有非小細胞肺癌和/或反應性氣道疾病(如,哮喘、慢性阻塞性肺病等)的可能性。本發明還提供包括檢測這些生物標記物的檢測劑的試劑盒,或用于確定這些生物標記物的生物標記物測定值,作為幫助確定肺部疾病的可能性的系統組件的裝置。
[0053]示例性生物標記物通過測定內科醫生確定診斷為非小細胞肺癌或哮喘的群體患者,以及未診斷為非小細胞肺癌和/或哮喘的患者的血衆中五十九個選擇生物標記物的表達水平識別。該方法在實施例1中詳細描述。
[0054]定義
[0055]如本文所用,“生物標記物”或“標記物”是可作為生物系統生理狀態的特征指標客觀測定的生物分子。出于本發明的目的,生物分子包括離子、小分子、肽、蛋白質、具有翻譯后修飾的妝和蛋白質、核昔、核昔Ife和多核昔Ife (包括RNA和DNA)、糖蛋白、脂蛋白,以及這些類型分子的各種共價和非共價修飾。生物分子包括生物系統功能天然的、特征性的和/或本質的任何這些實體。大多數生物標記物為多肽,但它們也可以是mRNA或修飾的mRNA,其代表以多肽表達的基因產物的預翻譯形式,或它們可包括多肽的翻譯后修飾。
[0056]如本文所用,“生物標記物測定值”是用于表征疾病存在或不存在的生物標記物相關信息。此類信息可包括作為或與濃度成比例,或者提供生物標記物在組織或生物流體中表達的定性或定量指示的測定值。每個生物標記物可表示為向量空間中的維度,其中每個向量由具體受試者相關的多個生物標記物測定值組成。
[0057]如本文所用,“子集”為適當子集,“超集”為適當超集。
[0058]如本文所用,“受試者”意指任何動物,但優選地為哺乳動物,例如人。在多個實施方案中,受試者是患有或存在患有肺部疾病風險的人類患者。
[0059]如本文所用,“生理樣品”包括來自生物流體和組織的樣品。生物流體包括全血、血漿、血清、唾液、尿液、汗液、淋巴液和肺泡灌洗液。組織樣品包括實體肺組織或其他實體組織的活組織、淋巴結活組織、轉移性病灶的活組織。獲得生理樣品的方法是熟知的。
[0060]如本文所用,“檢測劑”包括特異性檢測本文所述的生物標記物的試劑和系統。檢測劑包括例如抗體、核酸探針、核酸配體、凝集素的試劑,或對一個或多個特定標記物具有特定親和力,足以區分所關注樣品中的特定標記物和其他標記物的其他試劑,以及系統例如傳感器,包括使用上述結合或換句話講固定化試劑的傳感器。
[0061]一級相互作用因子
[0062]為了促進和控制維持生命必須的多種細胞和機體生理功能,生物分子必須彼此相互作用。這些相互作用可視為通訊的類型。在該通訊中,各種生物分子可視為信息。這些分子作為其信號轉導功能的必要部分,必然與多種靶標包括其他類型的生物分子相互作用。
[0063]一種類型的相互作用分子通常稱為受體。此類受體結合同樣作為相互作用分子的配體。另一種類型的直接分子間相互作用是輔因子或別構劑與酶的結合。這些分子間相互作用形成合作進行和控制細胞和生物體的基本生命功能的信號轉導分子網絡。這些相互作用分子的每個均為本發明術語中的生物標記物。本發明的特定生物標記物在生理上與其他生物標記物相關,所述其他生物標記物的水平增加或減少的方式與特定生物標記物的水平一致。這些其他相關的生物標記物相對于本發明的特定生物標記物稱為“一級相互作用因子”。
[0064]“一級相互作用因子”是直接與特定生物分子相互作用的那些分子實體。例如,藥物嗎啡直接與阿片受體相互作用,最終減少疼痛感覺。因此,在“一級相互作用因子”的定義下,阿片受體是一級相互作用因子。一級相互作用因子包括其相互作用的通訊通路中所述生物標記物的上游和下游直接鄰居。這些實體涵蓋通過關系連接的蛋白質、核酸和小分子,所述關系包括但不限于:直接(或間接)調節、表達、化學反應、分子合成、結合、啟動子結合、蛋白質修飾和分子運輸。水平一致的生物標記物集合是本領域技術人員,以及生理學和細胞生物學學者熟知的。實際上,特定生物標記物的一級相互作用因子是本領域已知的,并且可使用各種數據庫和可用的生物信息學軟件例如ARIADNE PATHWAY STUDIO?、ExPASYProteomics Server Qlucore Omics Explorer、Protein Prospector、PQuad> ChEMBL 等等查找(參見,例如 Ariadne, Inc.的 ARIADNE PATHWAY STUDIO?〈www.ariadne.genomics,com〉或歐洲生物信息學研究所(European Bioinformatics Institute)、歐洲分子生物學實驗室(European Molecular Biology Laboratory)的 ChEMBL數據庫〈www.eb1.ac.uk>)。
[0065]一級相互作用因子生物標記物是表達水平與一種生物標記物一致的那些生物標記物。因此,有關特定生物標記物水平的信息(“生物標記物測定值”)可通過測定與該特定生物標記物一致的一級相互作用因子的水平獲得。當然,技術人員將確認作為替代或除特定生物標記物之外使用的一級相互作用因子的水平以確定和可再現的方式變化,所述方式符合特定生物標記物的行為。
[0066]作為另外一種選擇,本發明提供的本文所述的任何方法可使用特定生物標記物的一級相互作用因子進行。例如,本發明的一些實施方案提供包括確定HGF的生物標記物測定值的生理表征方法。同樣,本發明還提供包括確定HGF的一級相互作用因子的生物標記物測定值的生理表征方法。HGF的一級相互作用因子包括但不限于:圖5中識別的那些(如,INS、EGF、MIF)。因此,在本發明的設想內,特定生物標記物測定值可用特定生物標記物的一級相互作用因子代替。
[0067]確定生物標記物測定值
[0068]生物標記物測定值是整體涉及表達產物,通常是蛋白質或多肽的定量測定值的信息。本發明涵蓋了在RNA (翻譯前)或蛋白質水平(可包括翻譯后修飾)確定生物標記物測定值。具體地講,本發明涵蓋了確定反映轉錄、翻譯、轉錄后修飾水平增加或減少,或蛋白質降解的范圍或程度的生物標記物濃度的變化,其中這些變化與特定疾病狀態或疾病進展相關聯。
[0069]多個正常受試者表達的蛋白質在患有疾病或病癥,例如非小細胞肺癌或哮喘的受試者中的表達更多或更少。本領域的技術人員將會知道大多數疾病表現出多個不同生物標記物的變化。同樣,疾病可通過多個標記物的表達模式來表征。多個生物標記物表達水平的確定有助于觀察表達模式,此類模式提供比單個生物標記物的檢測更靈敏、更準確的診斷。模式可包括一些特定生物標記物的異常升高,同時其他特定生物標記物的異常減少。
[0070]根據本發明,生理樣品從受試者收集,收集方式確保了樣品中的生物標記物測定值與收集樣品的受試者中該生物標記物的濃度成正比。測定的進行使得測定值與樣品中生物標記物的濃度成正比。選擇滿足這些要求的取樣技術和測定技術在本領域技術人員的認識內。
[0071]技術人員將會理解,對于單個生物標記物,多種確定生物標記物測定值的方法是本領域已知的。參見Instrumental Methods of Analysis,第7版,1988年)。此類測定可以多重或基于矩陣的格式進行,例如多重免疫測定。
[0072]多種確定生物標記物測定值的方法是本領域已知的。此類測定方法包括但不限于:放射免疫測定、酶聯免疫吸附測定(ELISA)、具有通過可見或紫外光吸收進行放射或光譜檢測的高壓液相色譜、質譜定性和定量分析、蛋白質印跡、使用放射性、熒光或化學發光探針或核檢測進行定量可視化的I維或2維凝膠電泳、具有吸收或熒光光度測定的基于抗體的檢測、通過任何多個化學發光報告系統的發光進行定量、酶測定、免疫沉淀或免疫捕獲測定、固相和液相免疫測定、蛋白質陣列或芯片、DNA陣列或芯片、板測定、使用具有結合親和力、允許識別的分子例如核酸配體和分子印跡聚合物的測定以及通過任何其他合適技術以及任何所描述的檢測技術或裝置的儀器啟動進行的生物標記物濃度的任何其他定量分析測定。
[0073]確定生物標記物測定值的步驟可通過本領域已知的任何裝置,尤其是本文討論的那些裝置進行。在優選的實施方案中,確定生物標記物測定值的步驟包括使用抗體進行免疫測定。本領域的技術人員能夠輕松地選擇用于本發明的適當抗體。所選擇的抗體優選地對所關注的抗原具有選擇性(即,對特定生物標記物具有選擇性),對所述抗原具有高結合特異性,并且與其他抗原具有最小交叉反應性。抗體結合所關注抗原的能力可以例如通過已知方法,例如酶聯免疫吸附測定(ELISA)、流式細胞術和免疫組織化學確定。此外,抗體應對所關注的抗原具有相對高的結合特異性。抗體的結合特異性可通過已知方法,例如免疫沉淀或通過體外結合測試如放射性免疫測定(RIA)或ELISA確定。選擇能夠結合所關注抗原、具有高結合特異性和最小交叉反應性的抗體的方法公開在例如美國專利N0.7,288,249中有所提供,該專利全文據此以引用方式并入。表征肺部疾病的生物標記物的生物標記物測定值可作為分類系統,例如支持向量機的輸入。
[0074]每個生物標記物可表示為向量空間中的維度,其中每個向量由具體受試者相關的多個生物標記物測定值組成。因此,向量空間的維數對應于生物標記物集的大小。多個生物標記物的生物標記物測定值模式可用于各種診斷和預后方法。本發明提供此類方法。示例性方法包括分類系統,例如支持向量機。
[0075]分類系統
[0076]本發明涉及尤其是根據多個、連續分布的生物標記物來預測肺部病變,如肺癌或哮喘。對于一些分類系統(如,支持向量機),預測可以是三步處理。在第一步驟中,通過描述預定的數據集構建分類器。這是“學習步驟”,使用“訓練”數據進行。
[0077]訓練數據庫是計算機實施的數據存儲,其反映相對于每個相應人的疾病狀態分類相關的多個人的多個生物標記物測定值。存儲數據的格式可以是平面文件、數據庫、表格,或本領域已知的任何其他可檢索的數據存儲格式。在示例性實施方案中,測試數據以多個向量存儲,每個向量對應于單個人,每個向量包括多個生物標記物的多個生物標記物測定值,以及相對于人的疾病狀態分類。通常,每個向量包含多個生物標記物測定值中每個生物標記物測定值的條目。訓練數據庫可連接到網絡,例如互聯網,使其內容可通過授權實體(如,人類用戶或計算機程序)遠程檢索。或者,訓練數據庫可位于網絡隔離的計算機中。
[0078]在第二步驟中,該步驟是可選的,分類器施加于“驗證”數據庫,并且觀察到準確性,包括靈敏度和特異性的各種測量值。在示例性實施方案中,僅有一部分訓練數據庫用于學習步驟,其余部分訓練數據庫用作驗證數據庫。在第三步驟中,將受試者的生物標記物測定值提交到分類系統,其輸出受試者的計算分類(如,疾病狀態)。
[0079]多個構建分類器的方法是本領域已知的,包括決策樹、貝葉斯分類器、貝葉斯信度網絡、養-最近鄰分類器、范例推理和支持向量機(Han J和Kamber M,2006,第6章,DataMining, Concepts and Techniques 第二版 Elsevier:Amsterdam)。在優選的實施方案中,本發明涉及支持向量機的使用。然而,如本文所述,可使用本領域已知的任何分類系統。
[0080]支持向量機
[0081]支持向量機(SVM)是本領域已知的。例如,使用支持向量機提出了診斷和預測醫學病癥出現的方法。參見,如美國專利N0.7,505,948,7, 617,163和7,676,442,這些專利的公開內容據此全文以引用方式并入。
[0082]通常,SVM提供用于根據每個受試者的生物標記物測定值的一個維向量(稱為爲-元組)將n個受試者中的每個分為兩個或更多個疾病類別的模型。SVM首先使用核函數將贏-元組轉換為等于或大于維度的空間。核函數將數據映射到空間,其中類別可使用初始數
據空間中可能的超平面更好地分離的。為了確定區分類別的超平面,可選擇支持向量集,其位置最靠近疾病類別之間的邊緣。然后通過已知SVM技術選擇超平面,使得支持向量和超平面之間的距離在處罰不正確預測的成本函數的界限內達到最大。該超平面是依據預測最佳地分離數據的超平面(Vapnik, 1998Statistical Learning Theory.New York:Wiley)。然后所有新觀察值根據觀察值相對于超平面的位置,分為屬于所關注類別中的任何一者。當考慮超過兩個類別時,對于所有類別處理成對地進行,并且其結果組合建立區分所有類別的規則。
[0083]在示例性實施方案中,使用稱為高斯徑向基函數(RBF)1 (Vapnik, 1998 (Vapnik,1998年))的核函數。RBF在先驗知識不可用時使用,其用于從多個其他定義的核函數,例如多項式或S形核(Han J.&Kamber M., page343(Han J.和Kamber M.,第 343 頁))選擇。RBF將初始空間映射到無限維度的新空間。Karatzoglou等人用R統計語言對該受試者及其實施進行了討論(Support Vector Machines in R.Journal of Statistical Software, 2006)。本文所述的所有SVM統計計算使用統計軟件編程語言和環境R2.10.0 (www.r-project.0rg)進行。SVM使用kernlab包中的ksvm()函數擬合。
[0084]以下描述提供了支持向量機的一些符號(Cristianini N, Shawe-Taylor J.AnIntroduction to Support Vector Machines and other kernel-based learningmethods, 2000年,第106頁),及其區分來自多個集合的觀察值的方法概述。
[0085]假設訓練樣品或訓練數據庫。
[0086]S= ((x1; Y1) , (x2, y2) ,..., (x1; Y1)) (I)
[0087]其中,對于i=l,...,1,Xi為生物標記物測定值的向量,并且yi為Xi屬于的集合(如,正常、非小細胞肺癌、哮喘)的指標,特征空間由核K(x,z)隱含地定義。假設參數Z滿
足以下二次優化問述:1 RBF函數為k(x;, x,) = exp (-o||x-x,||2),其中x和x,為兩個元組。
[0088]最大化撕⑷
【權利要求】
1.一種受試者的生理表征方法,所述方法包括(a)獲得所述受試者的生理樣品;(b)確定所述樣品中多個生物標記物的生物標記物測定值;以及(C)根據所述生物標記物測定值使用分類系統對所述樣品分類,其中所述樣品的所述分類與生理狀態或病癥,或所述受試者疾病狀態的變化相關。
2.—種診斷受試者中非小細胞肺癌的方法,所述方法包括(a)獲得所述受試者的生理樣品;(b)確定所述樣品中多個生物標記物的生物標記物測定值;以及(C)根據所述生物標記物測定值使用分類系統對所述樣品分類,其中所述樣品的所述分類是所述受試者中非小細胞肺癌存在或發展的表征。
3.—種診斷受試者中反應性氣道疾病的方法,所述方法包括(a)獲得所述受試者的生理樣品;(b)確定所述樣品中多個生物標記物的生物標記物測定值;以及(C)根據所述生物標記物測定值使用分類系統對所述樣品分類,其中所述樣品的所述分類是所述受試者中反應性氣道疾病的表征。
4.一種診斷受試者中肺部疾病的方法,所述方法包括, (a)獲得所述受試者的生理樣品; (b)確定所述樣品中以下多個生物標記物的生物標記物測定值:幫助區分反應性氣道疾病和非小細胞肺癌的指示的多個生物標記物、表征反應性氣道疾病的多個生物標記物,和表征非小細胞肺癌的多個生物標記物,其中所述多個生物標記物是不同的; (C)根據所述生物標記物測定值使用三個分類系統對所述樣品分類,其中所述樣品的所述分類幫助區分所述受試者中(i)反應性氣道疾病和非小細胞肺癌;(ii)存在或不存在反應性氣道疾病;以及(iii)存在或不存在非小細胞肺癌的所述指示; (d)確定所述受試者患有(I )反應性氣道疾病;(2)非小細胞肺癌,或(3)不存在疾病,這取決于在所述三種分類中的二者中發現的病癥。
5.權利要求1-4中任一項所述的方法,其中所述分類系統是機器學習系統。
6.根據權利要求5所述的方法,其中所述機器學習系統是基于核的分類系統。
7.根據權利要求6所述的方法,其中所述基于核的分類系統是支持向量機。
8.根據權利要求5所述的方法,其中所述機器學習系統是分類和回歸樹系統。
9.根據權利要求8所述的方法,其中所述機器學習系統是分類和回歸樹系統的集合體。
10.根據權利要求9所述的方法,其中所述機器學習系統是AdaBoost。
11.一種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的每個生物標記物的生物標記物測定值; 使用支持向量機的電子表示評估所述測試數據,所述支持向量機使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;以及 根據所述評估步驟輸出所述人測試受試者的分類。
12.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的每個生物標記物的生物標記物測定值; 使用AdaBoost分類器的電子表示評估所述測試數據,所述AdaBoost分類器使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;以及 根據所述評估步驟輸出所述人測試受試者的分類。
13.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 訪問電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;使用所述電子存儲的訓練數據向量集合訓練支持向量機的電子表不; 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值; 使用所述支持向量機的所述電子表示評估所述測試數據;以及 根據所述評估步驟輸出所述人測試受試者的分類。
14.一種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 訪問電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;使用所述電子存儲的訓練數據向量集合訓練AdaBoost分類器的電子表示; 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值; 使用所述AdaBoost分類器的所述電子表示評估所述測試數據;以及根據所述評估步驟輸出所述人測試受試者的分類。
15.一種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 訪問電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;從所述生物標記物集選擇生物標記物的子集;使用來自所述電子存儲的訓練數據向量集合的所述生物標記物子集的所述數據訓練支持向量機的電子表示; 接收測試數據,所述測試數據包括人測試受試者的多個生物標記物測定值;使用所述支持向量機的所述電子表示評估所述測試數據;以及 根據所述評估步驟輸出所述人測試受試者的分類,其中所述選擇生物標記物的子集包括:a.對于所述生物標記物集中的每個生物標記物,使用編程計算機計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從所述生物標記物空集開始,將來自生物標記物的所述有序集合的所述優選初始段的另外生物標記物遞歸添加到所述模型,生成所述生物標記物子集,其中如果(I)其添加最大地提高了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集; f.當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的所述預定的閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
16.一種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 訪問電子存儲的訓練數據向量 集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;從所述生物標記物集選擇生物標記物的子集; 使用來自所述電子存儲的訓練數據向量集合的所述生物標記物子集的所述數據訓練AdaBoost分類器的電子表示; 接收測試數據,所述測試數據包括人測試受試者的多個生物標記物測定值;使用所述支持向量機的所述電子表示評估所述測試數據;以及 根據所述評估步驟輸出所述人測試受試者的分類,其中所述選擇生物標記物的子集包括: a.對于所述生物標記物集中的每個生物標記物,使用編程計算機計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從所述生物標記物空集開始,將來自生物標記物的所述有序集合的所述優選初始段的另外生物標記物遞歸添加到所述模型,生成所述生物標記物子集,其中如果(I)其添加最大地提高了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集; f.當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的所述預定的閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
17.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的每個的生物標記物測定值; 使用支持向量機的電子表示評估所述測試數據,所述支持向量機使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,所述生物標記物集從生物標記物超集選擇;以及 根據所述評估步驟輸出所述人測試受試者的分類。
18.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的每個的生物標記物測定值; 使用AdaBoost分類器的電子表示評估所述測試數據,所述AdaBoost分類器使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,所述生物標記物集從生物標記物超集選擇;以及 根據所述評估步驟輸 出所述人測試受試者的分類。
19.根據權利要求17和18所述的方法,其中所述生物標記物測定值集合從生物標記物測定值的所述超集選擇,所述選擇使用的方法包括: a.對于所述生物標記物超集中的每個生物標記物,使用編程計算機計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從所述生物標記物空集開始,遞歸添加來自生物標記物的所述有序集合的所述優選初始段的另外生物標記物,生成所述生物標記物子集,其中如果(I)其添加最大地提高了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集; f.當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的所述預定的閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
20.根據權利要求17和18所述的系統,所述系統還包括被配置為使用邏輯從生物標記物超集選擇生物標記物集的計算機,所述邏輯被配置為: a.對于所述生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物超集中的所述生物標記物排序,從而生成生物標記物的有序集合; C.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從生物標記物的所述初始段開始,從生物標記物的所述有序集合的所述優選初始段遞歸移除生物標記物,生成所述生物標記物子集,其中如果(I)其移除最小地減少了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其移除未減少模型擬合至少預定的閾值,則將每個生物標記物從現有的生物標記物超集移除; f.當任何另外的生物標記物的所述移除導致模型擬合的測定值的減少超出模型擬合測定值的所述預定的閾值時,停止將生物標記物從現有的生物標記物超集移除,從而選擇生物標記物超集。
21.根據權利要求17-20中任一項所述的方法,其中所述評估包括訪問所述電子存儲的訓練數據向量集合。
22.根據權利要求11-21中任一項所述的方法,其中相對于疾病狀態的所述分類為所述疾病狀態的所述存在或不存在。
23.根據權利要求22所述的方法,其中所述疾病狀態是肺部疾病。
24.根據權利要求23所述的方法,其中所述肺部疾病是非小細胞癌。
25.根據權利要求23所述的方法,其中所述肺部疾病是反應性氣道疾病。
26.根據權利要求25所述的方法,其中所述反應性氣道疾病是哮喘。
27.根據權利要求11-26中任一項所述的方法,其中所述生物標記物測定值包括至少一個蛋白質的血衆濃度測量值,所述蛋白質選自載脂蛋白(〃Apo〃) Al、ApoA2、ApoB> ApoC2、ApoE, CD40、D- 二聚體、因子-VI1、因子-VII1、因子-X、蛋白-C、組織纖溶酶原激活劑(〃TPA〃)、腦源性神經營養因子(〃BDNF〃)、B淋巴細胞趨化因子(〃BLC〃)、趨化因子(C-X-C基序)配體I ("GR0-1")、皮膚T-細胞吸引趨化因子("CTACK")、嗜酸性粒細胞活化趨化因子-2、嗜酸性粒細胞活化趨化因子_3、粒酶-B、肝細胞生長因子(〃HGF〃)、1-TACX "CXCLir ;〃趨化因子(C-X-C基序)配體11"、〃干擾素誘導T-細胞α趨化因子〃)、瘦蛋白("LEP")、白血病抑制因子(〃LIF〃)、單核細胞特異性趨化因子3(〃MMP-3〃)、巨噬細胞集落刺激因子("MCSF")、Y干擾素誘導的單核細胞因子("MIG")、巨噬細胞炎性蛋白-3 α ("MIP-3 α 〃)、基質金屬蛋白酶(〃ΜΜΡ〃)1、ΜΜΡ2、ΜΜΡ3、ΜΜΡ7、ΜΜΡ8、ΜΜΡ9、ΜΜΡ12、ΜΜΡ13、CD40、神經生長因子β ("NGF-β")、可溶性配體("CD40配體〃)、表皮生長因子("EFG")、嗜酸性粒細胞活化趨化因子("CCL11")、Fractalkine、堿性成纖維細胞生長因子("FGF-堿性〃)、粒細胞集落刺激因子("G-CSF")、粒細胞巨噬細胞集落刺激因子("GM-CSF")、干擾素、("IFN Y")、IFN-ω、IFN-α 2、IFN-β、白介素(〃IL〃)la、IL-1 β、IL-lra、IL-2、IL_2ra、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-16、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL_23(pl9)、IL-27、IL-31、IP-10、單核細胞趨化蛋白I (〃MCP-1〃)、巨噬細胞炎性蛋白(〃MIP〃)la、MIP-l β、中性粒細胞激活肽78 (〃ΕΝΑ_78〃)、骨保護素(〃0PG〃)、胎盤生長因子(〃PIGF〃)、血小板衍生生長因子亞基B同源二聚體("TOGFBB")、正常T細胞表達分泌的活性調節蛋白("RANTES")、干細胞生長因子("SCGF")、基質細胞衍生因子I ("SDF-1")、可溶性Fas配體("Sfas-配體〃)、可溶性核因子κ -B受體活化劑配體(〃8狀爾1/)、生存素、轉化生長因子&0^ a〃)、TGF_i3、腫瘤壞死因子a(〃TNFa〃)、TNF-β、TNF 受體 I (〃TNFR_I〃)、TNFR-1I, TNF-相關凋亡誘導配體(〃TRAIL〃)、促血小板生成素(〃TPO〃)、血管內皮生長因子(〃VEGF〃)、胰島素(〃Ins〃)、C-肽、胰高血糖素樣蛋白-1/胰淀素("GLP-1/胰淀素〃)、胰淀素(總)、胰高血糖素、脂聯素、纖溶酶原激活物抑制劑I ("PA1-1";〃絲氨酸蛋白酶抑制劑〃)(活化/總)、抵抗素(〃RETN〃 ,xcpl")、sFas、可溶性Fas配體(〃sFasL〃)、巨噬細胞游走抑制因子(〃MIF〃)、sE_選擇素、可溶性血管細胞粘附分子("sVCAM")、可溶性細胞間粘附分子("sICAM")、髓過氧化物酶(〃MPO〃)、C_反應蛋白(〃CRP〃)、血清淀粉樣蛋白A (〃SAA〃 ;〃SAA1〃)和血清淀粉樣蛋白P(〃SAP〃)。
28.根據權利要求27所述的方法,其中所述生物標記物測定值包括至少四種不同生物標記物的血漿濃度。
29.根據權利要求27所述的方法,其中所述生物標記物測定值包括至少六種不同生物標記物的血漿濃度。
30.根據權利要求27所述的方法,其中所述生物標記物測定值包括至少十種不同生物標記物的血漿濃度。
31.根據權利要求27所述的方法,其中所述生物標記物測定值包括至少十八種不同生物標記物的血漿濃度。
32.根據權 利要求11-31中任一項所述的方法,其中所述其中所述訓練向量集包括至少30個向量、50個向量、100個向量。
33.根據權利要求11、13、15、17和19-26中任一項所述的方法,其中所述支持向量機包括一個或多個選自線性核、徑向基核、多項式核、均勻核、三角核、Epanechnikov核、四次方(雙權)核、三次立方(三權)核和余弦核的核函數。
34.根據權利要求12、14、16和18-26中任一項所述的方法,其中所述AdaBoost分類器包括 5、10、15、20、25、30、40、50、75 或 100 次迭代。
35.一種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的生物標記物測定值,所述系統包括: 電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類; 可操作地聯接到所述電子存儲的訓練數據向量集合的計算機,所述計算機包括支持向量機的電子表示,所述支持向量機適于使用所述電子存儲的訓練數據向量集合訓練,所述計算機被配置為接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值,所述計算機還被配置為使用所述支持向量機的所述電子表示評估所述測試數據,并且根據所述評估輸出所述人測試受試者的分類。
36.一種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的生物標記物測定值,所述系統包括: 電子存儲的訓練數據向量集合,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;可操作地聯接到所述電子存儲的訓練數據向量集合的計算機,所述計算機包括AdaBoost分類器的電子表示,所述AdaBoost分類器適于使用所述電子存儲的訓練數據向量集合訓練,所述計算機被配置為接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值,所述計算機還被配置為使用所述支持向量機的所述電子表示評估所述測試數據,并且根據所述評估輸出所述人測試受試者的分類。
37.一種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述系統包括: 包括支持向量機的電子表示的計算機,所述支持向量機使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;所述計算機被配置為接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值,所述計算機還被配置為使用所述支持向量機的所述電子表示評估所述測試數據,并且根據所述評估輸出所述人測試受試者的分類。
38.一種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述系統包括: 包括AdaBoost分類器的電子表示的計算機,所述AdaBoost分類器使用電子存儲的訓練數據向量集合訓練,每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的每個生物標記物的生物標記物測定值,每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類;所述計算機被配置為接收測試數據,所述測試數據包括人測試受試者中所述生物標記物集的多個生物標記物測定值,所述計算機還被配置為使用所述支持向量機的所述電子表示評估所述測試數據,并且根據所述評估輸出所述人測試受試者的分類。
39.根據權利要求37所述的系統,所述系統還包括被配置為使用邏輯從生物標記物超集選擇生物標記物集的計算機,所述邏輯被配置為: a.對于所述生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物超集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從所述生物標記物空集開始,遞歸添加來自生物標記物的所述有序集合的所述優選初始段的另 外生物標記物,生成所述生物標記物子集,其中如果(1)其添加提高了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集; f.當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的所述預定的閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
40.根據權利要求37所述的系統,所述系統還包括被配置為使用邏輯從生物標記物超集選擇生物標記物集的計算機,所述邏輯被配置為: a.對于所述生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物超集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從生物標記物的所述初始段開始,從生物標記物的所述有序集合的所述優選初始段遞歸移除生物標記物,生成所述生物標記物子集,其中如果(I)其移除最小地減少了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其移除未減少模型擬合至少預定的閾值,則將每個生物標記物從現有的生物標記物超集移除; f.當任何另外的生物標記物的所述移除導致模型擬合的測定值的減少超出模型擬合測定值的所述預定的閾值時,停止將生物標記物從現有的生物標記物超集移除,從而選擇生物標記物超集。
41.根據權利要求38所述的系統,所述系統還包括被配置為使用邏輯從生物標記物超集選擇生物標記物集的計算機,所述邏輯被配置為: a.對于所述生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而 生成多個距離; b.根據所述距離對所述生物標記物超集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從所述生物標記物空集開始,遞歸添加來自生物標記物的所述有序集合的所述優選初始段的另外生物標記物,生成所述生物標記物子集,其中如果(I)其添加提高了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其添加提高了模型擬合至少預定的閾值,則將每個另外的生物標記物添加到生物標記物的現有子集; f.當另外的生物標記物未導致模型擬合的測定值超出模型擬合測定值的所述預定的閾值時,停止將生物標記物添加到生物標記物的現有子集,從而選擇生物標記物的子集。
42.根據權利要求38所述的系統,所述系統還包括被配置為使用邏輯從生物標記物超集選擇生物標記物集的計算機,所述邏輯被配置為: a.對于所述生物標記物超集中的每個生物標記物,計算每個生物標記物的兩組濃度測定值的邊緣分布之間的距離,從而生成多個距離; b.根據所述距離對所述生物標記物超集中的所述生物標記物排序,從而生成生物標記物的有序集合; c.對于生物標記物的所述有序集合的多個初始段中的每個,根據所述訓練數據計算模型擬合的測定值; d.根據模型擬合的最大測定值選擇生物標記物的所述有序集合的初始段,從而選擇生物標記物的所述有序集合的優選初始段; e.從生物標記物的所述初始段開始,從生物標記物的所述有序集合的所述優選初始段遞歸移除生物標記物,生成所述生物標記物子集,其中如果(I)其移除最小地減少了所述優選初始段中剩余的生物標記物中的模型擬合,以及(2)其移除未減少模型擬合至少預定的閾值,則將每個生物標記物從現有的生物標記物超集移除; f.當任何另外的生物標記物的所述移除導致模型擬合的測定值的減少超出模型擬合測定值的所述預定的閾值時,停止將生物標記物從現有的生物標記物超集移除,從而選擇生物標記物超集。
43.根據權利要求35-42中任一項所述的系統,其中相對于疾病狀態的所述分類為所述疾病狀態的所述存在或不存在。
44.根據權利要求43所述的系統,其中所述疾病狀態是肺部疾病。
45.根據權利要求44所述的系統,其中所述肺部疾病是非小細胞癌。
46.根據權利要求44所述的系統,其中所述肺部疾病是反應性氣道疾病。
47.根據權利要求46所述的系統,其中所述反應性氣道疾病是哮喘。
48.根據權利要求35-47中任一項所述的方法,其中所述生物標記物測定值包括至少一個蛋白質的血衆濃度測量 值,所述蛋白質選自載脂蛋白(〃Apo〃)Al、ApoA2、ApoB> ApoC2、ApoE, CD40、D- 二聚體、因子-VI1、因子-VII1、因子-X、蛋白-C、組織纖溶酶原激活劑(〃TPA〃)、腦源性神經營養因子(〃BDNF〃)、B淋巴細胞趨化因子(〃BLC〃)、趨化因子(C-X-C基序)配體I ("GR0-1")、皮膚T-細胞吸引趨化因子("CTACK")、嗜酸性粒細胞活化趨化因子-2、嗜酸性粒細胞活化趨化因子_3、粒酶-B、肝細胞生長因子(〃HGF〃)、1-TACX "CXCLir ;“趨化因子(C-X-C基序)配體11”、“干擾素誘導T-細胞a趨化因子”)、瘦蛋白("LEP")、白血病抑制因子(〃LIF〃)、單核細胞特異性趨化因子3(〃MMP-3〃)、巨噬細胞集落刺激因子(〃MCSF〃)、y干擾素誘導的單核細胞因子("MIG")、巨噬細胞炎性蛋白-3 a ("MIP-3 a 〃)、基質金屬蛋白酶(〃MMP〃)1、MMP2、MMP3、MMP7、MMP8、MMP9、MMP12、MMP13、CD40、神經生長因子P ("NGF-P")、可溶性配體("CD40配體〃)、表皮生長因子("EFG")、嗜酸性粒細胞活化趨化因子("CCL11")、Fractalkine、堿性成纖維細胞生長因子("FGF-堿性〃)、粒細胞集落刺激因子("G-CSF")、粒細胞巨噬細胞集落刺激因子("GM-CSF")、干擾素、("IFN Y")、IFN-w、IFN-a 2、IFN-3、白介素(〃IL〃)la、IL-1 ^、IL-lra、IL-2、IL_2ra、IL-3、IL-4、IL-5、IL-6、IL-7、IL-8、IL-9、IL-10、IL-12(p40)、IL-12(p70)、IL-13、IL-15、IL-16、IL-17、IL-17a、IL-17F、IL-20、IL-21、IL-22、IL_23(pl9)、IL-27、IL-31、IP-10、單核細胞趨化蛋白I (〃MCP-1〃)、巨噬細胞炎性蛋白(〃MIP〃)la、MIP-l P、中性粒細胞激活肽78 (〃ENA_78〃)、骨保護素(〃0PG〃)、胎盤生長因子(〃PIGF〃)、血小板衍生生長因子亞基B同源二聚體("TOGFBB")、正常T細胞表達分泌的活性調節蛋白("RANTES")、干細胞生長因子("SCGF")、基質細胞衍生因子I ("SDF-1")、可溶性Fas配體("Sfas-配體〃)、可溶性核因子k -B受體活化劑配體(〃8狀爾1/)、生存素、轉化生長因子&(/'^^ a〃)、TGF-0、腫瘤壞死因子a(〃TNFa〃)、TNF-^、TNF 受體 I (〃TNFR_I〃)、TNFR-1I, TNF-相關凋亡誘導配體(〃TRAIL〃)、促血小板生成素(〃TP0〃)、血管內皮生長因子(〃VEGF〃)、胰島素(〃Ins〃)、C-肽、胰高血糖素樣蛋白-1/胰淀素("GLP-1/胰淀素〃)、胰淀素(總)、胰高血糖素、脂聯素、纖溶酶原激活物抑制劑I ("PA1-1";〃絲氨酸蛋白酶抑制劑〃)(活化/總)、抵抗素(〃RETN〃 ,xcpl")、sFas、可溶性Fas配體(〃sFasL〃)、巨噬細胞游走抑制因子(〃MIF〃)、sE_選擇素、可溶性血管細胞粘附分子("sVCAM")、可溶性細胞間粘附分子("sICAM")、髓過氧化物酶(〃MPO〃)、C-反應蛋白(〃CRP〃)、血清淀粉樣蛋白A (〃SAA〃 ;〃SAA1〃)和血清淀粉樣蛋白P(〃SAP〃)。
49.根據權利要求48所述的系統,其中所述生物標記物測定值包括至少四種不同生物標記物的血漿濃度。
50.根據權利要求48所述的系統,其中所述生物標記物測定值包括至少六種不同生物標記物的血漿濃度。
51.根據權利要求48所述的系統,其中所述生物標記物測定值包括至少十種不同生物標記物的血漿濃度。
52.根據權利要求48所述的系統,其中所述生物標記物測定值包括至少十八種不同生物標記物的血漿濃度。
53.根據權利要求35-52中任一項所述的系統,其中所述其中所述訓練向量集包括至少30個向量、50個向量、100個向量。
54.根據權利要求35、37、39、40或43-53中任一項所述的系統,其中所述支持向量機包括一個或多個選自線性核、徑向基核、多項式核、均勻核、三角核、Epanechnikov核、四次方(雙權)核、三次立方(三權)核和余弦核的核函數。
55.根據權利要求36、38或41-53中任一項所述的系統,其中所述AdaBoost分類器包括 5、10、15、20、25、30、40、50、75 或 100 次迭代。
56.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收人測試受試者的測試數據,所述測試數據包括所述生物標記物集的至少每個生物標記物的生物標記物測定值。 使用支持向量機的電子表示評估所述測試數據,所述支持向量機使用電子存儲的第一訓練數據向量集合訓練,所述第一訓練數據向量集合的每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第一訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類; 以及 根據所述評估步驟輸出所述人測試受試者的分類; 其中所述生物標記物集中的每個生物標記物(A)處于根據每個生物標記物的兩組濃度測定值的邊緣分布的集中趨勢函數從最大至最小排序的生物標記物初始段中,其中排序的生物標記物的所述初始段是相對于第二訓練數據向量集合的正確分類的百分比排序的生物標記物的其他初始段中最大的,并且其中所述第二訓練數據向量集合的每個訓練數據向量表示單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第二訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,或(B)為在(A)中識別的生物標記物的所述初始段中的生物標記物的一級相互作用因子。
57.—種對測試數據分類的方法,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述方法包括: 接收人測試受試者的測試數據,所述測試數據包括所述生物標記物集的至少每個生物標記物的生物標記物測定值。 使用AdaBoost分類器的電子表示評估所述測試數據,所述AdaBoost分類器使用電子存儲的第一訓練數據向量集合訓練,所述第一訓練數據向量集合的每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第一訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類; 以及 根據所述評估步驟輸出所述人測試受試者的分類; 其中所述生物標記物集中的每個生物標記物(A)處于根據每個生物標記物的兩組濃度測定值的邊緣分布的集中趨勢函數從最大至最小排序的生物標記物初始段中,其中排序的生物標記物的所述初始段是相對于第二訓練數據向量集合的正確分類的百分比排序的生物標記物的其他初始段中最大的,并且其中所述第二訓練數據向量集合的每個訓練數據向量表示單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第二訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,或(B)為在(A)中識別的生物標記物的所述初始段中的生物標記物的一級相互作用因子。
58.根據權利要求56或57所述的方法,其中所述生物標記物集中的每個生物標記物處于生物標記物的遞歸添加生成的生物標記物集中,所述添加最大地提高了所述第二訓練數據向量集合與所述前一個集合的正確分類百分比,從所述空集開始,直到添加另外的生物標記物不會增加所述第二訓練數據向量集合的正確分類百分比至少20%的閾值。
59.根據權利要求58所述的方法,其中所述閾值為15%。
60.根據權利要求58所述的方法,其中所述閾值為10%。
61.根據權利要求58所述的方法,其中所述閾值為5%。
62.根據權利要求58所述的方法,其中所述閾值為2%。
63.根據權利要求58所述的方法,其中所述閾值為1%。
64.根據權利要求58所述的方法,其中所述閾值為0.5%。
65.根據權利要求58所述的方法,其中所述閾值為0.1%。
66.根據權利要求58所述的方法,其中所述閾值為0.01%。
67.根據權利要求58所述的方法,其中所述第一訓練數據向量集合與所述第二訓練數據向量集合相同。
68.根據權利要求58-67中任一項所述的方法,其中所述第一訓練數據向量集合和所述第二訓練數據向量集合的每個向量隨機選擇。
69.根據權利要求58-68中任一項所述的方法,其中所述第一訓練數據向量集合包含至少五十個向量。
70.根據權利要求58-69中任一項所述的方法,其中所述第二訓練數據向量集合包含至少五十個向量。
71.根據權利要求58-70中任一項所述的方法,所述方法還包括訪問電子存儲的所述第一訓練數據向量集合,以及訪問電子存儲的所述第二訓練數據向量集合。
72.—種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述系統包括: 電子計算機,所述電子計算機編程為接收人測試受試者的測試數據,所述測試數據包括所述生物標記物集的至少每個生物標記物的生物標記物測定值,以及使用支持向量機的電子表示評估所述測試數據,所述支持向量機使用電子存儲的第一訓練數據向量集合訓練,所述第一訓練數據向量集合的每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第一訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類; 其中所述計算機還編程為根據所述支持向量機的所述電子表示輸出所述人測試受試者的分類; 其中所述生物標記物集中的每個生物標記物:(A)處于根據每個生物標記物的兩組濃度測定值的邊緣分布的集中趨勢函數從最大至最小排序的生物標記物初始段中,其中排序的生物標記物的所述初始段是相對于第二訓練數據向量集合的正確分類的百分比排序的生物標記物的其他初始段中最大的,并且其中所述第二訓練數據向量集合的每個訓練數據向量表示單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第二訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,或(B)為在(A)中識別的生物標記物的所述初始段中的生物標記物的一級相互作用因子。
73.—種對測試數據分類的系統,所述測試數據包括生物標記物集的每個的多個生物標記物測定值,所述系統包括: 電子計算機,所述電子計算機編程為接收人測試受試者的測試數據,所述測試數據包括所述生物標記物集的至少每個生物標記物的生物標記物測定值,以及使用AdaBoost分類器的電子表示評估所述測試數據,所述AdaBoost分類器使用電子存儲的第一訓練數據向量集合訓練,所述第一訓練數據向量集合的每個訓練數據向量代表單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第一訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類; 其中所述計算機還編程為根據所述AdaBoost分類器的所述電子表示輸出所述人測試受試者的分類; 其中所述生物標記物集中的每個生物標記物:(A)處于根據每個生物標記物的兩組濃度測定值的邊緣分布的集中趨勢函數從最大至最小排序的生物標記物初始段中,其中排序的生物標記物的所述初始段是相對于第二訓練數據向量集合的正確分類的百分比排序的生物標記物的其他初始段中最大的,并且其中所述第二訓練數據向量集合的每個訓練數據向量表示單個人,并且包括所述相應人的所述生物標記物集的至少每個生物標記物的生物標記物測定值,所述第二訓練數據向量集合的每個訓練數據向量還包括相對于所述相應人的疾病狀態的分類,或(B)為在(A)中識別的生物標記物的所述初始段中的生物標記物的一級相互作用因子。
74.根據權利要求72或73所述的系統,其中所述生物標記物集中的每個生物標記物處于生物標記物的遞歸添加生成的生物標記物集中,所述添加最大地提高了所述第二訓練數據向量集合與所述前一個集合的正確分類百分比,從所述空集開始,直到添加另外的生物標記物不會增加所述第二訓練數據向量集合的正確分類百分比至少20%的閾值。
75.根據權利要求74所述的方法,其中所述閾值為15%。
76.根據權利要求74所述的方法,其中所述閾值為10%。
77.根據權利要求74所述的方法,其中所述閾值為5%。
78.根據權利要求74所述的方法,其中所述閾值為2%。
79.根據權利要求74所述的方法,其中所述閾值為1%。
80.根據權利要求74所述的方法,其中所述閾值為0.5%。
81.根據權利要求74所述的方法,其中所述閾值為0.1%。
82.根據權利要求74所述的方法,其中所述閾值為0.01%。
83.根據權利要求74所述的系統,其中所述第一訓練數據向量集合與所述第二訓練數據向量集合相同。
84.根據權利要 求72-83中任一項所述的系統,其中所述第一訓練數據向量集合和所述第二訓練數據向量集合的每個向量隨機選擇。
85.根據權利要求72-84中任一項所述的系統,其中所述第一訓練數據向量集合包含至少五十個向量。
86.根據權利要求72-85中任一項所述的系統,其中所述第二訓練數據向量集合包含至少五十個向量。
87.根據權利要求72-86中任一項所述的系統,所述系統還包括電子存儲的所述第一訓練數據向量集合和電子存儲的所述第二訓練數據向量集合,所述第一訓練數據向量集合可操作地聯接到所述電子計算機,所述第二訓練數據向量集合可操作地聯接到所述電子計算機。
【文檔編號】G01N33/574GK103703371SQ201280031514
【公開日】2014年4月2日 申請日期:2012年4月30日 優先權日:2011年4月29日
【發明者】R·T·斯特里珀, E·伊茲比茨卡, J·米夏勒克, C·勞登 申請人:癌癥預防和治療有限公司
網友(you)詢(xun)問(wen)留(liu)言(yan) 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1