專利名稱:分析選定的多組分樣品的方法
技術領域:
本發明涉及一種對數據、特別是對從包含多個組分的系統(例如含有多個未經鑒定的化合物的組合物)中得到的數據進行分析的方法,以及用于實施這種分析的程序和計算機。
在環境監測和醫療診斷分析中,分析人員可得到含有多個未經鑒定的化學或生物組分的樣品(例如體液、廢液或廢氣樣品),比方說包含幾百種化合物,分析人員需要確定出抽樣分析的物質是否會造成環境危險或含有病狀跡象。目前使用的一種典型技術是所謂的埃米斯(Ames)測試,這種技術是使一種細菌的選定突變菌株暴露在樣品中,并通過測定細菌的突變程度來評估環境樣品的毒性(致突變性),其中細菌由于發生突變,因此具有自然(野生)菌株中存在而選定的突變系中缺乏的特性。
我們可以看到,這樣的測試僅僅表明特定的樣品具有毒性,而并沒有指出產生毒性的特定化合物或一組化合物,也沒有給出預測其他樣品毒性的基準。
同樣,大多數診斷分析僅僅檢測出一種單一化合物的存在或過量,但卻沒有指出還可表征特定病狀或其他病狀的其他化合物的存在或過量。
可以用色譜技術(例如用液相色譜或氣相色譜)分離多組分混合物中的各個組分,也可以用光譜技術(例如質譜、IR、UV、拉曼、ESR和NMR光譜)來測定各個組分的光譜特征;然而,色譜分離一般無法分離出由幾百種化合物組成的混合物中的每一種組分,而且色譜分離很昂貴、耗時,一般來說,對一個多組分樣品的所有餾分或組分進行毒性分離或其他檢測是不切實際的。
因此,人們需要一種對多組分混合物進行分析的方法,這種方法能夠整體預測混合物的效應(例如毒性),而且可以集中并有可能鑒定出對這種效應起主要作用的組分。
現在,我們已經找到了這樣的方法,它能夠實現這樣的功能,即對大多數相似的樣品來說,我們可以得到樣品效應的數據,也可以得到樣品的分離餾分(例如樣品的色譜分離餾分)的特征光譜數據。
因此,從一方面來看,本發明提供了一種用于分析選定的多組分樣品的方法,以便預測樣品的某種本征值(property value),這種方法包括i)確定多個相似的多組分樣品的所述本征值;ii)對每一種所述相似樣品來說,a)沿一個分離量度(dimension)分離樣品的組分,b)在沿以所述分離量度的多個位置上對樣品的多個部分進行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,d)為所述分離量度的各個部分選擇幾組所述圖形(pattern),并且從其中確定所述部分的各個組分的特征圖形和分離量度分布曲線;iii)將沿分離量度的確定圖形與其分布曲線的位置進行比較,由此可以鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中的組分的所述本征值和所確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型;v)對所述的選定樣品來說,A)沿一個分離量度分離其組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,C)確定每一部分的圖形,該圖形可以表征該部分的單一或者多組分的性質,D)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出這些部分的各個組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個組分的已確定分布曲線的強度上,由此對所述選定樣品的所述本征值進行估算。
“本征(property)”指的是任何能夠被指定數值的性質;然而它也可能是例如零或者一,其中間級度(gradation)是不可能或不需要的,例如生或死、感染或未感染等等。
本發明的方法涉及到根據對相似樣品的分析來構建一種預測模型,對于這樣的相似樣品來說,其本征值已經確定,然后將這種模型施加到無需確定本征的樣品的分析結果中。由于相似性意味著樣品是相同的類型,或具有相同或相似類型的來源,例如,樣品都是來自于相同工藝或操作的廢氣或廢液,或者是從相同物種的成員中的相同體液、組織、滲出液等中取得,例如血液、血清、血漿、尿液、粘液、唾液、糞便、汗液、體內氣體等等。因此,“相似”的樣品將共同含有“選定”樣品中存在的多個、優選的是全部或絕大部分組分。
本發明的方法涉及對多組分樣品的各個組分進行分離。這樣的分離可以是但并不需要是完全的,而目每個取樣部分(例如對于質譜分析來說)可以因此含有一種或多種成分。所以,如果借助于氣相或液相色譜法進行分離,那么同樣的組分可存在于沿分離量度(例如洗脫時間)的幾個相鄰部分中。因此,在用氣相色譜-質譜(GC-MS)法時,這種方法涉及對相鄰部分的質譜圖譜的研究,以便鑒定出各個組分的MS特征峰,并且計算出各個組分沿洗脫時間的GC分布曲線。如果需要的話,可以排除分離量度的無用部分的數據,這樣,需要確定分布曲線的組分可以僅僅需要包括所存在的全部組分的一個子集。那些已確定的分布曲線的強度(例如,峰高、峰的面積或簡單的是/否的值)可用于預測模型的構建和應用。通過對不同樣品的數據進行比較可精確制定出預測模型,這樣就可以識別出在分布曲線(例如保留時間或調整保留時間)和圖形(例如質譜)方面相同或非常相似的類似組分。
對許多樣品的分析來說,一個供應商可以向用戶提供預先計算好的預測模型,因此,從這一方面來看,本發明提供了一種用于預測多組分樣品的本征值的預測模型的產生方法,這種方法包括i)確定出多個相似的多組分樣品的所述本征值;ii)對每一種所述的相似樣品來說,a)沿一分離量度分離它的組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,
d)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定所述部分的各個組分的特征圖形和分離量度分布曲線;iii)將沿分離量度的確定圖形與其分布曲線的位置進行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中各個組分的所述本征值和確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型。
從另一方面看,本發明提供了一種對選定多組分樣品進行分析的方法,以預測它的本征值。這種方法包括A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,C)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,D)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出該部分的各個組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個組分的已確定分布曲線的強度上,由此對所述選定樣品的所述本征值進行估算。
同時,正如下面將要進一步討論的,本發明的方法可以更廣泛地應用于多組分樣品,以下將進一步詳細描述的這個方法,涉及到利用產生各個部分的色譜分離和產生圖形的光譜分析對包含大量化合物的樣品進行分析,以得到定量性質例如物理、化學性質,特別是生物學性質(例如毒性、致突變性、病狀、基因型、治療效果等等)。
雖然如上所述,我們可以使用許多不同的光譜分析方法,但光譜的波峰(或波谷)尖銳的技術是特別優選的,例如NMR,尤其是質譜(MS)。同樣,優選的是采用液相色譜或更好的氣相色譜進行分離。
可以利用能產生樣品的色譜分離光譜數據的設備,例如GC-MS設備。
因此,用于按照本發明的分析方法的起始數據可以認為是一個二維矩陣(即色譜部分的數據和每一個色譜部分的光譜數據),再加上用于產生預測模型的每一樣品的確定本征值和用于產生選定樣品的預測值的二維矩陣(即色譜部分的數據和每一個色譜部分的光譜數據)。同樣,色譜和光譜數據將包括強度和位置(例如洗脫時間或質量數或質荷比)數據。
為了減少所需的計算時間,這一點在樣品含有幾百種化合物的時候特別重要,我們可以通過去掉峰高低于預設最小值(例如,在餾分中樣品的化合物的量為零或非常低,或者光譜的波峰處于噪聲級)的數據,或者去掉與已知或認為對本征無影響的化合物相對應部分的數據(例如較低分子量、快速洗脫的化合物),來限制輸入數據。
一般來說,數據矩陣可以首先通過去除在洗脫時間沒有組分流出(即色譜信號(高度)低于預設界限)的洗脫時間數據而加以簡化。然而,這種刪除最好是在沿時間方向的位置上進行,在這個位置上信號與峰高的關聯很小。
可以通過以下方式實現這一點設定一個相鄰波峰比值(,例如比值為0.1到0.4,優選的是0.3,并且只有在波峰的信號比率低于這個值時才去掉這個數據,而不是在信號達到跟隨波峰分最小值的時間位置上或者在信號低于預設清除極限的時間位置上清除這個數據。清除極限本身一般根據用戶的需要進行設置——一個更高的值會去掉更多的數據,因而會忽略更多的次要組分,反之也是如此。清除界限一般設定為最小可區分信號高度的5%-10%。很明顯,清除極限越低,就會保留更多的數據,這樣就會分析更多的組分。
2D GC-MS數據能夠包括由各種原因產生的背景噪聲。檢測器性能方面的變化能夠導致色譜基線的偏移和漂移,而且柱流失能夠導致背景光譜的存在。這就需要我們在去除零信號或噪聲信號保留時間之后,對剩余的色譜峰進行背景校正。這一點可以通過對一次(即線性)估算基線進行計算來實現,這條基線具有的斜率與峰簇任一側的零組分區域的外推直線的斜率近似。
這樣,對于以這種方式選定的每一色譜峰簇來說,都可以對單獨的光譜數據集進行標準化,例如,設定最大的譜峰高度為1或總的譜峰面積為1,或者也可以把最大譜峰高度設定為與選定色譜峰簇的峰面積成比例的值。
優選的是,以這種方式選定的色譜峰簇延續至少20個分辨時間閥值(valves),即與它們關聯的至少有20ms譜項。
隨后,光譜數據的數據簡化可以同樣進行。因此,對MS來說,如果同時考慮整個洗脫時間,那么在可記錄范圍內的大多數,甚至全部質量數都包含至少一個組分的信號。然而,在色譜部分的質譜圖中,許多質量數并不包含信號或者所包含的信號僅僅是由于噪聲引起的。這種質量數的存在降低了解析過程的質量,所以,最好在解析之前就把它們從譜項中消除。
當然,檢測出零信號的質量數是沒有價值的,可以用形態學標準和F測試(參看Shen et al.Chemomem.Intell.Lab.Syst.5137-47(2000))相結合來檢測由于隨機噪聲造成的信號的質量數,F測試利用了這樣一個事實,即噪聲的頻率比一種化學組分發出的信號的頻率更高。這樣,在解析之前,就消除了高達約90%的質譜數據。
隨后,調整的光譜數據就可以解析為單波峰。這實際上涉及到求解方程X=CST+E (1)對C和S來說,X是被記錄的數據,C是色譜分布曲線,S是質譜,T表示矩陣位移,E是剩余矩陣。
這個方程可以用多種方法求解。然而,優選的方法是Manne et al in Chemom.Intell.Lab.Syst.5035-46(2000)中描述的GENTLE方法,該文獻的內容在此作為參考并入本文。
首先,例如用簡化的Borgen方法(參見Grande et al.,Chemom.Intell.Lab.Syst.5019-33(2000),該文獻的內容在此作為參考并入本文)找出A的關鍵譜項S。(“A”在這里是化學等級)。在峰簇中,關鍵譜項是最純的譜項。可以通過把數據標準化為數據的第一個奇異(singular)向量上的常數投影而找到關鍵譜項。(術語“奇異”是指該向量是一個奇異值解析(SVD)的結果,SVD是一種標準的數值計算方法。在矩陣式中X=U∑VT,U的第一個列向量有時被稱為第一左奇異向量,它被用來進行投影。隨后,可以在凸邊上的極值點處發現關鍵譜項,并且該關鍵譜項被界定為如此出現的數據的表示。關鍵譜項S0表示真實譜項S的初始估計值。真實色譜分布曲線C0的初始估計值C0可以隨后通過求解關于C的方程(1)得到,因此,C0=XS0(S0TS0)-1(2)為了由初始估計值C0和S0得到真實分布曲線和譜項的估計值C和S,需要借助于迭代過程。可以通過確定方程(3)和(4)的變換矩陣T實現這一步C=C0T (3)ST=T1S0T(4)T是幾個初等矩陣的乘積,可以用迭代方法生成T,通過在C和S的中間解(intermediate solution)上設定某些限制可以使迭代方法變得易解。因此,對S和C來說,我們假定峰值(無論是在色譜中還是在質譜中)必須為正,而對C來說,我們假定一個純的色譜峰應該是單峰。例如,下面的標準可用于實現解析和對解析進行評估組分窗口可用線性回歸使一個組分在色譜區域之外的非零偏差最小,這個區域在噪聲極限之上。
平滑度可以假定一個化合物的色譜峰是連續的(這樣就可以把它和噪聲區分開)。
顯著性一個組分的色譜峰的頂點強度一般應該明顯高于數據的決定極限(即前面指出的消除極限或最小可區分信號高度);一般來說,只有頂點強度至少是決定極限兩倍的峰值才可能被接受。
完全性在選定的色譜峰簇完成之前,優選的是檢查一下解析峰是否降低到噪聲水平;如果沒有,那么應該用一個更大的峰簇重復這個過程。
可以用一個相對大的數目(例如8到12,優選的是10)啟動,從而逐階得到化學等級或關鍵譜項的數目。在根據關鍵譜項的特定數目對計算出解(solution)之后,可根據上面的標準對解進行評估。如果分布曲線的解析質量很差,那么就應該用更大數目的關鍵譜項重復解析過程,更一般的做法是,用更小數目的關鍵譜項重復解析過程。
在解析之后,可以對解析的質譜S標準化,這樣最大的強度為1.0,而色譜分布曲線C可用以下方程重新計算C=XS(STS)-1(5)然后,在光譜中就會給出定性信息,與此同時,在色譜分布曲線中會給出定量信息(該色譜分布曲線可積分,以便得到面積)。
實際上,解析過程涉及到比較一個樣品的選定質譜圖,以便鑒定出樣品中各個化學組分的特征譜線組,并且解析過程還涉及到這些組分的特征色譜分布曲線的確定。隨后,可把各個組分的列表做為一個樣品的輸出數據,這些組分可用質譜譜線和它們的色譜分布曲線的位置(即洗脫時間)和面積進行表征。對多個樣品進行這樣的操作,就可以產生一個預測值矩陣,而這個矩陣就可用于產生預測值模型。舉例來說,Y=Xb,在這里,X是預測值矩陣,b是回歸系數(預測值模型),Y是樣品本征的預測值。
因此,在生成預測值矩陣的過程中,可對不同樣品的輸出數據進行比較,并測定相似組分(即化合物)的存在。隨后,可用回歸分析確定每一個組分對樣品總的測定本征(例如致癌性)的貢獻的相對大小和負面或正面性質。然后,這些貢獻值就可以表達為每一個組分貢獻的預測值模型。通過把這個預測值模型應用到另一個樣品的已確定組分濃度的分布曲線中,就可以簡單估算另一樣品的本征值。
一般來說,預測值矩陣的產生包括如下幾個步驟i)載荷已測定本征值的樣品的解析分布曲線,每一個樣品的分布曲線一般包括面積(色譜峰面積)、保留時間和每一個解析組分的標準化質譜圖;ii)使各個解析的分布曲線按照保留時間遞增的順序排列;iii)將保留時間在特定范圍內(1到8分鐘,典型為4分鐘)的不同組分的質譜進行比較,以便鑒定出兩種或兩種以上樣品中共有的組分,從而就可以減少隨后的回歸分析的變量數目;iv)為樣品的解析組分建立回歸模型,該模型把已測定的本征值與幾組保留時間和面積值聯系起來。
比較步驟(iii)一般涉及到有相似保留時間的不同樣品中i和j組分的質譜Si和Sj之間的光譜相似指數Sij的測定。Sij可表示為Sij=SiTSj(6)而且,如果存在預置極限(例如0.9)之上的數值,那么組分i和j就可以分類為類似物。
當預測值矩陣已經建立時,可把本征的測定值與所計算的樣品的解析組分的幾組面積聯系起來,從而對分類模型或回歸模型進行評估。利用商業上購得的多元分類/回歸分析計算機程序(例如從挪威卑爾根的模式識別系統公司購得的天狼星程序),可由預測值矩陣對模型進行計算。
在附圖的
圖1中,示意性地給出了一個典型預測模型的例子。在這個圖中,x軸是組分的保留時間,y軸是需要測定本征的樣品中解析的每一種組分的回歸系數值。在該情形中,所測定的本征是致突變性(用埃米斯測試測量),而樣品是環境污水樣品。
對具有更大回歸系數的組分的生物學影響更大,而且,正如我們看到的,對具有更長保留時間的組分的生物學影響也更大。
如果需要的話,通過在GC-MS分析之前將具有已知質譜而樣品中不存在的化合物摻入樣品中,可使比較步驟容易實施。這些化合物的保留時間中的任何變化都可用來決定保留時間的選擇范圍的大小,這樣就可以確定相似化合物。不過,那些摻加化合物的分布曲線不會用在預測值矩陣的生成過程中,因為這些化合物在未摻合的樣品中并不存在,它們無疑對本征值并沒有貢獻。此外,在注入到GC-MS的樣品的定量中,這種摻加化合物可用于校正樣品之間的變化,也就是說,可以相對于摻加劑的峰面積來使這些峰面積標準化。
當然,上面的討論主要是把多組分化學樣品的GC-MS譜項與生物學影響的可測定數值聯系起來,而本發明中的方法可適用于更一般的情況。舉例來說,這些方法可用于檢測食物樣品的生物學或化學污染,例如被諸如DSP、PSP、ASP、黃曲霉毒素和肉毒桿菌毒素之類的毒素污染;或用于醫學樣品(例如淋巴液、血液、血清、血漿、尿液、粘液、精液、唾液、糞便或組織樣品)的分析,以檢測出各種情況例如細菌和病毒感染、與蛋白感染素關聯的疾病、諸如阿爾茨海默病、馬鞭式創傷(whiplash)等生理狀況,或者濫用藥品的情況(例如運動員使用違禁藥品或物質)。然而,這些方法一般用于可測定本征與多個組分的一組“特征”信號聯系起來的任何系統。
本發明的方法尤其可用于醫學和法醫診斷。因此在一個實施例中,如果用身體組織或液體(例如血液、血漿或血清)做樣品,“本征”可以是正常/健康或不正常/不健康,并且如果它們出現在特定的濃度范圍之外,那么就可以鑒定出與異常或健康不佳的狀況相聯系的組分。同樣,可以鑒定出與特定的異常或病狀相關聯的組分或幾組組分。在另一個實施例中,在人死后可對體液、組織或氣體進行分析,并且生成的預測值模型可用于確定死亡時間,例如謀殺的受害者的死亡時間。
同樣,這些方法也特別適用于對食品(例如奶酪)進行檢驗,以檢測出異常情況或污染(化學或生物學)。
如果需要的話,本發明的方法可以擴展到用于鑒定樣品的一種或多種解析組分,這可以通過把組分的特征數據(例如色譜分布曲線和/或質譜)與已知化合物(或其他組分)的相似特征數據進行比較而得以實現,例如可參考化學品資料庫的計算機化數據庫。舉例來說,本發明的方法可用作一個粗過濾器,來鑒定可用于一個樣品(或者個人或試驗場地的多個樣品)的更特殊或更精確的診斷測試。這樣,無需進行全部有價值的診斷測試就可以發現問題。
從又一方面看,本發明還提供了一種計算機軟件產品(例如磁盤、磁帶、導線、存儲器或其他載體),這種產品帶有一個用于執行本發明方法的計算機程序。
從另一方面看,本發明提供了一種設置有用于實施本發明方法的程序的計算機。
在附圖的圖2和圖3的流程圖中,示意性地圖解說明了按照本發明的程序操作。
參照圖2,其圖解說明了預測模型的構建過程。數據輸入(步驟I)包括載荷多個樣品的GC-MS數據和已測定的本征值。數據簡化(步驟II)包括消除空白保留時間和消除背景(即鑒定出GC峰簇),消除空白質量數和消除MS背景(即從每個GC峰簇的質譜中鑒定出幾組質譜峰)。分布曲線解析(步驟III)包括在這樣的GC峰簇中鑒定出各個組分的質譜,并且為每一個解析組分確定出GC分布曲線(峰保留時間和峰的面積)。預測模型制作(步驟IV)包括在不同樣品之間將解析組分的分布曲線進行比較,以鑒定出兩種或兩種以上樣品中共有的組分,并且進行回歸分析,為每一種解析組分提供表示該組分對測定本征的影響的回歸系數,然后由所產生的預測值矩陣制作預測值模型。
參照圖3,其圖解說明了預測值模型的應用。數據輸入(步驟I)包括載荷樣品的GC-MS數據。數據簡化(步驟II)和分布曲線解析(步驟III)與在圖2中描述的一樣。數值預測(步驟IV)包括將預先計算好的預測模型應用到解析分布曲線中。很明顯,確定估算的本征值時只會考慮那些在構建預測模型時用到的組分。
正如前面所提到的,預測模型不需要根據表示組分對本征的貢獻的回歸系數進行推導,但預測模型可以反映出一種分類,即生/死、健康/不健康,所以,應用這個模型可以給出樣品來源的相應分類作為所估計的本征值。
我們還可以看到,預測值矩陣可以用于在產生樣品預測值時進行的數據簡化;例如,在計算預測值矩陣時,可以把與已確定的低回歸系數值相對應的GC保留時間去掉。
我們可以看到,可用位于遠處的數據處理裝置來完成本發明的分析測試。因此,從另一方面來看,本發明提供了一種包含指令的計算機程序產品,該指令在數據處理裝置上實施時將預測選定多組分樣品的本征值,其中計算機程序接收的數據是通過以下方式得到的A)沿一個分離量度分離樣品的多個組分;B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,在這里,計算機程序執行如下步驟a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質;b)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出這些部分中的各個組分的特征圖形和分類量度分布曲線;以及c)將預測模型施加到所述選定樣品中已確定的各個組分的分布曲線強度上,并由此對所述樣品的所述本征值進行估算。
另一方面,本發明提供了一種包含指令的計算機程序產品,該指令在數據處理裝置上實施時,將分析選定的多組分樣品,以預測樣品的本征值,其中計算機程序接收的數據是通過以下方式得到的
i)為多個相似的多組分樣品確定所述本征值;ii)對每一種所述相似的樣品來說,a)沿一個分離量度分離樣品的各個組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,iii)對所述選定的樣品來說,A)沿一個分離量度分離樣品的各個組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣在這里,計算機程序執行如下步驟i)對每一種所述相似的樣品來說,a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質;b)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出所述部分中各個組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置的進行比較,并由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定分布曲線的強度進行比較,并由此生成預測樣品的所述本征值的模型;iv)對所述選定樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質;B)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出這些部分中各個組分的特征圖形和分離量度分布曲線;C)把所述模型施加到所述選定樣品中已確定的各個組分的分布曲線強度上,并由此對所述樣品的所述本征值進行估算。
從另一方面看,本發明提供了一種包含指令的計算機程序產品,該指令在數據處理裝置上實施時,將產生用于預測多組分樣品的本征值的預測模型,其中計算機程序接收的數據是通過以下方式得到的
i)為多個相似的多組分樣品確定所述本征值;ii)對每一所述相似的樣品來說,a)沿一個分離量度分離樣品的各個組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,在這里,計算機程序執行如下步驟i)對每一種所述相似的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質;B)為所述分離量度的各個部分選擇幾組所述圖形,并且從其中確定出所述部分中各個組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖與其分布曲線的位置進行比較,并由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定的分布曲線強度進行比較,并由此產生預測樣品的所述本征值的模型。
本發明可進一步擴展成一種包含指令的計算機程序產品,該指令在數據處理裝置上實施時將創建如上所述的計算機程序產品。
權利要求
1.一種分析選定的多組分樣品的方法,以預測其本征值,該方法包括i)確定多個類似的多組分樣品的所述本征值;ii)對每一種所述的相似樣品來說,a)沿一分離量度分離樣品的組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,d)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出所述部分的各個組分的特征圖形和分離量度分布曲線;iii)將沿分離量度所確定的圖形與其分布曲線的位置進行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述類似樣品中的各個組分的所述本征值與已確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型;v)對所述的選定樣品來說,A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,C)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,D)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出這些部分的各個組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中的各個組分的已確定分布曲線的強度上,由此對所述選定樣品的所述本征值進行估算。
2.一種產生用于預測多組分樣品的本征值的預測模型的方法,該方法包括i)確定出多個相似多組分樣品的所述本征值;ii)對每一種所述的相似樣品來說,a)沿一分離量度分離樣品的組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,c)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,d)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出所述部分的各個組分的特征圖形和分離量度分布曲線;iii)將沿分離量度所確定的圖形與其分布曲線的位置進行比較,由此鑒定出所述相似樣品中的類似組分;iv)將所述相似樣品中的各個組分的所述本征值與已確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型。
3.一種分析選定的多組分樣品的方法,以便預測其本征值,該方法包括A)沿一分離量度分離樣品的組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,C)為每一部分確定一個圖形,該圖形表征該部分的單一或多組分的性質,D)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出這些部分中的各個組分的特征圖形和分離量度分布曲線,E)將所述模型施加到所述選定樣品中各個組分的已確定的分布曲線的強度上,由此對所述選定樣品的所述本征值進行估算。
4.根據權利要求1-3任一項所述的方法,其中所述樣品是包含多種不同化學或生物組分的組合物,所述樣品的分離應用色譜法是有效的。
5.根據權利要求4所述的方法,其中所述圖形為光譜圖。
6.根據權利要求4或5所述的方法,其中所述樣品是或取自體內組織或體液或分泌液,或者取自環境流體,其分離應用氣相色譜或液相色譜是有效的。
7.根據權利要求4、5或6所述的方法,其中所述圖形為質譜圖。
8.根據前述任一項權利要求所述方法,其中選擇所述圖形組,以便排除所述分離量度的獲得的采樣信號在預定水平之下的部分。
9.根據權利要求8所述的方法,其中只有所述分離量度的某些部分被排除,這些部分的采樣部分的信號級與沿分離量度的最接近峰的信號級之比小于0.1-0.4這個范圍。
10.根據權利要求9所述的方法,其中只有所述分離量度的某些部分被排除,這些部分的采樣部分的信號級與沿分離量度的接近峰值的信號級之比小于0.3。
11.根據前述任一項權利要求所述的方法,其中選擇所述圖形組,以便排除所述分離量度的某些部分,這些部分與已知或認為對所述本征幾乎沒有或沒有任何影響的組分有關。
12.根據前述任一項權利要求所述的方法,其中對所述分離量度的所述選定的圖形組進行背景噪聲的校正。
13.根據權利要求5-12任一項所述的方法,其中排除所選定的這些圖形中的那些沒有包含任何信號或僅包含由于噪聲而產生的信號的光譜數據。
14.根據權利要求5-13任一項所述的方法,其中利用Gentle方法將獲得的光譜圖形解析成單波峰。
15.一種用于實施權利要求1-14任一項所述方法的計算機軟件產品。
16.一個為了實施權利要求1-14任一項所述的方法而編程的計算機。
17.一種包含指令的計算機程序產品,所述指令在數據處理裝置上實施時,將預測出選定的多組分樣品的本征值,其中計算機程序接收的數據是通過以下方式得到的A)沿一個分離量度分離樣品的組分;B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,并且計算機程序執行以下步驟a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質;b)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出這些部分中各個組分的特征圖形和分離量度分布曲線;c)將預測模型施加到所述選定樣品中組分的已確定分布曲線強度上,并由此對所述樣品的所述本征值進行估算。
18.一種包含指令的計算機程序產品,所述指令在數據處理裝置上實施時,將分析選定的多組分,以預測選定的多組分樣品的本征值,其中計算機程序接收的數據是通過以下方式得到的i)確定多個相似的多組分樣品的所述本征值;ii)對每一種所述相似的樣品來說,a)沿一個分離量度分離樣品的組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,iii)對所述選定的樣品來說,A)沿一個分離量度分離樣品的組分,B)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣其中計算機程序執行如下步驟i)對每一個所述相似的樣品來說,a)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,b)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出所述部分中各個組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置進行比較,由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值和確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型;iv)對所述選定的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,B)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出這些部分中各個組分的特征圖形和分離量度分布曲線;C)將預測模型施加到所述選定樣品中的組分的已確定分布曲線的強度上,由此對所述樣品的所述本征值進行估算。
19.一種包含指令的計算機程序產品,所述指令在數據處理裝置上實施時,將產生一個用于預測多組分樣品的本征值的預測模型,其中計算機程序接收的數據是通過以下方式得到的i)確定多個相似的多組分樣品的所述本征值;ii)對每一種所述相似的樣品來說,a)沿一個分離量度分離樣品的組分,b)在沿所述分離量度的多個位置上對樣品的多個部分進行采樣,其中計算機程序執行如下步驟i)對每一所述相似的樣品來說,A)確定每一部分的圖形,該圖形表征該部分的單一或多組分的性質,B)為所述分離量度的各個部分選擇多組所述圖形,并且從其中確定出所述部分中各個組分的特征圖形和分離量度分布曲線;ii)將沿分離量度的確定圖形與其分布曲線的位置進行比較,由此鑒定出所述相似樣品中的類似組分;iii)將所述相似樣品中的組分的所述本征值與已確定的分布曲線強度進行比較,由此產生一個預測樣品的所述本征值的模型。
20.一種包含指令的計算機程序產品,所述指令在數據處理裝置上實施時,將創建一個如權利要求15或17-19任一項所述的計算機程序產品或計算機軟件產品。
全文摘要
本申請描述了一種由二維(2D)分離數據(GC-MS)對復雜的多組分混合物的化學或生物學性質(諸如毒性、致突變性)進行預測的方法。利用自動曲線解析程序(GENTLE)把數據解析成各個組分的譜峰(C)和譜項(S)。隨后將已解析的峰值進行積分,并且把特征面積、分離參數和締合譜圖合并成一個預測值矩陣(X),這個矩陣可用作多元回歸模型的輸入項。利用部分最小二乘法(PLS)將一組測試集的2D分離數據與已測過的性質聯系起來。隨后,就可以用回歸模型預測其他樣品的性質。
文檔編號G06Q10/00GK1423749SQ0180697
公開日2003年6月11日 申請日期2001年7月4日 優先權日2000年7月4日
發明者奧拉夫·夸爾海姆, 比約·格龍 申請人:模式識別系統控股有限公司