一種高分辨質譜數據的處理方法
【技術領域】
[0001]本發明涉及一種高分辨質譜數據的處理方法,屬于分析化學領域。具體來說是實現多個高分辨質譜數據間同時保留時間和rn/z漂移的校正,并融合質譜峰表特征,獲得“一對一”的峰表,即一個小分子化合物對應唯一的質譜特征,提高數據用于分類建模及實際應用的能力,比如生物標志物的發現與結構鑒定。
【背景技術】
[0002]高分辨質譜已經得到非常廣泛的使用,比如LTQ-Orbitrap和FT-MS等,其主要原因在于其更準確和更高分辨率的質譜量測,從而提供目標化合物分子式甚至子結構或全部結構的信息,提高鑒定的準確性和分析效率。以代謝組學的研究為例,高分辨質譜,特別是液相色譜和高分辨質譜(液-質)的聯用,已經非常廣泛地用于靶向和非靶向代謝組學的研究中,極大地提高了代謝小分子標志物被發現和鑒定的可能。
[0003]代謝組學等領域所涉及的高分辨液-質聯用儀器的應用,以及相關數據的分析處理與信息挖掘,大多是建立在多個樣本的基礎之上,即需要分析的實際樣本數通常遠不止一個,比如非靶向代謝組學生物標志物的發現,需要系統地分析處理具有統計意義的有病和沒病體系數據,尋找可以最大限度地區分這二類樣本,且具有優越的未知樣本預測能力和生物解釋性的代謝小分子標志物。多個高分辨數據樣本的分析,必然需要對這些數據進行樣本間的保留時間和m/z漂移校正,最理想的狀態是達致一個代謝標志物對應一個最終峰表中的質譜特征。
[0004]迄今為止,研究者已經提出不少方法來校正和處理多樣本的高分辨質譜數據,t匕如MetAlign,MZmine, XCMS,以及各種商業儀器中自帶的數據處理軟件包,例如安捷倫公司的Mass Profile Pro和布魯克公司的Metabolic Profiler等。整體而言,這些方法各有優劣,結果的好壞往往取決于獲得數據時實驗設計的具體情形,共同的缺陷可以歸類為二個方面:一是方法的復雜性導致的使用復雜性,絕大部分方法都設計成了非常復雜、功能完備的程序或軟件系統,對于不具備較強儀器背景和數據分析處理背景的人來說,往往困難較大;另一個方面是方法的缺陷導致的結果不準確性和代謝組學等領域中標志物發現和鑒定的不適應性。以至今使用最為普遍的XCMS方法為例:先對提取離子色譜進行峰識別和峰過濾,再匹配不同樣本間的數據,實現保留時間和m/z漂移的校正,最后對得到的峰表數據進行質量提高的處理。
[0005]然而,高分辨質譜數據由于不同峰形,噪聲和背景的影響,導致色譜方向的準確峰識別異常困難,簡單的峰平滑,加上一階或二階求導的方法并不能完全找到真實的色譜離子峰,從而導致最終結果的不準確性。此外,傳統上峰匹配后的峰表是所有質譜特征的大集合,存在大量一個小分子對應多個裂解質譜特征(m/z)的情形,從而產生一系列的不利后果,包括:1,增加分類建模方法的難度和復雜度,更多的質譜特征導致更小的樣本-特征t匕,減少方法的適應度;2,減少找到真正標志物或有用特征的可能,因為大量質譜特征的存在,實際上稀釋了真實的特征,并極有可能篩選到來自相同小分子的質譜特征;3,特征間極大的共線性風險,降低建模方法和結果的可用性。
[0006]本發明的方法將峰識別分解為更易實現的二個步驟,即先基于用戶自定義的參數實現對質譜峰的快速獲取,并在全局優化的峰匹配后進行有效峰融合,既降低對前期準確峰識別的依賴,同時可獲得優越的“一對一”峰表,具有更廣闊的適應范圍和更佳的應用效果。
【發明內容】
[0007]本發明的目的在于提供一種新的高分辨質譜數據處理方法,通過該方法可實現多個液-質數據樣本的同時保留時間和m/z方向峰匹配,其最大特征在于減少對峰準確識別的依賴,基于線性規劃的優化方法,可實現全局的最優峰匹配,同時對峰匹配后峰表的融合,可得到所謂的“一對一”峰表結果,更加有利于后續的數據處理和信息挖掘,比如代謝小分子標志物的發現和鑒定。本方法適應范圍廣,對于具有較大背景,低信噪比的復雜高分辨液-質數據處理,同樣能得到較好的結果,具有良好的應用前景。
[0008]為了解決多樣本間復雜高分辨質譜數據的同時保留時間和m/z校正問題,本發明通過用戶自定義的二個參數,即質譜響應閾值或總的峰數目實現質譜特征的初步識別,同時基于自動背景扣除方法提高結果的準確性。在此基礎上,采用線性規劃逆向思維的模式,校正待分析樣本與參考樣本間的保留時間和m/z漂移,最后對匹配后的峰表進行峰融合,獲得每個小分子化合物對應峰表中唯一質譜特征的峰表,提高后續分析的準確性,并減少對建模方法的依賴。峰識別、全局最優的峰匹配和峰表融合都是優于傳統方法的特點,極大限度地保證質譜數據處理結果。
[0009]上述高分辨質譜的峰識別,先完整讀取原始質譜數據的XML文件,轉換XML文件中色譜方向各保留時間點的質譜量測數據為不同m/z下對應的提取離子色譜數據,以非固定尺寸移動窗口的方式,自動扣除不同色譜窗口內的數據背景。根據用戶自定義的質譜響應閾值或總的峰數目,提取符合要求的質譜特征,記錄得到被分析樣本中質譜特征的保留時間和m/z信息表。
[0010]上述被分析樣本與參考樣本間的質譜特征峰匹配,基于m/z和保留時間方向的同時移動窗口劃分和線性規劃優化峰匹配來達成。先以固定的窗口尺寸大小(比如0.0025)將m/z從大到小的整個范圍劃分為相同大小等份,找到被分析樣本和參考樣本在該窗口內的所有質譜特征,然后以固定窗口尺寸大小(比如30 S)將整個色譜流出內的保留時間劃分為相等大小的窗口,計算被分析樣本與參考樣本在上述m/z和保留時間重疊窗口內倆倆質譜特征間的歐式距離。采用線性規劃逆向思維的模式,搜尋該距離矩陣起始點到結束點的最短距離,記錄該最短距離所經過的被分析樣本和參考樣本路徑,得到二者間的質譜特征匹配關系。最后抽提當前m/z和保留時間窗口一半的交匯處的質譜特征,構成匹配后峰表的元素,以減少可能的錯誤融合,并移動m/z和保留時間窗口,循環上述過程直至所有的質譜特征均被分析后為止,獲得峰匹配的初步峰表。
[0011]上述峰表是同時校正m/z和保留時間漂移后得到的結果。為了消除該峰表中多個質譜特征本質上對應同一小分子化合物的問題,針對上面得到的初步峰表,進一步采用峰融合的方法,包括同位素離子剔除,加和離子、中性丟失和相關性分析等規則融合峰表中的離子特征。加和離子和中性丟失規則指的是如果某二個離子之間的高分辨質譜m/z之差滿足已知的加和規則或中性丟失規則的離子質量之差,則視該對離子應由同一小分子化合物裂解產生,其主要原因在于高分辨質譜的離子準確質量量測能力;相關分析則計算二個離子在不同樣本中的相關性,若達到用戶自定義的閾值大小,則視為它們來自同一小分子化合物,其原因在于如果二個離子是同一小分子的裂解產物,則其在不同樣本中出現的強度比值在理論上應完全相等。最后將不同規則得到的離子進一步融合在一起,即如果上述規則得到二個離子同時與某一離子融合,則所有這些離子都被融合在一起,以其中響應最大的離子強度或者他們總和作為該小分子化合物的特征,并記錄所有這些被融合的離子,作為該化合物定性鑒定的依據。
[0012]本發明與傳統的方法相比,優越性明顯。首先本發明避開了色譜方向準確峰識別的難點,通過用戶自定義的響應閾值或總的峰數目,以及自動背景扣除的方法,實現了質譜特征的快速獲取,減少了峰識別對信噪比的依賴;在此基礎上通過m/z和保留時間方向的同時窗口劃分,并采用線性規劃優化,達到準確的峰匹配;最后將得到的初步峰表進行深層次峰融合,得到每個小分子化合物對應唯一質譜特征的最終峰表,融合結果可進一步輔助提高化合物的定性鑒定能力。
[0013]本發明的方法極大地降低了傳統方法對峰識別的依賴,具有更好的適應性和應用范圍,同時可達致全局最優的方法提高峰匹配的準確性,特別是峰融合方法獲得“一對一”的化合物與質譜特征關系,使得該方法具有更好的應用前景。
【附圖說明】
[0014]圖1為一段典型的提取離子色譜圖,即某一精確質量數離子下所對應的色譜,本例的離子質荷比是268.2 ;
圖2為多樣本液-質數據峰匹配的原理圖和示例圖。(A),示意二個樣本1和2所對應的LC-MS數據;(B),圖(A)中樣本1和2中各三個典型離子a、b和c,以及a’、b’和c’的分布示意,峰匹配的目的在于將圖中屬于不同樣本的離子全局性最優地找到各自的對應關系;(C),圖(B)中各離子理想匹配后的結果;(D),二個實際樣本1和2的保留時間-m/z圖,準確峰匹配需要同時全局性地校正圖中二個樣本各點的保留時間和m/z漂移;
圖3為傳統方法和本發明方法的工作流程圖。(A),傳統方法從原始數據到最終峰表的簡單流程圖,(B),本發明方法的簡單工作流程圖,包括峰識別的參數定義與初步識別,峰匹配與峰表中質譜特征的精細融合等;
圖4為典型的高分辨質譜特征峰與峰融合后的結果。(A),同一精確質量離子下的相同化合物色譜峰在12個不同的樣本中的流出情形,