專利名稱:編碼淋巴細胞干擾素調節因子(lsirf)多肽的基因的制作方法
技術領域:
本發明是1995年4月14日遞交的序號為08/422,733的美國專利申請的部分繼續申請。背景發明領域本發明涉及具有DNA結合活性的新的多肽,以及編碼該多肽的核酸分子。該多肽以前被稱為“IRF-3”多肽,現在稱為“LSIRF”多肽(淋巴細胞特異性干擾素調節因子),且是被稱為干擾素調節因子一類多肽的新成員。有關技術描述基因表達的調節可在幾個不同水平上進行,但人們認為基因特異性轉錄因子的活化對此過程是最為重要的。一族轉錄因子,即干擾素調節因子(IRF)由四個成員組成IRF-1、IRF-2、ISGF3γ和ICSBP。所有這四種IRF的特征在于高度保存的、含有一個重復色氨酸基元的氨基末端DNA結合區域(Veals等,Mol.Cell.Biol.,123315-3324,1992)。
干擾素調節因子-1(IRF-1)和-2(IRF-2)最初是在人干擾素-β(IFN-β)基因的轉錄調節研究中被鑒定出的(Miyamoto等,Cell,54903-913,1988;Harada等,Cell,58729-739,1989)。cDNA表達研究已證明IRF-1是以IFN及IFN-誘導基因轉錄的活化劑起作用的,而IRF-2抑制IRF-1的作用(Fujita等,Nature,337270-272,1989;Hara等,Cell,63303-312,1990)。近來的分析已表明IRF-1也可起腫瘤抑制基因的作用,IRF-2則起一種可能的癌基因的作用(Harada等,Science,259971-974,1993)。IRF-1表達是被I-型(α/β)和II-型(γ)IFN所誘導(Miyamoto等,Cell,54903-913,1988;Kanno等,Mol.Cell.Biol.133951-3963,1993),而IRF-2既是組成性表達又是被I-型IFN誘導(Harada等,Cell,58729-739,1989)。
干擾素刺激基因因子-3γ(ISGF3γ)是一種INF-γ誘導蛋白,其與ISGF3α亞基結合,該亞基是自一種潛在細胞溶質形式被I-型IFN所活化(Levy等,EMBO J.,91105-1111,1990;Levy等,New Biologist,2383-392,1990)。結合后,此復合物已被顯示轉移到核中,并與特定DNA序列結合,該序列發現于IFN誘導基因的啟動子區域中,被稱為ISRE(IFN刺激響應元件)(Veals等,Mol.Cell.Biol.,123315-3324,1992)。近來,91/84kDa和113kDa的ISGF3α亞基已被克隆(Schindler等,Proc.Natl.Acad.Sci.USA,897836-7839,1992;Fu等,Proc.Natl.Acad.Sci.USA,897840-7843,1992),并被分別指定為1-轉錄信號轉導物和激活劑(Stat-1)和2-轉錄信號轉導物和激活劑(stat-2),它們是在I-型IFN/IFN-受體結合后JAK激酶磷酸化的靶物(Shuai等,Science,2611744-1746,1993;Darnell等,Science,2611415-1421,1994)。
干擾素共有序列結合蛋白(ICSBP)也是一種IFN-γ誘導蛋白,其最初是作為一種識別I類鼠MHC啟動子的ISRE基元(也稱為ICS),即H-2LD基因,的蛋白被分離出的(Driggers等,Proc.Natl.Acad.Sci.USA,873743-3747,1990)。然而,與IRF-1、IRF-2、和ISGF3γ不同,ICSBP表現出一種組織-限定型表達,因為它唯一地在巨噬細胞和淋巴樣譜系的細胞中被誘導(Driggers等,Proc.Natl.Acad.Sci.USA,873743-3747,1990)。近期的研究已提出ICSBP在拮抗IRF-1對IFN和IFN誘導基因的誘導作用的影響方面有與IRF-2類似的作用(Weisz等,J.Biol.Chem.,26725589-25596,1992;Nelson等人,Mol.Cell.Biol.,13588-599,1993)。干擾素誘導基因的ISRE與IRF-E重疊,其是IRF-1和-2識別的DNA序列(Tanaka等,Mol.Cell.Biol.134531-4538,1993)。最近ISGF3γ顯示出可與IFN-β基因的IRF-E結合(Kawakami等,FEBS Letters,358225-229,1995)。
由于IRF在調節干擾素基因和其它基因表達中的重要性,在本領域有必要鑒定其它IRF,尤其是組織特異性IRF。
因此,本發明的一個目的是鑒定IRF基因家族新成員。
其它目的對于本領域的普通技術人員而言將是顯而易見的。發明概要本發明提供了編碼淋巴細胞特異性干擾素調節因子的新的核酸分子。該分子以前稱為“IRF-3”分子,現稱為“LSIRF”分子,然而此術語可與術語“LSIRF”分子互換使用。
在一方面,本發明提供了一種分離的編碼LSIRF多肽或其片段的核酸分子,其選自包括如下分子在內的分子組(a)一種具有序列識別號1的核苷酸序列的核酸分子;(b)一種具有序列識別號4的核苷酸序列的核酸分子;(c)一種具有序列識別號24的核苷酸序列或其“雙Q”變異體的核酸分子;(d)一種具有編碼序列識別號2的氨基酸序列的核苷酸序列的核酸分子;(e)一種具有編碼序列識別號25氨基酸序列的核苷酸序列或其“雙Q”變異體的核酸分子;(f)一種具有與(a)、(b)、(c)、(d)、(e)、或其片段的核酸分子雜交的核苷酸序列的核酸分子。
本發明還提供一種多肽,其是這些核酸分子在宿主細胞中的表達產物。
此外本發明還提供一種與LSIRF多肽特異性結合的抗體。此抗體可選擇性地是單克隆抗體。
在另一方面,本發明提供一種分離出的具有LSIRF多肽特異性DNA結合活性的多肽或其片段。
另一方面本發明提供一種含有編碼LSIRF多肽的DNA分子的載體。
仍在另一方面,本發明提供一種與含有編碼LSIRF多肽之DNA分子的載體穩定轉化或轉染的宿主細胞。
仍然在另一方面,本發明提供一種分離的LSIRF多肽或其片段;該多肽可具有序列識別號2的氨基酸序列。
仍在另一方面,本發明提供一種LSIRF多肽,其是外源LSIRF核酸序列的原核或真核宿主細胞表達之產物。
本發明還進一步提供一種生成LSIRF多肽的方法,其包括在允許LSIRF表達的條件下培養原核或真核宿主細胞。附圖簡述
圖1是小鼠全長LSIRF cDNA核酸序列。
圖2是小鼠全長LSIRF多肽氨基酸序列。
圖3是小鼠LSIRF基因5’側翼序列。
圖4是小鼠LSIRF基因組DNA序列。
圖5是小鼠各種組織中RNA的RNA印跡。此印跡是用放射性標記的LSIRF探針所探測,以鑒定LSIRF轉錄物。指示轉錄物大小的RNA堿基對標志是標在左邊。也顯示了標示核糖體RNA的瓊脂糖凝膠的照片。
圖6是如圖所示無(-)或有激活劑處理后的小鼠淋巴細胞中RNA的RNA印跡。此印跡是被放射性標識LSIRF探針所探測,以鑒定誘導LSIRF轉錄物的那些刺激劑。也示出了用放射性標記β-肌動蛋白探針探測的同樣印跡。
圖7描述了如圖所示無(-)或有一個或更多的激活劑處理、再用放射性標記LSIRF探針探測的小鼠脾細胞的RNA印跡。也顯示了用放射性標記β-肌動蛋白探針探測的相同的RNA印跡。
圖8描述了如圖所示無(-)或有一個激活劑處理、再用放射性標記LSIRF探針探測的小鼠脾細胞的RNA印跡。也顯示了用放射性標記β-肌動蛋白探針探測的相同的RNA印跡。
圖9顯示了小鼠MHC ISRE的LSIRF結合的凝膠移變結合測試結果。對照桿狀病毒感染SF9昆蟲細胞(泳道2)或被含有LSIRF基因的桿狀病毒感染的SF9細胞(泳道3-12)之核提取物與放射性標記小鼠MHC ISRE探針和所示的競爭物DNA片段(此競爭物片段的序列見表1)二者一起保溫。泳道1和泳道13僅含有放射性標記的MHC ISRE探針。
圖10是“單Q”形式的人LSIRF編碼區域的全長核苷酸序列。(序列識別號24)。“雙Q”形式有一個額外的編碼氨基酸Q(Glu)的密碼子,它插入在氨基酸163和氨基酸164的密碼子之間。
圖11顯示了人LSIRF氨基酸序列(序列識別號25)的推測的“單Q”形式,它是從圖10的核苷酸序列翻譯而來。“雙Q”形式有一個額外的氨基酸Q(Glu)插入在氨基酸163和氨基酸164之間。發明詳述術語“IRF-3”和“LSIRF”在本文中可互換使用,是指同樣的核酸和氨基酸序列;LSIRF的“單Q”和“雙Q”形式均被包括在此定義中(見實施例5)。
本文所用的術語“生物活性”是指由任何來源衍生的全長多肽或其片段,其與ISRE(干擾素刺激響應元件)型DNA片段,例如鼠MHCI ISRE、人ISG54,和/或ISRE突變體,例如ISREml或ISREm4(其序列列入表1中)結合。生物活性多肽或其片段也包括那些對一種抗體(多克隆或單克隆的)有免疫交叉反應性的多肽或其片段,該抗體是為抵抗例如圖2和25中所列的LSIRF多肽等全長LSIRF多肽而產生,并與之反應。
本文所用術語“穩定轉化或轉染”是指一種核酸分子,其或作為宿主細胞基因組DNA的一部分、或作為一個獨立的分子(如染色體外)已被插入宿主細胞中,存在于宿主細胞中,且被維持和復制于母體宿主細胞中,如此其通過宿主細胞的連續繁殖傳遞下去。
術語“合成DNA”是指一種核酸分子,其部分或全部是通過化學合成方法產生的。
術語“載體”是指一種核酸分子放大、復制、和/或表達載體,其是質粒或病毒DNA體系的形式,其中該質粒或病毒DNA對細菌、酵母、無脊柱動物和/或哺乳動物宿主細胞是功能性的。此載體可保持獨立于宿主細胞基因組DNA,或是可部分或全部與基因組DNA整合。此載體將含有所有所需元件,使之在與之相容的任何宿主細胞中都是有功能的。這些元件在后面會列出。
本發明的一個方面是提供制備LSIRF多肽的方法。制備多肽的典型方法是獲得編碼多肽的核酸分子、將此核酸分子插入合適的表達載體中、將此載體插入相容的宿主細胞中、在該宿主細胞中表達該LSIRF多肽、及純化該LSIRF多肽。1.編碼LSIRF多肽的DNA的制備編碼LSIRF的核酸分子很容易從不同途徑獲得,其包括但不限于化學合成、cDNA或基因組庫篩選、表達庫篩選、和/或cDNA的PCR放大。這些方法和其它用于分離這些DNA的方法有例如,Sambrook等的方法(分子克隆實驗手冊,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,NY,1989)、Ausubel等的方法(Current Protocols in MolecularBiology,Current Protocols Press,1994)、Berger和Kimmel的方法(Methodsin EnzymologyGuide to Molecular Cloning Techniques,vol.152,AcademicPress,Inc.,San Diego,CA,1987)。編碼LSIRE的優選核酸序列是哺乳動物的序列,編碼LSIRF的最優選核酸序列是人、大鼠和小鼠的。
LSIRF核酸分子的化學合成可采用本領域的已知方法的完成,例如Engels等所列的那些方法(Angew.Chem.Intl.Ed.,28716-734,1989)。這些方法特別包括核酸合成的磷酸三酯、氨基磷酸酯(phosphoramidite)和H-膦酸酯(H-phosphonate)方法。尤其是編碼全長LSIRF多肽的核酸分子的長度為幾百個堿基對(bp)或核苷酸。長度大于約100個核苷酸的核酸可作為幾個片段來合成,每個片段的長度可有長達約100個核苷酸。然后將片段按如下所述的方式連接在一起,形成一個編碼LSIRF多肽的全長核酸。優選的方法是采用標準氨基磷酸酯化學法的聚合物負載合成法。
另外,編碼LSIRF多肽的核酸可通過篩選適當的cDNA庫(即由一個或更多的據認為是表達該多肽的組織制得的庫)或基因組庫(由總基因組DNA制得的庫)來獲得。cDNA庫的來源通常是據認為以適當量表達LSIRF的任何物種的一種組織(例如淋巴樣組織)。基因組庫的來源可以是認為包含編碼LSIRF或LSIRF同系物的基因的任何組織或來自任何哺乳動物或其它物種的組織。可采用一個或更多的核酸探針(寡核苷酸、cDNA或基因組DNA片段,其具有與被克隆的LSIRF或LSIRF同系物cDNA或基因有可接受水平的同源性)篩選此庫以探測LSIRF的cDNA/基因的存在,這些探針將選擇性的與該庫中存在的LSIRF或LSIRF同系物cDNA或基因雜交。用于此庫篩選的探針通常來自與制備庫的種類相同或相似的種類的編碼LSIRF DNA序列的小區域。另外,該探針可是如下所討論的密碼間并物。
庫篩選通常是通過將寡核苷酸探針或cDNA在嚴謹條件下與庫中的克隆退火,其條件應防止非特異性結合而允許那些與探針或引物有相當水平同源性的克隆的結合。典型雜交和洗滌嚴謹條件部分取決于cDNA或寡核苷酸探針的大小(即其長度上的核苷酸數目)和該探針是否是密碼簡并的。在設計雜交溶液方面也考慮了獲得克隆的可能性(即被篩選的是否cDNA或基因組庫;如果是cDNA庫,感興趣的cDNA存在的可能性應很高)。
當DNA片段(例如cDNA)用作探針時,典型的雜交條件是那些例如文獻(Ausubel等,同上)所述條件。在雜交后,以合適的嚴謹度洗含有該庫的印跡,其取決于幾個因素如探針大小,探針與克隆期望的同源性,篩選庫的類型,篩選克隆的數目等等。嚴謹洗滌溶液(其通常離子強度低,并在相對高的溫度下使用)的實例如下所列。一種這樣的嚴謹洗液是0.015M NaCl,0.005M檸檬酸鈉和0.1%SDS,55~65℃。另一種這樣的嚴謹緩沖液是1mM Na2EDTA,40mM NaHPO4,pH7.2,及1%SDS,約40~50℃。另外一種嚴謹洗液是0.2×SSC和0.1%SDS,約50~65℃。
當寡核苷酸探針用于篩選cDNA或基因組庫時,可采用如下所列的兩種用于嚴謹洗滌條件的方案。第一方案是采用6×SSC和0.05%焦磷酸鈉,其溫度在約35和62℃之間,取決于探針的長度。例如,在35~40℃下洗14堿基探針,在45~50℃下洗17堿基探針,在52~57℃下洗20堿基探針,57~63℃下洗23堿基探針。當背景非特異性結合強時,溫度可升高2~3℃。第二方案是采用氯化四甲銨(TMAC)洗滌。一種這樣的嚴謹洗滌溶液是3M TMAC,50mM Tris-HCl,pH8.0,及0.2%SDS。使用此溶液的洗滌溫度是探針長度的函數。例如在約45~50℃下洗17堿基探針。
另一個獲得編碼LSIRF多肽的核酸的合適方法是聚合酶鏈反應(PCR)。在此方法中,將聚(A)+RNA或總RNA從表達LSIRF的組織(如淋巴樣組織)中提取出來。然后用逆轉錄酶從RNA制備cDNA。然后將與LSIRF cDNA(寡核苷酸)的兩個分開區域典型互補的兩種引物與如Taq聚合酶等的聚合酶一起加入此cDNA中,聚合酶即可放大在兩種引物間的此cDNA區域。
當選用的制備編碼LSIRF多肽之核酸的方法要求使用寡核苷酸引物或探針(例如PCR,cDNA或基因組庫篩選)時,選作探針或引物的寡核苷酸序列應有合適的長度和足夠無歧義,以減少在篩選庫或PCR放大期間出現的非特異性結合的量。實際上使用的這些探針和引物的序列通常基于來自另一個生物體的相同或相似基因的保守或高度同源的序列或區域。這些探針或引物可選擇性地是全部或部分密碼簡并物,即含有探針/引物的混合物,其全部編碼相同氨基酸序列,但采用不同的密碼子來進行。另一種制備密碼簡并探針的方法是將肌苷置于那些因種類而變化的一些和所有密碼子位置上。這些寡核苷酸探針或引物可通過如上所述DNA化學合成方法制備。
LSIRF突變體或變異體序列是在本發明的范圍內。本文所用的突變體或變異體序列是這樣一種序列,其與野生型序列相比有一個或多個核苷酸被取代、缺失、和/或插入,導致與野生型氨基酸序列相比的氨基酸序列變異。在一些情形下,由于存在天然等位基因變異,可存在天然存在的LSIRF氨基酸突變體或變異體。這些天然存生的變異體也是在本發明的范圍內。合成突變體序列的制備是本領域已知的,例如Wells等(Gene,34315,1985)和Sambrook等(如前述)所述方法。2.LSIRF多肽5’側翼序列的制備來自任何物種的LSIRF 5’側翼序列(在本文中也稱為啟動子)包括在本發明的范圍內。本文所用的啟動子意思是LSIRF基因的5’側翼序列。5’側翼序列可有各種轉錄因子結合位,也可在約-30的位置上含有TATA框,并在TATA框上游有CCAAT框。此5’側翼序列的特征是或單獨或與如增強子元件、阻抑物等(其中任何一個或全部可以是很遠側的定位)其它因子聯合在體內天然調節LSIRF基因轉錄。優選的5’側翼序列是哺乳動物LSIRF的5’側翼序列。最優選的是人LSIRF的5’側翼序列。
本發明的5’側翼序列可通過用最好與LSIRF基因的5’部分雜交的cDNA或基因組LSIRF片段篩選庫而自基因組庫獲得。這些片段可與庫中的一個克隆雜交,該克隆含有LSIRF 5’側翼序列的部分或全部,其一般位于LSIRF編碼序列始端的5’處。當鑒定出的克隆僅含有部分啟動子時,該克隆本身或其片段可用于下一輪基因組庫篩選,以獲得另外的5’側翼序列。用片段篩選(包括雜交和洗滌)可按如上所述克隆LSIRF基因和/或cDNA的方式完成。3.LSIRF表達載體的制備克隆后,編碼LSIRF多肽或其片段的cDNA或基因已被分離出,為了提高基因拷貝數和/或在合適的宿主細胞中表達該多肽,通常是將它插入放大和/或表達載體中。盡管也可用“定制的”的載體,但此載體常常是市場上可購得的載體。選用的該載體是在所用的特定宿主細胞中是功能性的(即,該載體是與宿主細胞機制是相容的,如此可發生LSIRF基因的放大和/或基因的表達)。LSIRF多肽和其片段可在原核、酵母、昆蟲(桿狀病毒體系)和/或真核宿主細胞中放大/表達。宿主細胞的選擇將至少部分取決于LSIRF多肽或其片段是否需要糖基化。如果是,酵母、昆蟲、和哺乳動物宿主細胞是優選的;酵母細胞將使多肽糖基化,昆蟲和哺乳動物可使多肽糖基化和/或磷酸化,如同在LSIRF多肽上天然進行的一樣(即“天然”糖基化和/或磷酸化)。
通常用于任何宿主細胞的載體將含有5’側翼序列和其它調節元件,例如增強子、復制起點元件、轉錄終止元件、含有供體和受體剪接位點的完全內含子序列、信號肽序列、核糖體結合部位元件、多腺苷酸化序列、用于插入編碼待表達多肽的核酸之多酶切點區域、和可選擇標志元件。該載體可選擇性地含有一個“標簽”序列,即一個位于LSIRF編碼序列的5’和3’端的寡核苷酸序列,它編碼多組氨酸(如六聚組氨酸)或其它小的免疫原性序列的。此標簽將與該蛋白質一起表達,可用作親和標簽以從宿主細胞純化LSIRF多肽。可通過例如使用選擇的肽酶等各種手段隨后選擇性地從純化LSIRF多肽中除去此標簽。A.5’側翼序列元件5’側翼序列可是同源的(即來自與宿主細胞相同的物種和/或菌株)、異源的(即來自與宿主細胞物種或菌株以外的物種)、雜種(即由一個來源以上的p5’側翼序列的組合)、合成的,或它可是天然LSIRF5’側翼序列。如此,5’側翼序列來源可是任何單細胞原核或真核生物、任何脊柱動物或無脊柱動物有機體、或任何植物,條件是5’側翼序列在該宿主細胞機制中是功能性的,并可被其活化。
本發明的載體中有用的5’側翼序列可通過本領域已知的幾種方法中任何一種來獲得。除LSIRF5’側翼序列外,本文中有用的典型5’側翼序列將先被內切酶譜分析和/或限制性內切核酸酶酶切鑒定出,從而可用適當限制性內切核酸酶從合適組織源中分離出。在一些情形下,5’側翼序列的全核苷酸系列可以是已知的。這里可采用如上所述核酸合成或克隆的方法合成5’側翼序列。
5’側翼序列的全部或僅部分是已知時,可使用相同或其它的種類的合適的寡核苷酸和/或5’側翼序列片段通過PCR和/或篩選基因組庫來獲得。
5’側翼序列是未知時,含有同一種5’側翼序列的DNA片段,可從可能含有例如編碼序列或甚至另一個或一些基因的較大的DNA片中分離出。可用一個或更多的細心選擇出的酶通過限制性內切核酸酶酶切分離適當的DNA片段來完成分離。酶切后,期望的片段可通過瓊脂糖凝膠純化、Qiagen柱或其它本領域技術人員已知的方法分離出。為完成此目的的合適酶的選擇,對本領域普通技術人員而言是顯而易見的。B.復制元件的起點此組分通常是市場上可購得的原核表達載體的一部分,且有助于載體在宿主細胞中的放大。在一些情形下,載體放大到一定拷貝數目對LSIRF多肽的最佳表達是很重要的。如果選用的載體不含有復制部位的起點,其可以在已知序列的基礎上化學合成出,并連接到載體上。C.轉錄終止元件此元件通常是位于LSIRF多肽編碼序列的3’端,用作終止LSIRF多肽的轉錄。一般在原核細胞中的轉錄終止元件是一個富G-C片段跟著一個聚胸苷酸序列。此元件很易從一個庫克隆出或甚至作為載體的一部分在市場上購得,它也很容易用如上所述的核酸合成等方法合成出。D.可選擇標志元件可選擇標志基因編碼對宿主細胞在選擇培養基中存活和生長所需的蛋白。典型的選擇標志基因編碼那些蛋白,它們(a)授予抗性給原核生物宿主細胞的抗生素或其它毒素,例如;氨芐青霉素、四環素、或卡那霉素;(b)補充細胞營養缺陷性缺陷;或(c)提供復合基中沒有的必需營養。優選的可選擇標志是卡那霉素抗性基因、氨芐青霉素抗性基因、和四環素抗性基因。E.核糖體結合部位元件此元件通常稱為SD(Shine-Dalgarno)序列(原核生物)或Kozak序列(真核生物),是mRNA翻譯起始所必須的。此元件典型地位于啟動子的3’端和待合成多肽編碼序列的5’端。SD序列是變化的,但通常是一個多嘌呤(即有高的A-G含量)。許多SD序列已被鑒定出,其每一個可很容易地用上述方法合成出。
所有以上列出的以及其它在本發明中有用的的元件,是本領域技術人員已知的,例如Sambrook等(Molecular CloningA Laboratory Manual,ColdSpring Harbor Laboratory Press,Cold Spring Harbor,NY,1989)和Berger等(Guide to Molecular Cloning Techniques,Academic Press,Inc.,San Diego,CA,1987)所述的。F.信號序列元件本發明的優選實施方式中,當轉基因被分泌,一個信號序列常常存在以引導該轉基因編碼的多肽轉出合成它的細胞。通常,信號序列位于轉基因的編碼區域中,靠近或在此編碼區域的5’端。許多信號序列已被鑒定出,在轉基因組織中為功能性的任何一個信號序列可用于與轉基因結合。所以,信號序列可與轉基因是同源的或異源的,可與轉基因哺乳動物是同源或異源的。此外,信號序列可是通過上述方法化學合成的。然而,為本文目的優選的信號序列是那些天然地與轉基因一起存在的(即與轉基因是同系的)。G.內含子元件在許多情形下,轉基因的轉錄由于一個或更多的內含子存在于載體中而被提高。此內含子可是天然出現于轉基因序列中的,尤其是當轉基因是全長或基因組DNA序列片段時。當內含子不是天然存在于DNA序列中時(如多數cDNA),內含子可由另外的來源獲得。內含子可與轉基因和/或轉基因哺乳動物同源或異源。內含子的位置對啟動子和轉基因是很重要的,因內含子必須有效地被轉錄。如此,當轉基因是一個cDNA序列時,內含子優選位置是轉錄起始位的3’端,和聚腺苷酸轉錄終止序列的5’端。對cDNA轉基因而言,內含子優選位于轉基因序列的一側或另一側(即5’或3’),如此它不會打斷轉基因序列。來自包括任何病毒的、原核和真核(植物或動物)有機體的任何來源的任何內含子可用于實施本發明,條件是它與其要插入的宿主細胞是相容的。本文也包括合成的內含子。載體中可選擇性使用一個以上的內含子。H.載體的構建當一種或更多的前述元件沒有存在于所用的載體中時,它們可分別獲得并連接到載體上。用于獲得每個元件的方法是本領域技術人員已知的,類似前述方法(即DNA的合成、庫篩選等)。
用于實施本發明的最后載體通常是由一個如市場上可購得載體等起始載體構建成的。此載體可以含有或不含有一些應包括在完成的載體中的元件。如果沒有任何所需元件存在于起始載體中,每個元件可單獨連接到此載體上,其是通過用合適的限制性內切核酸酶來切載體從而使用于連接的元件端頭與載體的連接端頭是連接相容的。在一些情形下,可能必須“平端化”待連接在一起的端頭,以獲得滿意的連接。鈍化是通過先用KlenowDNA聚合酶或T4 DNA聚合酶在所有四種核苷酸存在下填充進“粘端”來完成的。此過程在本領域是已知的,如Sambrook等人所述(同前)。
另外,待插入載體的兩個或更多的元件可先連接在一起(如果它們位置是彼此相鄰的話),然后再連接到載體上。
構建載體的另一個方法是各種元件在一個反應混合物中同時進行所有的連接。在此,由于元件不適當的連接或插入,將會形成許多無用和無功能的載體,但通過限制性內切核酸酶酶切可以鑒定并選擇出功能性載體。
為實施本發明的優選載體是與細菌、昆蟲、和哺乳動物宿主細胞相容的那些載體。這樣的載體特別包括pCRII(Invitrogen Company,San Diego,CA),pBSII(Stratagene Company,LaJolla,CA)、和pETL(BlueBacII,Invitrogen)。
在載體構建完,并且一個LSIRF核酸已插入載體的合適部位后,完成的載體可被插入合適的宿主細胞中以放大和/或LSIRF多肽表達。使用的典型宿主細胞包括但不限于原核細胞,例如革蘭氏陰性或革蘭氏陽性細胞、即大腸桿菌、桿菌、鏈霉菌屬、酵母霉屬、沙門氏菌等任何菌株;真核細胞,例如CHO(Chinese Hamster ovary)細胞、人腎293細胞、COS-7細胞;昆蟲細胞,例如Sf4、Sf5、Sf9、及Sf21和High5(均來自InvitrogenCompany,San Diego,CA);各種酵母細胞,例如酵母菌屬(Shccharomyces)和Pichia。
載體插入(也稱為“轉化”或“轉染”)選擇的宿主細胞中可采用諸如氯化鈣、電穿孔、顯微注射、脂染(lipofection)或DEAE-右旋糖酐法等方法來完成。選擇的方法部分取決于所用宿主細胞的類型。這些方法和其他適用的方法是本領域技術人員已知的,例如Sambrook等(同上)所述的。
含有載體的宿主細胞(即已轉化或轉染的)可采用本領域已知的標準培養基培養。此培養基通常將含有細胞生長和存活所需的全部營養。培養大腸桿菌的合適培養基有例如Luria Broth(LB)和/或Terrific Broth(TB)。培養真核細胞的合適培養基是RPMI 1640、MEM、DMEM,根據所培養的特定細胞系需要,均可補充血清和/或生長因子。昆蟲培養的合適培養基是必要時補充yeastolate、乳白蛋白水解產物、和/或胎牛血清的Grace培養基。
通常用于轉化細胞選擇性生長的抗體或其他化合物僅作為補充物加入培養基中。所用的化合物將受存在于轉化宿主細胞的質粒上的可選擇標志元件所控制。例如當可選擇標志元件是抗卡那霉素時,往培養基中所添加的化合物將是卡那霉素。4.表達的估評可用本領域已知的標準方法評估在宿主細胞中生產的LSIRF多肽的量。這些方法包括但不限于蛋白質印跡分析、SDS-聚丙烯酰胺凝膠電泳、非變性凝膠電泳、HPLC分離、免疫沉淀、和/或例如DNA結合凝膠位移測定等的活性檢定。5.LSIRF多肽的純化如果已設計從宿主細胞中分泌出LSIRF多肽,大多數的多肽可能發現于細胞培養基中。但如果LSIRF多肽不是從宿主細胞中分泌出,它將存在于細胞質中(對真核、革蘭氏陽性細菌、和昆蟲宿主細胞而言)或在周質中(對革蘭氏陰性細菌宿主細胞而言)。
對于胞內LSIRF,宿主細胞是先被機械或滲透裂解,以使細胞質內容物被釋放進緩沖溶液中。然后從此溶液中分離出LSIRF多肽。
從溶液中純化LSIRF可采用各種技術來完成。如果已合成出的此多肽在其羧酸或氨基酸端含有一個標簽,例如六聚組氨酸(LSILRF/HexaHis)或其他小的肽,將溶液通過一個親和柱在一步過程就可基本純化多肽,柱中基質對標簽或直接對多肽(即特異性識別LSIRF的單克隆抗體)有高的親和性。例如,多組氨酸以強親和力和特異性與鎳結合,如此鎳親和柱(例如Qiagen鎳柱)可用于LSIRF/多組氨酸的純化。(例如見Ausubel等,eds.,Current Protocols in Molecular Biology,Section 10.11.8,John Wiley&Sons,New York,1993)。
當LSIRF多肽沒有可用的標簽和抗體時,可采用其他已知的過程純化。這些過程包括但不限于離子交換色譜、分子篩色譜、HPLC、天然凝膠電泳聯合凝膠洗脫、和制備性等電聚焦(“isoprime”machine/technique,Hoefer Scientific)。在一些情形下,兩種或更多的這些技術可聯合使用,以獲得高的純度。純化的優選方法包括多組氨酸標簽和離子交換色譜聯合制備性等電聚焦。
如果期望主要在細菌的周質腔或真核細胞的細胞質中發現LSIRF多肽,可采用任何本領域已知標準技術從宿主細胞提取出周質或細胞質的內容物,包括包涵體(細菌),如果加上的多肽已形成這樣的復合物的話。例如,可通過弗氏擠壓(French Press)、勻漿、和/或聲處理溶解宿主細胞釋放出周質的內容物。然后可離心此勻漿。
如果LSIRF多肽已在周質中形成了包涵體,該包涵體常與內和/或外細胞膜結合,因此將主要被發現于離心后的粒狀物中。而后粒狀物可用諸如胍或脲等促溶劑處理釋放、分裂、和溶解包涵體。然后采用凝膠電泳、免疫沉淀或其他方法分析其現在已是可溶性形式的LSIRF多肽。如果期望分離出LSIRF多肽,可采用例如下列的和Marston等(meth.Enz.,182264-275,1990)所述的那些方法等標準方法來完成此分離。
如果LSIRF多肽包涵體在宿主細胞的周質中的形成沒有達到相當的程度,將主要在細胞均漿離心后的上清液中發現LSIRF多肽,可采用例如下列方法從上清液中分離出LSIRF多肽。
在那些優選部分或完全分離LSIRF多肽的情形下,采用本領域已知的標準方法完成純化。這些方法包括但不限于電泳分離后電洗脫、各種色譜(免疫親和、分子篩、和/或離子交換)、和/或高壓液相色譜。在一些情形下,可優選采用一種以上的方法完成純化。
本文所用術語“物質”是指用于抑制LSIRF基因轉錄、LSIRF mRNA翻譯、或LSIRF多肽的活性的化合物。
術語“治療有效”是指為獲得期望之生理反應所需物質的量,即抑制淋巴細胞對響應抗原刺激或自身免疫應答的活化,或提高淋巴細胞數目以刺激對抗原刺激的免疫應答。
術語“抗原刺激”是指一種化合物,其或是在哺乳動物(內源性)中天然發現的,并引出一些方面的免疫應答;或是來自外源性來源,侵入哺乳動物體系,并引出一些方面的免疫應答。
實施本發明方法有用的組合物可根據本領域普通技術人員已知的標準方法來制備。治療抗LSIRF抗體實施本發明有用的用于治療的多克隆或單克隆抗LSIRF抗體可用下述方法在實驗室動物中或重組DNA技術來制備。對含有靶氨基酸序列的LSIRF分子或其片段之多克隆抗體一般是通過多次皮下(sc)或腹膜腔注射(ip)該LSIRF分子聯合如Freund佐劑(完全和不完全)等佐劑在動物中產生。為提高免疫原性,可用雙功能或衍生劑,如馬來酰亞氨基苯甲酰基磺基琥珀酰亞胺酯(通過半胱氨酸殘基結合)、N-羥基琥珀酰亞胺(通過賴氨酸殘基)、戊二醛、琥珀酐、SOCl2、或R1N=C=NR(其中R和R1是不同的烷基基團)等,先將該LSIRF分子或含有靶氨基酸序列的片段結合到在待免疫的物種中是免疫原性的蛋白上,如匙孔血藍蛋白、血清白蛋白、牛甲狀腺球蛋白,或大豆胰蛋白酶抑制劑,是很有用的。另外,LSIRF-免疫原性結合物可作為融合蛋白重組生成。
通過將約1mg或約1μg的結合物(分別對兔子或鼠)與約3倍體積的Freund完全佐劑結合,并皮內多點注射該溶液,就免疫原性LSIRF結合物或衍生物(例如含有此靶氨基酸序列的片段),對動物進行免疫。大約7或14天后,從動物身上取血,對血清進行抗-LSIRF滴定度檢測。反復對動物進行加強免疫直至到達滴定平臺處。最好用與最初免疫所用之相同LSIRF分子或其片段對動物進行加強免疫,但其與不同蛋白結合和/或通過不同交聯劑結合。此外,可將例如明礬等聚集劑用于注射液中以提高免疫應答。
單克隆抗體的制備可以是從免疫動物中取出脾細胞,按如通過與骨髓瘤細胞融合等傳統方式使細胞可無限增殖。然后篩選出表達期望抗體的那些克隆。優選單克隆抗體與其它LSIRF多肽或LSIRF多肽同型沒有交叉反應。
采用重組DNA方法,例如噬菌體質粒嵌合體顯示方法,制備抗體可使用市場上購得的試劑盒來完成,如Pharmacia(Uppsala,Sweden)的重組噬菌體質粒嵌合體抗體體系,或SurfZAPTM噬菌體顯示體系(Stratagene Inc.,LaJolla,CA)。
施用于人的抗體,盡管是在如鼠等實驗室動物中制備,但較佳的是“人源化(Humanized)”的或嵌合的,也就是將其與人的免疫體系相容,從而使病人對此抗體將沒有免疫應答。更佳的是,現在可采用例如Lonberg等(Nature Genetics,713-21,1994)所述方法制備的人的抗體,優選治療性施用于病人。
采用任何一種上述方法生成出的抗體可與能穿透細胞膜和核膜的化合物結合,以輸入此抗體到核中。例如采用核靶信號,如在LSIRF的磷酸化形式中所發現的。治療組合物和施用可通過將具有所需純度的所選組合物選擇性地與生理上可接受的載體、賦形劑、或穩定劑(Remington’s Pharmaceutical Sciences,18th edition,A.R.Gennaro,ed.,Mack Publishing Company,1990)混合來制備,并以冷凍干燥餅或水溶液的形式儲存用于實施本發明的組合物的治療配方,例如LSIRF抗體。可接受的載體、賦形劑或穩定劑對受體在所用的劑量和濃度下是無毒的,且最好是惰性的,并包括緩沖液,例如磷酸鹽、檸檬酸鹽、或其它有機酸;抗氧化劑,例如抗壞血酸;低分子量多肽;蛋白,例如血清白蛋白,明膠,或免疫球蛋白;親水聚合物,例如聚乙烯吡咯烷酮;氨基酸,例如甘氨酸、谷氨酰胺、天冬酰胺、精氨酸或賴氨酸;單糖,雙糖,和其它碳水化合物,包括葡萄糖、甘露糖、或糊精;螯合劑,例如EDTA;糖醇,例如甘露醇或山梨糖醇;鹽形式的平衡離子,例如鈉;和/或非離子表面活性劑,例如Tween,Pluronics或聚乙烯醇(PEG)。
用于體內施用的組合物必須是無菌的。經在冷凍干燥和配制前或后,將其通過無菌過濾膜過濾很容易使其無菌。用于腸胃道外施用的組合物通常是以冷凍干燥或溶液形式儲存。
治療組合物一般是放置于有無菌入口的容器中,例如靜脈內溶液袋或具有可被皮下注射針刺透的瓶塞的管瓶。
該組合物施用途徑是與已知方法一致的,例如口服、通過靜脈內的、腹膜內的、腦內、肌肉內、眼內的、動脈內的、或病灶內的途徑注射或輸入、或通過持續釋放體系或植入裝置。如果需要,組合物可通過輸入、丸劑投入或植入裝置連續施用。
持續釋放制劑的適當實例包括成型物形式的半透性聚合物基質,例如膜、或微膠粒。持續釋放基質包括聚酯、水溶膠、聚交酯(U.S.3,773,919,EP58,481)、L-谷氨酸和γ乙基-L-谷氨酸酯的共聚物(Sidnam等,Biopolymers,22547-556,1983)、聚(2-羥基乙基-異丁烯酸酯)(Langer等,J.Biomed.Mater.Res.,15167-277,1981;和Langer,Chem.Tech.,1298-105,1982),乙烯乙酸乙烯酯(Langer等,同上)或聚-D(-)-3羥基丁酸(EP133,988)。持續釋放組合物也可包括脂質體,其可通過本領域已知幾個方法中任何一種來制得(例如,DE 3,218,121;Epstein等,Proc.Natl.Acad.Sci.USA,823688-3692,1985;Hwang等,Proc.Natl,Acad.Sci.USA,774030-4034,1980;EP 52,322;EP 36,676;EP 88,046;EP 143,949)。
該組合物用于治療的有效量將取決于例如治療對象、投用途徑、和病人的狀況。因此當需要獲得最佳治療效果時,治療人員有必要改變劑量和修改投用途徑。典型的每日劑量可在約1μ/kg至100mg/kg或更高的范圍內,取決于上述因素。通常,醫生將投用該組合物,直至已達到獲得所期效果的劑量。這一治療過程是容易通過設計評估的傳統測試方法監測。
本發明的LSIRF核酸分子、5’側翼序列、多肽、和抗體將有各種用途,其對本領域普通技術人員是顯而易見的。
LSIRF多肽將可用作用于調節淋巴細胞活化的治療化合物靶物。通過阻礙LSIRF基因的表達(通過減少LSIRF轉錄或轉化)或降低LSIRF多肽的活性,抑制淋巴細胞相對一定環境刺激的活化是可能的。通過提高LSIRF基因的表達水平(通過向上調節LSIRF 5’側翼序列),有可能刺激淋巴細胞活化和增殖,因此提高對特定抗原的免疫應答。
本發明的抗體可是多克隆或單克隆的,可針對LSIRF在任何哺乳動物中產生。這些抗體可用于評價LSIRF多肽在給定組織或生物樣品中的存在和/或數量。此外,它們可用于與此多肽活性部位結合,來降低LSIRF活性。因此可發現抗體本身可用作治療化合物以降低LSIRF多肽水平。
參考下述實施例將更容易地理解本發明。這些實施例并不應以任何方式限定本發明范圍。實施例實施例1 克隆鼠LSIRF cDNA將兩個PCR(聚合酶鏈反應)部分密碼簡并引物用于從C57B1/6鼠脾組織獲得的總RNA制得的cDNA的PCR放大。該引物為ATCCTGGAACACGC(序列識別號5)GCACACGAACTGCCTTCCA(序列識別號6)5號引物含有三個肌苷堿基,其位于核苷酸2和3(T和C)、核苷酸4和5(C和T)、及核苷酸9和10(A和C)之間。6號引物在序列中含有四個肌苷堿基,其位于核苷酸5和6(A和C)、核苷酸7和8(G和A)、核苷酸9和10(A和C)、及核苷酸11和12(T和G)之間。
PCR在可程序調節熱循環機(Perkin-Elmer Cetus,Norwalk,CT)內,50μl含有200μM dNTPs,2U Taq聚合酶和100pM各引物的PCR緩沖液(10mM Tris-HCl,pH8.3,1.5mM MgCl2,和50mM KCl)中進行。以下列溫度變換方式進行PCR的三十個循環94℃ 60秒;37℃ 60秒;72℃ 60秒。接著用TA-克隆體系(Invitrogen Corp.,San Diego,CA)將PCR產物直接插入pCRII質粒。含有PCR產物插入的質粒被轉化到感受態大腸桿菌菌株INV-αF’(Invitrgen Corp.)中以便放大。這些宿主細胞的質粒DNA用標準堿性分解方法(Sambrook等,同上)來制備,然后質粒DNA在約1.5%瓊脂糖凝膠中進行電泳。部分DNA在Hybond-N膜(Amersham,Oakville,Ontario,Canada)上印跡,根據制造商的說明書(Amersham)用隨機引發的32P標記的鼠IRF-1和IRF-2的DNA片段進行雜交。沒有與IRF-1或IRF-2片段雜交的克隆的質粒DNA,用US BioscienceSequenase kit(US Bioscience,Cleveland,Ohio)測序。一個“Spl5”克隆,含有新的核苷酸序列,這是在Genbank中檢索后確定的。通過隨機引發(Amersham方法)32P標記此克隆,然后用于篩選鼠IL-4誘導的脾cDNA庫(Clonetech,Palo Alto,CA)。雜交后,含有cDNA庫克隆的濾膜先用1×SSC和0.1%SDS于約65℃洗滌約30分鐘,再用0.2×SSC和0.1%SDS于約65℃洗滌約30分鐘。獲得兩種缺乏ATG起始密碼子的LSIRF cDNA克隆。這些克隆之一,“C13”,被用于重新篩選同樣的庫,得到一個約5kb的克隆,“C16”,其也缺5’序列。然后克隆C16用于篩選λZAPII鼠脾cDNA庫(Stratagene,La Jolla,CA),獲得幾個含有推測的ATG起始密碼子的部分克隆。通過用5’延伸引物的PCR產生一個人工克隆,獲得含有全部編碼LSIRF區域的完全cDNA序列。將此克隆插入載體pBSII中,產生質粒PV-1,證實LSIRF序列。
對每個部分cDNA克隆獲得預測的氨基酸序列,一些克隆在164氨基酸位上有一個額外的谷氨酰胺。圖1中列出了PV-1全長cDNA序列,其約1.4kb。PV-1 cDNA在164氨基酸位上有額外的谷氨酰胺。圖2列出了基于LSIRF cDNA序列預測的LSIRF全長氨基酸序列。實施例2鼠LSIRF的基因組克隆用下列引物對LSIRF cDNA的C16克隆的約630bp部分進行PCR放大CAGCCCGGGGTACTTGCCGCTGTC (序列識別號7)AGACCTTATGCTTGGCTCAATGGG (序列識別號8)PCR條件是94℃ 1分鐘,72℃ 30秒。
用1%瓊脂糖凝膠電泳,再通過一個Spin-X柱(CoStar Corp.,Cambridge,MA),純化獲得PCR片段。然后用隨機引發技術(Amersham)對此片段進行32P標記,然后將其用于篩選由129/J鼠腎組織制得的基因組庫。于65℃用0.1×SSC和0.1%SDS洗滌,獲得幾個克隆。將這些克隆中的兩個(大小12和15kb)亞克隆進載體pBSII(Stratagene,La Jolla,CA)中進行測序。這些克隆含有重疊序列,從而可以鑒定約2kb 5’側翼序列。圖3列出了5’側翼序列。圖4列了含有鼠LSIRF基因外顯子和內含子的基因組序列,由于序列的不確定性序列中的不一致處對A或G是標為“R”,對G或C是標為“S”,對A或C是標為“M”,對T或G是標為“K”。其不確定性是M在核苷酸748,4159,7413,和10357;R在核苷酸5277,5310,10564,和11713;K在核苷酸4513,5885,和9812;S在核苷酸6425。
所有不確定性是在內含子中,因此不影響構成LSIRF編碼區域的外顯子的實際核苷酸序列。
將核苷酸(cDNA和基因組)序列和推導的LSIRF氨基酸序列與GenBank和SwissProt數據庫中的所有序列比較,未發現等同的序列。但,LSIRF氨基端序列與IRF族其它成員有同源性。與多肽ICSBP(干擾素共有序列結合蛋白)有最高同源性,其與LSIRF在氨基端享有83%同源性(允許一個氨基酸缺口)。實施例3鼠LSIRF表達通過EcoRI限制性酶切從質粒PV-1切下LSIRF全長cDNA序列。電泳后從0.7%瓊脂糖凝膠分離出此LSIRF基因,用Klenow DNA聚合酶鈍化端點,并連接到質粒pETL(BlueBacII,Invitrogen Company)的NheI位上,生成質粒pETL-LSIRF。采用標準培養方法和條件,在大腸桿菌細胞菌株DH5-α中放大該質粒(在氨芐青霉素存在下生長)。在合適的定向上含有LSIRF基因的純化了的質粒(如用EcoRI,HindIII,PvuII酶切的限制內切核酸酶酶譜分析所確定的)與線性化桿狀病毒基因組DNA(InvitrogenCorp.,San Diego,CA,USA)一起共轉染進Sf9昆蟲細胞(American TypeCulture Collection,12301 Parklawn Drive,Rockville,MD USA有成品)中,在補充yeastolate,乳清蛋白水解產物,10%胎牛血清的Grace培養基中,于約28℃培養該細胞約48小時。
培養后,收獲細胞,在Bluo-gal(gibco-bRL,Grand Island,NY,USA)存在下進行噬菌斑測定(Richardson,ed.,Meth.Mol.Biol.,vol 39;BaculovirusExpression Protocols,Humana Press,Totowa,NJ,1995)以分離重組病毒。培養5~7天后選擇蘭重組噬菌斑,并在含有Sf9細胞的24孔微滴定板中放大這些噬菌斑。在組織培養燒瓶中通過大規模細胞培養進一步放大重組病毒,直至獲得約108pfu/ml滴定度。以每個細胞約1pfu的感染復數感染Sf9細胞,在感染后0、24、48、72、和96小時收獲細胞,來確認LSIRF表達。然后在SDS-PAGE樣品緩沖液(100mM DTT,80mM Tris-HCl,pH6.8,10%甘油,0.0012%溴苯酚蘭)中溶解制得細胞溶胞產物,用蛋白質印跡分析法來進行分析。
就LSIRF多肽的存在分析了Sf9細胞和鼠外周淋巴細胞二者的蛋白提取物。從鼠切下的淋巴結,使淋巴結組織通過細目篩,制得淋巴細胞。在補充10%胎牛血清的Iscove培養基中維持淋巴細胞。用根據制造商提供的方法(Pharmingen,San Diego,CA)(對Sf9細胞而言)或Sambrook等所述方法(Molecular CloningA Laboratory Manual,Cold Spring HarborLaboratory Press,Cold Spring Harbor,NY,1989;對淋巴細胞而言)制備Sf9和淋巴細胞的蛋白提取物。將這些蛋白在8%聚丙烯酰胺/0.1%SDS膠上分離,用標準過程將該膠轉移至Immobilon-P膜(Millipore Company)。先將印跡與封閉緩沖液(4%脫脂牛奶,0.05%Tween-20,1×PBS)中室溫下保溫1小時。然后以約1∶2000稀釋度(在一份封閉緩沖液對一份PBS的溶液中),于印跡中加入對抗LSIRF羧基端肽的LSIRF兔多克隆抗血清。注射進兔子以產生抗體的LSIRF肽為GYELPHEVTTPDYHR (序列識別號9)印跡與LSIRF抗體保溫約1小時后進行清洗,用山羊抗兔辣根過氧化物酶-偶聯抗體以約1∶5000的稀釋度檢測LSIRF抗體。
結果表明對抗-CD3抗體刺激的外周T細胞和重組Sf9細胞,抗LSIRF抗體識別出了一個約51kD的帶(推測的LSIRF的分子量)。實施例4鼠LSIRF表達分析A.組織印跡為評估LSIRF轉錄物的組織特異性,采用Wangm等人所述方法(EMBOJ.,102437-2450,1991),從鼠腦、肺、胸腺、骨髓、脾、肝、腸、胰腺、唾液腺、睪丸、心和平滑肌組織制得總RNA。通過1%瓊脂糖/甲醛凝膠用標準方法將這些RNA進行電泳,再轉移到硝基纖維素紙上如Sambrook等人所述(同上)。然后將印跡與含有LSIRF全部編碼區域(PV-1插入物)的隨機引發32P標記的1.4kb cDNA雜交,隨后于約50℃下用0.2×SSC和0.1%SDS洗滌,如Stewart等所述(Meth.Mol.Cell Biol.,173-76,1989)。
結果如圖5所示,表明約5.5kb的LSIRF轉錄物大量存在于脾和骨髓組織中,而在胸腺和肺中有相同大小的較弱的轉錄物。令人吃驚的是沒有觀察的額外的帶。此外,圖6顯示出淋巴結組織也含有LSIRF轉錄物。
采用RNA印跡分析,評估包括CTLL-2、D10.G4.1、HT-2、EL-4、和BW5147(所有細胞均可得自American Type Culture Collection,12301Parklawn Drive,Rockville,MD,USA)在內的各種T細胞系的LSIRF表達。采用Chomczynski等(Anal.Biochem.,162156-159,1987)的方法,從這些細胞系提取RNA。在37℃,5%CO2下,在補充了10%胎牛血清和2mM L-谷氨酰胺的Iscove培養基中維持這些細胞系。據認為前三個細胞系是外周T細胞系,而后兩個是未成熟T細胞系。HT-2和CTLL-2細胞的培養是補充了50U/ml的IL-2(Genzyme Inc.,Cambridge,MA)和50μM 2-巰基乙醇;D10.G4.1的培養是補充了50U/ml的IL-1(Genzyme Inc.,Cambridge,MA),50U/ml的IL-2和50mM 2-巰基乙醇。
由總RNA制得RNA印跡,轉移到HybondN紙上,如上所述用Stewart等(同上)的方法,用1.4kb隨機引發的cDNA探測。
結果表明LSIRF轉錄物僅在外周T細胞系中是可見的,因此推測LSIRF優選在成熟T細胞中表達。在pre-B細胞系CB17.51、B細胞系WEHI231(American Type Culture Collection)、plasmacytoma細胞系J558(American Type Culture Collection)中mRNA轉錄物的類似分析顯示該轉錄物在所有細胞系中均存在,且J558有最強的信號。
在培養細胞中加入各種刺激物,并評估LSIRF的mRNA水平,來評價LSIRF在得自脾或淋巴結的原始淋巴細胞中的誘導作用。用于淋巴結細胞的刺激物是1000U/ml鼠β-干擾素(β-IFN;Lee biomolecular Research,SanDiego,CA)、100U/ml鼠γ-干擾素(γ-IFN;Genzyme Inc.,Cambridge,MA)、或10ng/ml鼠腫瘤壞死因子(TNF;Genzyme Inc.)。脾細胞是用20μg/ml抗-IgM抗體,10μg/ml脂多糖(LPS;一種細菌內毒素),10ng/ml PMA(佛波醇豆蔻酸酯乙酸酯;Sigma Chemical Co.,St.Louis,MO),1mg/ml環孢菌素A(CsA;Sandoz Company,Basel,Switzerland)、10μg/ml伴刀豆球蛋白A(ConA;Sigma)、或1或10μg/ml環已酰亞胺(CHX;Sigma)處理的。在37℃下處理所有細胞6小時。
其結果見圖6、7和8。在所有這些圖中,β肌動蛋白是作為分析總RNA量的指示而顯示的。
圖6顯示了抗-CD3抗體誘導了LSIRF轉錄。但最令人驚奇的是干擾素并不誘導LSIRF轉錄物。這是與其他已知IRF明顯相反,因其它已知IRF的轉錄物是被干擾素誘導的。
圖7顯示環已酰亞胺,一種蛋白合成抑制劑,誘導了LSIRF轉錄。這一結果是意料之外的,因為環已酰亞胺并不誘導IRF-1或IRF-2基因的轉錄。
圖8顯示了抗-IgM和PMA誘導了LSIRF轉錄物。抗-IgM的這種誘導是令人驚奇的,因其表明LSIRF不僅在T細胞中表達也在B細胞中表達。B.凝膠移位測定進行電泳遷移率測定評估LSIRF多肽是否是一個DNA結合蛋白。如下制備自對照Sf9細胞(僅與野生型桿狀病毒轉染)和表達LSIRF的Sf9(與含LSIRF cDNA的桿狀病毒轉染)細胞的核提取物。將Sf9細胞離心分離,然后用PBS洗滌兩次。最后一次洗滌后,以每107個細胞用0.5ml“H-緩沖液”(低滲緩沖液的量)使細胞重新懸浮(H-緩沖液的組成為25mM Hepes-NaOH,pH8.0,10mM KCl,5mM MgCl2,0.5mM EDTA,和0.5mM DTT),并在冰上保溫約30分鐘,在此期間由于低滲緩沖液作用細胞膨脹。而后在勻漿器(dounce homogenizer)中用15沖程B型搗錘破壞細胞。在約4℃于微離心機中在10K轉/分下離心約10分鐘從細胞碎片中分離核。通過每107細胞在0.5ml N-緩沖液中重懸浮(N-緩沖液的組成25mM Hepes-NaOH pH8.0,400mM KCl,5mM MgCl2,5mM EDTA,10%甘油,和0.5mM DTT),在冰上保溫約20分鐘,來提取含有多數核的沉淀物。然后在4℃微離心機中15K轉/分下離心懸浮液約15分鐘。用Centricon 10微濃縮器(Amicon Corporation),對含有多數LSIRF多肽的上清液進行緩沖液交換,以除去多余的鹽。濃度稀釋緩沖液是E-緩沖液(25mM Hepes-NaOH,pH8.0,50mM KCl,5mM MgCl2,0.5mM EDTA,15%甘油,和0.5mM DTT)。H-緩沖液、N-緩沖液、和E-緩沖液都含有下列蛋白酶抑制劑0.5mM PMSF,0.5μg/ml leupepin,0.5μg/ml aprotinin)。
為評估由于與LSIRF結合的特定DNA片段電泳遷移率,將提取物與雙鏈32P-標記DNA探針一起保溫。下面列出了此探針有義鏈的序列,一種野生型鼠MHC IRSE結合序列TGCAGAAGTGAAACTGAGG (序列識別號10)對結合反應,在結合反應緩沖液(12mM Hepes-KOH,pH7.9,30mM KCl,60μM EGTA,0.3mM DTT,2.5%Ficoll,0.6μg poly(dI-dC)[由Pharmacia獲得],和0.05%NP-40)中制備約25×103cpm(相應于約1×10-11摩爾探針)。通過在含有約0.1mg/ml的BSA(牛血清白蛋白)的E-緩沖液中稀釋約8倍至最后濃度約為14μg總蛋白/ml(對含LSIRF的反應),和約22μg總蛋白/ml(對照反應),來制備核提取物。加入約1μl核提取物至約6.24μl的探針溶液中,開始結合反應,在一些情形下探針溶液也含有未標記“競爭劑”DNA片段。每個這些片段的序列都列于表1中。加入的競爭片段是約750倍摩爾過量(與標記片段比較)。核提取物/探針溶液在約23℃保溫約20分鐘,然后置于9%聚丙烯酰胺凝膠(用0.25×TBE制備)上,此凝膠已在載樣品前預先在約250伏下運行了約2小時。凝膠在約300伏下運行約2小時,以將蛋白-DNA復合物與未結合DNA探針分離開。然后干燥凝膠,并用它曝光顯影,評估由于蛋白結合的DNA探針遷移位移。表1片段 序列mMHC ISRE野生型 TGCAGAAGTGAAACTGAG(序列識別號11)mISRE mt1 TGCAGAAGTGAAACCTGG(序列識別號12)mISRE mt2 TGCAGAAGTGAACATGAG(序列識別號13)mISRE mt3 TGCAGAAGTGGTCCTGAG(序列識別號14)mISRE mt4 GCTAGAAGTGAAACTGAG(序列識別號15)mIgλBAAAGGAAGTGAAACCAAG(序列識別號16)mIgkappa E3’ TGAGGAACTGAAAACAGA(序列識別號17)hISG54 ISRE GGGAAAGTGAAACTAG (序列識別號18)表1中, “m”表示鼠序列,且“h”表示人序列。
結果見圖9。如圖所示,野生型MHC ISRE序列與LSIRF蛋白結合。此外,兩個ISRE DNA片段突變體,m1和m4,如兩個其它DNA片段,Ig Lambda B和ISG54一樣競爭結合。實施例5人LSIRF克隆為鑒定編碼LSIRF的人cDNA,用鼠PV-1克隆篩選人淋巴細胞cDNA庫(Clontech,Palo Aoto,CA;catalog number HL 1031a)。篩選條件是65℃下于Church緩沖液(Church和Gilbert,Proc.Natol.Acad.Sci.USA,811991-1995,1984)過夜。洗滌濾膜兩次約30分鐘,每次用2×SSC和0.1%SDS。在約一百萬篩選的噬菌斑中,兩個陽性克隆被鑒定出,分離,并且用標準技術純化DNA。將克隆亞克隆到pBluescript(Stratagene,LaJolla,CA)的EcoRI位中。將這些克隆中最長者測序,其稱為H14,大于約2kb。此序列指示出此克隆是TNF(腫瘤壞死因子)受體p55(約400堿基對)和約1kb與鼠LSIRF序列外顯子3-9高度同源的序列的雜種。此外,此克隆有一個保守的停止密碼子,一個剪接供體序列,和約600個堿基對的內含子。因此可得出結論,此1019堿基對序列代表了部分人LSIRF序列。用以下引物的PCR放大此1019個堿基對的序列CTGGACATCTCAGACCCGTACAAAGTG (序列識別號19)CTTGACATTTTTCATTCTTGAATAGAG (序列識別號20)放大條件是94℃下30秒,65℃下30秒,且72℃下約90秒。在Taq聚合酶存在下使用約500ng H14模板,進行約15循環PCR。所得PCR產物直接連接到TA克隆載體試劑盒載體PCRII(Invitrogen,San Diego,CA)上,并進行測序以證實放大了適當的片段。這一1019堿基對cDNA片段,其稱為“FISH”,被用于篩選人白細胞5’-伸長cDNA庫(Clonteh;catalognumber HL 1169x)。篩選條件是約65℃在Church緩沖液中過夜,隨后用2×SSC和0.1%SDS約30分鐘洗滌兩次,然后用0.2×SSC和0.1%SDS約30分鐘洗滌兩次。約500000的一個空斑被鑒定出,純化DNA,并測序。此克隆,稱為HIRF4λDR2,含有內含子2和全長外顯子3(在H14克隆中僅發現部分外顯子3)、以及外顯子5、7、8和內含子8。外顯子4和6推測是被剪掉或缺失了。
為得到其余LSIRF編碼序列,采用了兩種方法。首先,用FISH cDNA作探針,在載體lambda fix2(Stratagene,LaJolla,CA)中,篩選人胎盤基因組庫。篩選條件是在Church緩沖液中于約65℃過夜,隨后用2×SSC和0.1%SDS約30分鐘洗滌兩次,然后用0.2×SSC和0.1%SDS約30分鐘洗滌兩次。分離了十個噬菌體克隆,自一個克隆純化DNA,其稱為HG-1。用限制性核酸內切酶BamHI,SacI,和XbaI酶切此DNA,其片段被亞克隆進克隆載體pMOB(Strathmann等人,Proc.NatI.Acad.Sci.USA,881247-1250,1991)。獲得每個片段的序列,并與鼠LSIRF序列比較。基于與鼠序列的同源性,在此克隆中鑒定人LSIRF的啟動子、外顯子I和外顯子II。
所用的第二種方法是RACE反應,使用Clontech Marathon試劑盒及制造商提供的方法。使用了稱為OCILY8的一個B-細胞淋巴組織瘤系(見Blood,691307-1314,1987),其已被RNA印跡分析顯示有高LSIRF表達。將所得RACE產物測序,發現與外顯子一和二(如上所述得到的)的基因組序列相配。
為產生一個開放閱讀框,從載體PCRII的EcoRI位切下FISH cDNA,將其連接到PGEX4T3(Promega,Madison,WI)的EcoRI位上,形成載體pGEX4T3-FISH。為獲得一個以可使其本身與FISH克隆融合形式的可讀框的5’端,使用人脾Marathon(Clontech,catalog no.7412-1)成品cDNA,及以下兩個引物來放大TGCCCTCAGCTCCGAGTCCAG (序列識別號21)AACCATTTTCACAAGCTG (序列識別號22)用PCR在下列條件下完成放大94℃下30秒,64℃下30秒,68℃下1分鐘。用高精度聚合酶(Boehringer mangeim)進行了三十個循環。采用此方法,放大LSIRF的氨基端序列,得到了所期望的約600堿基對大小的DNA片段。
用序列識別號22(見上)和列于下面的序列識別號23,通過PCR再放大該約600堿基對的片段GGATCCGGATCCATGAACTGGAGGGCGGCGGCCGAGGC (序列識別號23)如下進行十五個循環PCR94℃下30秒,64℃下30秒,72℃下90秒,采用天然PFU聚合酶(Stratagene,LaJolla,CA)。
用BamHI和SacII酶切含有FISH插入物的PGEX4T3載體(pGEX4T3-FISH),因此除去FISH插入物的5’部分。用相同的酶酶切上面得到的約600堿基對的PCR產物,將其連接到pGEX4T3-FISH載體上,形成全長開放閱讀框構建體pGEX4T3 LSIRF BamHI/EcoRI,其編碼區域列于圖10。圖11顯示了預期的氨基酸序列。用GST融合蛋白(Pharmacia)的產生,按照制造商提供的方法評估此克隆。融合蛋白的預期大小是約79kD,其中約27kD是GST蛋白,約52kD是LSIRF蛋白。該融合蛋白在8%SDS-PAGE中遷移至約79kD的預期大小,這是通過考馬斯亮蘭染色法測定的。
人LSIRF的RNA印跡分析表明此基因主要在脾組織和外周血組織中表達,在結腸和腸組織中看到較低的表達水平。此外,使用從Clontech(catalog no.7757-1)得到的多癌細胞系RNA印跡,可看到此基因在人B細胞Burkitt的淋巴組織瘤系Raji中有弱表達,而在人黑素瘤系G361癌系中有強的表達。
基于幾個含有部分hLSIRF序列的克隆的DNA測序,可認為存在兩種形式的hLSIRF序列。一種形式,“單Q”形式,在堿基490-492處含有“CAG”密碼子,其在氨基酸位164編碼氨基酸Q(Gln)。LSIRF DNA的第二種形式,“雙Q”形式,在“單Q”形式堿基492和493之間含有一個額外的“CAG”密碼子,導致在“單Q”形式的氨基酸163和164之間的一個額外的氨基酸Q(Gln)。除此差別外,兩種形式的氨基酸和核酸序列是相同的。
在pGEX4T3載體中編碼人LSIRF(hLSIRF)的全長“單Q”DNA序列于1996年3月27日保藏于ATCC,其登記號為98016。此外,編碼hLSIRF蛋白“雙Q”形式的全長人LSIRF序列于1996年3月27日保藏于ATCC,其登記號為98017。序列表(1)基本信息(i)申請人阿姆庚加拿大公司(ii)發明名稱編碼LSIRF多肽的新基因(iii)序列數25(iv)通信的地址(A)收信人阿姆庚加拿大公司(B)街道米西索加路6733號,303單元(C)城市米西索加市(D)省安大略(E)國家加拿大(F)郵編L5N 6JB(v)計算機可讀形式(A)介質類型磁盤
(B)計算機IBM PC兼容機(C)操作體系PC-DOS/MS-DOS(D)軟件PatentIn Release#1.0,Version#1.30(vi)當前申請數據(A)申請號(B)申請日;(C)分類(viii)代理人信息(A)姓名Oleski,NancyA.
(B)注冊號34,688(C)案號A-338A(2)識別號1序列的信息(i)序列特性(A)長度1353堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號1ATGAACTTGG AGACGGGCAG CCGGGGCTCA GAGTTCGGCA TGAGCGCAGT GAGCTGCGGC60AATGGGAAAC TCCGACAGTG GTTGATCGAC CAGATCGACA GCGGCAAGTA CCCCGGGCTG 120GTGTGGGAGA ACGAGGAGAA GAGCGTCTTC CGCATCCCGT GGAAACACGC GGGCAAGCAG 180GACTACAATC GTGAGGAGGA CGCTGCCCTC TTCAAGGCTT GGGCATTGTT TAAAGGCAAG 240TTCCGAGAAG GGATCGACAA GCCAGATCCT CCTACTTGGA AGACAAGATT ACGATGTGCT 300CTGAACAAGA GCAATGACTT TGAGGAATTG GTCGAGAGGA GCCAGCTGGA TATCTCTGAC 360CCATACAAGG TGTACAGGAT TGTTCCAGAG GGAGCCAAAA AAGGAGCAAA GCAGCTCACT 420TTGGATGACA CACAGATGGC CATGGGCCAC CCCTACCCCA TGACAGCACC TTATGGCTCT 480CTGCCAGCCC AGCAGGTTCA TAACTACATG ATGCCACCCC ATGACAGGAG CTGGAGGGAT 540TATGCCCCTG ACCAGTCACA CCCAGAAATC CCATATCAAT GTCCTGTGAC GTTTGGCCCA 600CGAGGCCACC ACTGGCAAGG CCCATCTTGT GAAAATGGTT GCCAGGTGAC AGGAACCTTT 660TATGCTTGTG CCCCACCTGA GTCCCAGGCT CCTGGAATCC CCATTGAGCC AAGCATAAGG 720TCTGCTGAAG CCTTGGCGCT CTCAGACTGC CGGCTGCATA TCTGCCTGTA TTACCGGGAC 780ATCCTCGTGA AAGAGCTGAC CACGACGAGC CCTGAAGGCT GCCGGATCTC CCACGGACAC 840ACCTATGATG TTAGCAACCT GGACCAGGTC CTGTTTCCCT ACCCGGACGA CAATGGACAG 900AGGAAGAACA TTGAGAAGTT GCTGAGCCAC CTGGAGAGGG GACTGGTCCT CTGGATGGCT 960CCAGATGGGC TTTATGCCAA AAGACTCTGC CAGAGTAGGA TCTACTGGGA TGGGCCCCTG1020GCACTGTGCA GCGATCGGCC CAACAAGCTA GAAAGAGACC AGACTTGCAA GCTCTTTGAC1080ACACAGCAGT TTCTATCAGA GCTGCAAGTG TTTGCTCACC ATGGCCGGCC AGCACCGAGA1140TTCCAGGTGA CTCTGTGCTT TGGTGAGGAG TTTCCAGACC CTCAGAGACA GAGGAAGCTC1200ATCACAGCTC ATGTGGAACC TCTGCTAGCC AGACAACTGT ATTACTTTGC TCAACAAAAC1260ACTGGACATT TCCTGAGGGG CTACGAGTTA CCTGAACACG TTACCACTCC AGATTACCAC1320CGCTCCCTCC GTCATTCTTC CATCCAAGAG TGA 1353(2)識別號2序列的信息(i)序列特性(A)長度450氨基酸(B)類型氨基酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型蛋白質(xi)序列描述序列識別號2Met Asn Leu Glu Thr Gly Ser Arg Gly Ser Glu Phe Gly Met Ser Ala1 5 10 15Val Ser Cys Gly Asn Gly Lys Leu Arg Gln Trp Leu Ile Asp Gln Ile20 25 30Asp Ser Gly Lys Tyr Pro Gly Leu Val Trp Glu Asn Glu Glu Lys Ser35 40 45Val Phe Arg Ile Pro Trp Lys His Ala Gly Lys Gln Asp Tyr Asn Arg50 55 60Glu Glu Asp Ala Ala Leu Phe Lys Ala Trp Ala Leu Phe Lys Gly Lys65 70 75 80Phe Arg Glu Gly Ile Asp Lys Pro Asp Pro Pro Thr Trp Lys Thr Arg85 90 95Leu Arg Cys Ala Leu Asn Lys Ser Asn Asp Phe Glu Glu Leu val Glu100 105 110Arg Ser Gln Leu Asp Ile Ser Asp Pro Tyr Lys Val Tyr Arg Ile Val115 120 125Pro Glu Gly Ala Lys Lys Gly Ala Lys Gln Leu Thr Leu Asp Asp Thr130 135 140Gln Met Ala Met Gly His Pro Tyr Pro Met Thr Ala Pro Tyr Gly Ser145 150 155 160Leu Pro Ala Gln Gln Val His Asn Tyr Met Met Pro Pro His Asp Arg165 170 175Ser Trp Arg Asp Tyr Ala Pro Asp Gln Ser His Pro Glu Ile Pro Tyr180 185 190Gln Cys Pro Val Thr Phe Gly Pro Arg Gly His His Trp Gln Gly Pro195 200 205Ser Cys Glu Asn Gly Cys Gln Val Thr Gly Thr Phe Tyr Ala Cys Ala210 215 220Pro Pro Glu Ser Gln Ala Pro Gly Ile Pro Ile Glu Pro Ser Ile Arg225 230 235 240Ser Ala Glu Ala Leu Ala Leu Ser Asp Cys Arg Leu His Ile Cys Leu245 250 255Tyr Tyr Arg Asp Ile Leu Val Lys Glu Leu Thr Thr Thr Ser Pro Glu260 265 270Gly Cys Arg Ile Ser His Gly His Thr Tyr Asp Val Ser Asn Leu Asp275 280 285Gln Val Leu Phe Pro Tyr Pro Asp Asp Asn Gly Gln Arg Lys Asn Ile290 295 300Glu Lys Leu Leu Ser His Leu Glu Arg Gly Leu Val Leu Trp Met Ala305 310 315 320Pro Asp Gly Leu Tyr Ala Lys Arg Leu Cys Gln Ser Arg Ile Tyr Trp325 330 335Asp Gly Pro Leu Ala Leu Cys Ser Asp Arg Pro Asn Lys Leu Glu Arg340 345 350Asp Gln Thr Cys Lys Leu Phe Asp Thr Gln Gln Phe Leu Ser Glu Leu355 360 365Gln Val Phe Ala His His Gly Arg Pro Ala Pro Arg Phe Gln Val Thr370 375 380Leu Cys Phe Gly Glu Glu Phe Pro Asp Pro Gln Arg Gln Arg Lys Leu385 390 395 400Ile Thr Ala His Val Glu Pro Leu Leu Ala Arg Gln Leu Tyr Tyr Phe405 410 415Ala Gln Gln Asn Thr Gly His Phe Leu Arg Gly Tyr Glu Leu Pro Glu420 425 430His Val Thr Thr Pro Asp Tyr His Arg Ser Leu Arg His Ser Ser Ile435 440 445Gln Glu450(2)識別號3序列的信息(i)序列特性(A)長度2139堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型DNA(基因組)(xi)序列描述序列識別號3AAGGGGCCAC CTGGCCATTC CTTCCTCTCC ACCAGCAACA ATGGGAGCAT GTGATTCACA60AGGGAATCAC ATTCAACTAA AAAGAGAAAC CGGGGTATGC TGTTTGCAAG GAACGGTTGA 120AACTGGAACT CAATATGTCG TGTGGTGTGA AATAAACGTG TGTCTCACAT GTTTTCCCAT 180GCTGGGGGCA GGGGTAAGAA AGTAAAAGGC AGACTGGTTA AAGACATGGG GTGGGGAGGG 240CTGGAGGGAC GAGTGGTAAG AAATGGCGAC AGAGGAGATG AAGGTAATGT CATAATGAAA 300CCCATCACTG CTGTGTGCAA CTAATAGATG CTAATAAAAT AGGAAGTTTT AATGATTTAG 360GTAGCTTATT GCTTGCATTC ACCTCACTGT TAAACTATCA CTTCTGGGGG ATCCACACAA 420CGAGCGAGCG AGTAAACCAG AAGATGGCGT TGGAAGATTA GTAATCATAT CTTTTAAACA 480AGATAACCAT GTGAAGTCTC AAAAGGTTTC TTGTAATGAC TGTTGTTTAA ACTTCTGAAA 540ACAGAGGATG TAGATTGGCT GAGGAAAATG TTGAAACCGC CTAAGTCAAG GTAGAAGACA 600CGTGTGTCTA AGTGAAAAAA AGAAAAAAGA AAAAAAAAAA AACCAAAAAC CTCGGGTTGG 660CTGCTTCTGT CCTTAGTCTG TGCACGCTTT GAAGAAATGT AATTCCTCAG CAGCAAGGCT 720GTGCTATCTG AAGCTACAAT CTCTGCTTTG CTCCGAGGTG TGTCTCTGGT GACCGGGATA 780GTTCCCGACA GACAGAAGGT GTTCAAAGAA TATTTTTGAA TGAATGAAAC CCCAAAGGAA 840GAAGAGGGGA AAATGGGTGT GACCAAAATT TTCTTTGAAC GAAACTCTGT TGTTTACTAC 900CAGGGCTCTG ACAATGGAAA ACTAATTGGG GTGAAAGAAC GACATGGCAT CCTGTTAATT 960TCTGAGAAAG CCTGTTGATG TTAGGAAAAA AAAACATGCC GGTGGGCATC TCTGCACCAG1020TTTTCCTGTG GCCAAAATCA GATGTTTCTC CTAAAGTCCA GAACCCAGGA TGGAAGATTA1080AAAGAAAAAC TGAGAAACAT GTGAAATGAA AAAGTTGTCA AAAGCTTTAC AAACGCTCCA1140AGTTGACCTG TGGTGGTGGT AATCTAAAAT GATACAGAAA CTGGTAGTCT GCTTGCTTAC1200CTGAAAACAC CAAGATAACA TATAAGCTCC AGGCATCCAA GCTGAGCTGG AGAAAGTCAG1260CGGCAAAAGC TCATGGAGTT TACATATGAA GGTCAAAGAA AACACGAAAA TAAAGTAAAA1320CCTTCAGTCA GCCTAGCTGT TCTATTTGGG GCATTGGTAC CTCACCGCCA ACTGCCTCCC1380ACGAGGCTGA GGTTAAAATT ATCATTTTAA GGTGAATTGA CATCCGGAAG CGCGCTAACT1440ACCTGAGTAC TCAGGGATCC CCCATCTCTT TTATGTTGCC ATGATTGAAA CTTTGGGGAC1500TGTGCTTGTC TGAGTCATCT CAATTCGTCG GTTTCATTCA CCCAACATGT ATAAGCGTTT1560CAAACACAGT ATTTGGGCCA CGGCTTATAA ACTTGCCTTT CTATTTTTCT TTTTAGTGAG1620CGTGATATTC TCTAAACGCT CAGAGAGACA AGACTCCGCT TTGTTCAGGA TGCTCCCGAC1680CTCTCTCAGT CTATCTCTTC TGTTACATCT GTGAGAACAA GTTCCCTGTG CTCCAGACTC1740TCCATCACTT CCCACCTGTC GATGAGCAGT TAGTAGTTAT CAGCTATGCT CAGTGCAGAT1800TCCAGTATCC CCTTTGTATG CCTCCACCTT CCACAGGAGG GGGGCCATAC CGACTTGTCC1860CATCCGGTTG AGGATTTCTG AGTACATCAG AGTCCCCAGC CCCCTCCACA GGAGGAGCTG1920AAGAAAGCCA GGGTTTGTCT GAAGTGGGAC AGCCCTTGAC CCGGTGGGCT CTAGTCCGAA1980GCTCCTGTTC CTGCGGGACA CCCAGGCACA AGGCAGAGGT GGGGGGCGGT CCTGGGTATG2040GCCAACCCAC GCCCTCTCAA GGCGGGGCCG AAGCGCCCGC CCTGCACTCC GCCTCCGGCT2100CTATAAAGTT CCTCTTTCTC ACCTCACTTT CCTAGTTTC 2139(2)識別號4序列的信息(i)序列特性(A)長度12537堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型DNA(基因組)(xi)序列描述序列識別號4ACCACTTGAA CTTGGGACCC TTTGCTGCCC TCAGCTAAGA GTGCGGGTGA GGTAAGGCCT60GTAGTCGGGC AGAAGGAGGA GTGTGAGGCT GGTGGCAGAG GAAGCCTGGC TTCCATCTCT 120GAGCCTGAGG GAGAATGCTG AGATAGCGGA CCCAGGCTCC GCTCATCTAC GCTGCCCTAG 180GACCTGTGCA CTTCGGGTTT TGTATGAAGC TGTTTGGGTG GGAGTTCCAG AACATCCCCC 240ACGGGCTGGG CGGGACGAGC TAATGGGACT GTGGTGTCAT CAAAGGATCG CACTGGCCAC 300AGCTTGTCCT CAGAGGGACA GCCTCTGACT CTCTCTGCTC CAGTGGAAAG CTCCTTTCCA 360GCCCTGGTTC CTAAAGGACC CAAACTCATC TAGGGCTCCA GAGCGTGATT CCTAGGCCGG 420GCAGCCAAGA AGAGCTGAGA GCTCCAAACT TAGGGTGCTC AGAGCCCCTT TCCCCGCATG 480CCCCTTCTTC ACTTCTCTGG CAAGAGTGCT AGTGTTGCTG TCCGCAGCAC CCCTTATTCC 540CAGCCTCGGC TTCATTCCTG CCAGGGTTCG CGCTGACATT CTGCAGGTTG GAATCTCCTG 600TTTCTTGGCT GCGCTGCTTG CCCCATAACC AGACTTCCAC TTGTTGCTTC CAGGACCCAC 660GTGATGGTCT CTGGTTGGGT AGGCCTGGGG TTATTCCGAG GACAAAGTAA GGGTGTCATA 720GAAGAAAGTC AAGAGAGTAA GCTAGGTMCC CCAAACCTGC ATGGCAGGGA CACAGGACCT 780GGACAAGGGC TAGTCCATGT GCCAGGTCCT TTTCGCCTGG GGCAGCCAGG GCAACCTAAA 840CCCAGGAAGG GGCAAGTGTA GAAACAGTGA GGGAAAAGTG GGATGAAAGC TACTTGGATC 900CAGCACAGAG GGACGAGTGA CCAAAGTGAG CGCCCCAGCG TGGCGCAAGA CTTGGGATCT 960GCAGAGAAGC TGTGTAGCTA GGAGCTTTCA ACGGAGCGTG TTAATGTAAA TGTAAATGAA 1020GAAATTACCT AATTTTTTTA ATAAAAGAAA GAACAGACAG GCAAAAAAAA AAAAAGGAGG 1080AGGAGGAGGA GGAGGATGGT GCGCGCCAAG GGATGCTCTC TATACCTTCG TCAAAGTACC 1140TTCTCTTGGG GGACTTCGGA GACTCTGTCA CTGCACCCGA GCACCTTGTC AGCCTCAGAG 1200ACTCGGGGCC TCGTGGGCAC TCCAAGAGTT TGGGACGGGG CTTCCTCCCG CCTCCAAAGT 1260GATACGAAGG TAGTTGCAGG GAATGTGTGT CTCTCCTCAG CGCACAAGCC CAGGAGGAGG 1320TCCCCACGCG TCATGAACTT GGAGACGGGC AGCCGGGGCT CAGAGTTCGG CATGAGCGCA 1380GTGAGCTGCG GCAATGGGAA ACTCCGACAG TGGTTGATCG ACCAGATCGA CAGCGGCAAG1440TACCCCGGGC TGGTGTGGGA GAACGAGGAG AAGAGCGTCT TCCGCATCCC GTGGAAACAC1500GCGGGCAAGC AGGACTACAA TCGTGAGGAG GACGCTGCCC TCTTCAAGGT TAGCAGCATT1560CAGGGATCCC TGGGCAGGGG TGGGGGTGGG GATGGGGAAT CTGAAAGCTC TGAATGTCTG1620TGGCTCCCGG GCAAGGGACT AAGAGGTGGG CTCCTGCAAG GAGGAGGCCA GAGCATCAAG1680CATTGGACCC TGCTTAGGCA AAGTCCCCAG GAGAAGGGAA AGAGGTTGCA AACTCTCCGG1740GGATTGCATA CACAAGAAAC CAGGTCCCAA TACTGTTTGT GTGGAGGAAA GAACTTCCAG1800CTTCAGGGGC ATCTCTGGGG GACCGAGGTT CCGTTTGCAT AGCCCATTCG CTGTTTCCTG1860CCACCACCAC CGACTGCTAG GGCCACTCTC TGCTTCCCTG TCTCTCTGTG TTTTGTTATT1920TTTCTGAGTT TCTCTCTCTG GGTTTTGTTT CTTTGATTGG GCACCTCTAC TGTCTGGTTC1980TAGTTCTAGA AGCTGCGATC TCTGATTTTC TTTCTTTGAG TAGCTTTGAC TATTCCGAGT2040CTTTCTCTGG TATCCCCCTC CGACCCCGTG TGAGTCCCTT AGGACTGATG TCCCCAGAGA2100ACTGGCTCAC TGAACTGTGA AGCCCCCAGC CTCCACCTGC CAGCAGGCCG AGGAAGGGGA2160CTTCCTGCGG GAATTTGTTC AAAGTACCTC TGTGATTTTG TAGATGTCCT CTCTGGGGCC2220TGCCCCCTCC ACAGCTCTGT CCCCAGTCTT GCCCACACTT GATTCAGGCG CTGGGCGTGT2280ACAGCCCATA CTAGGGGTCT CAGGACCCCA CTAACATCAT GTTCCACATT TCAGGCAACA2340GCAAATTTGA AACAGTAACC TTCCTTGCTG AAATGCAATC CATAGAATTC TTTTGACGCT2400CTGGGCTTGA CTTTTCTTAT CATCGTTCTT AGGCTTGGGC ATTGTTTAAA GGCAAGTTCC2460GAGAAGGGAT CGACAAGCCA GATCCTCCTA CTTGGAAGAC AAGATTACGA TGTGCTCTGA2520ACAAGAGCAA TGACTTTGAG GAATTGGTCG AGAGGAGCCA GCTGGATATC TCTGACCCAT2580ACAAGGTGTA CAGGATTGTT CCAGAGGGAG CCAAAAAAGG TAAGGGGTTT TCCCAGCCCA2640GGTGGCAGGA TAAAGGCATT ATGGCACTCA GAGAGCCCTT CTTCCTAGAG ACAGTCACGT2700CCTACCTCTG CTGTAGGTTA AGCCCAGATG TCCTTTTGCC CATGTCCTCT CTGTTATAAG2760TGACAACCCT GTGGTGTTAG TATAGGATGA CCTGGCAGAC TTTAAGCCCC ATGGGTGTGT2820GGGTTATGCA CTTGAAGGCA TTATTTTCAG TTACTCCATT CAGTTAGGAT CTGGATCAAA2880TTTCCAAACA AAATCTGGAA AATCCATTAA ATGTTTACTT ACCTAATATC CTCTAGTAAG2940CATTTTCAAG AGGAGAAAGC ACATCCCACA CCCCATACAT ATTCACACTT CTTGTAATAA3000AACTGCTAGA GTTTCTGGTT TAACATGGCC TGCTAGGGTG GTTATGAATA TTCAGATCTT3060GAGTTCCCTC TCTTCCAACT AGTCTACCTC AAGCAGTGCT CAGGAATCTG CATTTGGTTC3120CAACCATACA GGATGCCTTA ACTAGGTACC ATCTCACAAC CAGAAACCAC TTGGTGGATC 3180ACAGGGATCC TGGGTGGTGT TTCCTTCCCT GGCTGTCACT CACAAGTCAG CAAATGTTTA 3240ATCAGTTTAA TGGCAAAGAC AAATATCTCT CTAAGAAATT GCTTGAAAAA CAAACAAACA 3300AACAAAACAA AACAAACCTA AAATACCCGA TTGGTTAATA GGGCTATGCA TTCTAAGAAT 3360TAAGTGCATA GGTACTTTTA TAAGATTTAA GTCAGTTCCT TGTCTTACTC TGTGTTCTCT 3420CTTCCTTTTC CCCAAACACA CAGGAGCAAA GCAGCTCACT TTGGATGACA CACAGATGGC 3480CATGGGCCAC CCCTACCCCA TGACAGCACC TTATGGCTCT CTGCCAGCCC AGGTATGTGG 3540TAGACTCTTG GTCTTGTGGA AGGCTGGCCC ATGCCCTTTT GACTGGCTCC ACACAGAGAG 3600GCAAACACAA ATGAAAAGTG TAGGGCTGAC TTCTTATTTG CTATGGCTAG TACACACGCT 3660GAACAAAAAC TTGGTCAGAG AAGGATGTTT CAGTTCCAGT GTGGTGTCAC TGTCCCTGAC 3720GCCACAGTTT TGTTGGGGAG TTTGATGTGT CCCACCTGTG GAGAGAGGCT TCCACTGATG 3780GTCAGATCTT CTGGGAATCA GACCTTTTGT GGAAGTCAAA GGTTTTGGAA GTAGTACTTT 3840ATCATGTGAA ACCGCAGAGC AGCTGACTTC TCTAGGCGTC CCTGATGTGA ATTACAGTAC 3900TGTTTTATTC ACTTTGGTGG CTTAAAAAGG GCAGATTTCA CTGCGGTATT CTTGGTGCCG 3960TGTTCAGCCA TATGATGAAG CCTTACAAAA ATCACAGCTT TATACAATGT CCTCATTGTG 4020CTTTCAGACC CTCTATGGCT GTTTTTTACC TAGTGTGATA GACAGTCCAT GTCACTTTTT 4080GGGCAAAATG ACTTGGCTGC TGGACAAAAA AAGGGGTTCC CTGAGGAGTT TGGGTGATAT 4140GAAAGGACTC CGACACCCMC TGATGTCTTC CTCTTAGCAA TCCCTGTTCT CTGTCAGCAG 4200GTTCATAACT ACATGATGCC ACCCCATGAC AGGAGCTGGA GGGATTATGC CCCTGACCAG 4260TCACACCCAG AAATCCCATA TCAATGTCCT GTGACGTTTG GCCCACGAGG CCACCACTGG 4320CAAGGCCCAT CTTGTGAAAA TGGTAAGGAT TGTGCCAGGG CAGCAGACAG AAGAACAACC 4380TGAGCTCGGG GTGTGGACAG CACCACAGGG CTTTTCCCTA CCATTGAGAT ACCAGAGACA 4440CATCATATGA AGCTGCTACT GTTGTTGTTG TTGTTGTTGC TGCTGCTGCT GCTGGGGTGG 4500TGGGGTGGTG GGKTGGTGGG GTGGTGGAGT GGTGGTGGTG GTGGTGGTTG TGGGGTGTTG 4560GGGTATGTTG CCTTGTCCTG TGAAATGTTG AAGTCCTTAG ATCCATGATA GGCCTCAGTC 4620TGTGTGGGGA CTTAACTAGA AGACCCCAGA GATCATTCCA AGTAGCTGAA AAGTGCCCCA 4680TTTTTAATAC ATAGAGAAAA ACATGGATGA CAACAAATTC TCAATGACAA GTAATGTCAA 4740TTATAAAACT CGTCTATATT TTGTTTTAAC TTGAGTTATC CCTTATTTCC GATGGTGATT 4800AAGTTGGGGG GTTTGTTGTA TCCCACCTAT CTCCCTAGTC TGTATCTTTC TACTCTCCTG 4860TAAAGTAGAG AGTTGTACCC AGTCCACCTC AGCAGGAAAT CATTGCTAGT TCATGTCTCT4920TGAATAATAA TGAGTCATCT ATAGCTGTTC TTGGTACTAA GGAAGGAAGG ATCAGAGCGA4980AAGTAATCCA CAAAGTGTCT CTACAAATGA GTGCCCTGCC CGAAAAGACC CACAGGGGTC5040CCCCCATGCT AGCTGGGCTC TCACAGAAGA AACGCCCACT AACCAGACAC AAAAAAATTT5100CACAAACTAT GTTCAGTGAG ACTTGGGTCC TTTAGTGTTT ATTTAGGTGA GTGCACCAAG5160CTCCACCTCG GGTCCTTTTT TGGCTGTGTA TTTTAAGGTA GAGTCTTGCT AAATTACCAA5220GGCTAGGATC TTCCTGCCTT CAACTCTTGA GTAGCTGGGA CTACAATCTT GTTCTARCGG5280GCTGAACATA AAACAAGTTT TTAGGACTTR CAAGTTCACT GTTTAAATAT AAGTCTTGAC5340ATGGGTCGCC GTGCGAGTAG TTCTTTTATA TTGTTCTGGC AATACTTTAC CTTGTGACAA5400TTTCATCAAC ACCCTCACTC AGTCTGTGCA TGCTTACACT AATCTTGCTT TAGTGTGACA5460TAACTTCTCT GCTGCCAGAG AACACGGTTC AGCCCCTCCC CCTAGCTAAC AAACAGTGAG5520CAGAATAAAT GAGGGTTGAA TAATTAATTC ATCTTTGAAC TAGTCTTATA GAAGTTTGAA5580CTCTGACCCT GCTGGTAACT TGCTATGTGG GCTGGTGCAA GTCCCTCTCC TTCTGGGCCT5640CAGTTTCCCT ATAGATTTGG AGTGAGCCCC AGGTTTCCAT CCAGAGCTGT ACTGTGGCTC5700CTTCCTTCAT CACCCTAATT TTTATCACTG GATGTGGACT TTGGACTTTG TCCCATAATC5760ACACGTTATT CTGCTAGCAG GTGCTTAGAG GCTGTCAGGC TTGGGTTGGA GGCCATGGCC5820TCTCCCAACT CAAGAGCCTC CCCGCACTCA GACTCGATAC TTAGACATCA TCTGATTTTT5880ATTTKCAAAT GCAGGTTGCC AGGTGACAGG AACCTTTTAT GCTTGTGCCC CACCTGAGTC5940CCAGGCTCCT GGAATCCCCA TTGAGCCAAG CATAAGGTCT GCTGAAGCCT TAGCGCTCTC6000AGGTGAGTGT GGCGCTTCCT GTAAAGCTCC GAGGGAGGGG GCATCTCTCC TCTACTGAGG6060TTGGGTGAGG ATTTAGACTC TCGCCTTGCA GGCCCCGGGG TCTGGAGTAG GCATGGTCCA6120GGCTATGTGG ACATCACGCT GAGTCAAATA CACTATTAGA AATCTCCACA GCAGTACCAG6180CTAGCCAAAT ACTATTTGGA CGATGTCTTT AACCTTCTAC ATCATTACCT GCCCAGTTTT6240CCAGGAATGT GTAACCAGGC TCCTCCTCCA GCCGACATTC TCCATTCTCG CAGTGTGGAA6300AGGCTTTATA GGCACAAAAG AATGCTGTTT GTCCTTTTAG GGTGTAGGGT TGGCCACAAA6360CAGGTGGTCT GAGTTGCTTC CAAGGAACAC TGGTTCTGAA CCCTGGTCTC TGAGAAGTTC6420TTATSCCCCC TAAAGGATCA TATAGGTCTG ACTCCCTCAC AACTTTGACA GAATTGCTGA6480GCATGTGTGG ATGTGATCTG ATTTTAAAGT TCTGTTACTA AGGAAGCCTG CACTTGGAGA6540TACTGACCAG CATTTTAAAA GCCCACACTC CGTGGAAGCA GACATCTTAT GTCCATTTAG6600TCTTTAGATG ATTTTTTTGG ATGTTTTCAA ATGGAATTAT TAGAATTCTC ATCATGCCCT6660CGGCTACCTT AAAAGCCTCT GACTGAAAAC ATCAACTGCA TTTTGACAAT TTTAGACACT6720TCCCTTGTTC TCGAGGGAGG AAGAAGTTTT AAAATCTAGT TCCTTCCAGC TCTGATGCTC6780AGGGAGACTT TGTGAGCCAC TCAAGAACAG CCGAGGAGCA CATCTGGGCA TCAGGGGTTG6840TCACAGACAC TAGAATGCTC TAGATCCTCT TCTGGAGCGC CAAAGACTTG TGTGGGTGCC6900CCAAGAGTAG GAAATAAACA GCTATTTATA TCTCTGCAAT CTTGTGATTT TGGTGACATT6960AAATGAAATG AAACCTGCCC TACCACTCAC CTCAGATGGC CAACGCCCCC TCTCTTTGGG7020TGCACCACTT GTGCTGTTCA TAGCTGCAGC TATCGAAGAC ACCATGATGT GGGCTGTCAG7080AACTTGCCAT TGAAGAATAC GAGGCTTTTG TGGGTTTCTT CTTCTAGTTT GCATAATTAA7140TTATCAACCC TGAGTGCACT TTTCAGAAAG CTATTCTTTC CAGGCATTGT TGGGGCTCCA7200ACCACCAGCA CGGGTATCTA TCTCTGCCTG GGGAGCCCTT TGCACACCCA GCTTGCCCTT7260TCGGCCCGTG GGTGGTATTT TAAAGTGGCT TCTGAAATCA ACAAAATCAT GTGTCAATAA7320ATTCCTGTCT TAAAGCTGTA GAAAACCTAG TTGTTGGGTT CTTTTCAGAG TTGAACACGA7380AGCTTAGAGG GATTTCAGGG GGTTTTACAT TAMCCACTGG CTTTTAGAGC AGCTCTCATC7440AATTTCTTCC CCTACTCCAA GAGAGCTGAC TTAAAAATAA GAAAATAAAG GTATCATTTT7500CCAGAGCCCA GAAATTGTTA TTTTAGTGCC TGTCTCTAAC ATATCTATGT GGGTTTTGTT7560GTTGTGTGGT TTTACTTAAT GACATCATGG TAACACCTTA GGGAAGTTCC AGAGCTGAGG7620ACACTATTTG CTTTTCTTCT AAGATGTTTC TGTATTTCTT TTACTAATAG AAATCTGTCC7680CAGAGGTCAA CTCCAAAATC AAAATTGAGT TGCTGGAAAA CGAATTCCAA TTCGGTAGTA7740TTATTTCATA TTGTAGACAA AATGCCACCA CTGTTAACAC CATCATCCGA AAAGCCCTCA7800TAACAGGGGT GTGCTTTCTA ATAAAATTTG GCTGAAAATT CAAGAAATAT ATACCTCTCC7860CCAAGAGAAG TAAATGGCCA CAACAACATT TGAAAATGAT CGTGTTAGAG AGATCAGTTT7920CTTTCCACAA GCTTCTCTTA GTATTCTGTG CTTGAGGTCT AAGAATCTAC AGGGAATAAG7980AGCAGCTAAC ATCTCCAAGA CTTCCTTGGT CCTAGGATCT TTCACTTGTT CGTGGAGCAT8040CTTGACACTC AAGTGTTCCA CCTGCTGTCC TTCGTATCAG TCTAGTCACC GAGTTTTTGG8100GGCTCTGAGC AAGGTGGCAC CTTTTTCAAA TCCATCAGCA CTGACTCCAG AGTTTTGTTC8160ACAGACTGCC GGCTGCATAT CTGCCTGTAT TACCGGGACA TCCTCGTGAA AGAGCTGACC8220ACGACGAGCC CTGAAGGCTG CCGGATCTCC CACGGACACA CCTATGATGT TAGCAACCTG8280GACCAGGTCC TGTTTCCCTA CCCGGACGAC AATGGACAGA GGAAGAACAT TGAGAAGTTG8340CTGAGCCACC TGGAGAGGGG ACTGGTCCTC TGGATGGCTC CAGATGGGCT TTATGCCAAA8400AGACTCTGCC AGAGTAGGAT CTACTGGGAT GGGCCCCTGG CACTGTGCAG CGATCGGCCC8460AACAAGCTAG AAAGAGACCA GACTTGCAAG CTCTTTGACA CACAGCAGTT TCTATCAGGT8520AACACACCTC ACAGTCTGTT AGAATGGAGG TGGTGGTGGG TGCTGGCTAT AAAGGTCTCA8580AATGGCAGTG TCTGCCTACC CCAGACAGAG GTCTTCCTCC TGAGATCTGT GAGCTCATGC8640AGAAATAGAA TTCCTGCCTG ATTCATGCCT AGCCTTTGTC TGTTGTGTAC TCCCCTGATT8700AGCAGAGGGC CAGAAAGAGG ATCCATATTT GCTGCCCAGG ATAGACACTG GTGTGGGTTG8760ATCTCTTAAT TTATCATCAT TCTTTTCACT CTAGGCTTTT GTTTTGTTTG TTTTGTCAGA8820ATATATGTAG CTCAGGCTGG CCTAGAACTC CTGCCTCGGG ATTTTATCTG TACACCAGCA8880CATCTGGCCA ATGAATTAAA ATGTGGGCTT TCAGCGGCAT GTGCCCCACC CCCAGAGAGG8940TTTCACTGTG TTGGCTCTCT GCTCTCAGCA AGTTTATCTG CTGACACCTC AGCTCTTTAG9000GGGTTTCTAG AAGCAGTTCG GTTGCAGAGA GCAGTGGAAA TCTTTGATGT CTACCCATTC9060TGGATTTGCA CCCCACTAGG GACAGTCCCC ATAGGCACAG TTGAGAATTC ATATCTGATC9120AGGGCAGAGT CTTCATGCCT GCTCTGTGGA GGCAGCTTTT TAATGTCAGT TCTTTGATGC9180AGACAAGACC TGGGAACCTA GCTCTGGGAG GAGGAATAAA GGTTAATGCC AGTGAGTGGA9240TGTGGCTTTC TGCTTGTGCT GGGGGAGGAA GCCAAGGCCT TGCACATACA AGGCAAGTGC9300TCTGCTCCAA GTGGCGATGC CCCCAGCCAT GGGCAGGTTT CTTTTCAGCA ATCTTGTCTG9360TTTCATGTCT CTCAGGCAGG ACTAGCCTCA GCATGACATC CTTGTCAGAG GGGCTTCATT9420GGTCCCCTTC TCCCTGTATC ATCCTGTCCC CAAAGTGAGA TTGAAGCCTA CTCTGGTTCT9480CCAGTTATGG AGTTTTAGAC CTAGTGCCAA GTAGGACACA GCTGCCAACA GCTGGTGAGA9540GAAACAGATG CTCTTGGTGC CCAGACACCA CGTGGCCTCC ATGGTTAGCT AGTGAGGTTA9600AAAAAATAAC CCTGGGCCAT CAGAACATTG TGACTCTTTA CATTAAAATG TCTCCTTGGC9660CTGTGCTGAT TGCTTGACTC AGCATGGCTA CTTTTCTTTT TCTTCTTTGT CTTCTTCTCT9720TTGACCTTGT GCATTTCTGT GAGTGTAGTG CTGCAGACCC AAGTTCTTAA GGTTGGGTCA9780TGTTCCTTAA GAGTAATGAA GTAAAACCAG TKCCAAGTCA GGAGATCATA TGTGAACTTG9840ACCATGTGAT TTTGTGTCTA GGGTCTGCTC TAAGGGCTGG ACTTAGGGGA ACAGAGCCCG9900GGCTCTCCCA AAGCAGACTT CCACGTGACT CTGGCTTTCC GTTCACCCGC TTTACCAGGT9960GTCTGAACAG TTTGGTTTTT TTTTTTCTTT CTTTCTTGTG GGTTTTCAGA GCTGCAAGTG 10020TTTGCTCACC ATGGCCGGCC AGCACCGAGA TTCCAGGTGA CTCTGTGCTT TGGTGAGGAG 10080TTTCCAGACC CTCAGAGACA GAGGAAGCTC ATCACAGCTC ATGTGAGTAC CTGGTTACAT 10140CACCCGTAAA TCACACACTG TGGAGCTGTC CCTTTTAGAG AAGTGGCAAG TGACGAGTAA 10200ATGTCAGCTC ACCTGGGAAA ATAGATGTAG ACCTTAAAAT AGTGCAGGAG GAAGCAGGCT 10260CCAGTGAACA CCACAGCTCA GGGAGGCACC CGCAACCTAC TTCCAGACAA ATTCTGTCAC 10320CACCGAATCA GCAGGGCAGA TGACTTGGAC CCAAGGMTCT GTTTGTTCTG TATTCTTTAT 10380TGTTTCATAC AGACAGTTAC CTGCCCTTTT ATAGGAATTT TCAATAGTTG GGACCAAGTA 10440CTGCCCTTCG ACATCTCTGT TTCTTGTGTG GTTTTAAAGA TGCTGTCCTT TCGAGTAGAG 10500TAGCACTTTC TCCCTGGGAG GCTGCCTGTT ATGTATTATG CTTCATCGGG CCTCCTAACT 10560TCARATAGTT CCCAGACCCT CGCTTTGTTG CTGGACTTTA GGGAGTTATT TAACAGTTGG 10620ACAAGGGAGG TGGAGGAGGC TGAGTCTTCC CAGGAATCAG GTAGGTCGGT CTATCCTCAC 10680AGCTAGGGTT TATTCGGATA ATGTTCATCA CTCACTTAAT AATTAAAAGG TAATTCTGAA 10740TACATGATGT TTTTTAATTA GAAAATTTTA CTTAATTACA TATCTTGAAA AGTATGCAGT 10800GTGGAGTAAA GGTTGTGTCC CAGATAGCCA CAATATCTCA GTGCAAATGG GATATTAGCT 10860CTGATGATAT CTCTTAGTGG AGACTGAAGA CTAGGCATAC AGCGCAATGG AAGGCATTTG 10920CTAGGCAGTG GTAAAGCCCT GGGTTCTAAA CCCCGCCTAG GATGGGGGTT GGGCACTGAT 10980GTTGAACATC CAGCCTCCCT TCTCGGTTGG AAAAAGTAAA ATCTAAGAAG CAACAAACGG 11040GCTGGAGAGA TGGCTCAGTT GTTAAGAGCA CAGGCTGTTC TTCCAGAGGT CCTGAGTTTA 11100ATTCCTAGAA ACCACATGTG CCTTACAACC ATCTGCAGTG AGCTCTAATG CCATCTTCTG 11160GTGTGTTTGA AGACTGCTAC AGTGAACTCA CATACATATA AATCTTAAAA AAATAAAAGG 11220CAATGAAACT ATGATCCTGG CCTTGAGCCT TTTCTCAGTT CTAACTGGTG GTTGATATCA 11280AATGAGACTG CAGATGTGTG GATGAATCTA GCATAGATAA GCAGTATTTT TTTTTTAAGG 11340TAGTGAGTAA ATTCTAGCAT AGATCTCATT TTAAGGACTT TGGGTGCAGT GGGGCTCCGC 11400AAAAAGGGAG CAACAATAGT CATATAGGCA AAGGGCCTCA AAATGCTGCC CCGTGGTCCA 11460CAGATGGAAA ACATACATGG TCACCCATGA ACTCTGCTGG TCTCCTTATT ACAGACTTAA 11520TTCATATGGG TGCTTACAGA GGAATCCTAC CAGACATCAC ATATCAAATA ACAAAGAGGC 11580TTGATTTATT GATGATTGGT TGTTACAGAG CACACAGCCT GACTTGGTGA GGCTGGCTTT 11640GACTGGGGAT GCAATCGATG CTTATAAACA AACTAGGTCC ATCAGAGCCA GCGAGCTGCT 11700GTCTTGTGGC TGRCCAGCTC TGTCTTCTAC TTGTGGTTCA GAGTTCTGTC TATTTCACAG 11760TCATCTGGTT CTTCAGGATG AGCCCTTCTG TCAGACTCAT GAGCCTCACT TACCCAGCAT 11820GTTACTTAGC CTTTTAATTT GGTCATCTCA TTCAATAATG TCCAGTTAAC TCATTCGCTA 11880AATATCAAAT CCAAGAGGCG ATTGGTTTCA AAATGCCATA TTTATCTTCT ATTATAGAAT 11940CAAGAGTTCT TTTTCCAGGG TTTTTAATTC CAGGTATTGT AAGAGCAAAT GAAACTGGTT 12000TTTCAAATGG CTCTGAATGT GAACTGCTTC ACTGTGTTAT GTTATCCTGT GCAGCTTGTA 12060GGTTTTTACT TAGAGTCCTA GGGTCATTTC ATGATGTCCC AATTGTATGG TGTTGAGAAG 12120AATATTCTAG TGATGTCTTT TTTTCTTAAA TGTCTTATTA AAGGTGGAAC CTCTGCTAGC 12180CAGACAACTG TATTACTTTG CTCAACAAAA CACTGGACAT TTCCTGAGGG GCTACGAGTT 12240ACCTGAACAC GTTACCACTC CAGATTACCA CCGCTCCCTC CGTCATTCTT CCATCCAAGA 12300GTGAGAAGAA ATACTCTGAC AGGGCAGCCG GTTGCTGCCC TTTCTCTTTG GAAGAGCTAA 12360GAAGTGAGTG GGTTTCCACT TGAAGACAAC AACAGGGCTT TGTGAGGAAA ACAGCTGTAT 12420CTGCTCAACA GAGGAGCTTC CCCCAGAAGA GTGCCTGTCA GTCATCCAGG TCTTGACAAG 12480TGCCAGGACT TGGGTGACTG TGCCCTGGCT TATAACTGTG AAACTTGATC CGAATTC12537(2)識別號5序列的信息(i)序列特性(A)長度14堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號5ATCCTGGAAC ACGC(2)識別號6序列的信息(i)序列特性(A)長度19堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號6GCACACGAAC TGCCTTCCA(2)識別號7序列的信息(i)序列特性(A)長度24堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號7CAGCCCGGGG TACTTGCCGC TGTC(2)識別號8序列的信息(i)序列特性(A)長度24堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號8AGACCTTATG CTTGGCTCAA TGGG(2)識別號9序列的信息(i)序列特性(A)長度15氨基酸(B)類型氨基酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型蛋白質(xi)序列描述序列識別號9Gly Tyr Glu Leu Pro His Glu Val Thr Thr Pro Asp Tyr His Arg1 5 10 15(2)識別號10序列的信息(i)序列特性(A)長度19堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號10TGCAGAAGTG AAACTGAGG(2)識別號11序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號11TGCAGAAGTG AAACTGAG(2)識別號12序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號12TGCAGAAGTG AAACCTGG(2)識別號13序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號13TGCAGAAGTG AACATGAG(2)識別號14序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號14TGCAGAAGTG GTCCTGAG(2)識別號15序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號15GCTAGAAGTG AAACTGAG(2)識別號16序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號16AAAGGAAGTG AAACCAAG(2)識別號17序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號17TGAGGAACTG AAAACAGA(2)識別號18序列的信息(i)序列特性(A)長度16堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號18GGGAAAGTGA AACTAG(2)識別號19序列的信息(i)序列特性(A)長度27堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號19CTGGACATCT CAGACCCGTA CAAAGTG(2)識別號20序列的信息(i)序列特性(A)長度27堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號20CTTGACATTT TTCATTCTTG AATAGAG(2)識別號21序列的信息(i)序列特性(A)長度21堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號21TGCCCTCAGC TCCGAGTCCA G(2)識別號22序列的信息(i)序列特性(A)長度18堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號22AACCATTTTC ACAAGCTG(2)識別號23序列的信息(i)序列特性(A)長度38堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號23GGATCCGGAT CCATGAACTG GAGGGCGGCG GCCGAGGC(2)識別號24序列的信息(i)序列特性(A)長度1353堿基對(B)類型核酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型cDNA(xi)序列描述序列識別號24ATGAACCTGG AGGGCGGCGG CCGAGGCGGA GAGTTCGGCA TGAGCGCGGT GAGCTGCGGC60AACGGGAAGC TCCGCCAGTG GCTGATCGAC CAGATCGACA GCGGCAAGTA CCCCGGGCTG 120GTGTGGGAGA ACGAGGAGAA GAGCATCTTC CGCATCCCCT GGAAGCACGC GGGCAAGCAG 180GACTACAACC GCGAGGAGGA CGCCGCGCTC TTCAAGGCTT GGGCACTGTT TAAAGGAAAG 240TTCCGAGAAG GCATCGACAA GCCGGACCCT CCCACCTGGA AGACGCGCCT GCGGTGCGCT 300TTGAACAAGA GCAATGACTT TGAGGAACTG GTTGAGCGGA GCCAGCTGGA CATCTCAGAC 360CCGTACAAAG TGTACAGGAT TGTTCCTGAG GGAGCCAAAA AAGGAGCCAA GCAGCTCACC 420CTGGAGGACC CGCAGATGTC CATGAGCCAC CCCTACACCA TGACAACGCC TTACCCTTCG 480CTCCCAGCCC AGGTTCACAA CTACATGATG CCACCCCTCG ACCGAAGCTG GAGGGACTAC 540GTCCCGGATC AGCCACACCC GGAAATCCCG TACCAATGTC CCATGACGTT TGGACCCCGC 600GGCCACCACT GGCAAGGCCC AGCTTGTGAA AATGGTTGCC AGGTGACAGG AACCTTTTAT 660GCTTGTGCCC CACCTGAGTC CCAGGCTCCC GGAGTCCCCA CAGAGCCAAG CATAAGGTCT 720GCCGAAGCCT TGGCGTTCTC AGACTGCCGG CTGCACATCT GCCTGTACTA CCGGGAAATC 780CTCGTGAAGG AGCTGACCAC GTCCAGCCCC GAGGGCTGCC GGATCTCCCA TGGACATACG 840TATGACGCCA GCAACCTGGA CCAGGTCCTG TTCCCCTACC CAGAGGACAA TGGCCAGAGG 900AAAAACATTG AGAAGCTGCT GAGCCACCTG GAGAGGGGCG TGGTCCTCTG GATGGCCCCC 960GACGGGCTCT ATGCGAAAAG ACTGTGCCAG AGCAGGATCT ACTGGGACGG GCCCCTGGCG 1020CTGTGCAACG ACCGGCCCAA CAAACTGGAG AGAGACCAGA CCTGCAAGCT CTTTGACACA 1080CAGCAGTTCT TGTCAGAGCT GCAAGCGTTT GCTCACCACG GCCGCTCCCT GCCAAGATTC 1140CAGGTGACTC TATGCTTTGG AGAGGAGTTT CCAGACCCTC AGAGGCAAAG AAAGCTCATC 1200ACAGCTCACG TAGAACCTCT GCTAGCCAGA CAACTATATT ATTTTGCTCA ACAAAACAGT 1260GGACATTTCC TGAGGGGCTA CGATTTACCA GAACACATCA GCAATCCAGA AGATTACCAC 1320AGATCTATCC GCCATTCCTC TATTCAAGAA TGA 1353(2)識別號25序列的信息(i)序列特性(A)長度450氨基酸(B)類型氧基酸(C)鏈型單鏈(D)拓撲結構線性(ii)分子類型蛋白質(xi)序列描述序列識別號25Met Asn Leu Glu Gly Gly Gly Arg Gly Gly Glu Phe Gly Met Ser Ala15 10 15Val Ser Cys Gly Asn Gly Lys Leu Arg Gln Trp Leu Ile Asp Gln Ile20 25 30Asp Ser Gly Lys Tyr Pro Gly Leu Val Trp Glu Asn Glu Glu Lys Ser35 40 45Ile Phe Arg Ile Pro Trp Lys His Ala Gly Lys Gln Asp Tyr Asn Arg50 55 60Glu Glu Asp Ala Ala Leu Phe Lys Ala Trp Ala Leu Phe Lys Gly Lys65 70 75 80Phe Arg Glu Gly Ile Asp Lys Pro Asp Pro Pro Thr Trp Lys Thr Arg85 90 95Leu Arg Cys Ala Leu Asn Lys Ser Asn Asp Phe Glu Glu Leu Val Glu100 105 110Arg Ser Gln Leu Asp Ile Ser Asp Pro Tyr Lys Val Tyr Arg Ile Val115 120 125Pro Glu Gly Ala Lys Lys Gly Ala Lys Gln Leu Thr Leu Glu Asp Pro130 135 140Gln Met Ser Met Ser His Pro Tyr Thr Met Thr Thr Pro Tyr Pro Ser145 150 155 160Leu Pro Ala Gln Val His Asn Tyr Met Met Pro Pro Leu Asp Arg Ser165 170 175Trp Arg Asp Tyr Val Pro Asp Gln Pro His Pro Glu Ile Pro Tyr Gln180 185 190Cys Pro Met Thr Phe Gly Pro Arg Gly His His Trp Gln Gly Pro Ala195 200 205Cys Glu Asn Gly Cys Gln Val Thr Gly Thr Phe Tyr Ala Cys Ala Pro210 215 220Pro Glu Ser Gln Ala Pro Gly Val Pro Thr Glu Pro Ser Ile Arg Ser225 230 235 240Ala Glu Ala Leu Ala Phe Ser Asp Cys Arg Leu His Ile Cys Leu Tyr245 250 255Tyr Arg Glu Ile Leu Val Lys Glu Leu Thr Thr Ser Ser Pro Glu Gly260 265 270Cys Arg Ile Ser His Gly His Thr Tyr Asp Ala Ser Asn Leu Asp Gln275 280 285Val Leu Phe Pro Tyr Pro Glu Asp Asn Gly Gln Arg Lys Asn Ile Glu290 295 300Lys Leu Leu Ser His Leu Glu Arg Gly Val Val Leu Trp Met Ala Pro305 310 315 320Asp Gly Leu Tyr Ala Lys Arg Leu Cys Gln Ser Arg Ile Tyr Trp Asp325 330 335Gly Pro Leu Ala Leu Cys Asn Asp Arg Pro Asn Lys Leu Glu Arg Asp340 345 350Gln Thr Cys Lys Leu Phe Asp Thr Gln Gln Phe Leu Ser Glu Leu Gln355 360 365Ala Phe Ala His His Gly Arg Ser Leu Pro Arg Phe Gln Val Thr Leu370 375 380Cys Phe Gly Glu Glu Phe Pro Asp Pro Gln Arg Gln Arg Lys Leu Ile385 390 395 400Thr Ala His Val Glu Pro Leu Leu Ala Arg Gln Leu Tyr Tyr Phe Ala405 410 415Gln Gln Asn Ser Gly His Phe Leu Arg Gly Tyr Asp Leu Pro Glu His420 425 430Ile Ser Asn Pro Glu Asp Tyr His Arg Ser Ile Arg His Ser Ser Ile435 440 445Gln Glu450
權利要求
1.一種分離的編碼LSIRF多肽或其片段的核酸分子,其選自包括下列核酸分子在內的核酸分子組(a)一種具有序列識別號1的核苷酸序列的核酸分子;(b)一種具有序列識別號4的核苷酸序列的核酸分子;(c)一種具有序列識別號24的核苷酸序列或其“雙Q”變異體的核酸分子;(d)一種具有編碼序列識別號2的氨基酸序列的核苷酸序列的核酸分子;(e)一種具有編碼序列識別號25的氨基酸序列的核苷酸序列或其“雙Q”變異體的核酸分子;(f)一種具有與(a)、(b)、(c)、(d)、(e)或其片段的核酸分子雜交的核苷酸序列的核酸分子。
2.根據權利要求1所述的一種分離的核酸分子,其是cDNA、基因組DNA或合成DNA。
3.一種分離的核酸分子,其是序列識別號1。
4.一種分離的核酸分子,其是序列識別號4。
5.一種分離的核酸分子,其是序列識別號3。
6.一種含有權利要求1所述的核酸分子的載體。
7.一種用權利要求6所述的載體穩定轉化或轉染的原核或真核宿主細胞。
8.一種分離的多肽或其片段,其具有LSIRF多肽的特異性DNA結合活性。
9.根據權利要求8所述的一種多肽,其具有序列識別號2的氨基酸序列。
10.根據權利要求8所述的一種多肽,其是外源核酸分子序列的原核或真核宿主細胞表達產物。
11.一種多肽,其具有由權利要求1所述的DNA編碼的氨基酸序列。
12.一種生產LSIRF多肽的方法,其包括在允許LSIRF表達的條件下培養權利要求7所述的宿主細胞。
13.一種抗體,其與由權利要求1所述之DNA編碼的多肽特異性結合。
14.根據權利要求13所述的一種抗體,其是單克隆抗體。
15.一種制備LSIRF多肽的方法,其包括(a)將含有LSIRF基因的載體插入宿主細胞中;(b)在允許LSIRF多肽表達的條件下培養該宿主細胞。
16.一種分離的核酸分子,其是序列識別號24,或其“雙Q”變異體。
17.根據權利要求8所述的一種多肽,其具有序列識別號25的氨基酸序列,或其“雙Q”變異體。
全文摘要
本發明公開了編碼被稱為LSIRF的一種新的多肽的核苷酸序列。也公開了制備此多肽的方法及其使用。
文檔編號C07K16/18GK1181784SQ96193291
公開日1998年5月13日 申請日期1996年4月12日 優先權日1995年4月14日
發明者松山俊文, 亞歷克斯·格羅斯曼, 克里斯托弗·D·理查森 申請人:阿姆庚加拿大公司