本方法屬(shu)于生物,涉及一種(zhong)基(ji)于蛋白(bai)質(zhi)大語言模型的用(yong)于多肽設計(ji)的系統。
背景技術:
1、多肽為由(you)少于(yu)(yu)40個(ge)氨基酸組成的(de)一(yi)類化合物,相(xiang)對分(fen)(fen)(fen)子(zi)(zi)量(liang)通常(chang)為500-10000da,介于(yu)(yu)小分(fen)(fen)(fen)子(zi)(zi)化合物與(yu)(yu)蛋白質大(da)分(fen)(fen)(fen)子(zi)(zi)藥物之間(jian),因而(er)兼具(ju)(ju)兩者的(de)優點(dian)。相(xiang)比(bi)于(yu)(yu)小分(fen)(fen)(fen)子(zi)(zi)藥物,多肽具(ju)(ju)有生物活性(xing)高、特異性(xing)強的(de)優點(dian);相(xiang)比(bi)于(yu)(yu)蛋白質大(da)分(fen)(fen)(fen)子(zi)(zi)藥物,多肽則(ze)具(ju)(ju)備較強的(de)穩定性(xing)以(yi)及(ji)更簡單的(de)空間(jian)結構。且由(you)于(yu)(yu)其制備簡單、毒性(xing)小,以(yi)及(ji)吸收速度(du)快(kuai)等優點(dian),被認為是極(ji)具(ju)(ju)潛力的(de)新興(xing)藥物療(liao)法之一(yi),具(ju)(ju)有極(ji)大(da)的(de)市場規模與(yu)(yu)商業(ye)價值。
2、多(duo)(duo)肽(tai)(tai)鏈可(ke)以突變(bian)的(de)(de)(de)(de)(de)可(ke)能(neng)性幾乎(hu)是無限的(de)(de)(de)(de)(de),因此傳統的(de)(de)(de)(de)(de)合(he)成(cheng)(cheng)多(duo)(duo)肽(tai)(tai)方法(fa)(通過(guo)(guo)人工(gong)經驗設(she)計并通過(guo)(guo)濕實(shi)驗合(he)成(cheng)(cheng))往往需要耗費(fei)巨(ju)大的(de)(de)(de)(de)(de)財力(li)與人力(li),并常常需要數月甚至數年的(de)(de)(de)(de)(de)時間。舉例來(lai)說:一個僅僅長20的(de)(de)(de)(de)(de)短鏈,每個位置上有(you)(you)20種可(ke)能(neng)性,則一共有(you)(you)20^20=0000000000000000種可(ke)能(neng)的(de)(de)(de)(de)(de)組合(he)多(duo)(duo)肽(tai)(tai)。即(ji)便(bian)通過(guo)(guo)計算(suan)機來(lai)進(jin)行(xing)篩選,該(gai)數量級在現有(you)(you)的(de)(de)(de)(de)(de)算(suan)力(li)條件下也不可(ke)能(neng)完成(cheng)(cheng)。這對(dui)于多(duo)(duo)肽(tai)(tai)藥物研(yan)(yan)發無疑是個很大的(de)(de)(de)(de)(de)阻(zu)礙(ai)。因此,需要一個能(neng)快(kuai)速生(sheng)成(cheng)(cheng)潛在的(de)(de)(de)(de)(de)多(duo)(duo)肽(tai)(tai)序列并驗證(zheng)的(de)(de)(de)(de)(de)方法(fa),在有(you)(you)限的(de)(de)(de)(de)(de)算(suan)力(li)下,經過(guo)(guo)有(you)(you)限的(de)(de)(de)(de)(de)計算(suan)選出盡可(ke)能(neng)好的(de)(de)(de)(de)(de)多(duo)(duo)肽(tai)(tai)鏈,這將(jiang)大大提升多(duo)(duo)肽(tai)(tai)藥物研(yan)(yan)發的(de)(de)(de)(de)(de)速率(lv)并節省成(cheng)(cheng)本。
3、中國(guo)專(zhuan)利申(shen)請(qing)cn115873118a使(shi)(shi)(shi)用(yong)人(ren)工多(duo)(duo)肽(tai)序(xu)列(lie)(lie)設(she)(she)計法(fa)(fa)設(she)(she)計了一(yi)種(zhong)基(ji)于人(ren)d114抗(kang)體(ti)的(de)(de)(de)多(duo)(duo)肽(tai),并(bing)使(shi)(shi)(shi)用(yong)alphafold2進(jin)行(xing)模型(xing)預測,從而(er)輔(fu)助專(zhuan)家(jia)判斷設(she)(she)計的(de)(de)(de)優劣。由于該設(she)(she)計方(fang)(fang)法(fa)(fa)基(ji)于專(zhuan)家(jia)人(ren)工設(she)(she)計,搜索空間小,無法(fa)(fa)發(fa)現所(suo)有(you)(you)具有(you)(you)潛(qian)在(zai)可能性的(de)(de)(de)多(duo)(duo)肽(tai)序(xu)列(lie)(lie),成功率高(gao)度依賴(lai)專(zhuan)家(jia)知識(shi),迭代(dai)慢。中國(guo)專(zhuan)利申(shen)請(qing)cn114999587a公開了一(yi)種(zhong)基(ji)于隨(sui)機(ji)搜索算法(fa)(fa)和對接評估的(de)(de)(de)蛋白質(zhi)多(duo)(duo)肽(tai)設(she)(she)計集(ji)成裝置,該發(fa)明中所(suo)使(shi)(shi)(shi)用(yong)的(de)(de)(de)多(duo)(duo)肽(tai)序(xu)列(lie)(lie)設(she)(she)計方(fang)(fang)法(fa)(fa)為隨(sui)機(ji)搜索算法(fa)(fa),主要使(shi)(shi)(shi)用(yong)窮舉的(de)(de)(de)方(fang)(fang)法(fa)(fa)對序(xu)列(lie)(lie)進(jin)行(xing)突(tu)變以及排列(lie)(lie)組合并(bing)進(jin)行(xing)驗證,該設(she)(she)計方(fang)(fang)法(fa)(fa)沒(mei)有(you)(you)探究(jiu)原(yuan)配體(ti)序(xu)列(lie)(lie)的(de)(de)(de)內在(zai)規(gui)律,使(shi)(shi)(shi)用(yong)隨(sui)機(ji)突(tu)變效(xiao)率低且盲(mang)目,需(xu)要耗費(fei)大量算力,較(jiao)難獲(huo)取性質(zhi)優良的(de)(de)(de)多(duo)(duo)肽(tai),成功率較(jiao)低。目前仍缺乏一(yi)種(zhong)相對快速(su)且合成效(xiao)率較(jiao)高(gao)的(de)(de)(de)基(ji)于大語言模型(xing)和算法(fa)(fa)來設(she)(she)計和篩選多(duo)(duo)肽(tai)的(de)(de)(de)方(fang)(fang)法(fa)(fa)。
技術實現思路
1、為(wei)了解決(jue)目(mu)前(qian)缺乏一種相對(dui)(dui)快(kuai)(kuai)速且合(he)成效率較(jiao)高的(de)(de)(de)基(ji)(ji)于大(da)語言(yan)模型和算(suan)法(fa)來設(she)計和篩選多(duo)(duo)肽(tai)(tai)(tai)的(de)(de)(de)方法(fa)。相比(bi)于之前(qian)依(yi)賴專家經(jing)驗(yan)的(de)(de)(de)人工多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)設(she)計方法(fa),亦或(huo)是使用傳統算(suan)法(fa)對(dui)(dui)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)的(de)(de)(de)搜(sou)(sou)索(suo)空間(jian)進行窮舉,本發明通過(guo)微(wei)調(diao)(diao)后的(de)(de)(de)蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型與先驗(yan)知識,在(zai)不過(guo)多(duo)(duo)改變野生(sheng)型多(duo)(duo)肽(tai)(tai)(tai)配體序列(lie)(lie)(lie)的(de)(de)(de)基(ji)(ji)礎上,使用蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型對(dui)(dui)潛在(zai)價值較(jiao)高的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)進行列(lie)(lie)(lie)舉。有針(zhen)對(dui)(dui)性(xing)的(de)(de)(de)對(dui)(dui)蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型進行微(wei)調(diao)(diao)后,其能夠更好(hao)(hao)(hao)地(di)(di)針(zhen)對(dui)(dui)特定(ding)領域(yu)或(huo)特定(ding)蛋(dan)白(bai)質(zhi)家族的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)做出預測(ce),提升蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型在(zai)該特定(ding)領域(yu)中的(de)(de)(de)序列(lie)(lie)(lie)預測(ce)準(zhun)確(que)度。野生(sheng)型序列(lie)(lie)(lie)經(jing)過(guo)漫(man)長的(de)(de)(de)自(zi)然(ran)選擇(ze),本身已經(jing)具(ju)備較(jiao)好(hao)(hao)(hao)的(de)(de)(de)結構,因(yin)此基(ji)(ji)于海(hai)量多(duo)(duo)肽(tai)(tai)(tai)數據訓練得(de)到(dao)(dao)的(de)(de)(de)大(da)語言(yan)模型能夠學習到(dao)(dao)較(jiao)好(hao)(hao)(hao)的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)鏈所應該具(ju)備的(de)(de)(de)基(ji)(ji)本特征,同時(shi),通過(guo)在(zai)野生(sheng)型附近進行搜(sou)(sou)尋(xun),去除(chu)大(da)量低價值探(tan)索(suo)空間(jian),避免了因(yin)搜(sou)(sou)索(suo)空間(jian)過(guo)大(da)而導(dao)致的(de)(de)(de)盲(mang)目(mu)選擇(ze)以及搜(sou)(sou)索(suo)效率低下等技術缺點,從而能夠更快(kuai)(kuai)地(di)(di)找到(dao)(dao)更好(hao)(hao)(hao)的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)。
2、本發明第一(yi)方面(mian)提供了一(yi)種基于蛋白質大(da)語(yu)言模型的(de)用于多(duo)肽設計(ji)的(de)系(xi)統,所述系(xi)統包括以下模塊:
3、(1)模(mo)(mo)型(xing)(xing)微調(diao)模(mo)(mo)塊(kuai):該(gai)模(mo)(mo)塊(kuai)用于(yu)使用目標領域蛋(dan)白(bai)質(zhi)的野(ye)生(sheng)型(xing)(xing)多肽對蛋(dan)白(bai)質(zhi)大語(yu)言模(mo)(mo)型(xing)(xing)進行(xing)微調(diao);
4、(2)多(duo)肽設計模(mo)(mo)塊:該(gai)模(mo)(mo)塊中(zhong),依次改變野生(sheng)型(xing)多(duo)肽各個位(wei)點上的(de)(de)氨基(ji)酸(suan)殘(can)基(ji),并(bing)利用微調(diao)后的(de)(de)蛋白質(zhi)大語言模(mo)(mo)型(xing)得出(chu)各個位(wei)點上野生(sheng)型(xing)氨基(ji)酸(suan)殘(can)基(ji)自身(shen)及其他19種氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)概(gai)率(lv)得分,篩選(xuan)出(chu)具有一個概(gai)率(lv)得分≥0的(de)(de)氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)備選(xuan)單位(wei)點突變序列;其中(zhong),所述野生(sheng)型(xing)氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)概(gai)率(lv)得分為0;
5、(3)3d結(jie)構(gou)建(jian)模(mo)(mo)模(mo)(mo)塊(kuai)(kuai)(kuai):該(gai)模(mo)(mo)塊(kuai)(kuai)(kuai)用于將(jiang)多(duo)肽(tai)設計模(mo)(mo)塊(kuai)(kuai)(kuai)(2)得(de)到的備選單位點突變(bian)序列進(jin)行(xing)3d結(jie)構(gou)建(jian)模(mo)(mo),選擇得(de)分最高的結(jie)構(gou)文(wen)件為最終的3d結(jie)構(gou)文(wen)件;
6、(4)分子對接(jie)評估(gu)模塊:該(gai)模塊中,在分子對接(jie)軟件(jian)中輸入(ru)備(bei)選單位(wei)點(dian)突(tu)變序(xu)(xu)(xu)列(lie)及(ji)該(gai)突(tu)變序(xu)(xu)(xu)列(lie)所對應野生型序(xu)(xu)(xu)列(lie)的(de)(de)受(shou)體(ti)的(de)(de)3d結構文件(jian),進行分子對接(jie)評估(gu),選出備(bei)選單位(wei)點(dian)突(tu)變序(xu)(xu)(xu)列(lie)中每(mei)個位(wei)點(dian)上(shang)結合能分數最低的(de)(de)序(xu)(xu)(xu)列(lie);該(gai)序(xu)(xu)(xu)列(lie)的(de)(de)該(gai)突(tu)變位(wei)點(dian)上(shang)的(de)(de)氨基酸即為該(gai)位(wei)點(dian)的(de)(de)最優(you)氨基酸;
7、(5)結(jie)果(guo)篩選模(mo)塊:該(gai)模(mo)塊用于根據用戶設定的(de)(de)突(tu)變(bian)位(wei)置(zhi)個數(shu)(shu)參數(shu)(shu)及(ji)用戶所需的(de)(de)突(tu)變(bian)多肽數(shu)(shu)量,選出結(jie)合能(neng)分數(shu)(shu)最低的(de)(de)該(gai)數(shu)(shu)量的(de)(de)多肽序列。
8、在(zai)一(yi)些實施方案中,(1)中,所述(shu)蛋(dan)白質(zhi)大語言模型為esm-2模型;優(you)選(xuan)所述(shu)目(mu)標(biao)領域蛋(dan)白質(zhi)屬于同一(yi)家族的蛋(dan)白質(zhi);
9、所述微調使用隨(sui)機(ji)遮住(zhu)(zhu)法,通過隨(sui)機(ji)遮住(zhu)(zhu)輸入多肽序列中的氨基(ji)酸(suan)并讓ems-2模(mo)型預測該被遮住(zhu)(zhu)位(wei)置的野生(sheng)型氨基(ji)酸(suan);優選隨(sui)機(ji)遮住(zhu)(zhu)10%-20%例如(ru)15%的氨基(ji)酸(suan),使用交叉熵作為損失(shi)函數。
10、在一些(xie)實施(shi)方案中,(2)中,所(suo)述(shu)微調后的蛋白質大語(yu)言模(mo)型為ems-3模(mo)型;和/或,所(suo)述(shu)概(gai)率得分通(tong)過以下公式(shi)打分得到:
11、
12、其中,x指(zhi)氨基酸,t為多(duo)肽(tai)序列上的某(mou)一個位點(dian)所在位置,t指(zhi)多(duo)肽(tai)序列中存在的突變個數,mt為突變型,wt為野生型。
13、在一(yi)些(xie)實施方案(an)中(zhong),(3)中(zhong),使用蛋(dan)白(bai)結(jie)構預測軟件進(jin)行(xing)3d結(jie)構建模。
14、在一些較佳實(shi)施方(fang)案中,所述(shu)蛋白結構(gou)預測軟(ruan)件為alphafold2或esmfold。
15、在一些(xie)實(shi)施方(fang)案(an)中(zhong),所(suo)述蛋白結(jie)構(gou)(gou)預測軟件(jian)對同一多(duo)肽(tai)序(xu)列隨機進(jin)行y次3d結(jie)構(gou)(gou)建模并生(sheng)成結(jie)構(gou)(gou)文(wen)件(jian),選取(qu)得分(fen)最高的(de)結(jie)構(gou)(gou)作為(wei)該多(duo)肽(tai)序(xu)列最終的(de)3d結(jie)構(gou)(gou);其中(zhong)y≥5;所(suo)述分(fen)子(zi)對接通過向分(fen)子(zi)對接軟件(jian)輸入(ru)多(duo)肽(tai)及其受(shou)體的(de)結(jie)構(gou)(gou)文(wen)件(jian)進(jin)行對接。
16、在一(yi)些實施方案(an)中,(4)中,所述分子對(dui)接軟件(jian)為hpepdock?2.0;和/或(huo),所述3d結構文件(jian)包括pdb結構文件(jian)。
17、在一些(xie)實施方(fang)案中(zhong),(5)中(zhong),用戶設定(ding)的(de)突(tu)變(bian)位置個(ge)(ge)數(shu)參(can)數(shu)為n,用戶設定(ding)的(de)最終(zhong)優化(hua)后多肽序列數(shu)量為m;和/或,(2)中(zhong),共篩選(xuan)出(chu)z個(ge)(ge)發生突(tu)變(bian)的(de)最優氨基酸(suan),n≤z;
18、a.當n=1時(shi),將(jiang)(4)中得到的(de)結(jie)(jie)合能分(fen)數(shu)從(cong)高(gao)到低排(pai)列(lie),最終輸出結(jie)(jie)合能分(fen)數(shu)最低的(de)前m條單位點(dian)突變序列(lie);
19、b.當(dang)n>1時,將(4)中得(de)到(dao)(dao)的發(fa)生突(tu)變的最優(you)氨(an)基(ji)酸進(jin)行czn排列組合(he),得(de)到(dao)(dao)一組備選n位(wei)點突(tu)變序列,對(dui)其(qi)進(jin)行3d結構建模及分子(zi)對(dui)接評(ping)估,將結合(he)能(neng)評(ping)分從高(gao)到(dao)(dao)低(di)排列,最終輸出結合(he)能(neng)分數最低(di)的前(qian)m條(tiao)n位(wei)點突(tu)變序列。
20、在一(yi)些具體實(shi)施方案中,所述野生型(xing)多肽為(wei)人促生長激素釋(shi)放激素野生型(xing)多肽。
21、本(ben)發明第二方(fang)面提供了(le)一種包(bao)括(kuo)機器(qi)學習模型的(de)(de)裝(zhuang)置,其包(bao)括(kuo)存儲器(qi)和(he)處(chu)理器(qi),所述(shu)存儲器(qi)存儲有計算機程序,所述(shu)計算機程序被(bei)所述(shu)處(chu)理器(qi)執行時,可實(shi)現如本(ben)發明第一方(fang)面所述(shu)的(de)(de)系統(tong)的(de)(de)功能。
22、本發明第三方面提供了一種計算機可讀存儲介質,其存儲有(you)計算機程(cheng)序(xu),所述(shu)計算機程(cheng)序(xu)被(bei)處理器執行時,可實現如本發明第一方面所述(shu)系統的(de)功(gong)能。
23、本(ben)發明(ming)第四方面提供了一(yi)種基(ji)于(yu)蛋白質大語言(yan)模型的(de)用于(yu)多肽(tai)(tai)設(she)計的(de)方法,其使用如本(ben)發明(ming)第一(yi)方面所述的(de)系(xi)統進(jin)行多肽(tai)(tai)設(she)計。
24、在(zai)一(yi)些(xie)實施方(fang)案中,所述方(fang)法包括以下(xia)步驟:
25、(1)模型微(wei)調(diao):使用目標領域蛋(dan)白(bai)(bai)質(zhi)的野生型多肽對蛋(dan)白(bai)(bai)質(zhi)大語言模型進行微(wei)調(diao);
26、(2)多肽設(she)計:依次改(gai)變野生型(xing)(xing)多肽各個位點(dian)上的(de)(de)(de)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji),并利用(yong)微調后的(de)(de)(de)模型(xing)(xing)得出(chu)各個位點(dian)上野生型(xing)(xing)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)自身及(ji)其他19種氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)概(gai)率得分,篩選出(chu)具有一個概(gai)率得分≥0的(de)(de)(de)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)備選單(dan)位點(dian)突變序列(lie);其中,所述野生型(xing)(xing)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)概(gai)率得分為0;
27、(3)3d結(jie)構建(jian)模:將步驟(zou)(2)得(de)到的(de)備選單(dan)位點突變序列進行3d結(jie)構建(jian)模,選擇得(de)分(fen)最(zui)高(gao)的(de)結(jie)構文件為最(zui)終的(de)3d結(jie)構文件;
28、(4)分子(zi)對接評估(gu):在分子(zi)對接軟件中(zhong)輸入備選單(dan)位點(dian)突變序列(lie)(lie)及該(gai)突變序列(lie)(lie)所對應野生型序列(lie)(lie)的(de)受體的(de)3d結(jie)構文件,進(jin)行分子(zi)對接評估(gu),選出備選單(dan)位點(dian)突變序列(lie)(lie)中(zhong)每(mei)個位點(dian)上結(jie)合(he)能分數最(zui)低(di)的(de)序列(lie)(lie);該(gai)序列(lie)(lie)的(de)該(gai)突變位點(dian)上的(de)氨基(ji)酸(suan)(suan)即為該(gai)位點(dian)的(de)最(zui)優氨基(ji)酸(suan)(suan);
29、(5)結(jie)果篩選(xuan):根據用戶(hu)設定的(de)突變(bian)位(wei)置個數(shu)(shu)(shu)(shu)參數(shu)(shu)(shu)(shu)及用戶(hu)所需的(de)突變(bian)多肽(tai)數(shu)(shu)(shu)(shu)量,選(xuan)出結(jie)合能分數(shu)(shu)(shu)(shu)最(zui)低的(de)該數(shu)(shu)(shu)(shu)量的(de)多肽(tai)序列(lie)。
30、本發明所述野生型多(duo)肽(tai)為(wei)天然(ran)的(de)多(duo)肽(tai)序列;經過漫長(chang)的(de)自然(ran)選(xuan)擇,本身(shen)已經具備較好結構的(de)天然(ran)多(duo)肽(tai)即為(wei)野生性多(duo)肽(tai)。
31、在一些實施(shi)方案中,步驟(zou)(1)中,所(suo)(suo)述蛋白質(zhi)大語言模(mo)型(xing)為esm-2模(mo)型(xing);優選所(suo)(suo)述目標領域蛋白質(zhi)屬于同一家族的(de)蛋白質(zhi);所(suo)(suo)述微(wei)調使用隨機(ji)遮(zhe)住法,通過隨機(ji)遮(zhe)住輸入多肽序列中的(de)氨基酸并讓ems-2模(mo)型(xing)預(yu)測(ce)該被遮(zhe)住位(wei)置的(de)野生型(xing)氨基酸;優選隨機(ji)遮(zhe)住10%-20%例如15%的(de)氨基酸,使用交叉熵作(zuo)為損失函數。
32、在一些具體實施方(fang)案中,所述微(wei)調(diao)包括以下步驟:
33、查(cha)找并下(xia)載(zai)與目標多(duo)(duo)肽序(xu)(xu)列序(xu)(xu)列信息相(xiang)似、蛋(dan)白(bai)質結(jie)構(gou)相(xiang)似(衡(heng)量序(xu)(xu)列相(xiang)似性的方法(fa)包(bao)括序(xu)(xu)列之間的最短編輯(ji)距離,peptide?mass?fingerprinting等)、或(huo)隸屬于相(xiang)同蛋(dan)白(bai)質家族的所有多(duo)(duo)肽序(xu)(xu)列數據(ju)(ju)(ju),并將此序(xu)(xu)列數據(ju)(ju)(ju)作為訓練數據(ju)(ju)(ju)輸(shu)入蛋(dan)白(bai)質大語(yu)言(yan)模型中進行訓練,得到微(wei)調后的針對特定(ding)領(ling)域(yu)進行預測的蛋(dan)白(bai)質大語(yu)言(yan)模型。
34、在一些實施(shi)方(fang)案中,步(bu)驟(2)中,所(suo)述微調后的蛋白質(zhi)大語言模型為ems-3模型;和(he)/或,所(suo)述概率得分通過(guo)以下公式打分得到:
35、
36、其(qi)中,x指(zhi)氨基酸(suan),t為(wei)多(duo)肽(tai)序列(lie)上的某一個(ge)位點所在(zai)位置,t指(zhi)多(duo)肽(tai)序列(lie)中存在(zai)的突(tu)變(bian)個(ge)數,mt為(wei)突(tu)變(bian)型,wt為(wei)野生(sheng)型。
37、在(zai)一些實施方案(an)中,步驟(3)使用(yong)蛋白結構(gou)(gou)預測軟件進行3d結構(gou)(gou)建模。
38、在一些實施方案中,所述(shu)蛋白結構預測(ce)軟件(jian)為alphafold2或esmfold。
39、在一些實(shi)施方(fang)案中(zhong),所述蛋白結(jie)(jie)構(gou)預(yu)測軟件(jian)對(dui)同一多(duo)(duo)(duo)肽(tai)序列隨機進(jin)行y次3d結(jie)(jie)構(gou)建模并生成結(jie)(jie)構(gou)文件(jian),選取得分最(zui)高(gao)的(de)結(jie)(jie)構(gou)作為(wei)該多(duo)(duo)(duo)肽(tai)序列最(zui)終的(de)3d結(jie)(jie)構(gou);其中(zhong)y≥5;所述分子對(dui)接通過向分子對(dui)接軟件(jian)輸入多(duo)(duo)(duo)肽(tai)及其受體的(de)結(jie)(jie)構(gou)文件(jian);所述多(duo)(duo)(duo)肽(tai)為(wei)配體。
40、在(zai)一些實施(shi)方案中,所述(shu)分子對接軟(ruan)件為hpepdock?2.0。
41、在一些實施方案中,步驟(4)中所(suo)述3d結(jie)構(gou)文件包括(kuo)pdb結(jie)構(gou)文件。
42、在一些實施方(fang)案中,步(bu)驟(5)中用(yong)戶設定的突(tu)變(bian)位置個數參數為n,用(yong)戶設定的最(zui)終(zhong)優化后多肽序列數量為m,步(bu)驟(2)共篩選出(chu)z個發(fa)生突(tu)變(bian)的最(zui)優氨基酸(suan),n≤z;
43、a.當n=1時,將步(bu)驟(4)得到的結合能(neng)分(fen)數(shu)從(cong)高到低排列,最終輸出結合能(neng)分(fen)數(shu)最低的前m條單(dan)位(wei)點突變序列;
44、b.當n>1時,將步驟(4)得到的(de)發生突變的(de)最優氨基酸進(jin)行(xing)czn排(pai)列組合(he),得到一(yi)組備選n位點突變序列,對(dui)其進(jin)行(xing)3d結構(gou)建模及分子(zi)對(dui)接評估,將結合(he)能(neng)評分從高(gao)到低(di)排(pai)列,最終(zhong)輸(shu)出結合(he)能(neng)分數最低(di)的(de)前m條n位點突變序列。
45、在一些具體實(shi)施方案中,所述(shu)野(ye)生(sheng)型多肽(tai)為人促生(sheng)長激素(su)釋放激素(su)野(ye)生(sheng)型多肽(tai)。
46、在(zai)符合本(ben)領域常識的基(ji)礎上,上述各優選條件,可任意組合,即得本(ben)發明各較佳實例。
47、本發(fa)明所用試劑和原料均(jun)市售可得(de)。
48、本(ben)發明的積極進(jin)步效果在于:
49、本(ben)發明有選擇性(xing)的、有針(zhen)對(dui)(dui)性(xing)的針(zhen)對(dui)(dui)具體野生型配體進(jin)(jin)行再改造,并將微調后(hou)的蛋白(bai)質大語言模(mo)型與分子對(dui)(dui)接評估技術(shu)相結(jie)合,能夠(gou)快速有效、低成(cheng)本(ben)、簡(jian)單方便地進(jin)(jin)行多肽序列的設計,加速實驗合成(cheng)多肽的過程。