一種基于蛋白質大語言模型的用于多肽設計的系統的制作方法

文檔序(xu)號(hao)：39427072發布日期：2024-09-20 22:24閱(yue)讀：11來源(yuan)：國(guo)知局(ju)

本方法屬(shu)于生物，涉及一種(zhong)基(ji)于蛋白(bai)質(zhi)大語言模型的用(yong)于多肽設計(ji)的系統。

背景技術：

1、多肽為由(you)少于(yu)(yu)40個(ge)氨基酸組成的(de)一(yi)類化合物，相(xiang)對分(fen)(fen)(fen)子(zi)(zi)量(liang)通常(chang)為500-10000da，介于(yu)(yu)小分(fen)(fen)(fen)子(zi)(zi)化合物與(yu)(yu)蛋白質大(da)分(fen)(fen)(fen)子(zi)(zi)藥物之間(jian)，因而(er)兼具(ju)(ju)兩者的(de)優點(dian)。相(xiang)比(bi)于(yu)(yu)小分(fen)(fen)(fen)子(zi)(zi)藥物，多肽具(ju)(ju)有生物活性(xing)高、特異性(xing)強的(de)優點(dian)；相(xiang)比(bi)于(yu)(yu)蛋白質大(da)分(fen)(fen)(fen)子(zi)(zi)藥物，多肽則(ze)具(ju)(ju)備較強的(de)穩定性(xing)以(yi)及(ji)更簡單的(de)空間(jian)結構。且由(you)于(yu)(yu)其制備簡單、毒性(xing)小，以(yi)及(ji)吸收速度(du)快(kuai)等優點(dian)，被認為是極(ji)具(ju)(ju)潛力的(de)新興(xing)藥物療(liao)法之一(yi)，具(ju)(ju)有極(ji)大(da)的(de)市場規模與(yu)(yu)商業(ye)價值。

2、多(duo)(duo)肽(tai)(tai)鏈可(ke)以突變(bian)的(de)(de)(de)(de)(de)可(ke)能(neng)性幾乎(hu)是無限的(de)(de)(de)(de)(de)，因此傳統的(de)(de)(de)(de)(de)合(he)成(cheng)(cheng)多(duo)(duo)肽(tai)(tai)方法(fa)(通過(guo)(guo)人工(gong)經驗設(she)計并通過(guo)(guo)濕實(shi)驗合(he)成(cheng)(cheng))往往需要耗費(fei)巨(ju)大的(de)(de)(de)(de)(de)財力(li)與人力(li)，并常常需要數月甚至數年的(de)(de)(de)(de)(de)時間。舉例來(lai)說：一個僅僅長20的(de)(de)(de)(de)(de)短鏈，每個位置上有(you)(you)20種可(ke)能(neng)性，則一共有(you)(you)20^20＝0000000000000000種可(ke)能(neng)的(de)(de)(de)(de)(de)組合(he)多(duo)(duo)肽(tai)(tai)。即(ji)便(bian)通過(guo)(guo)計算(suan)機來(lai)進(jin)行(xing)篩選，該(gai)數量級在現有(you)(you)的(de)(de)(de)(de)(de)算(suan)力(li)條件下也不可(ke)能(neng)完成(cheng)(cheng)。這對(dui)于多(duo)(duo)肽(tai)(tai)藥物研(yan)(yan)發無疑是個很大的(de)(de)(de)(de)(de)阻(zu)礙(ai)。因此，需要一個能(neng)快(kuai)速生(sheng)成(cheng)(cheng)潛在的(de)(de)(de)(de)(de)多(duo)(duo)肽(tai)(tai)序列并驗證(zheng)的(de)(de)(de)(de)(de)方法(fa)，在有(you)(you)限的(de)(de)(de)(de)(de)算(suan)力(li)下，經過(guo)(guo)有(you)(you)限的(de)(de)(de)(de)(de)計算(suan)選出盡可(ke)能(neng)好的(de)(de)(de)(de)(de)多(duo)(duo)肽(tai)(tai)鏈，這將(jiang)大大提升多(duo)(duo)肽(tai)(tai)藥物研(yan)(yan)發的(de)(de)(de)(de)(de)速率(lv)并節省成(cheng)(cheng)本。

3、中國(guo)專(zhuan)利申(shen)請(qing)cn115873118a使(shi)(shi)(shi)用(yong)人(ren)工多(duo)(duo)肽(tai)序(xu)列(lie)(lie)設(she)(she)計法(fa)(fa)設(she)(she)計了一(yi)種(zhong)基(ji)于人(ren)d114抗(kang)體(ti)的(de)(de)(de)多(duo)(duo)肽(tai)，并(bing)使(shi)(shi)(shi)用(yong)alphafold2進(jin)行(xing)模型(xing)預測，從而(er)輔(fu)助專(zhuan)家(jia)判斷設(she)(she)計的(de)(de)(de)優劣。由于該設(she)(she)計方(fang)(fang)法(fa)(fa)基(ji)于專(zhuan)家(jia)人(ren)工設(she)(she)計，搜索空間小，無法(fa)(fa)發(fa)現所(suo)有(you)(you)具有(you)(you)潛(qian)在(zai)可能性的(de)(de)(de)多(duo)(duo)肽(tai)序(xu)列(lie)(lie)，成功率高(gao)度依賴(lai)專(zhuan)家(jia)知識(shi)，迭代(dai)慢。中國(guo)專(zhuan)利申(shen)請(qing)cn114999587a公開了一(yi)種(zhong)基(ji)于隨(sui)機(ji)搜索算法(fa)(fa)和對接評估的(de)(de)(de)蛋白質(zhi)多(duo)(duo)肽(tai)設(she)(she)計集(ji)成裝置，該發(fa)明中所(suo)使(shi)(shi)(shi)用(yong)的(de)(de)(de)多(duo)(duo)肽(tai)序(xu)列(lie)(lie)設(she)(she)計方(fang)(fang)法(fa)(fa)為隨(sui)機(ji)搜索算法(fa)(fa)，主要使(shi)(shi)(shi)用(yong)窮舉的(de)(de)(de)方(fang)(fang)法(fa)(fa)對序(xu)列(lie)(lie)進(jin)行(xing)突(tu)變以及排列(lie)(lie)組合并(bing)進(jin)行(xing)驗證，該設(she)(she)計方(fang)(fang)法(fa)(fa)沒(mei)有(you)(you)探究(jiu)原(yuan)配體(ti)序(xu)列(lie)(lie)的(de)(de)(de)內在(zai)規(gui)律，使(shi)(shi)(shi)用(yong)隨(sui)機(ji)突(tu)變效(xiao)率低且盲(mang)目，需(xu)要耗費(fei)大量算力，較(jiao)難獲(huo)取性質(zhi)優良的(de)(de)(de)多(duo)(duo)肽(tai)，成功率較(jiao)低。目前仍缺乏一(yi)種(zhong)相對快速(su)且合成效(xiao)率較(jiao)高(gao)的(de)(de)(de)基(ji)于大語言模型(xing)和算法(fa)(fa)來設(she)(she)計和篩選多(duo)(duo)肽(tai)的(de)(de)(de)方(fang)(fang)法(fa)(fa)。

技術實現思路

1、為(wei)了解決(jue)目(mu)前(qian)缺乏一種相對(dui)(dui)快(kuai)(kuai)速且合(he)成效率較(jiao)高的(de)(de)(de)基(ji)(ji)于大(da)語言(yan)模型和算(suan)法(fa)來設(she)計和篩選多(duo)(duo)肽(tai)(tai)(tai)的(de)(de)(de)方法(fa)。相比(bi)于之前(qian)依(yi)賴專家經(jing)驗(yan)的(de)(de)(de)人工多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)設(she)計方法(fa)，亦或(huo)是使用傳統算(suan)法(fa)對(dui)(dui)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)的(de)(de)(de)搜(sou)(sou)索(suo)空間(jian)進行窮舉，本發明通過(guo)微(wei)調(diao)(diao)后的(de)(de)(de)蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型與先驗(yan)知識，在(zai)不過(guo)多(duo)(duo)改變野生(sheng)型多(duo)(duo)肽(tai)(tai)(tai)配體序列(lie)(lie)(lie)的(de)(de)(de)基(ji)(ji)礎上，使用蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型對(dui)(dui)潛在(zai)價值較(jiao)高的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)進行列(lie)(lie)(lie)舉。有針(zhen)對(dui)(dui)性(xing)的(de)(de)(de)對(dui)(dui)蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型進行微(wei)調(diao)(diao)后，其能夠更好(hao)(hao)(hao)地(di)(di)針(zhen)對(dui)(dui)特定(ding)領域(yu)或(huo)特定(ding)蛋(dan)白(bai)質(zhi)家族的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)做出預測(ce)，提升蛋(dan)白(bai)質(zhi)大(da)語言(yan)模型在(zai)該特定(ding)領域(yu)中的(de)(de)(de)序列(lie)(lie)(lie)預測(ce)準(zhun)確(que)度。野生(sheng)型序列(lie)(lie)(lie)經(jing)過(guo)漫(man)長的(de)(de)(de)自(zi)然(ran)選擇(ze)，本身已經(jing)具(ju)備較(jiao)好(hao)(hao)(hao)的(de)(de)(de)結構，因(yin)此基(ji)(ji)于海(hai)量多(duo)(duo)肽(tai)(tai)(tai)數據訓練得(de)到(dao)(dao)的(de)(de)(de)大(da)語言(yan)模型能夠學習到(dao)(dao)較(jiao)好(hao)(hao)(hao)的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)鏈所應該具(ju)備的(de)(de)(de)基(ji)(ji)本特征，同時(shi)，通過(guo)在(zai)野生(sheng)型附近進行搜(sou)(sou)尋(xun)，去除(chu)大(da)量低價值探(tan)索(suo)空間(jian)，避免了因(yin)搜(sou)(sou)索(suo)空間(jian)過(guo)大(da)而導(dao)致的(de)(de)(de)盲(mang)目(mu)選擇(ze)以及搜(sou)(sou)索(suo)效率低下等技術缺點，從而能夠更快(kuai)(kuai)地(di)(di)找到(dao)(dao)更好(hao)(hao)(hao)的(de)(de)(de)多(duo)(duo)肽(tai)(tai)(tai)序列(lie)(lie)(lie)。

2、本發明第一(yi)方面(mian)提供了一(yi)種基于蛋白質大(da)語(yu)言模型的(de)用于多(duo)肽設計(ji)的(de)系(xi)統，所述系(xi)統包括以下模塊：

3、(1)模(mo)(mo)型(xing)(xing)微調(diao)模(mo)(mo)塊(kuai)：該(gai)模(mo)(mo)塊(kuai)用于(yu)使用目標領域蛋(dan)白(bai)質(zhi)的野(ye)生(sheng)型(xing)(xing)多肽對蛋(dan)白(bai)質(zhi)大語(yu)言模(mo)(mo)型(xing)(xing)進行(xing)微調(diao)；

4、(2)多(duo)肽設計模(mo)(mo)塊：該(gai)模(mo)(mo)塊中(zhong)，依次改變野生(sheng)型(xing)多(duo)肽各個位(wei)點上的(de)(de)氨基(ji)酸(suan)殘(can)基(ji)，并(bing)利用微調(diao)后的(de)(de)蛋白質(zhi)大語言模(mo)(mo)型(xing)得出(chu)各個位(wei)點上野生(sheng)型(xing)氨基(ji)酸(suan)殘(can)基(ji)自身(shen)及其他19種氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)概(gai)率(lv)得分，篩選(xuan)出(chu)具有一個概(gai)率(lv)得分≥0的(de)(de)氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)備選(xuan)單位(wei)點突變序列；其中(zhong)，所述野生(sheng)型(xing)氨基(ji)酸(suan)殘(can)基(ji)的(de)(de)概(gai)率(lv)得分為0；

5、(3)3d結(jie)構(gou)建(jian)模(mo)(mo)模(mo)(mo)塊(kuai)(kuai)(kuai)：該(gai)模(mo)(mo)塊(kuai)(kuai)(kuai)用于將(jiang)多(duo)肽(tai)設計模(mo)(mo)塊(kuai)(kuai)(kuai)(2)得(de)到的備選單位點突變(bian)序列進(jin)行(xing)3d結(jie)構(gou)建(jian)模(mo)(mo)，選擇得(de)分最高的結(jie)構(gou)文(wen)件為最終的3d結(jie)構(gou)文(wen)件；

6、(4)分子對接(jie)評估(gu)模塊：該(gai)模塊中，在分子對接(jie)軟件(jian)中輸入(ru)備(bei)選單位(wei)點(dian)突(tu)變序(xu)(xu)(xu)列(lie)及(ji)該(gai)突(tu)變序(xu)(xu)(xu)列(lie)所對應野生型序(xu)(xu)(xu)列(lie)的(de)(de)受(shou)體(ti)的(de)(de)3d結構文件(jian)，進行分子對接(jie)評估(gu)，選出備(bei)選單位(wei)點(dian)突(tu)變序(xu)(xu)(xu)列(lie)中每(mei)個位(wei)點(dian)上(shang)結合能分數最低的(de)(de)序(xu)(xu)(xu)列(lie)；該(gai)序(xu)(xu)(xu)列(lie)的(de)(de)該(gai)突(tu)變位(wei)點(dian)上(shang)的(de)(de)氨基酸即為該(gai)位(wei)點(dian)的(de)(de)最優(you)氨基酸；

7、(5)結(jie)果(guo)篩選模(mo)塊：該(gai)模(mo)塊用于根據用戶設定的(de)(de)突(tu)變(bian)位(wei)置(zhi)個數(shu)(shu)參數(shu)(shu)及(ji)用戶所需的(de)(de)突(tu)變(bian)多肽數(shu)(shu)量，選出結(jie)合能(neng)分數(shu)(shu)最低的(de)(de)該(gai)數(shu)(shu)量的(de)(de)多肽序列。

8、在(zai)一(yi)些實施方案中，(1)中，所述(shu)蛋(dan)白質(zhi)大語言模型為esm-2模型；優(you)選(xuan)所述(shu)目(mu)標(biao)領域蛋(dan)白質(zhi)屬于同一(yi)家族的蛋(dan)白質(zhi)；

9、所述微調使用隨(sui)機(ji)遮住(zhu)(zhu)法，通過隨(sui)機(ji)遮住(zhu)(zhu)輸入多肽序列中的氨基(ji)酸(suan)并讓ems-2模(mo)型預測該被遮住(zhu)(zhu)位(wei)置的野生(sheng)型氨基(ji)酸(suan)；優選隨(sui)機(ji)遮住(zhu)(zhu)10％-20％例如(ru)15％的氨基(ji)酸(suan)，使用交叉熵作為損失(shi)函數。

10、在一些(xie)實施(shi)方案中，(2)中，所(suo)述(shu)微調后的蛋白質大語(yu)言模(mo)型為ems-3模(mo)型；和/或，所(suo)述(shu)概(gai)率得分通(tong)過以下公式(shi)打分得到：

11、

12、其中，x指(zhi)氨基酸，t為多(duo)肽(tai)序列上的某(mou)一個位點(dian)所在位置，t指(zhi)多(duo)肽(tai)序列中存在的突變個數，mt為突變型，wt為野生型。

13、在一(yi)些(xie)實施方案(an)中(zhong)，(3)中(zhong)，使用蛋(dan)白(bai)結(jie)構預測軟件進(jin)行(xing)3d結(jie)構建模。

14、在一些較佳實(shi)施方(fang)案中，所述(shu)蛋白結構(gou)預測軟(ruan)件為alphafold2或esmfold。

15、在一些(xie)實(shi)施方(fang)案(an)中(zhong)，所(suo)述蛋白結(jie)構(gou)(gou)預測軟件(jian)對同一多(duo)肽(tai)序(xu)列隨機進(jin)行y次3d結(jie)構(gou)(gou)建模并生(sheng)成結(jie)構(gou)(gou)文(wen)件(jian)，選取(qu)得分(fen)最高的(de)結(jie)構(gou)(gou)作為(wei)該多(duo)肽(tai)序(xu)列最終的(de)3d結(jie)構(gou)(gou)；其中(zhong)y≥5；所(suo)述分(fen)子(zi)對接通過向分(fen)子(zi)對接軟件(jian)輸入(ru)多(duo)肽(tai)及其受(shou)體的(de)結(jie)構(gou)(gou)文(wen)件(jian)進(jin)行對接。

16、在一(yi)些實施方案(an)中，(4)中，所述分子對(dui)接軟件(jian)為hpepdock?2.0；和/或(huo)，所述3d結構文件(jian)包括pdb結構文件(jian)。

17、在一些(xie)實施方(fang)案中(zhong)，(5)中(zhong)，用戶設定(ding)的(de)突(tu)變(bian)位置個(ge)(ge)數(shu)參(can)數(shu)為n，用戶設定(ding)的(de)最終(zhong)優化(hua)后多肽序列數(shu)量為m；和/或，(2)中(zhong)，共篩選(xuan)出(chu)z個(ge)(ge)發生突(tu)變(bian)的(de)最優氨基酸(suan)，n≤z；

18、a.當n＝1時(shi)，將(jiang)(4)中得到的(de)結(jie)(jie)合能分(fen)數(shu)從(cong)高(gao)到低排(pai)列(lie)，最終輸出結(jie)(jie)合能分(fen)數(shu)最低的(de)前m條單位點(dian)突變序列(lie)；

19、b.當(dang)n＞1時，將(4)中得(de)到(dao)(dao)的發(fa)生突(tu)變的最優(you)氨(an)基(ji)酸進(jin)行czn排列組合(he)，得(de)到(dao)(dao)一組備選n位(wei)點突(tu)變序列，對(dui)其(qi)進(jin)行3d結構建模及分子(zi)對(dui)接評(ping)估，將結合(he)能(neng)評(ping)分從高(gao)到(dao)(dao)低(di)排列，最終輸出結合(he)能(neng)分數最低(di)的前(qian)m條(tiao)n位(wei)點突(tu)變序列。

20、在一(yi)些具體實(shi)施方案中，所述野生型(xing)多肽為(wei)人促生長激素釋(shi)放激素野生型(xing)多肽。

21、本(ben)發明第二方(fang)面提供了(le)一種包(bao)括(kuo)機器(qi)學習模型的(de)(de)裝(zhuang)置，其包(bao)括(kuo)存儲器(qi)和(he)處(chu)理器(qi)，所述(shu)存儲器(qi)存儲有計算機程序，所述(shu)計算機程序被(bei)所述(shu)處(chu)理器(qi)執行時，可實(shi)現如本(ben)發明第一方(fang)面所述(shu)的(de)(de)系統(tong)的(de)(de)功能。

22、本發明第三方面提供了一種計算機可讀存儲介質，其存儲有(you)計算機程(cheng)序(xu)，所述(shu)計算機程(cheng)序(xu)被(bei)處理器執行時，可實現如本發明第一方面所述(shu)系統的(de)功(gong)能。

23、本(ben)發明(ming)第四方面提供了一(yi)種基(ji)于(yu)蛋白質大語言(yan)模型的(de)用于(yu)多肽(tai)(tai)設(she)計的(de)方法，其使用如本(ben)發明(ming)第一(yi)方面所述的(de)系(xi)統進(jin)行多肽(tai)(tai)設(she)計。

24、在(zai)一(yi)些(xie)實施方(fang)案中，所述方(fang)法包括以下(xia)步驟：

25、(1)模型微(wei)調(diao)：使用目標領域蛋(dan)白(bai)(bai)質(zhi)的野生型多肽對蛋(dan)白(bai)(bai)質(zhi)大語言模型進行微(wei)調(diao)；

26、(2)多肽設(she)計：依次改(gai)變野生型(xing)(xing)多肽各個位點(dian)上的(de)(de)(de)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)，并利用(yong)微調后的(de)(de)(de)模型(xing)(xing)得出(chu)各個位點(dian)上野生型(xing)(xing)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)自身及(ji)其他19種氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)概(gai)率得分，篩選出(chu)具有一個概(gai)率得分≥0的(de)(de)(de)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)備選單(dan)位點(dian)突變序列(lie)；其中，所述野生型(xing)(xing)氨(an)(an)基(ji)(ji)酸(suan)(suan)(suan)殘(can)(can)(can)(can)基(ji)(ji)的(de)(de)(de)概(gai)率得分為0；

27、(3)3d結(jie)構建(jian)模：將步驟(zou)(2)得(de)到的(de)備選單(dan)位點突變序列進行3d結(jie)構建(jian)模，選擇得(de)分(fen)最(zui)高(gao)的(de)結(jie)構文件為最(zui)終的(de)3d結(jie)構文件；

28、(4)分子(zi)對接評估(gu)：在分子(zi)對接軟件中(zhong)輸入備選單(dan)位點(dian)突變序列(lie)(lie)及該(gai)突變序列(lie)(lie)所對應野生型序列(lie)(lie)的(de)受體的(de)3d結(jie)構文件，進(jin)行分子(zi)對接評估(gu)，選出備選單(dan)位點(dian)突變序列(lie)(lie)中(zhong)每(mei)個位點(dian)上結(jie)合(he)能分數最(zui)低(di)的(de)序列(lie)(lie)；該(gai)序列(lie)(lie)的(de)該(gai)突變位點(dian)上的(de)氨基(ji)酸(suan)(suan)即為該(gai)位點(dian)的(de)最(zui)優氨基(ji)酸(suan)(suan)；

29、(5)結(jie)果篩選(xuan)：根據用戶(hu)設定的(de)突變(bian)位(wei)置個數(shu)(shu)(shu)(shu)參數(shu)(shu)(shu)(shu)及用戶(hu)所需的(de)突變(bian)多肽(tai)數(shu)(shu)(shu)(shu)量，選(xuan)出結(jie)合能分數(shu)(shu)(shu)(shu)最(zui)低的(de)該數(shu)(shu)(shu)(shu)量的(de)多肽(tai)序列(lie)。

30、本發明所述野生型多(duo)肽(tai)為(wei)天然(ran)的(de)多(duo)肽(tai)序列；經過漫長(chang)的(de)自然(ran)選(xuan)擇，本身(shen)已經具備較好結構的(de)天然(ran)多(duo)肽(tai)即為(wei)野生性多(duo)肽(tai)。

31、在一些實施(shi)方案中，步驟(zou)(1)中，所(suo)(suo)述蛋白質(zhi)大語言模(mo)型(xing)為esm-2模(mo)型(xing)；優選所(suo)(suo)述目標領域蛋白質(zhi)屬于同一家族的(de)蛋白質(zhi)；所(suo)(suo)述微(wei)調使用隨機(ji)遮(zhe)住法，通過隨機(ji)遮(zhe)住輸入多肽序列中的(de)氨基酸并讓ems-2模(mo)型(xing)預(yu)測(ce)該被遮(zhe)住位(wei)置的(de)野生型(xing)氨基酸；優選隨機(ji)遮(zhe)住10％-20％例如15％的(de)氨基酸，使用交叉熵作(zuo)為損失函數。

32、在一些具體實施方(fang)案中，所述微(wei)調(diao)包括以下步驟：

33、查(cha)找并下(xia)載(zai)與目標多(duo)(duo)肽序(xu)(xu)列序(xu)(xu)列信息相(xiang)似、蛋(dan)白(bai)質結(jie)構(gou)相(xiang)似(衡(heng)量序(xu)(xu)列相(xiang)似性的方法(fa)包(bao)括序(xu)(xu)列之間的最短編輯(ji)距離，peptide?mass?fingerprinting等)、或(huo)隸屬于相(xiang)同蛋(dan)白(bai)質家族的所有多(duo)(duo)肽序(xu)(xu)列數據(ju)(ju)(ju)，并將此序(xu)(xu)列數據(ju)(ju)(ju)作為訓練數據(ju)(ju)(ju)輸(shu)入蛋(dan)白(bai)質大語(yu)言(yan)模型中進行訓練，得到微(wei)調后的針對特定(ding)領(ling)域(yu)進行預測的蛋(dan)白(bai)質大語(yu)言(yan)模型。

34、在一些實施(shi)方(fang)案中，步(bu)驟(2)中，所(suo)述微調后的蛋白質(zhi)大語言模型為ems-3模型；和(he)/或，所(suo)述概率得分通過(guo)以下公式打分得到：

35、

36、其(qi)中，x指(zhi)氨基酸(suan)，t為(wei)多(duo)肽(tai)序列(lie)上的某一個(ge)位點所在(zai)位置，t指(zhi)多(duo)肽(tai)序列(lie)中存在(zai)的突(tu)變(bian)個(ge)數，mt為(wei)突(tu)變(bian)型，wt為(wei)野生(sheng)型。

37、在(zai)一些實施方案(an)中，步驟(3)使用(yong)蛋白結構(gou)(gou)預測軟件進行3d結構(gou)(gou)建模。

38、在一些實施方案中，所述(shu)蛋白結構預測(ce)軟件(jian)為alphafold2或esmfold。

39、在一些實(shi)施方(fang)案中(zhong)，所述蛋白結(jie)(jie)構(gou)預(yu)測軟件(jian)對(dui)同一多(duo)(duo)(duo)肽(tai)序列隨機進(jin)行y次3d結(jie)(jie)構(gou)建模并生成結(jie)(jie)構(gou)文件(jian)，選取得分最(zui)高(gao)的(de)結(jie)(jie)構(gou)作為(wei)該多(duo)(duo)(duo)肽(tai)序列最(zui)終的(de)3d結(jie)(jie)構(gou)；其中(zhong)y≥5；所述分子對(dui)接通過向分子對(dui)接軟件(jian)輸入多(duo)(duo)(duo)肽(tai)及其受體的(de)結(jie)(jie)構(gou)文件(jian)；所述多(duo)(duo)(duo)肽(tai)為(wei)配體。

40、在(zai)一些實施(shi)方案中，所述(shu)分子對接軟(ruan)件為hpepdock?2.0。

41、在一些實施方案中，步驟(4)中所(suo)述3d結(jie)構(gou)文件包括(kuo)pdb結(jie)構(gou)文件。

42、在一些實施方(fang)案中，步(bu)驟(5)中用(yong)戶設定的突(tu)變(bian)位置個數參數為n，用(yong)戶設定的最(zui)終(zhong)優化后多肽序列數量為m，步(bu)驟(2)共篩選出(chu)z個發(fa)生突(tu)變(bian)的最(zui)優氨基酸(suan)，n≤z；

43、a.當n＝1時，將步(bu)驟(4)得到的結合能(neng)分(fen)數(shu)從(cong)高到低排列，最終輸出結合能(neng)分(fen)數(shu)最低的前m條單(dan)位(wei)點突變序列；

44、b.當n＞1時，將步驟(4)得到的(de)發生突變的(de)最優氨基酸進(jin)行(xing)czn排(pai)列組合(he)，得到一(yi)組備選n位點突變序列，對(dui)其進(jin)行(xing)3d結構(gou)建模及分子(zi)對(dui)接評估，將結合(he)能(neng)評分從高(gao)到低(di)排(pai)列，最終(zhong)輸(shu)出結合(he)能(neng)分數最低(di)的(de)前m條n位點突變序列。

45、在一些具體實(shi)施方案中，所述(shu)野(ye)生(sheng)型多肽(tai)為人促生(sheng)長激素(su)釋放激素(su)野(ye)生(sheng)型多肽(tai)。

46、在(zai)符合本(ben)領域常識的基(ji)礎上，上述各優選條件，可任意組合，即得本(ben)發明各較佳實例。

47、本發(fa)明所用試劑和原料均(jun)市售可得(de)。

48、本(ben)發明的積極進(jin)步效果在于：

49、本(ben)發明有選擇性(xing)的、有針(zhen)對(dui)(dui)性(xing)的針(zhen)對(dui)(dui)具體野生型配體進(jin)(jin)行再改造，并將微調后(hou)的蛋白(bai)質大語言模(mo)型與分子對(dui)(dui)接評估技術(shu)相結(jie)合，能夠(gou)快速有效、低成(cheng)本(ben)、簡(jian)單方便地進(jin)(jin)行多肽序列的設計，加速實驗合成(cheng)多肽的過程。

完整全部(bu)詳細技術資料下載(zai)

當前第1頁1 2

該技(ji)術(shu)(shu)已申請專(zhuan)利(li)。僅(jin)供學習研(yan)究，如用于商業(ye)用途，請聯系技(ji)術(shu)(shu)所有人。
技術研發人員：李(li)欣頤,張哲(zhe),王鶴,唐偉(wei),楊晶(jing)晶(jing)
技(ji)術所有人：華院計算技(ji)術（上海(hai)）股份有限公司
我是此專利的發明人

上一篇：頁面處理方法及相關裝置與流程
上一篇：基于多目標蟻獅算法的AGV叉車LQR控制器參數在線優化方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細化工與化學 3.生物質精煉 4.天然產物化學
2、薛老師：1.CRISPR-Cas系統 2.基因編輯 3.基因修復 4.天然產物合成 5.單分子技術開發與應用
3、戴老師：1.天然藥物（中藥）合成生物學研究 2.酵母生物學與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學酶法合成及構效關系研究 3.多糖及仿生材料功能的開發及應用
5、滿老師：1.天然產品的提取分離與活性研究 2.天然產物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術(shu)

網友(you)詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕无码日韩视频无码三区

一種基于蛋白質大語言模型的用于多肽設計的系統的制作方法