科學家創建了一個能夠從頭開始生成人造酶的人工智能(AI)系統。在實驗室測試中,盡管人工生成的氨基酸序列與任何已知的天然蛋白質存在顯著差異,但其中一些酶與自然界中發現的酶一樣有效。相關研究成果1月26日發表于《自然-生物技術》。

圖片來源:IAN C. HAYDON
該實驗表明,雖然自然語言處理是為讀寫語言文本開發的,但至少可以學習一些生物學的基本原理。Salesforce Research公司開發了名為ProGen的AI程序,使用下一代標記預測將氨基酸序列組裝成人造蛋白質。
科學家表示,這項新技術可能比獲得諾貝爾獎的蛋白質設計技術——定向進化更為強大,它將加速新蛋白質的開發,為已有50年歷史的蛋白質工程領域注入活力。這些新蛋白質幾乎可以用于從疾病治療到降解塑料的任何領域。
“人工設計的性能比受進化過程啟發的設計表現得更好。”該研究作者之一、美國加州大學舊金山分校藥學院生物工程和治療科學教授James Fraser表示,語言模型正在學習進化的各個方面,但它不同于正常的進化過程。“我們現在能夠針對特定效果調整這些屬性的生成,例如非常耐熱或喜歡酸性環境,不會與其他蛋白質相互作用的酶。”
為了創建這個模型,科學家只需將2.8億種不同蛋白質的氨基酸序列輸入機器學習模型,并讓它在幾周內消化信息。然后,他們使用來自5個溶菌酶家族的56000個序列,以及有關這些蛋白質的上下文信息對模型進行微調。
該模型迅速生成了100萬個序列。研究團隊根據它們與天然蛋白質序列的相似程度,以及AI蛋白質的潛在氨基酸“語法”和“語義”的自然程度,選擇了100個序列進行測試。