紫冬學術丨清華大學自動化系汪小我團隊提出知識引導與數據驅動相融合的合成啟動子AI設計方法
【ZiDongHua 之方案應用場收錄關鍵詞: 清華大學自動化系 合成生物學 人工生物 人工智能 】
紫冬學術丨自動化系汪小我團隊提出知識引導與數據驅動相融合的合成啟動子AI設計方法
近年來,合成生物學作為一門新興交叉學科獲得了蓬勃發(fā)展,為破解人類面臨的資源、健康、環(huán)境等重大挑戰(zhàn)提供全新解決途徑。合成生物學的核心理念是通過對DNA等生物大分子的逆向設計重構獲得具有特定功能的人工生物系統。然而,這些生物分子編碼的組合排列空間十分龐大,序列與功能的映射關系復雜,對生物大分子序列進行精準設計極具挑戰(zhàn)。近期人工智能技術的突破引發(fā)了自然語言處理、計算機視覺等領域的革命性進步,尤其是以ChatGPT等為代表的生成式智能模型的突破,彰顯出AI在提取復雜模式、生成復雜對象上的強大潛力。基于人工智能技術逆向設計啟動子等具有特定功能的生物大分子序列,將為合成生物學的發(fā)展提供強大的設計工具和豐富的基礎元件。
近日,清華大學自動化系汪小我團隊提出了一種將專家知識與大數據學習相融合的合成啟動子人工智能輔助設計方法,發(fā)現了轉錄因子結合位點旁側序列在啟動子優(yōu)化設計中的重要作用,為突破基因調控元件設計中面臨的高維度、小樣本的核心難題提供了新的思路。研究成果以“Deep flanking sequence engineering for efficient promoter design using DeepSEED”為題,于2023年10月9日發(fā)表于《自然-通訊》(Nature Communications)期刊上。
該研究圍繞著啟動子(Promoter)這一負責決定基因在何時、何地以何種程度進行轉錄表達的合成生生物學基礎元件展開研究。DNA序列設計的空間巨大,1000bp長度的序列理論上有10^600種可能的排列組合方式。傳統的啟動子解析與設計研究主要側重于對功能已知的轉錄因子結合位點(Transcription Factor Binding Sites, TFBS)進行分析,并通過位置權重矩陣(PWM)等模型對序列motif進行描述和建模。然而對在啟動子序列中占據很大比例的位于不同TFBS之間的旁側序列(Flanking sequence)卻缺少研究。雖然有實驗表明旁側序列的改變也會對啟動子活性產生影響,然而由于旁側序列中的特征信號弱,難以被人為歸納總結為明確的知識和設計準則,導致旁側序列在啟動子功能研究中被長期忽視。此外,由于天然基因組具有特殊功能的啟動子往往樣本數量很少,導致對響應特定生物信號的誘導型與細胞特異型等更具實際應用價值的啟動子難以直接建立深度學習模型和對整體模式進行提取。
針對這一問題,研究團隊創(chuàng)新提出了一種知識引導與數據驅動相融合的智能設計策略DeepSEED(圖1):首先基于人類專家擅長在小樣本中識別明確強特征模式的特點,利用專家知識定義與啟動子功能相關的重要顯式模式例如TFBS或專家任意設定的序列片段作為“種子”;在此基礎上,借助深度學習模型在大型數據集中提取隱含弱模式的強大能力,在海量數據中學習旁側序列與種子序列間隱式匹配關系,進而基于條件生成式模型產生與“種子”相匹配的完整啟動序列,并對序列整體進行全局優(yōu)化。DeepSEED方法由兩個深度學習模塊組成,一個條件式生成對抗網絡(cGAN)用于捕獲顯式和隱式模式之間的依賴關系,一個基于DenseNet-LSTM的預測模型來評估啟動子性能,并利用遺傳算法對這兩個模型進行偶聯,通過模型迭代實現功能啟動子的優(yōu)化設計。在實際應用過程中,研究者可以任意指定已知生物調控序列作為“種子”,模型通過學習大數據中旁側序列的調控規(guī)律對“種子”的旁側序列進行補全,提升啟動子的整體轉錄活性,從而實現啟動子的按需優(yōu)化設計。
研究團隊成功將該方法成功應用于大腸桿菌內組成型啟動子、IPTG誘導型啟動子,和哺乳動物細胞內Dox誘導型啟動子的優(yōu)化設計(圖2)。尤為值得一提的是,研究團隊選擇在生命科學研究中廣泛使用的、近三十年來未能被進一步優(yōu)化的哺乳動物細胞Dox誘導型Tet-On調控系統作為研究對象,實驗表明77.8%的人工啟動子表現出誘導活性提高,83.3%的人工啟動子表現出更高的誘導倍數(圖3)。生成的合成啟動子表現出了高度的序列多樣性、與天然基因組序列的低相似性,同時保留了天然序列中k-mer頻率等特征,并優(yōu)化了DNA大溝、小溝偏好、偏轉角等整體形狀屬性,大幅提升了合成啟動子的轉錄活性和誘導率等關鍵性能,并在多種不同培養(yǎng)條件和細胞類型中表現魯棒。
綜上所述,該研究基于知識引導與數據驅動相融合的創(chuàng)新策略,建立了人工智能輔助的啟動子序列優(yōu)化方法DeepSEED,能夠有效突破功能啟動子設計中維度高、樣本小的核心難題,為研究者提供了可用于旁側序列優(yōu)化和多類型啟動子設計的人工智能輔助工具,有望為合成生物學研究提供基礎性的設計工具和多樣化的調控元件。
清華大學自動化系博士研究生張鵬程、博士研究生王昊晨與碩士研究生許涵文為該論文的共同第一作者,清華大學汪小我教授為通訊作者。清華大學的魏磊、劉莉揚、胡志睿等也對本文做出了重要貢獻。該研究得到了國家自然科學基金、國家重點研發(fā)計劃、清華大學國強研究院項目的資助。
文字:汪小我團隊
編輯:沈碧瑩
審核:周亞
終審:石宗英
微信聯盟:合成生物學微信群、人工生物微信群、人工智能微信群,各細分行業(yè)微信群:點擊這里進入。
鴻達安視:水文水利在線監(jiān)測儀器、智慧農業(yè)在線監(jiān)測儀器 查看各品牌在細分領域的定位宣傳語


評論排行