【ZiDongHua 之創(chuàng)新自科文收錄關鍵詞:自動化科技 人工智能  化學合成  數(shù)據(jù)科學  化學 】

化學合成領域的數(shù)據(jù)科學革命正在加速,自動化、實時分析和 AI 是「催化劑」

將 ScienceAI 設為星標

第一時間掌握

新鮮的 AI for Science 資訊

編輯 | 綠蘿

自動化和實時反應監(jiān)測使數(shù)據(jù)豐富的實驗成為可能,這對于駕馭化學合成的復雜性至關重要。將實時分析與機器學習和人工智能工具相結合,可以加速最佳反應條件的識別并促進無差錯的自主合成。

不列顛哥倫比亞大學的研究人員在《Nature Synthesis》發(fā)表題為「Automation, analytics and artificial intelligence for chemical synthesis」的評論,強調(diào)了數(shù)據(jù)豐富的實驗和跨學科方法在推動合成化學未來發(fā)展方面的重要性越來越大。

自動化在合成「迷宮」中的作用

合成大多數(shù)分子需要進行多步轉化、平衡輸入材料(溶劑、試劑、催化劑)、反應參數(shù)(溫度、添加順序、時間)以及后處理和純化策略。穿越這個多因素挑戰(zhàn)類似于在資源有限的迷宮中搜索。

從歷史上看,化學家必須借鑒以前的經(jīng)驗,制定謹慎的策略并根據(jù)有限的數(shù)據(jù)做出決定。實驗室自動化等使能技術(Enabling technology)從根本上改變了現(xiàn)狀,提高了分析反應數(shù)據(jù)的數(shù)量和準確性,從而可以在更短的時間內(nèi)做出更好的決策。可以部署諸如高通量實驗 (HTE) 之類的技術來快速調(diào)查可能的反應條件,但這些技術通常只能提供固定反應時間的分析產(chǎn)率百分比,而放棄與反應機制或動力學有關的關鍵細節(jié)。

圖 1:通過超高效液相色譜分析的 Suzuki–Miyaura 交叉偶聯(lián)顯示了起始材料以及產(chǎn)物和常見副產(chǎn)物的不同峰面積與時間的關系。(來源:論文)

推論策略,稱為數(shù)據(jù)豐富的實驗 (DRE),側重于提取實時反應進程數(shù)據(jù),量化所有可測量的物種或參數(shù),并為單個反應提供全面的逐個播放。使用實時監(jiān)控進行路線偵察和優(yōu)化可提供反應動力學的詳細圖片,揭示反應中間體、速率常數(shù)和副產(chǎn)物反應途徑等關鍵信息。

自動化是使 DRE 方法成為可管理和富有成效的努力的關鍵使能工具。首先,需要硬件和儀器自動化來準確地協(xié)調(diào)整個反應過程中反應等分試樣的捕獲和分析。這取決于選擇的分析技術(高效液相色譜-質(zhì)譜、核磁共振光譜、高分辨率質(zhì)譜)在不同程度上適用,但在所有情況下,反應過程測量所需的頻率,精度和延長的持續(xù)時間都不利于人工操作。其次,反應分析數(shù)據(jù)的龐大數(shù)量和復雜性需要軟件自動化技術來幫助注釋、處理原始數(shù)據(jù)并將其轉換為代表每個反應組分的濃度與時間陣列的趨勢。最后,復雜的反應操作可以自動化執(zhí)行,例如溫度或催化劑劑量的精確變化,允許從單個反應中提取數(shù)據(jù),這通常需要多次實驗。

用「規(guī)則」和「目標」代替發(fā)條式執(zhí)行

當前的數(shù)據(jù)驅(qū)動反應研究范式幾乎完全側重于使用人在回路中的步驟將數(shù)據(jù)轉換為信息。這意味著分析工具創(chuàng)建實時反應趨勢,然后由操作員解釋以計劃或指導實驗活動。固定的多變量統(tǒng)計工具,例如實驗設計或優(yōu)化策略(例如批處理貝葉斯優(yōu)化)利用自動化來獲取大型數(shù)據(jù)集,但最終的解釋和腳本編寫是手動的。

現(xiàn)在存在一個緊急機會,實時監(jiān)控的遙測技術可用于顯著加速過程優(yōu)化和反應發(fā)現(xiàn)??梢岳脤崟r數(shù)據(jù),使自動化系統(tǒng)能夠接收有關流程的關鍵反饋。這既確保了預期實驗的準確執(zhí)行,又增強了自動合成協(xié)議的可轉移性和可重復性??梢允褂孟嗤臄?shù)據(jù)集來允許自動反應硬件適應變化的環(huán)境。這在嘗試執(zhí)行多步轉換時具有令人難以置信的影響,因為必須在合成進行之前形成前體。代替在設定時間添加固定數(shù)量材料的硬編碼腳本,可以訓練反應器在第一個反應完成時添加足夠的試劑。這些條件參數(shù)允許進行更典型的傳統(tǒng)研發(fā)工作流程的即時更正,并通過提供遵循實驗「規(guī)則」實現(xiàn)的合成「目標」,為無差錯自主合成打開大門。

人工智能和機器學習增強反應設計的潛力

機器學習 (ML) 和人工智能 (AI) 工具是實驗數(shù)據(jù)驅(qū)動工作流程的強大補充,可加速反應條件的識別。預測模型是根據(jù)從 HTE 或文獻來源獲得的實驗數(shù)據(jù)建立的,這些數(shù)據(jù)可以建議執(zhí)行未知轉化的反應條件。此外,通過將機器人反應執(zhí)行、端點采樣和數(shù)據(jù)提取與 ML 優(yōu)化算法相融合,創(chuàng)建了自主優(yōu)化平臺。使用這些方法,可以減少確定理想條件所需的實驗次數(shù),但是,這兩個示例都將實驗結果減少到單個數(shù)量分數(shù),例如產(chǎn)率百分比或立體選擇性百分比。這些策略有其優(yōu)點,但減少到固定時間的單一測量掩蓋了化學反應固有的復雜性。

許多研究表明,從現(xiàn)有文獻中提取反應性能數(shù)據(jù)(產(chǎn)率)會導致混合結果。數(shù)據(jù)偏向于最常發(fā)布的條件,導致提取流行的反應參數(shù)而不是最佳條件。更糟糕的是,定量測量以及應用的條件或技術的異質(zhì)性使得無法區(qū)分報告的產(chǎn)量是實驗失敗還是分離困難的結果。對報告的合成數(shù)據(jù)進行同質(zhì)化和系統(tǒng)化的嘗試正在出現(xiàn),但是,它們?nèi)蕴幱谄鸩诫A段。

HTE 自動化系統(tǒng)生成的數(shù)據(jù)集更加一致,但仍可能存在系統(tǒng)性偏差,限制了它們的廣泛適用性。特別是,選擇用于分析所選分析指標的時間點可能會提供假陽性或假陰性數(shù)據(jù)。例如,記錄的低產(chǎn)品收率可能是由于反應組合啟動延遲,或者所需產(chǎn)品在反應條件下不穩(wěn)定。因此,選擇錯誤的時間窗口來詢問反應可能會導致被詢問的系統(tǒng)過于簡單化或誤解。雖然來自 HTE 的稀疏數(shù)據(jù)可以作為路標,但許多真正有趣和意想不到的突破被遺漏了。

實時反應監(jiān)測具有關鍵優(yōu)勢,預測模型可以使用完整的動力學數(shù)據(jù)進行訓練。這些全面的數(shù)據(jù)解決了與數(shù)據(jù)完整性、偏差和過度簡化相關的所有問題。首先,通過記錄整個反應曲線,可以捕獲和解釋不同研究人員的反應性能差異。不匹配將有助于集中精力糾正協(xié)議傳輸失敗的問題。其次,將捕獲反應物種的全部演變,從而描繪出目標材料以及副產(chǎn)品和中間體的演變。這些趨勢將作為未來反應發(fā)現(xiàn)的有用元數(shù)據(jù),因為它們捕獲了可能的轉化,即使它們不是研究的重點。最后,使用經(jīng)過適當訓練的神經(jīng)網(wǎng)絡,可能需要很少的反應趨勢才能明確地對基礎機制進行分類。一般來說,ML 方法的模式識別能力非常適合訓練整個反應的復雜模式。

總的來說,合成化學領域的數(shù)據(jù)科學革命正在加速,增強了對強大的、數(shù)據(jù)豐富的實驗的需求。實時反應分析已被用于顯著減少達到分子目標所需的時間。通過進一步將這些自動化數(shù)據(jù)收集方法與新的 ML 和 AI 工具聯(lián)系起來,預測最佳條件和發(fā)現(xiàn)新合成路線的能力將呈指數(shù)級增長。