【ZiDongHua 之創(chuàng)新自科文收錄關(guān)鍵詞:自動(dòng)化科技 人工智能  化學(xué)合成  數(shù)據(jù)科學(xué)  化學(xué) 】

化學(xué)合成領(lǐng)域的數(shù)據(jù)科學(xué)革命正在加速,自動(dòng)化、實(shí)時(shí)分析和 AI 是「催化劑」

將 ScienceAI 設(shè)為星標(biāo)

第一時(shí)間掌握

新鮮的 AI for Science 資訊

編輯 | 綠蘿

自動(dòng)化和實(shí)時(shí)反應(yīng)監(jiān)測(cè)使數(shù)據(jù)豐富的實(shí)驗(yàn)成為可能,這對(duì)于駕馭化學(xué)合成的復(fù)雜性至關(guān)重要。將實(shí)時(shí)分析與機(jī)器學(xué)習(xí)和人工智能工具相結(jié)合,可以加速最佳反應(yīng)條件的識(shí)別并促進(jìn)無差錯(cuò)的自主合成。

不列顛哥倫比亞大學(xué)的研究人員在《Nature Synthesis》發(fā)表題為「Automation, analytics and artificial intelligence for chemical synthesis」的評(píng)論,強(qiáng)調(diào)了數(shù)據(jù)豐富的實(shí)驗(yàn)和跨學(xué)科方法在推動(dòng)合成化學(xué)未來發(fā)展方面的重要性越來越大。

自動(dòng)化在合成「迷宮」中的作用

合成大多數(shù)分子需要進(jìn)行多步轉(zhuǎn)化、平衡輸入材料(溶劑、試劑、催化劑)、反應(yīng)參數(shù)(溫度、添加順序、時(shí)間)以及后處理和純化策略。穿越這個(gè)多因素挑戰(zhàn)類似于在資源有限的迷宮中搜索。

從歷史上看,化學(xué)家必須借鑒以前的經(jīng)驗(yàn),制定謹(jǐn)慎的策略并根據(jù)有限的數(shù)據(jù)做出決定。實(shí)驗(yàn)室自動(dòng)化等使能技術(shù)(Enabling technology)從根本上改變了現(xiàn)狀,提高了分析反應(yīng)數(shù)據(jù)的數(shù)量和準(zhǔn)確性,從而可以在更短的時(shí)間內(nèi)做出更好的決策??梢圆渴鹬T如高通量實(shí)驗(yàn) (HTE) 之類的技術(shù)來快速調(diào)查可能的反應(yīng)條件,但這些技術(shù)通常只能提供固定反應(yīng)時(shí)間的分析產(chǎn)率百分比,而放棄與反應(yīng)機(jī)制或動(dòng)力學(xué)有關(guān)的關(guān)鍵細(xì)節(jié)。

圖 1:通過超高效液相色譜分析的 Suzuki–Miyaura 交叉偶聯(lián)顯示了起始材料以及產(chǎn)物和常見副產(chǎn)物的不同峰面積與時(shí)間的關(guān)系。(來源:論文)

推論策略,稱為數(shù)據(jù)豐富的實(shí)驗(yàn) (DRE),側(cè)重于提取實(shí)時(shí)反應(yīng)進(jìn)程數(shù)據(jù),量化所有可測(cè)量的物種或參數(shù),并為單個(gè)反應(yīng)提供全面的逐個(gè)播放。使用實(shí)時(shí)監(jiān)控進(jìn)行路線偵察和優(yōu)化可提供反應(yīng)動(dòng)力學(xué)的詳細(xì)圖片,揭示反應(yīng)中間體、速率常數(shù)和副產(chǎn)物反應(yīng)途徑等關(guān)鍵信息。

自動(dòng)化是使 DRE 方法成為可管理和富有成效的努力的關(guān)鍵使能工具。首先,需要硬件和儀器自動(dòng)化來準(zhǔn)確地協(xié)調(diào)整個(gè)反應(yīng)過程中反應(yīng)等分試樣的捕獲和分析。這取決于選擇的分析技術(shù)(高效液相色譜-質(zhì)譜、核磁共振光譜、高分辨率質(zhì)譜)在不同程度上適用,但在所有情況下,反應(yīng)過程測(cè)量所需的頻率,精度和延長(zhǎng)的持續(xù)時(shí)間都不利于人工操作。其次,反應(yīng)分析數(shù)據(jù)的龐大數(shù)量和復(fù)雜性需要軟件自動(dòng)化技術(shù)來幫助注釋、處理原始數(shù)據(jù)并將其轉(zhuǎn)換為代表每個(gè)反應(yīng)組分的濃度與時(shí)間陣列的趨勢(shì)。最后,復(fù)雜的反應(yīng)操作可以自動(dòng)化執(zhí)行,例如溫度或催化劑劑量的精確變化,允許從單個(gè)反應(yīng)中提取數(shù)據(jù),這通常需要多次實(shí)驗(yàn)。

用「規(guī)則」和「目標(biāo)」代替發(fā)條式執(zhí)行

當(dāng)前的數(shù)據(jù)驅(qū)動(dòng)反應(yīng)研究范式幾乎完全側(cè)重于使用人在回路中的步驟將數(shù)據(jù)轉(zhuǎn)換為信息。這意味著分析工具創(chuàng)建實(shí)時(shí)反應(yīng)趨勢(shì),然后由操作員解釋以計(jì)劃或指導(dǎo)實(shí)驗(yàn)活動(dòng)。固定的多變量統(tǒng)計(jì)工具,例如實(shí)驗(yàn)設(shè)計(jì)或優(yōu)化策略(例如批處理貝葉斯優(yōu)化)利用自動(dòng)化來獲取大型數(shù)據(jù)集,但最終的解釋和腳本編寫是手動(dòng)的。

現(xiàn)在存在一個(gè)緊急機(jī)會(huì),實(shí)時(shí)監(jiān)控的遙測(cè)技術(shù)可用于顯著加速過程優(yōu)化和反應(yīng)發(fā)現(xiàn)??梢岳脤?shí)時(shí)數(shù)據(jù),使自動(dòng)化系統(tǒng)能夠接收有關(guān)流程的關(guān)鍵反饋。這既確保了預(yù)期實(shí)驗(yàn)的準(zhǔn)確執(zhí)行,又增強(qiáng)了自動(dòng)合成協(xié)議的可轉(zhuǎn)移性和可重復(fù)性。可以使用相同的數(shù)據(jù)集來允許自動(dòng)反應(yīng)硬件適應(yīng)變化的環(huán)境。這在嘗試執(zhí)行多步轉(zhuǎn)換時(shí)具有令人難以置信的影響,因?yàn)楸仨氃诤铣蛇M(jìn)行之前形成前體。代替在設(shè)定時(shí)間添加固定數(shù)量材料的硬編碼腳本,可以訓(xùn)練反應(yīng)器在第一個(gè)反應(yīng)完成時(shí)添加足夠的試劑。這些條件參數(shù)允許進(jìn)行更典型的傳統(tǒng)研發(fā)工作流程的即時(shí)更正,并通過提供遵循實(shí)驗(yàn)「規(guī)則」實(shí)現(xiàn)的合成「目標(biāo)」,為無差錯(cuò)自主合成打開大門。

人工智能和機(jī)器學(xué)習(xí)增強(qiáng)反應(yīng)設(shè)計(jì)的潛力

機(jī)器學(xué)習(xí) (ML) 和人工智能 (AI) 工具是實(shí)驗(yàn)數(shù)據(jù)驅(qū)動(dòng)工作流程的強(qiáng)大補(bǔ)充,可加速反應(yīng)條件的識(shí)別。預(yù)測(cè)模型是根據(jù)從 HTE 或文獻(xiàn)來源獲得的實(shí)驗(yàn)數(shù)據(jù)建立的,這些數(shù)據(jù)可以建議執(zhí)行未知轉(zhuǎn)化的反應(yīng)條件。此外,通過將機(jī)器人反應(yīng)執(zhí)行、端點(diǎn)采樣和數(shù)據(jù)提取與 ML 優(yōu)化算法相融合,創(chuàng)建了自主優(yōu)化平臺(tái)。使用這些方法,可以減少確定理想條件所需的實(shí)驗(yàn)次數(shù),但是,這兩個(gè)示例都將實(shí)驗(yàn)結(jié)果減少到單個(gè)數(shù)量分?jǐn)?shù),例如產(chǎn)率百分比或立體選擇性百分比。這些策略有其優(yōu)點(diǎn),但減少到固定時(shí)間的單一測(cè)量掩蓋了化學(xué)反應(yīng)固有的復(fù)雜性。

許多研究表明,從現(xiàn)有文獻(xiàn)中提取反應(yīng)性能數(shù)據(jù)(產(chǎn)率)會(huì)導(dǎo)致混合結(jié)果。數(shù)據(jù)偏向于最常發(fā)布的條件,導(dǎo)致提取流行的反應(yīng)參數(shù)而不是最佳條件。更糟糕的是,定量測(cè)量以及應(yīng)用的條件或技術(shù)的異質(zhì)性使得無法區(qū)分報(bào)告的產(chǎn)量是實(shí)驗(yàn)失敗還是分離困難的結(jié)果。對(duì)報(bào)告的合成數(shù)據(jù)進(jìn)行同質(zhì)化和系統(tǒng)化的嘗試正在出現(xiàn),但是,它們?nèi)蕴幱谄鸩诫A段。

HTE 自動(dòng)化系統(tǒng)生成的數(shù)據(jù)集更加一致,但仍可能存在系統(tǒng)性偏差,限制了它們的廣泛適用性。特別是,選擇用于分析所選分析指標(biāo)的時(shí)間點(diǎn)可能會(huì)提供假陽性或假陰性數(shù)據(jù)。例如,記錄的低產(chǎn)品收率可能是由于反應(yīng)組合啟動(dòng)延遲,或者所需產(chǎn)品在反應(yīng)條件下不穩(wěn)定。因此,選擇錯(cuò)誤的時(shí)間窗口來詢問反應(yīng)可能會(huì)導(dǎo)致被詢問的系統(tǒng)過于簡(jiǎn)單化或誤解。雖然來自 HTE 的稀疏數(shù)據(jù)可以作為路標(biāo),但許多真正有趣和意想不到的突破被遺漏了。

實(shí)時(shí)反應(yīng)監(jiān)測(cè)具有關(guān)鍵優(yōu)勢(shì),預(yù)測(cè)模型可以使用完整的動(dòng)力學(xué)數(shù)據(jù)進(jìn)行訓(xùn)練。這些全面的數(shù)據(jù)解決了與數(shù)據(jù)完整性、偏差和過度簡(jiǎn)化相關(guān)的所有問題。首先,通過記錄整個(gè)反應(yīng)曲線,可以捕獲和解釋不同研究人員的反應(yīng)性能差異。不匹配將有助于集中精力糾正協(xié)議傳輸失敗的問題。其次,將捕獲反應(yīng)物種的全部演變,從而描繪出目標(biāo)材料以及副產(chǎn)品和中間體的演變。這些趨勢(shì)將作為未來反應(yīng)發(fā)現(xiàn)的有用元數(shù)據(jù),因?yàn)樗鼈儾东@了可能的轉(zhuǎn)化,即使它們不是研究的重點(diǎn)。最后,使用經(jīng)過適當(dāng)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),可能需要很少的反應(yīng)趨勢(shì)才能明確地對(duì)基礎(chǔ)機(jī)制進(jìn)行分類。一般來說,ML 方法的模式識(shí)別能力非常適合訓(xùn)練整個(gè)反應(yīng)的復(fù)雜模式。

總的來說,合成化學(xué)領(lǐng)域的數(shù)據(jù)科學(xué)革命正在加速,增強(qiáng)了對(duì)強(qiáng)大的、數(shù)據(jù)豐富的實(shí)驗(yàn)的需求。實(shí)時(shí)反應(yīng)分析已被用于顯著減少達(dá)到分子目標(biāo)所需的時(shí)間。通過進(jìn)一步將這些自動(dòng)化數(shù)據(jù)收集方法與新的 ML 和 AI 工具聯(lián)系起來,預(yù)測(cè)最佳條件和發(fā)現(xiàn)新合成路線的能力將呈指數(shù)級(jí)增長(zhǎng)。