近年來,材料科學正邁入一個由人工智能(AI)和自動化技術驅動的新紀元。AI與高通量合成的結合,為材料逆向設計提供了強大的工具,極大加速了新型材料的發現進程。在近期發表于 Science 的研究中,德國赫姆霍茲研究所Christoph J. Brabec和武建昌聯合廈門大學王露遙、卡爾斯魯厄理工學院 Pascal Friederich和韓國蔚山國立科學技術院Sang Il Seok開發了一種閉環自動化工作流程,首次實現了針對光電應用的有機半導體逆向設計,通過大數據和機器學習識別出決定有機半導體光電性能的關鍵因素,并將器件性能提升至26.2%的光電轉換效率(PCE),這是該領域的重要突破。
圖1. 閉環材料設計示意圖
背景:高通量有機合成與表征
此前,該團隊已在 Journal of the American Chemical Society 上報道了一套高通量合成與表征平臺(如圖2所示),該平臺能夠快速制備、純化和表征分子庫(J. Am. Chem. Soc., 2023, 145, 16517–16525)。在這一基礎上,通過結合理論計算與自動化實驗,實現了分子的高純度和高重復性,并在數周內建立了包含125個分子的材料庫,涵蓋了豐富的光電性質。這一成果為后續AI驅動的材料設計奠定了堅實的實驗數據基礎。
圖2. 高通量有機合成平臺
閉環材料發現工作流程
閉環流程將高通量合成、高通量表征與機器學習(ML)模型相結合,形成自主學習的材料開發系統(如圖1與圖3所示)。具體包括五個關鍵步驟:(1)虛擬數據庫創建與篩選:基于結構多樣性原則,從百萬級分子庫中篩選候選分子。(2)分子描述符計算:通過密度泛函理論(DFT)計算,提取分子的電子與幾何特性。(3)高通量有機合成與表征:利用自動化平臺快速制備分子,并進行電學與光學性能測試。(4)器件性能表征:測量器件的J-V曲線、PCE等關鍵參數。(5)機器學習訓練與優化:基于實驗數據訓練貝葉斯優化模型,迭代選擇高性能分子。這一閉環流程可在每輪迭代中高效反饋與優化,逐步實現材料性能的提升。
圖3. 針對鈣鈦礦太陽能電池中空穴傳輸層的逆向分子設計
機器學習模型的構建與優化
研究團隊采用高效的分子描述符集,包括:(1)分子統計屬性:如原子種類、芳香鍵數量、功能基團等。(2)理論計算特性:如分子軌道能級(HOMO和LUMO)、溶解度對數(LogP)、偶極矩和旋轉常數等。通過10折交叉驗證,測試了多種ML模型,包括隨機森林、線性回歸、神經網絡和高斯過程回歸(GPR)等。最終,GPR因其不確定性量化能力被選為貝葉斯優化的代理模型(BO)。這一模型能夠在“探索-利用”模式中高效識別高性能分子(圖4)。
圖4. 基于實驗數據和計算機描述符的模型訓練
高性能分子發現與驗證
通過兩輪閉環優化,研究團隊證明ML模型能夠有效預測新型空穴傳輸材料。與初始數據庫相比,新一輪篩選出的分子表現出更高的PCE值,顯著超越了隨機篩選和傳統網格搜索方法。具體而言,實驗器件的光電轉換效率從初始的8.5%逐步提高至最高的26.2%,這一成果驗證了ML模型在材料設計中的強大潛力(圖5)。
圖5. 新合成的分子和用于迭代的實驗數據
模型分析及分子設計規則
研究團隊致力于通過機器學習(ML)模型的分析,深入挖掘影響器件性能的關鍵物理參數。該團隊從訓練后的 ML 模型中提取了與光電轉換效率(PCE)相關的分子描述符,并評估了它們對模型預測的貢獻(如圖5A所示)。HOMO 能級、叔胺結構的存在、HOMO/LUMO 能級差以及純度被識別為影響性能預測和分子發現的核心特征。
為了進一步識別決定性特征,研究團隊采用遞歸特征機(RFM)對特征重要性進行分析。基于結構指紋的 RFM 模型在測試集上的 R? 值約為 0.5。純度、HOMO 能級、HOMO/LUMO 能級差以及叔胺結構的存在被驗證為模型關注的核心特征。通過留一法交叉驗證,模型在預測未知分子性能時依然表現出良好的泛化能力(R? 值約為 0.3)。
為了構建更具可解釋性的模型,研究團隊使用貪婪搜索算法篩選最優特征子集,并訓練了線性回歸模型。線性回歸模型選擇了包括芳香鍵數目、分子氮含量、純度、旋轉常數等在內的八個核心特征,最終在測試集上實現了 R? 為 0.46 的性能。
研究團隊還探索了通過擴展特征輸入來提升模型預測性能的可能性。實驗增加了潤濕性、光致發光量子產率(PLQY)以及時間分辨光致發光(TRPL)等特征。基于多任務高斯過程回歸模型(MTGPR)的分析顯示,PCE 與開路電壓(Voc)、短路電流(Jsc)以及填充因子(FF)之間存在預期相關性,但擴展特征未顯著提升 PCE 的預測精度。
通過上述研究,團隊確認了機器學習模型在新型分子發現中的潛力,并揭示了關鍵分子特征對性能預測的重要性。
研究團隊進一步從化學語言的角度出發,對機器學習(ML)結果進行了解釋,以幫助化學家和材料科學家更清晰地理解這些發現,并深入開展基于這些特征的分子設計。(1)HOMO 和叔胺的重要性。HOMO 對分子間界面的電荷提取至關重要,這一點已被廣泛認可。叔胺結構的顯著性往往被忽略,而研究發現它主要涉及三苯胺(TPA),由于其低電離勢,顯著提升了分子 HOMO 能級。(2)分子分類與性能模式。根據 TPA 的位置,所有分子被分為三類:類型 I(無 TPA):HOMO 范圍 5.1-6.1 eV,對應 PCE 為 5%-14%;類型 II(TPA 位于分子外圍):HOMO 范圍 4.3-5.2 eV,對應 PCE 為 13%-20%;類型 III(TPA 位于分子中心):HOMO 范圍 4.9-5.7 eV,對應 PCE 為 15%-21%。這種分類不僅揭示了HOMO與PCE 之間的關系,還將候選分子數量從 9.6 x 105 縮減至 5.8x 103。(3)HOMO/LUMO 能級差與偶極矩的作用。TPA 與受體的結合確保了合適的能隙,異原子進一步增強了鈣鈦礦的鈍化作用。通過這一步驟,候選分子數量進一步減少至 4.6 x 102。
研究團隊引入拓撲極性表面積(TPSA)作為構建塊極性和吸電子能力的粗略指標,便于通過 PubChem 等數據庫快速查詢,無需進行繁瑣的密度泛函理論(DFT)計算。
精細調控與分子性能優化:(1)基于TPA+受體的調控。分子性能可通過邊緣取向等結構特性進行優化,從而促進鈍化和電荷傳輸。對比 5 種 B 位基團的組合,研究發現微弱的對稱性破缺(如 A770 基團)有助于提升器件性能。(2)進一步縮減候選分子數量。通過 TPA 和 B 位基團的細致優化,候選分子數量從 102 減少到 101,進入高通量合成的可操作范圍。
圖6. 模型分析和由機器學習結果指導的分子設計規則
展望:數據驅動的材料科學未來
高通量合成和AI的結合不僅提升了實驗效率,更改變了材料設計的范式。未來,相關研究將進一步擴展到復雜功能性分子設計,例如探索抗輻射分子材料以應對太空極端環境。這一閉環材料發現工作流展示了“實驗+數據+AI”的強大潛力,為材料科學領域帶來了前所未有的機遇與創新方向。
Science, 2024, 386, 1256-1264, DOI: 10.1126/science.ads0901