隨著機器學習技術的飛速發展,各種學習方法被提出并成功應用于圖像識別、學習控制等領域。其中,學習控制的典型方法包括迭代學習控制(ILC)、高斯混合學習控制、強化學習控制等。比如,迭代學習控制方法常被用于控制許多批處理模式的動態過程,并已被成功應用于化工生產和工業機器人等。然而,理論界之前尚未研究這種控制方法針對從數據中獲取的參數的隨機誤差的魯棒收斂性問題。
在其經典理論中,迭代學習控制基于一個有限維的輸出信號預測方程來計算每一次迭代的輸出信號軌跡,其中的參數矩陣是由系統的有限沖擊響應系數(即馬爾可夫參數)決定的。傳統的方法需要根據系統的狀態空間模型或傳遞函數來計算這些馬爾可夫參數。當參數中存在不確定性時,魯棒迭代學習控制方法首先需要對這些參數的不確定性進行建模,或者建立包絡其不確定域的凸集;進而根據經典的魯棒控制方法(如H無窮控制)分析其魯棒單調收斂性(robust monotonic convergence,簡寫為RMC)。盡管文獻中已經報道了不少基于模型的魯棒ILC設計方法,并證明了其RMC特性,但尚無針對系統辨識得到的參數中的隨機誤差進行魯棒設計的方法研究。
針對這一問題,董建飛研究員提出了一種數據驅動的方法,即從系統的輸入輸出數據中辨識馬爾可夫參數(即從數據中估計的系統的輸出相對于輸入信號的梯度信息),進而基于這些估計的參數構造ILC的輸出預測方程。根據該方程參數矩陣的Toeplitz結構,分析并推出了隨機參數誤差與預測輸出信號序列的關系;推出了隨機不確定的閉環ILC學習矩陣與其自身轉置乘積在數學期望意義上的解析表達式;并進而得出了均方差意義上的、保證數據驅動ILC方法對隨機參數具有魯棒單調收斂性的充分條件,及其線性矩陣不等式(LMI)設計方法。該方法首先基于LTI系統研究得出,并被進一步推廣到了非線性的Hammerstein-Wiener系統。圖1為該ILC方法的原理框圖。圖2為該方應用于控制一種非線性的酸堿中和反應過程(pH neutralization process)的結果。由圖2可見,該方法既可確保閉環控制的穩定性,又可以顯著提高控制的精度。

圖1 數據驅動迭代學習控制的原理框圖

圖2 數據驅動迭代學習控制算法應用于控制一種非線性的酸堿中和反應過程(pH neutralization process)的結果。其中robust ILC和nominal ILC分別為考慮或不考慮參數隨機誤差的魯棒ILC算法的結果。
上述研究成果已發表于控制論和人工智能頂刊IEEE Transactions on Cybernetics(中科院一區,影響因子11.448)。
論文鏈接:https://ieeexplore.ieee.org/abstract/document/9523579
該研究受到國家自然科學基金面上項目的資助(F030110:數據驅動控制)。在該項目中,董建飛課題組近年來已開展了兩個方向的數據驅動學習技術研究:數據驅動的迭代學習控制理論研究、以及基于深度學習和卷積神經網絡的圖像數據建模的研究。課題組未來計劃將深度學習與數據驅動控制技術結合起來,繼續研究數據驅動的強化學習控制、及其在生物系統與光機電系統中的應用。
文章來源:中國科學院蘇州生物醫學工程技術研究所
文章來源:中國科學院蘇州生物醫學工程技術研究所