无码综合天天久久综合网色吧影院,四虎成人精品永久网站,久久久国产99久久国产久一,亚洲AV无码一区二区二三区∝

?
投資 干貨 消費 評論 學院 滾動
風投 科技 創(chuàng)業(yè) 業(yè)內(nèi) 要聞
每日聚焦:進化強化學習有望進一步推進機器學習
發(fā)布日期: 2023-05-22 10:11:11 來源: 萬能網(wǎng)

進化強化學習是機器學習中令人興奮的前沿,它結合了兩種不同方法的優(yōu)勢:強化學習和進化計算。在進化強化學習中,智能代理通過積極探索不同的方法并獲得成功表現(xiàn)的獎勵來學習最佳策略。

這種創(chuàng)新范式將強化學習的試錯學習與進化算法模仿自然選擇的能力相結合,從而產(chǎn)生了一種強大的人工智能開發(fā)方法,有望在各個領域取得突破。


(相關資料圖)

IntelligentComputing上發(fā)表了進化強化學習的綜述文章。它闡明了進化計算與強化學習相結合的最新進展,并全面介紹了最先進的方法。

強化學習是機器學習的一個子領域,側(cè)重于開發(fā)學習根據(jù)環(huán)境反饋做出決策的算法。成功強化學習的顯著例子包括AlphaGo和最近踢足球的GoogleDeepMind機器人。

然而,強化學習仍然面臨一些挑戰(zhàn),包括探索和開發(fā)權衡、獎勵設計、泛化和信用分配。

進化計算模擬自然進化過程來解決問題,為強化學習問題提供了一種潛在的解決方案。通過結合這兩種方法,研究人員創(chuàng)建了進化強化學習領域。

進化強化學習包括六個關鍵研究領域:

超參數(shù)優(yōu)化:進化計算方法可用于超參數(shù)優(yōu)化。也就是說,它們可以自動確定強化學習系統(tǒng)的最佳設置。由于涉及多種因素,例如算法的學習速度及其對未來獎勵的傾向,手動發(fā)現(xiàn)最佳設置可能具有挑戰(zhàn)性。此外,強化學習的性能在很大程度上取決于所采用的神經(jīng)網(wǎng)絡的架構,包括其層數(shù)和大小等因素。

策略搜索:策略搜索需要通過在神經(jīng)網(wǎng)絡的幫助下嘗試不同的策略來找到完成任務的最佳方法。這些網(wǎng)絡類似于強大的計算器,近似執(zhí)行任務并利用深度學習的進步。由于存在多種任務執(zhí)行可能性,搜索過程就像在一個巨大的迷宮中導航。隨機梯度下降是訓練神經(jīng)網(wǎng)絡和在迷宮中導航的常用方法。進化計算提供了基于進化策略、遺傳算法和遺傳編程的替代“神經(jīng)進化”方法。這些方法可以確定用于強化學習的神經(jīng)網(wǎng)絡的最佳權重和其他屬性。

探索:強化學習代理通過與環(huán)境交互來改進。探索太少會導致錯誤的決策,而探索太多則代價高昂。因此,在代理人發(fā)現(xiàn)良好行為的探索與代理人對已發(fā)現(xiàn)的良好行為的利用之間存在權衡。代理人通過為其行為添加隨機性來進行探索。高效探索面臨挑戰(zhàn):大量可能的行動、稀有和延遲的獎勵、不可預測的環(huán)境和復雜的多智能體場景。進化計算方法通過促進競爭、合作和并行化來應對這些挑戰(zhàn)。他們鼓勵通過多樣性和引導進化進行探索。

獎勵塑造:獎勵在強化學習中很重要,但它們通常很少見,而且代理人很難從中學習。獎勵塑造增加了額外的細粒度獎勵,以幫助代理更好地學習。然而,這些獎勵可能會以意想不到的方式改變代理人的行為,要弄清楚這些額外獎勵應該是什么、如何平衡它們以及如何在多個代理人之間分配信用通常需要手頭任務的具體知識。為了應對獎勵設計的挑戰(zhàn),研究人員使用進化計算來調(diào)整單代理和多代理強化學習中的額外獎勵及其設置。

元強化學習:元強化學習旨在開發(fā)一種通用的學習算法,該算法可以利用以前的知識適應不同的任務。這種方法解決了傳統(tǒng)強化學習中需要大量樣本從頭開始學習每個任務的問題。然而,使用元強化學習可以解決的任務的數(shù)量和復雜性仍然有限,并且與之相關的計算成本很高。因此,利用進化計算的模型不可知和高度并行特性是釋放元強化學習全部潛力的一個有前途的方向,使其能夠在現(xiàn)實場景中學習、泛化并提高計算效率。

多目標強化學習:在一些現(xiàn)實世界的問題中,存在多個相互沖突的目標。多目標進化算法可以平衡這些目標,并在沒有解決方案看起來比其他解決方案更好時提出折衷方案。多目標強化學習方法可以分為兩種類型:將多個目標組合成一個以找到單個最佳解決方案的方法和找到一系列好的解決方案的方法。相反,一些單一目標問題可以有效地分解為多個目標,使問題解決更容易。

進化強化學習可以解決復雜的強化學習任務,即使是在具有罕見或誤導性獎勵的場景中也是如此。但是,它需要大量的計算資源,因此計算成本很高。人們越來越需要更有效的方法,包括改進編碼、采樣、搜索運算符、算法框架和評估。

雖然進化強化學習在解決具有挑戰(zhàn)性的強化學習問題方面已經(jīng)顯示出可喜的成果,但仍有可能取得進一步的進展。通過提高其計算效率并探索新的基準、平臺和應用程序,進化強化學習領域的研究人員可以使進化方法更加有效和有用地解決復雜的強化學習任務。

關鍵詞:
24小時熱點 精彩推薦
資訊新聞
?