国产精品久久久国产盗摄,日韩视频中文字幕视频一区

產(chǎn)品分類Product Categories

當(dāng)前位置：自動(dòng)焊接機(jī) > 激光打標(biāo)機(jī) >

當(dāng)世界模型被用于sim2real：機(jī)器人通過視覺想象和交互嘗試來學(xué)習(xí)

時(shí)間：2024-05-13 點(diǎn)擊：515

人類是若何控制這么多技藝的呢？好吧，最初我們并非如此，但從寶寶期間入手下手，我們經(jīng)過自監(jiān)視覺察并操練愈來愈龐大的技藝。但這類自監(jiān)視并非隨機(jī)的——兒童進(jìn)展文獻(xiàn)注解，寶寶使用他們先前的履歷，經(jīng)過互動(dòng)和感官反應(yīng)，對(duì)移動(dòng)性、吸吮性、抓握性和消化性等可供性（affordance，還譯作功效可供性、承當(dāng)特質(zhì)、直觀功效、預(yù)設(shè)用處、可操作表示、示能性等，指事物可以提醒其可以贊助人們干什么的一種屬性或特性）舉行定向探索。這類范例的定向探索答應(yīng)寶寶正在既定環(huán)境中進(jìn)修可以干什么和若何干。那末，正在機(jī)器人進(jìn)修體系中，我們是不是還可以實(shí)例一個(gè)類似于可供性定向探索的計(jì)謀?

如下圖所示。正在左邊，我們先收集了由機(jī)器人完成種種使命的視頻，例如翻開和封閉抽屜、抓取和挪動(dòng)物體。正在右邊，我們安排了一個(gè)機(jī)器人從未見過的蓋子。機(jī)器人被賜與一小段工夫來熟悉這個(gè)新物體，以后它將取得一個(gè)目的圖象，并賣力使場(chǎng)景婚配這個(gè)圖象。機(jī)器人如安正在沒有任何外部監(jiān)視的情況下敏捷學(xué)會(huì)操控環(huán)境并捉住蓋子？

為此，我們面對(duì)幾項(xiàng)挑釁。當(dāng)機(jī)器人被置于一個(gè)新環(huán)境時(shí)，它必需可以哄騙其先前的常識(shí)來思索環(huán)境也許給予的潛正在有效行動(dòng)。然后，機(jī)器人必需可以預(yù)期地實(shí)習(xí)這一些行動(dòng)。為了正在新的環(huán)境中改良本身，機(jī)器人必需可以正在沒有外部嘉獎(jiǎng)的情況下以某種方法評(píng)價(jià)本身的勝利。

若是我們能可靠地克服這一些挑釁，就能為一個(gè)強(qiáng)有力的輪回翻開大門。正在這個(gè)輪回中，我們的智能體利用先前的履歷來收集高質(zhì)量的交互數(shù)據(jù)，然后進(jìn)一步增加它們以往的履歷，不斷提高它們的潛正在功效！

1.VAL：視覺活動(dòng)可供性進(jìn)修

我們的辦法，視覺活動(dòng)可供性進(jìn)修（Visuomotor Affordance Learning，簡(jiǎn)稱VAL），處理了這一些挑釁。正在VAL中，我們首先假定能夠獲得機(jī)械人正在各類環(huán)境中展現(xiàn)可供性的先驗(yàn)數(shù)據(jù)集。至此，VAL進(jìn)入了一個(gè)離線階段，該階段運(yùn)用這一些信息進(jìn)修 1)設(shè)想新環(huán)境中有用的可供性生成模子，2) 適用于有用探索這一些可供性的壯大離線戰(zhàn)略，和 3) 改善該戰(zhàn)略的自我評(píng)價(jià)器量。末了，VAL已準(zhǔn)備好進(jìn)入正在線階段。智能體被安排正在一個(gè)新的環(huán)境中，此刻能夠運(yùn)用這一些學(xué)到的功能來開展自監(jiān)視的微調(diào)。全部框架如下圖所示。隨后，我們將深入探討離線和正在線階段的技術(shù)細(xì)節(jié)。

當(dāng)世界模型被用于sim2real：機(jī)器人通過視覺想象和交互嘗試來學(xué)習(xí)

2.VAL：離線階段

給定一個(gè)展現(xiàn)種種環(huán)境可供性的先驗(yàn)數(shù)據(jù)集，VAL正在三個(gè)離線步調(diào)中消化這一些信息：適用于處置懲罰高維實(shí)在天下數(shù)據(jù)的默示進(jìn)修，正在未知環(huán)境中實(shí)現(xiàn)自監(jiān)視實(shí)習(xí)的可供性進(jìn)修，適用于得到高性能的初始計(jì)謀以加速正在線進(jìn)修效力的行動(dòng)進(jìn)修。

1. 首先，VAL運(yùn)用矢量量化變分主動(dòng)編碼器（VQVAE）進(jìn)修該數(shù)據(jù)的低維暗示。這個(gè)歷程將我們的48x48x3圖象壓縮到144維的潛在空間。

正在這個(gè)潛正在空間的間隔是有意義的，為我們自我評(píng)價(jià)樂成的環(huán)節(jié)機(jī)制鋪平了途徑。給定當(dāng)前圖象s和目的圖象g，我們將它們編碼進(jìn)潛正在空間，并設(shè)定它們可以獲得嘉獎(jiǎng)的間隔閾值。

隨后，我們還將運(yùn)用這個(gè)暗示作為我們潛在空間的戰(zhàn)略和Q函數(shù)。

2.接下來，VAL 經(jīng)過正在潛正在空間中鍛煉 PixelCNN 來進(jìn)修可供性模子，以進(jìn)修以環(huán)境圖象為前提的可達(dá)狀況分布。這是經(jīng)過最大化數(shù)據(jù)的似然 p(sn|s0) 來完成的。我們利用這類可供性模子開展定向探索和從新符號(hào)目的。

可供性模子如右圖所示。正在該圖的左下方，我們看到前提圖象包括一個(gè)罐子，右上方解碼的潛正在方針表現(xiàn)了差別位置的蓋子。這一些連接的方針將容許機(jī)器人開展連接的探索。

3. 末了正在離線階段，VAL必需由離線數(shù)據(jù)中進(jìn)修舉動(dòng)，然后能夠經(jīng)由過程分外的正在線交互式數(shù)據(jù)收集開展改良。

為了實(shí)現(xiàn)這一點(diǎn)，我們利用加權(quán)強(qiáng)化進(jìn)修算法（Advantage Weighted Actor Critic）正在先驗(yàn)數(shù)據(jù)集上練習(xí)目的前提計(jì)謀，這是一種專為離線練習(xí)和正在線微調(diào)而設(shè)計(jì)的算法。

3.VAL：在線階段

此刻，當(dāng)VAL被安排正在一個(gè)未見過的環(huán)境中時(shí)，它利用其先前的常識(shí)來設(shè)想有效可供性的視覺暗示，經(jīng)過實(shí)驗(yàn)實(shí)現(xiàn)這一些可供性來收集有效的交互數(shù)據(jù)，利用其自我評(píng)價(jià)目標(biāo)更新其參數(shù)，并一向反復(fù)全部歷程。

正在這個(gè)實(shí)在的例子中，正在左邊我們看到了環(huán)境的初始狀況，它供應(yīng)了翻開抽屜和其他使命的功用。

正在步調(diào)1中，可供性模子對(duì)潛正在目的舉行采樣。經(jīng)過解碼目的（利用 VQVAE 解碼器，正在RL時(shí)期從未實(shí)際利用過，由于我們完整正在潛正在空間中操縱），我們能夠看到可供性是翻開抽屜。

正在步調(diào)2中，我們利用具有采樣目標(biāo)的鍛煉計(jì)謀。我們看到它樂成打開了抽屜，事實(shí)上它拉太鼎力了，直接把抽屜拉了出來。但這為RL算法進(jìn)一步微折衷完善其計(jì)謀給予了極為有效的交互。

在線微調(diào)完成后，我們目前能夠評(píng)價(jià)機(jī)械人在每一個(gè)環(huán)境中實(shí)現(xiàn)相應(yīng)的未見過的方針圖象的本領(lǐng)。

4.實(shí)在環(huán)境評(píng)價(jià)

我們正在五個(gè)實(shí)在的測(cè)試環(huán)境中評(píng)價(jià)我們的方式，并評(píng)價(jià)VAL正在無監(jiān)視微調(diào)之前和五分鐘以后完成環(huán)境供應(yīng)的特定義務(wù)的本領(lǐng)。

每一個(gè)測(cè)試環(huán)境最少包羅一個(gè)未見過的交互工具和兩個(gè)隨機(jī)抽樣的滋擾工具。比方，當(dāng)鍛煉數(shù)據(jù)中有翻開和封閉抽屜時(shí)，新的抽屜有沒見過的把手。

每一個(gè)測(cè)試，我們都從離線練習(xí)計(jì)謀最先，它每一次完成任務(wù)的體例都不同等。然后，我們利用我們的可供性模子收集更多經(jīng)歷來采樣目的。末了，我們?cè)u(píng)價(jià)顛末微調(diào)的計(jì)謀，它能始終同等地完成任務(wù)。

我們發(fā)明，正在這一些環(huán)境中，VAL正在離線練習(xí)后始終顯示出有用的零樣本泛化，隨后經(jīng)由過程其可供性導(dǎo)向的微調(diào)計(jì)劃快速改善。與此同時(shí)，先前的自監(jiān)視辦法正在這一些新環(huán)境中幾乎沒有改良。這一些令人興奮的結(jié)果表明，像VAL那樣的辦法具有使機(jī)器人勝利把持的潛力，遠(yuǎn)遠(yuǎn)超越它們目下當(dāng)今習(xí)慣的有限的出廠設(shè)置。

我們的2,500個(gè)高質(zhì)量機(jī)器人交互軌跡數(shù)據(jù)集，涵蓋20個(gè)抽屜把手，20個(gè)鍋把手，60個(gè)玩具和60個(gè)滋擾物，現(xiàn)已在我們的網(wǎng)站上公開宣布。

數(shù)據(jù)集地點(diǎn)：

5.摹擬評(píng)價(jià)取代碼

為了進(jìn)一步剖析，我們正在具有視覺和靜態(tài)變革的法式生成的多任務(wù)環(huán)境中運(yùn)轉(zhuǎn) VAL。場(chǎng)景中的工具和它們的色彩和位置全是隨機(jī)的。序言可以用把手翻開抽屜、抓取物體并挪動(dòng)它們、按按鈕翻開隔間等等。

給定機(jī)器人一個(gè)包括各類環(huán)境的先驗(yàn)數(shù)據(jù)集，并按照其正在以下測(cè)試環(huán)境中的微調(diào)本領(lǐng)開展評(píng)價(jià)。

一樣，給定一個(gè)單一的非計(jì)謀數(shù)據(jù)集，我們的辦法能夠快速進(jìn)修高等操作技能，包孕抓取物體、翻開抽屜、挪動(dòng)物體，以及對(duì)種種新工具運(yùn)用東西。

環(huán)境和算法代碼均已公開，請(qǐng)查閱我我們的代碼庫(kù)。

代碼地點(diǎn)：

6.將來的事情

就像計(jì)算機(jī)視覺和自然語(yǔ)言處置懲罰等范疇的深度進(jìn)修是由大型數(shù)據(jù)集和泛化驅(qū)動(dòng)的一樣，機(jī)器人也許需求從相似范圍的數(shù)據(jù)中進(jìn)修。正因?yàn)槿绱?，離線強(qiáng)化進(jìn)修的革新關(guān)于使機(jī)器人可以行使大型先驗(yàn)數(shù)據(jù)集至關(guān)重要。另外，這一些離線戰(zhàn)略要末需求快速的非自立微調(diào)，要末需求完整自立的微調(diào)，以便在實(shí)際天下中布置是可行的。末了，一旦機(jī)器人自力運(yùn)轉(zhuǎn)，我們就可以得到連綿不斷的新數(shù)據(jù)，這就強(qiáng)調(diào)了畢生進(jìn)修算法的重要性和價(jià)值。

原文鏈接：

上一篇：寧波——中國(guó)智慧城市建設(shè)的領(lǐng)軍城市

下一篇：美國(guó)校園安全問題頻發(fā)，自主機(jī)器人開始進(jìn)入美國(guó)學(xué)校安保系統(tǒng)

日韩国产精品久久午夜夜伦鲁鲁,日韩国产欧美另类,国产黃色三級三級三級,亚洲中文字幕一片,久久无码专区国产精品,91精品国产高久久久久久五月天

當(dāng)世界模型被用于sim2real：機(jī)器人通過視覺想象和交互嘗試來學(xué)習(xí)