日韩国产精品久久午夜夜伦鲁鲁,日韩国产欧美另类,国产黃色三級三級三級,亚洲中文字幕一片,久久无码专区国产精品,91精品国产高久久久久久五月天

江蘇昊目智能

當(dāng)世界模型被用于sim2real:機(jī)器人通過視覺想象和交互嘗試來學(xué)習(xí)

點(diǎn)擊:515

人類是若何控制這么多技藝的呢?好吧,最初我們并非如此,但從寶寶期間入手下手,我們經(jīng)過自監(jiān)視覺察并操練愈來愈龐大的技藝。但這類自監(jiān)視并非隨機(jī)的——兒童進(jìn)展文獻(xiàn)注解,寶寶使用他們先前的履歷,經(jīng)過互動(dòng)和感官反應(yīng),對(duì)移動(dòng)性、吸吮性、抓握性和消化性等可供性(affordance,還譯作功效可供性、承當(dāng)特質(zhì)、直觀功效、預(yù)設(shè)用處、可操作表示、示能性等,指事物可以提醒其可以贊助人們干什么的一種屬性或特性)舉行定向探索。這類范例的定向探索答應(yīng)寶寶正在既定環(huán)境中進(jìn)修可以干什么和若何干。那末,正在機(jī)器人進(jìn)修體系中,我們是不是還可以實(shí)例一個(gè)類似于可供性定向探索的計(jì)謀?

如下圖所示。正在左邊,我們先收集了由機(jī)器人完成種種使命的視頻,例如翻開和封閉抽屜、抓取和挪動(dòng)物體。正在右邊,我們安排了一個(gè)機(jī)器人從未見過的蓋子。機(jī)器人被賜與一小段工夫來熟悉這個(gè)新物體,以后它將取得一個(gè)目的圖象,并賣力使場(chǎng)景婚配這個(gè)圖象。機(jī)器人如安正在沒有任何外部監(jiān)視的情況下敏捷學(xué)會(huì)操控環(huán)境并捉住蓋子?

為此,我們面對(duì)幾項(xiàng)挑釁。當(dāng)機(jī)器人被置于一個(gè)新環(huán)境時(shí),它必需可以哄騙其先前的常識(shí)來思索環(huán)境也許給予的潛正在有效行動(dòng)。然后,機(jī)器人必需可以預(yù)期地實(shí)習(xí)這一些行動(dòng)。為了正在新的環(huán)境中改良本身,機(jī)器人必需可以正在沒有外部嘉獎(jiǎng)的情況下以某種方法評(píng)價(jià)本身的勝利。

若是我們能可靠地克服這一些挑釁,就能為一個(gè)強(qiáng)有力的輪回翻開大門。正在這個(gè)輪回中,我們的智能體利用先前的履歷來收集高質(zhì)量的交互數(shù)據(jù),然后進(jìn)一步增加它們以往的履歷,不斷提高它們的潛正在功效!

1.VAL:視覺活動(dòng)可供性進(jìn)修

我們的辦法,視覺活動(dòng)可供性進(jìn)修(Visuomotor Affordance Learning,簡(jiǎn)稱VAL),處理了這一些挑釁。正在VAL中,我們首先假定能夠獲得機(jī)械人正在各類環(huán)境中展現(xiàn)可供性的先驗(yàn)數(shù)據(jù)集。至此,VAL進(jìn)入了一個(gè)離線階段,該階段運(yùn)用這一些信息進(jìn)修 1)設(shè)想新環(huán)境中有用的可供性生成模子,2) 適用于有用探索這一些可供性的壯大離線戰(zhàn)略,和 3) 改善該戰(zhàn)略的自我評(píng)價(jià)器量。末了,VAL已準(zhǔn)備好進(jìn)入正在線階段。智能體被安排正在一個(gè)新的環(huán)境中,此刻能夠運(yùn)用這一些學(xué)到的功能來開展自監(jiān)視的微調(diào)。全部框架如下圖所示。隨后,我們將深入探討離線和正在線階段的技術(shù)細(xì)節(jié)。

當(dāng)世界模型被用于sim2real:機(jī)器人通過視覺想象和交互嘗試來學(xué)習(xí)

2.VAL:離線階段

給定一個(gè)展現(xiàn)種種環(huán)境可供性的先驗(yàn)數(shù)據(jù)集,VAL正在三個(gè)離線步調(diào)中消化這一些信息:適用于處置懲罰高維實(shí)在天下數(shù)據(jù)的默示進(jìn)修,正在未知環(huán)境中實(shí)現(xiàn)自監(jiān)視實(shí)習(xí)的可供性進(jìn)修,適用于得到高性能的初始計(jì)謀以加速正在線進(jìn)修效力的行動(dòng)進(jìn)修。

1. 首先,VAL運(yùn)用矢量量化變分主動(dòng)編碼器(VQVAE)進(jìn)修該數(shù)據(jù)的低維暗示。這個(gè)歷程將我們的48x48x3圖象壓縮到144維的潛在空間。

正在這個(gè)潛正在空間的間隔是有意義的,為我們自我評(píng)價(jià)樂成的環(huán)節(jié)機(jī)制鋪平了途徑。給定當(dāng)前圖象s和目的圖象g,我們將它們編碼進(jìn)潛正在空間,并設(shè)定它們可以獲得嘉獎(jiǎng)的間隔閾值。

隨后,我們還將運(yùn)用這個(gè)暗示作為我們潛在空間的戰(zhàn)略和Q函數(shù)。

2.接下來,VAL 經(jīng)過正在潛正在空間中鍛煉 PixelCNN 來進(jìn)修可供性模子,以進(jìn)修以環(huán)境圖象為前提的可達(dá)狀況分布。這是經(jīng)過最大化數(shù)據(jù)的似然 p(sn|s0) 來完成的。我們利用這類可供性模子開展定向探索和從新符號(hào)目的。

可供性模子如右圖所示。正在該圖的左下方,我們看到前提圖象包括一個(gè)罐子,右上方解碼的潛正在方針表現(xiàn)了差別位置的蓋子。這一些連接的方針將容許機(jī)器人開展連接的探索。

3. 末了正在離線階段,VAL必需由離線數(shù)據(jù)中進(jìn)修舉動(dòng),然后能夠經(jīng)由過程分外的正在線交互式數(shù)據(jù)收集開展改良。

為了實(shí)現(xiàn)這一點(diǎn),我們利用加權(quán)強(qiáng)化進(jìn)修算法(Advantage Weighted Actor Critic)正在先驗(yàn)數(shù)據(jù)集上練習(xí)目的前提計(jì)謀,這是一種專為離線練習(xí)和正在線微調(diào)而設(shè)計(jì)的算法。

3.VAL:在線階段

此刻,當(dāng)VAL被安排正在一個(gè)未見過的環(huán)境中時(shí),它利用其先前的常識(shí)來設(shè)想有效可供性的視覺暗示,經(jīng)過實(shí)驗(yàn)實(shí)現(xiàn)這一些可供性來收集有效的交互數(shù)據(jù),利用其自我評(píng)價(jià)目標(biāo)更新其參數(shù),并一向反復(fù)全部歷程。

正在這個(gè)實(shí)在的例子中,正在左邊我們看到了環(huán)境的初始狀況,它供應(yīng)了翻開抽屜和其他使命的功用。

正在步調(diào)1中,可供性模子對(duì)潛正在目的舉行采樣。經(jīng)過解碼目的(利用 VQVAE 解碼器,正在RL時(shí)期從未實(shí)際利用過,由于我們完整正在潛正在空間中操縱),我們能夠看到可供性是翻開抽屜。

正在步調(diào)2中,我們利用具有采樣目標(biāo)的鍛煉計(jì)謀。我們看到它樂成打開了抽屜,事實(shí)上它拉太鼎力了,直接把抽屜拉了出來。但這為RL算法進(jìn)一步微折衷完善其計(jì)謀給予了極為有效的交互。

在線微調(diào)完成后,我們目前能夠評(píng)價(jià)機(jī)械人在每一個(gè)環(huán)境中實(shí)現(xiàn)相應(yīng)的未見過的方針圖象的本領(lǐng)。

4.實(shí)在環(huán)境評(píng)價(jià)

我們正在五個(gè)實(shí)在的測(cè)試環(huán)境中評(píng)價(jià)我們的方式,并評(píng)價(jià)VAL正在無監(jiān)視微調(diào)之前和五分鐘以后完成環(huán)境供應(yīng)的特定義務(wù)的本領(lǐng)。

每一個(gè)測(cè)試環(huán)境最少包羅一個(gè)未見過的交互工具和兩個(gè)隨機(jī)抽樣的滋擾工具。比方,當(dāng)鍛煉數(shù)據(jù)中有翻開和封閉抽屜時(shí),新的抽屜有沒見過的把手。

每一個(gè)測(cè)試,我們都從離線練習(xí)計(jì)謀最先,它每一次完成任務(wù)的體例都不同等。然后,我們利用我們的可供性模子收集更多經(jīng)歷來采樣目的。末了,我們?cè)u(píng)價(jià)顛末微調(diào)的計(jì)謀,它能始終同等地完成任務(wù)。

我們發(fā)明,正在這一些環(huán)境中,VAL正在離線練習(xí)后始終顯示出有用的零樣本泛化,隨后經(jīng)由過程其可供性導(dǎo)向的微調(diào)計(jì)劃快速改善。與此同時(shí),先前的自監(jiān)視辦法正在這一些新環(huán)境中幾乎沒有改良。這一些令人興奮的結(jié)果表明,像VAL那樣的辦法具有使機(jī)器人勝利把持的潛力,遠(yuǎn)遠(yuǎn)超越它們目下當(dāng)今習(xí)慣的有限的出廠設(shè)置。

我們的2,500個(gè)高質(zhì)量機(jī)器人交互軌跡數(shù)據(jù)集,涵蓋20個(gè)抽屜把手,20個(gè)鍋把手,60個(gè)玩具和60個(gè)滋擾物,現(xiàn)已在我們的網(wǎng)站上公開宣布。

數(shù)據(jù)集地點(diǎn):

5.摹擬評(píng)價(jià)取代碼

為了進(jìn)一步剖析,我們正在具有視覺和靜態(tài)變革的法式生成的多任務(wù)環(huán)境中運(yùn)轉(zhuǎn) VAL。場(chǎng)景中的工具和它們的色彩和位置全是隨機(jī)的。序言可以用把手翻開抽屜、抓取物體并挪動(dòng)它們、按按鈕翻開隔間等等。

給定機(jī)器人一個(gè)包括各類環(huán)境的先驗(yàn)數(shù)據(jù)集,并按照其正在以下測(cè)試環(huán)境中的微調(diào)本領(lǐng)開展評(píng)價(jià)。

一樣,給定一個(gè)單一的非計(jì)謀數(shù)據(jù)集,我們的辦法能夠快速進(jìn)修高等操作技能,包孕抓取物體、翻開抽屜、挪動(dòng)物體,以及對(duì)種種新工具運(yùn)用東西。

環(huán)境和算法代碼均已公開,請(qǐng)查閱我我們的代碼庫(kù)。

代碼地點(diǎn):

6.將來的事情

就像計(jì)算機(jī)視覺和自然語(yǔ)言處置懲罰等范疇的深度進(jìn)修是由大型數(shù)據(jù)集和泛化驅(qū)動(dòng)的一樣,機(jī)器人也許需求從相似范圍的數(shù)據(jù)中進(jìn)修。正因?yàn)槿绱?,離線強(qiáng)化進(jìn)修的革新關(guān)于使機(jī)器人可以行使大型先驗(yàn)數(shù)據(jù)集至關(guān)重要。另外,這一些離線戰(zhàn)略要末需求快速的非自立微調(diào),要末需求完整自立的微調(diào),以便在實(shí)際天下中布置是可行的。末了,一旦機(jī)器人自力運(yùn)轉(zhuǎn),我們就可以得到連綿不斷的新數(shù)據(jù),這就強(qiáng)調(diào)了畢生進(jìn)修算法的重要性和價(jià)值。

原文鏈接:

平远县| 淮滨县| 含山县| 宁蒗| 井陉县| 开平市| 霍山县| 安庆市| 南部县| 那曲县| 奉新县| 洛扎县| 精河县| 年辖:市辖区| 原平市| 东乌珠穆沁旗|