怎樣從零開始訓練一個AI車手?


如何快速理解強化學習的概念?馴隻貓就行。比如下面這位爺,巨皮。整天就是跑酷、尿炕、抓沙發,搞到人頭皮發麻、心態爆炸。直到你忍不,決定對它進行殘酷的貓德教育。方案是:

允中 發自 凹非寺

以後在傢,每當它表現出一次守貓德的行為,就獎勵一根貓條;

而每當它皮一次,你就立刻撲過去,咬它的頭……

這樣反復拉扯兩個月之後,你的貓再也不敢皮——

這個過程裡發生的事情,就是 “強化學習”

一個智能體(你的貓)在與環境(有你的你傢)互動的過程中,在獎勵(貓條)和懲罰(咬頭)機制的刺激下,逐漸學會一套 能夠最大化自身收益的行為模式(安靜,躺平)。

所以其實,養貓跟搞人工智能,道理是一樣的。

強化學習最著名的代表當然是AlphaGo:幾萬盤棋,左右互搏,最後無師自通成獨步天下的圍棋之神。

如果把AlphaGo看作上面例子裡的貓,那在訓練裡,決定它能否獲得“貓條”的每盤棋最終的對弈結果——贏就有好東西吃,輸就要被吃(bushi)。

另外,DeepMind開發出過一個能在57款雅達利遊戲上都超越人類玩傢的智能體,背後依靠的同樣是強化學習算法。

不過這裡的獎勵和懲罰機制就要根據不同的遊戲來具體設計。比如玩最簡單的吃豆人,就可以對每次吃到豆子的行為進行獎勵,對撞到幽靈gg的狀況給予懲罰。

而除在遊戲領域天空海闊之外,強化學習,其實還能拿來搞自動駕駛。

如何訓練AI司機

為更方便地說明這件事怎麼實現,這裡我們借用一個道具:來自亞馬遜雲科技的Amazon DeepRacer。

一輛看上去很概念的小車,跟真車的比例是1比18。 車上安裝處理器、攝像頭,甚至還可以配置激光雷達,為的就是實現自動駕駛——

當然,前提就是我們先在車上部署訓練好的強化學習算法。

算法的訓練需要在虛擬環境中進行,為此Amazon DeepRacer配套一個管理控制臺,裡面包含一個3D賽車模擬器,能讓人更直觀地看到模型的訓練效果。

有這套東西,我們就能自己嘗試從零開始訓練一個AI司機。

具體怎麼做呢?重點來:

假設這是模擬器裡的一條完全筆直的賽道,以及虛擬環境裡的Amazon DeepRacer賽車。

我們的目標是讓賽車以最短的時間沖刺到終點——那麼對於這條賽道而言,最好的選擇就是讓車盡量沿著中線跑,避免因繞路或出界而導致增加時長。

為此,我們可以把賽道切分成多個網格,然後給這些網格賦予不同的分數:

靠近中間的,給更高的分;在兩側的,稍微意思一下;超出賽道范圍的部分屬於無效區域,如果碰到,就要從頭再來。

開跑之後,一開始,賽車並不知道哪一條是最佳路線,隻是在像無頭蒼蠅一樣四處亂撞,很多時候還會沖出賽道。

但後面,隨著試錯的次數越來越多,在獎勵函數的“指揮”下,賽車會逐漸探索出一條能夠獲得最高累積分數的路線。

理想狀況下,一段時間的訓練、迭代之後,算法就會學會“直線”最快這條真理。

而再把算法部署到車上,我們就能收獲一輛會跑直線的賽車。

當然跑直線隻是一種最簡單的情形,實際的賽道一般都更加復雜,很多時候沿中心線跑也並不是最快的路線,為此我們就需要調整訓練的策略和獎勵函數的設計。

實際操作中,具體函數的編寫同樣通過Amazon DeepRacer的管理控制臺完成。

在寫函數之前,我們可以在上面調整模型的超參數,然後定義它的行動空間,規定賽車行駛的速度和轉向時的角度,甚至……還能選擇賽車的皮膚,等等。

Amazon DeepRacer這一整套服務,蠻像一套入門強化學習的可視化教學工具,新手跟著提示也能一步步做下來,大傢如果有興趣,不妨自己試試。

挑戰吉尼斯?

當然,既然說是賽車,自然要追求速度,越快越好。

而如果你想測試一下,自己“培養”出來的AI司機到底夠不夠快的話……

亞馬遜雲科技官方還搞比賽,讓把大傢訓練的AI司機全都拉出來,比一比 ,看看誰才是真正的秋名山車神。

這個聯賽是一個全球范圍內的正經比賽。18年開始辦第一屆,辦到現在,總共有超過10萬人參加。從線上模擬到線下實體比賽,都有。

比賽在全球的機器學習開發者圈子裡已頗有名氣。去年,還跟F1搞過聯名,喊來當時雷諾車隊的車手裡卡多,跟大夥一塊開車。

而中國區也為中國的開發者建立專門的Amazon DeepRacer聯賽。

今年中國區聯賽分為兩個賽季,每個賽季的月賽根據賽道的難易程度和模型訓練難度的不同,分成大眾組和專業組。月賽組別排名靠前的選手,會有機會晉級到下一組別或參加線下比賽。

當然,比賽都有獎品。耳機、鍵盤、音箱……什麼亂七八糟的都有;

而如果你一不小心拿個賽季總冠軍的話,那恭喜你,你可以白嫖一張去拉斯維加斯的機票(還有酒店、大會門票)。

Amazon DeepRacer聯賽的報名是免費的,也沒有職業要求。隻不過如果你沒滿16周歲就來卷,就得需要監護人允許……

今年的比賽還在進行中,現在在官網上註冊賬號,就會自動獲得亞馬遜雲服務上10個小時的訓練時間,並且可以申請價值30美元的“點卡”。

與之同時,亞馬遜雲科技官方還在搞一個“挑戰吉尼斯世界紀錄”的活動,目標是突破4387這個參賽人數數字,申請成為全世界“最大規模的機器學習競賽”。

今年的每個參賽選手都會成為紀錄的一部分——甚至, 每人都有機會得到一張吉尼斯世界紀錄的挑戰證書

至於這次挑戰的最終結果,會在十月份公佈。

到時,今年的亞馬遜雲科技線上中國峰會將在10月開啟,會上除公佈Amazon DeepRacer吉尼斯挑戰結果,還會有雲計算領域的眾多大咖做分享,以及相關的技術成果展示。

目前,線上峰會已經開啟報名,海報和鏈接在此:

https://summit.awsevents.cn/2022/signin?source=gh/ZsR4xii4TX2Vs20QVMuBJ8myz/eb2C54wsCCG96M=&tab=1&type=2


相關推薦

2023-11-15

區中虛心學習,持續進步。根據說明內容顯示,零一萬物從零開始訓練Yi-34B和Yi-6B模型,並根據實際的訓練框架重新實現訓練代碼,用自建的數據管線構建高質量配比的訓練數據集(從3PB原始數據精選到3T token高質量數據)。在

2024-03-29

有人能從零開始制造3D顯卡嗎?迪倫-巴裡(DylanBarrie)想找出答案,並花四年時間進行嘗試。他的成果是一塊完整的GPU,理論上可以在Windows上運行舊版遊戲軟件。迪倫-巴裡(Dylan Barrie)是一名遊戲開發人員和硬件愛好者。在過

2023-05-28

研CPM-Bee 10b 模型開源,並允許商用。李大海介紹,該模型從零開始自主訓練,基於Transformer架構,中英雙語表現優秀,擁有百億量級參數、萬億級高質量語料。

2022-10-06

能達到的算法空間大得多的算法空間。事實上,AlphaTensor 從零開始發現許多可證明正確的矩陣乘法算法,這些算法在標量乘法的數量方面改進現有算法。結果表明,AlphaTensor發現的算法在許多矩陣規模上都優於最先進的方法。從

2023-03-23

英偉達碰上OpenAI會擦出怎樣的火花?就在剛剛,英偉達創始人兼首席執行官黃仁勛在GTC的爐邊談話中與OpenAI共同創辦人IlyaSutskever進行一次深入交流。前兩天,OpenAI推出迄今為止最強大的人工智能模型GPT-4。OpenAI在官網上稱GPT-4是

2024-03-27

群項目的對話沒想到,GPT-5還沒發,微軟就已悄悄為OpenAI開始訓練GPT-6。同在今天,一張“OpenAI內部時間線”圖片在網上瘋轉。圖中清晰標註出:OpenAI早在2022年8月-10月之間開始GPT-5(代號Arrakis)的訓練,2023年4月GPT-4.5(代號Gobi

2024-02-21

探索數學的奧秘,而非取代他的人工智能。他說:“當我開始訓練這些模型時,這正是我所期待的。”面對人工智能系統的崛起,Scale AI負責數據運營的副總裁威洛·普裡馬克(Willow Primack)強調,隨著AI系統開始生成知識和內容

2023-11-04

Huggingface 自傢的 BLOOM 大模型,有 1760 億參數,光是前期訓練它,就得花掉 43.3 萬度電,我換算下,相當於國內 117 個傢庭一年用掉的電量。和它參數量相當的 GPT-3 ,耗電量就更不受控制,同樣是前期訓練,就要用掉 128.7 萬度電

2022-09-01

最近在貼吧和一些相關論壇中,有關固態硬盤“0E”的討論成為熱門話題,討論指向某些型號的NVMe固態硬盤正頻繁出現S.M.A.R.T.信息中“0E”與“03”兩項的異常值,而這兩個現象意味著這類NVM存儲介質正在出現非正常壽命損耗范

2023-04-08

已從局部探索走向千行百業,AI走進企業核心生產系統,開始創造更大價值。人工智能行業滲透率提速,2026年將達到20%。他分享人工智能發展面臨的兩大趨勢:第一,從小模型到大模型,過去10年內AI算法的算力需求提升40萬倍。

2024-03-18

。每個階段都會基於前一個階段的權重繼續訓練。相比於從零開始單階段訓練,多階段訓練通過逐步擴展數據,更高效地達成高質量視頻生成的目標。訓練方案三階段第一階段是大規模圖像預訓練。團隊利用互聯網上豐富的圖像

2022-08-08

點評一下你的老板。”遇到這類問題,社畜們通常會給出怎樣的答案?笑嘻嘻,心裡……而AI聊天機器人遇到這種情況的時候,就可以隨心所欲做自己。面對網友評論紮克伯格的要求,BlenderBot3瘋狂diss老板——“不道德”“是個

2024-05-12

手的最終利器。據Chiphell論壇可信消息來源透露,AMD正在從零開始研發RDNA 5 GPU架構,旨在成為Radeon部門的“Zen時刻”(Zen時刻通常指代AMD在CPU架構方面取得的重大突破)。報道指出,AMD的RDNA 3 GPU系列路線圖遇到些許挫折。這些

2023-02-25

時間,Stable Diffusion很快成為熱門話題。數百萬用戶被其從零開始創作藝術的能力所吸引,根據用戶給出的不同提示(Prompt),這一工具不斷輸出獲得病毒式傳播。《2022年人工智能狀況報告》投資者Nathan Benaich稱,“這個工具打