他們用ChatGPT方式搞自動駕駛 論文入選ICRA 2023


這是首個基於Transformer的駕駛行為描述框架,可以感知和預測駕駛行為。也就是說,輸入車輛視頻後,這個算法可以判斷車輛行為並告訴你:車在做什麼,為什麼要這麼做。還在玩ChatGPT?已經有自動駕駛算法能告訴你“我在幹嘛”。

基於視覺和神經網絡的自動駕駛算法,雖然能通過傳感器數據,以及學習人類的駕駛行為,自主決策並控制車輛。


但是,算法基於什麼做出的決策?特別是出現故障,也就是決策錯誤的時候,算法是怎麼想的?這些一直被稱為自動駕駛算法裡的“黑匣子”,讓算法缺乏透明度可解釋性

不過,現在有這麼一個模型,既能預測車輛控制行為,還能自己解釋“我停車是因為紅燈亮,並且有行人在過馬路”。

模型論文入選ICRA 2023,相關模型已開源。

那麼,是一個什麼樣的算法?

ADAPT:駕駛行為感知說明大模型

這是一種叫ADAPT(Action-aware Driving Caption Transformer)的端到端算法,也是目前第一個基於Transformer的駕駛行為描述框架,可以感知和預測駕駛行為,並且輸出自然語言敘述和推理。


直白一點說,輸入車輛視頻後,這個算法可以判斷車輛行為並告訴你:車在做什麼,為什麼要這麼做。


在論文作者提供的測試視頻裡,這個算法最終上車的效果是這樣的。(紅色字是車輛行為,藍色字是解釋)

“車在向前開。因為路上沒有車。”


駕駛行為變化後,算法也能及時感知:

“車靠左邊停下。因為要停車。”


“車開始移動並且靠右行駛。因為路左邊停著車。”


算法不僅能識別路口,也能識別騎著車的人。

“車在十字路口停下。因為要避開街上騎著自行車的人,”


這是怎麼實現的?

多任務框架下的聯合訓練

ADAPT框架可以分為兩個部分:車輛行為描述(DCG,Driving Caption Generation)和車輛控制信號預測(CSP,Control Signal Prediction)。


首先,傳感器端輸入視頻,Video Swin Transformer對車輛視頻進行編碼,得到的視頻特征會輸入進各任務模塊裡。

在DCG模塊,算法利用Vision-Language Transformer生成兩個自然語句,也就是上文中提到的車輛行為描述原因解釋

相同的視頻特征也會輸入進CSP模塊(類似一般基於視覺的自動駕駛系統),輸出車輛實際的控制信號序列,並利用Motion Transformer輸出模型預測的控制信號,比如速度、方向和加速度。

在單個網絡中,作者利用車輛實際的控制信號序列和模型預測的控制信號序列,兩者的均方誤差作為CSP模塊的損失函數。


而在多任務框架下,通過聯合訓練DCG和CSP,可以減少車輛決策和文本描述之間的差異,提高控制信號預測的準確率。

論文裡,作者們在包含控制信號和車輛視頻的大規模數據集BDD-X上,利用機器評測和人工評測驗證ADAPT的有效性。

機器評測方面,使用的是BLEU4、METEOR、ROUGE-L和CIDEr(對應縮寫分別為B4、M、R、C)等多種語言任務常用的指標。


最終顯示ADAPT達到當前最優(State-of-the-Art)的結果,ADAPT在動作描述方面比原有先進方法CIDEr高出31.7,在原因解釋方面高33.1。


人工評測分為動作描述、原因解釋和全句三個部分。通過人工判斷,ADAPT在這三部分的準確性分別達到90%,90.3%和82.7%,證明ADAPT的有效性。


在可視化結果裡,也能看出ADAPT可以準確識別車輛行為以及決策原因。並且在黑夜、陰雨天等場景下,ADAPT也能保證準確度;即使有雨刷器幹擾,ADAPT也可以識別道路上的停止標識。

為什麼需要ADAPT?

自動駕駛行為的可解釋性

在基於視覺的自動駕駛算法裡,比較常見的解釋圖有視覺註意圖(Attention Map),或者成本量圖(Cost Volume),但不熟悉自動駕駛算法的人容易對這些圖造成誤解。

上:視覺註意圖;下:成本量圖
上:視覺註意圖;下:成本量圖

因此,ADAPT這種能夠生成自然語言、“說人話”的算法,能夠幫助用戶更好地理解自動駕駛算法在做什麼、為什麼要這麼做,同時還能讓用戶更信任自動駕駛技術。

而對於算法工程師和研究人員來說,當發生極端情況時、或者發生故障(比如判斷錯誤)時,ADAPT可以幫助他們獲得更多信息,進而改進算法。


作者們將進一步研究如何在模擬器和實際車輛上如何部署ADAPT,以及如何利用文本轉語音技術,讓生成的句子轉化為語音,幫助普通乘客,特別是視力障礙乘客使用。


相關推薦

2024-05-08

作,整個過程栩栩如生,帶給公眾的震撼不亞於2022年底ChatGPT的問世。目前,這條視頻的Youtube播放量已經積累到4059萬。2017年,Atlas再接再厲,用一個精彩的後空翻再度把波士頓動力送上全球熱搜。Atlas表演後空翻,2017年然而,

2024-04-17

駛比預期的更難”。但沒幾個月,他支持過的 OpenAI 發佈 ChatGPT ,給他新的信心。一個月後,特斯拉自動駕駛工程師達瓦爾·史羅夫(Dhaval Shroff)為馬斯克展示還是設想的新版自動駕駛系統,說 “這就像 ChatGPT,但針對的是汽車

2022-09-01

人自動駕駛的商業運營,雖然中間也有各種磕磕絆絆,但他們還是堅持下來,並且在不斷擴大運營范圍。在中國,百度的蘿卜快跑7月份累計訂單量超過100萬單,運營范圍遍及北京、上海等10多個城市,本月初,重慶和武漢分別開

2022-10-07

是什麼:對人類反應時間進行建模Waymo的貢獻之一在於,他們研究出一種全新架構模型——以此來對真實道路環境下的司機反應時間進行測量和建模。其實簡單地說,就是通過人類司機應對緊急情況的平均反應時間,來對比一個

2022-09-30

事。許多確定反應時間的傳統方法並沒有考慮到緊迫感。他們傾向於高估司機的反應時間,假設他們在快速移動的情況下反應較慢或在緩慢移動的情況下反應較快。但Waymo以不同的方式處理這個問題。在其研究中,它決定在司機

2024-03-17

萬分之0.44,“比燃油車還低”。網友對燃油汽車也可以搞自動駕駛,為什麼非要用電動汽車?”的質疑,歐陽明高強調:中國也是汽車智能化領先的國傢之一,電動汽車具有智能化的先天優勢,燃油車自動駕駛無法跟電動汽車

2024-03-11

它背後的工作原理,已經非常不一樣。”談到文心一言和ChatGPT目前的區別,李彥宏說,“在中文上我們其實已經很明顯超過,比如說寫一首詞牌名為《沁園春》的詞,那ChatGPT4.0完全就搞蒙,它不知道第一句是4個字還是5個字。

2022-06-28

襲國內2021年發表的一篇文章。爆料指出,IBM論文剽竊瞭他們的方法,包括預處理、可視化、推理、系統解決方案等,但並沒有引用他們的論文。抄襲事件頻出,於是乎不少網友感嘆:這屆CVPR太魔幻瞭。甚至還有人直接在知乎上

2022-07-12

)到滑雪勝地小鎮 Big Sky 的視頻,以向蘋果 CEO 庫克展示他們的泰坦項目的進展。▲ 蘋果公司的自動駕駛測試車蘋果公司的高管稱贊這次演示非常成功,他們認為,這些車輛表明蘋果的自動駕駛汽車可以在不依賴高精地圖的情況

2024-03-29

工智能工具,但一些客戶報告一個問題:它的性表現不如ChatGPT。但微軟認為,問題在於人們沒有正確使用Copilot,或者不解這兩種產品之間的區別。微軟將 Copilot 推向用戶的策略與其 Windows 10 和 11 的升級活動不相上下。微軟悄悄

2024-02-13

利率維持在75%的水平。人工智能:重新定義工作2023年,ChatGPT掀起的AI浪潮“一浪高過一浪”,AI迅速融入到人們生活的方方面面,ARK在報告中指出,得益於訓練AI成本的快速下降以及科技大廠們的開源,AI帶來的遠不僅是效率的

2024-03-04

鮮明還是一點:李飛飛的學生。在斯坦福大學讀博期間,他們成為李飛飛的弟子。李飛飛,現年48歲,被譽為“AI教母”,她是全球AI領域研究的標志性人物,長期主導著斯坦福大學的人工智能學科研究。而她帶出的學生軍團,正

2023-02-08

類司機納入其中。這就是"白色階段"的意義所在。他們的想法是,當成群的自動駕駛汽車接近一個十字路口時,它們將相互溝通,並與在該十字路口運行燈光的計算機溝通。為盡可能快速有效地通過十字路口,所有這些自

2023-04-16

ChatGPT的火熱掀起國內外對大模型的探索熱情,即便是一邊呼籲暫停AI研究以防“失控的人工智能”的馬斯克,近期也被曝正在推特內部啟動人工智能項目。不管是差GPT“2個月”還是“3年”,國內大模型一夜之間已經遍地開花。