自動駕駛老前輩Waymo發話:我們的AI司機能夠規避75%的碰撞事故發生,減少93%的嚴重受傷,統統高於理想狀態下人類司機模型的62.5%和84%。等等,你發現問題沒有?如此精確的定量描述自動駕駛安全性,Waymo的依據是什麼?
Waymo最新論文的目的,並不是炫耀自動駕駛有多安全,至少不全是。
AEB(主動剎車)成標配,智能汽車喊很多年。
但各傢水準不一,多少時速、什麼樣的障礙物下AEB或緊急避讓生效,才算合格的產品?
Waymo真正的目標是嘗試制定一套規范,來定義和評價某個自動駕駛系統是否安全。
以後任何公司說自動駕駛比人類司機更安全,需要用科學的計算體系做支撐,而不是簡單籠統地用不同條件下路測和事故情況作比較。
評價的基準是什麼:對人類反應時間進行建模
Waymo的貢獻之一在於,他們研究出一種全新架構模型——以此來對真實道路環境下的司機反應時間進行測量和建模。
其實簡單地說,就是通過人類司機應對緊急情況的平均反應時間,來對比一個自動駕駛系統的反應時間。
這種架構,不僅適用於自動駕駛,還可用於其他交通安全領域。
具體來看,該模型基於兩大核心觀點得來:
第一,為避免碰撞發生,司機往往會選擇剎車或是打方向盤。他們做出這一舉動,主要因為當前的交通狀況與他們原先所想的不一樣,即司機表現出驚訝。
也就是說,反應時間取決於司機對當前交通狀況的預判。驚訝和意外從何時開始,將會直接決定反應時間的長短。
第二,反應時間取決於動態變化的交通環境。並不存在一個放之四海而皆準的固定時間,可以適用於所有不同場景。
舉例來說就是,如果你前面的車突然急剎,你就能迅速作出反應;相反,在其他條件都相同的情況下,如果前車緩慢減速,你的反應時間也會相應延長。
需要特別說明的是,這裡的反應時間,專指司機決定是否要剎車或轉彎的心理過程,不包括後續的規避動作(即打方向盤或踩剎車)。
下圖可以更好地解釋他們的模型架構。
整個過程概括起來就是認知的轉變(belief updating process)。
圖中上半部分,司機看到紅綠燈後,自然而然產生的想法是前車要剎車減速,事實是前車的確剎車減速。所以司機的預判是正確的,與事實結果相匹配,在這樣的情況下,司機沒有出現任何“驚訝”。
圖中下半部分,司機原以為前車要繼續前行,然而事實是前車突然剎車,這就與他的心理預期不相符合,認知也就出現迭代更新。
下圖可以更進一步解釋認知轉變的整個過程。
這一模型架構的出現,主要為解決之前在反應時間建模上存在的兩大局限:
1、反應時間過於依賴周圍環境;
2、如何對“刺激因素”(stimulus)明確下定義。
Waymo希望能測出在真實道路環境下,面對各種錯綜復雜的駕駛環境,人類從看到障礙物到踩下剎車的反應時間。
傳統方法下,反應時間的分析一般是基於特定可控的實驗,而且也不能對常見交通事故下的“刺激因素”何時觸發明確下定義。
有這樣較為嚴謹的反應時間基準模型後,就可以對自動駕駛系統的表現進行評估。
人類司機作為參考模型
為評判Waymo他們自己的AI司機表現如何,除上文提到的反應時間模型,還需要一個標準和參照物。
NIEON應運而生。
它是一個行為參照模型(reference behavior model),是理想狀態下的人類司機,名字來源於Non-Impaired Eyes ON the conflict這一串話中每個單詞的首字母。
意思就是,NIEON司機不存在智力或聽力、視覺上的損傷,它在開車的時候全程保持專註,不會分心開小差,也不會疲勞犯困。
把Waymo他們的AI司機,與NIEON模型對比後,得出的結果是:
在防碰撞反應(collison avoidance effect)裡,同時被卷入16起交通事故中,Waymo的自動駕駛系統能夠規避12起碰撞發生,即規避概率達到75%。
註:這裡專指防碰撞反應,不包括防止事故發生反應(conflict avoidance effect),意思就是專指你改變軌跡、速度以避免事故的發生/減輕事故的嚴重性,又或是你失控後重新控制車輛。
相比之下,理想狀態下的NIEON模型,規避10起碰撞發生,規避概率為62.5%。
與此同時,Waymo的自動駕駛系統,能夠減輕93%因碰撞帶來的人員重傷發生;NIEON模型隻能做到減輕84%。
所以Waymo才得出結論,說他們的自動駕駛AI司機比人類老司機更安全。
該論文表示,類似於NIEON的行為參考模型,能夠被用來作為衡量基準,以此來評判一套ADS自動駕駛的好壞和安全性。
至於測試結果是否可靠,Waymo官方也在論文中談到4點局限性。
首先,他們當前使用的數據集,涉及的碰撞事故主要由人引發。當然目前重要的是,要考慮清楚自動駕駛系統如何才能正確應對這些已知的、人類引發的碰撞事故,同時測試好這套系統的能力,以避免類似的行為發生。
其次,該研究僅基於警方報告的碰撞事故進行模型重建,而官方文件中記錄的碰撞事故數量,可能與真實情況存在出入。
第三,當前研究僅基於單個的NIEON模型操作,來評判Waymo他們自動駕駛系統的好壞。
第四,整個自動駕駛系統的表現,是在模擬的環境、不同的條件下進行測試的。如果是一些特定場景的挑戰,從嚴格意義上來說不適用於這個方法。
不為炫耀數據,Waymo這兩篇文章有什麼意義?
我們從一個最普遍的問題說起:為什麼自動駕駛落地困難?
表面上看,是法規不完善,對於自動駕駛車輛權責的劃分沒有明確。
但我們不妨站在立法機構的角度考慮一下,為什麼自動駕駛在如今的L2-L3階段責任劃分不明?
很簡單,因為目前的自動駕駛系統還沒有完善到“萬無一失”,需要人類司機隨時準備接管。
而這個接管的時機和條件,從來沒有明確。
沒有定性、定量的標準界定什麼樣的情況下人類需要接管系統,自然也就無法在法律上清晰地劃分權責。
所以,法規不完善,根源不在立法的滯後性,而是整個自動駕駛行業,從來沒有給立法機構提供過能在法理層面行得通的技術標準。
甚至行業通用SAE的L0-L5分級,也是基於對人類幹預程度的感性描述,而不是科學嚴謹的定量描述。
要在法規層面掃清自動駕駛落地的障礙,需要在系統可靠性、道路復雜程度、系統能力邊界、人類介入條件、系統失效臨界點等等維度,都給出確切、嚴謹的定義。
Waymo兩篇論文,瞄準的正是自動駕駛系統可靠性這個維度,以反應時間為進準,來定量計算自動駕駛系統可靠性。
都說自動駕駛比人類司機可靠,到底有多可靠?
特斯拉以往的話術,是比較美國交管部門對非自動駕駛車輛的事故數量統計,和特斯拉事故數得出的。
但這其中的問題,首先是全美范圍路況、車況、事故類型太復雜,遠遠超出自動駕駛數據庫的場景覆蓋。
一些人類無法避免的事故,不見得FSD就能避免,隻有在相同條件下復現實驗,才能下結論。
但這顯然是不現實的。這也是特斯拉商業宣傳的迷惑性所在。
而Waymo的模型和方法,不敢說一定會成為行業標準,但至少是為自動駕駛安全性界定,開一個好頭。
當然,Waymo這兩篇論文還有一層意義那就是再次向公眾科普自動駕駛不等於0事故。
即使是L4、L5這樣的高階自動駕駛系統,仍然有失效的風險。
自動駕駛的意義在於,系統犯錯失效的風險比人類更低,就能極大推動社會經濟運轉效率。
這一點現在有嚴謹的證明,也有立法的依據。
好,以上就是這兩篇論文的亮點部分,如果你想閱讀全文,這裡也附上鏈接:
https://waymo.com/intl/zh-cn/safety/