特斯拉:什麼是馬車?這次,特斯拉竟被一個馬車整蒙圈,一會兒是大貨車一會兒是半掛卡車。最不可思議的是,竟還能識別出人在前面走...難道又是「幽靈」嗎?
文/新智元
這個特斯拉無法識別馬車的TikTok視頻在網上瘋傳,就連人工智能軟件公司Light的聯合創始人Igor Susmelj發問:
我想知道這個模型在訓練時看過多少馬車。
僅是一個小小馬車就難住特斯拉。
不難看出,在識別邊緣化場景方面,特斯拉自動輔助駕駛系統(AP),甚至是全自動駕駛(FSD)更容易在行駛中出現致命事故。
Electrek主編FredLambert就在昨天發佈特斯拉在美國藍嶺山脈的測試:
視頻顯示特斯拉汽車無法在標記的車道內行駛。更恐怖的是,差點把FredLambert引向懸崖。
特斯拉在識別上出現問題也不是一次兩次。
把拿著交通指示牌的人識別成交通柱子。
把各種動物要麼識別成人,要麼幹脆啥也沒有...
把月亮識別成黃色交通指示燈。
接下來,就講講特斯拉識別故障那些事兒
看不到白色?
特斯拉撞車事故確實不算少,不過為啥老盯著白色卡車撞?
眼前的白不是白,你說的車是什麼車。
21年3月,一輛白色特斯拉Model Y在美國底特律西南部的一個十字路口撞上一輛白色半掛卡車。
而這已經不是特斯拉第一次與白色卡車相撞。
早在2016年,美國佛州的一輛特斯拉Model S在Autopilot狀態下與正在轉彎的白色半掛卡車發生碰撞,鉆進卡車貨櫃下方,特斯拉駕駛員不幸身亡。
而真實原因竟然是特斯拉把白色識別為天空,才撞上去。
你見過會移動的天空嗎......
此前有知乎網友曾拿下面這張圖做視覺識別實驗。
把白色卡車圖片導入Photoshop,采用快速選擇工具,試圖把白色卡車的輪廓勾選出來,得到的結果是這樣的:
有一大片藍天白雲同時被劃入勾選框,在Photoshop來看白色貨箱和天空是一樣的。
特斯拉輔助自動駕駛視覺識別系統的結果可能也是如此。好傢夥,原來特斯拉還是個“色盲”。
另外,特斯拉為啥“專挑卡車撞”?
那得先說說自動駕駛系統分離運動目標的方法。
考慮到實時性和成本,目前業內大多采用幀差法。這種方法對運算資源消耗最少,最容易達到實時性,但缺點是準確度不高。
所謂幀差法,即檢測相鄰幀之間的像素變化。
幀差法的基本原理是:
運動目標視頻中,可以根據時間提取出系列連續的序列圖像,在這些相鄰的序列圖像中,背景的像素變化較小,而運動目標的像素變化較大,利用目標運動導致的像素變化差,則可以分割出運動目標。
對於比較大、顏色一致的運動目標,如白色大貨車,幀間差分法會“在目標內部產生空洞,無法完整分割提取運動目標”。
某些底盤高的大貨車側面,就如同白紙,基於深度學習的機器視覺此時就如同盲人,不減速直接撞上去。
大白天撞鬼
之前,特斯拉的視覺識別系統還鬧出過靈異事件。
有特斯拉車主在經過無人區時,發現車上自動識別障礙物的雷達探測出很多“人形”物體。
還有網友發佈一則特斯拉行經墓地的視頻,
視頻中,車輛行駛過程中,屏幕上的雷達一直顯示前方出現眾多行人從車輛路過,但觀看視頻錄制的車輛前方,卻未見一人。
特斯拉其實並不是看到“幽靈”,而是車輛在行駛過程中會遭遇一種攻擊自動駕駛輔助系統(ADAS)的圖像。
這又是特斯拉Autopolit的鍋。
在公路上正常行駛的特斯拉隨時都會因將路旁的各種標牌(如廣告中的Stop標志),誤認為限速或者停車標志,然後猛踩剎車,被部分車主稱為“幽靈剎車”。
這幽靈車,小編屬實不敢坐。
如何進行圖像識別
特斯拉全車配備8個攝像頭、1個毫米波雷達、12個超聲波雷達來檢測外部環境。
8個攝像頭是用來來識別現實中的物體。攝像頭可以獲取路上行人、車輛、動物或其他障礙物等等。
要知道,8個攝像頭捕捉的都是二維圖像,並沒有深度信息。因此特斯拉通過8個不同視角的視覺輸入,輸出三維向量空間。
可以看到,多攝像頭融合後輸出的向量空間質量更高,能夠幫自動駕駛汽車更精準地感知世界、定位自身。
其中就包括道路、交通指示燈、車輛等等自動駕駛需要觀察到的因素。
從算法層面來講,特斯拉的深度學習網絡稱為HydraNet。
基礎算法代碼是共享的,整個HydraNet包含48個不同的神經網絡,通過這48個神經網絡,就能輸出1000個不同的預測張量。
然而視覺系統總會有學習不到的地方。
早幾年,特斯拉曾與第三方合作將數據工作外包,但發現標註數據的質量並不高,隨後便擴充自己的團隊。
最初特斯拉的大多數的標註還是在2D圖像上進行。
不久後,標註開始轉移到4D空間,即3D空間+時間維度,並且直接在Vector Space進行標註,數據以一個Clip為最小標註單位。
這次識別馬車出現的問題,有人嘲諷道,還沒有給馬車貼上數據標簽呢。
問題是,馬斯克前段時間剛剛解雇加州自動駕駛部門的數據標註員。
特斯拉的“視力”簡直讓人堪憂。