現在,隻用Wi-Fi就能“看”到你在房間裡幹啥……多人追蹤也是soeasy。過程中完全不需要拍下圖像、不需要攝像頭。輸入的僅是WiFi一維信號,輸出則是三維人體姿態。兩臺路由器即可搞定!換算成本都不到500塊。
而且還不受環境光線、目標被遮擋的影響,效果接近於基於2D圖像進行識別的方法。
啊這,難道說WiFi能“看到”我?更進一步……WiFi能監視我??
OMG,蝙蝠俠劇情要照進現實??
要知道在《暗黑騎士》裡,哥譚市所有人的手機都變成監控設備,同一空間裡所有人的一舉一動都能被實時記錄。
網友們已經構思恐怖腦洞:
想象一下,隻需一臺連接WiFi接收器的電視機,別人就能看到我們全傢在幹啥。
有人甚至說,以後可能必須要在身上塗保護層來屏蔽WiFi信號。
搞全身追蹤,不要用攝像頭
如上提到的方法,是卡耐基梅隆大學(CMU)機器人研究所的新成果。
研究的本身目的是為保護隱私,畢竟在很多非公共場所,如養老院、獨居老人傢中,監控非常有必要,但是使用攝像頭又很難保證隱私安全。
使用雷達倒是能解決隱私問題,但價格和具體可操作上就很勸退。
於是,該團隊想到用現在幾乎各傢必備的WiFi來進行識別。
所以在設備上,僅需兩臺再也普通不過的傢用路由器(每個至少有3根天線)就可以。
原理也很簡單,就是利用WiFi信號中的信道狀態信息(CSI)數據。
這些數據是一堆復雜的十進制序列,可以表示發射信號波和接收信號波之間的比率。
當它們在發射器和接收器之間傳輸時,一旦接觸到人體,就會被修改。
於是,通過解讀這些“改變”,就可以檢測到人體姿態。
為此,研究人員開發一個“基於區域”的卷積神經網絡分析pipeline,該pipeline可以定位人體的各個部位。
然後再將WiFi信號的相位和振幅映射到24個人體區域裡的坐標,實現最終的全身姿態追蹤。
具體來說,模型通過三個分量從WiFi信號中生成人體表面的UV坐標。
首先,通過振幅和相位Sanitization步驟對原始CSI信號進行“凈化”處理。
然後,將處理過的CSI信號通過雙分支編碼器-解碼器網絡轉換為2D特征圖。
接著,將2D特征饋送到一個叫做DensePose RCNN的架構中。
該架構靈感就來自Facebook已經開源的人體姿勢實時識別系統DensePose。DensePose入選2018年CVPR的Oral環節,主要是把2D圖像轉換成3D人體模型。
所以這步的目的就是算出2D特征圖對應的3D姿態,也就是估計出UV坐標。
最後,在訓練主網絡之前,作者還將用圖像生成的多層次特征圖與WiFi信號生成的多水平特征圖之間的差異進行最小化,進一步完善最終結果。
盡管我們從肉眼看上去,兩種方法的最終結果差不多,但在數據方面,基於圖像的方法效果還是更好一些。
比如在同樣環境佈局下,基於WiFi方法的精確度都低於圖像方法。
△數值越高意味著越好
不同環境佈局的情況也是如此。
與此同時,如果遇到數據集中不包含的動作,該方法也無法識別成功。如果人數超過3個,也發生“丟人”情況。
下圖中左邊兩幅是罕見動作失敗案例,右邊兩幅是3人以上識別失敗情況。
不過團隊認為,如上問題可以通過進一步擴充數據集來解決。
除此之外,該方法對路由器的放置位置要求很高,並且會對其他WiFi網絡造成影響。
來自CMU團隊,有2位華人作者
論文一作為Jiaqi Geng,他來自卡耐基梅隆大學,去年8月獲得機器人專業碩士學位。
另一位華人作者是Dong Huang,他現在是卡耐基梅隆大學高級項目科學傢。
他的研究方向一直都是利用深度學習進行信號識別。比如之前已經實現用WiFi信號實時識別2D人體姿態。
最後一位作者是Fernando De la Torre,他現在卡耐基梅隆大學機器人研究所副教授。
他的研究方向主要為計算機視覺,涉及領域包括人體姿態識別、AR/VR等。
2014年曾創辦過一傢開發人臉識別技術的公司FacioMetrics LLC,2年後被Facebook收購。
作者團隊表示,目前該方法性能還受限於可用來訓練的數據不多,未來,他們計劃擴充數據集。