驗證碼攔不住機器人谷歌AI已能精準識別模糊文字 GPT-4則裝瞎求人幫忙

2023-04-01 來自量子位發表於業界精選

“最煩登網站時各種奇奇怪怪（甚至變態）的驗證碼。”現在，有一個好消息和一個壞消息。好消息就是：AI可以幫你代勞這件事。不信你瞧，以下是三張識別難度依次遞增的真實案例：

而這些是一個名為“Pix2Struct”的模型給出的答案：

全部準確無誤、一字不差有沒有？

有網友感嘆：

確定，準確性比我強。

所以可不可以做成瀏覽器插件？？

不錯，有人表示：

別看這幾個案例相比還算簡單，但凡微調一下，我都不敢想象其效果有多厲害。

所以，壞消息就是——

驗證碼馬上就要攔不住機器人！

（危險危險危險……）

如何做到？

Pix2Struct由GoogleResearch的科學傢和實習生共同開發。

論文題目可以簡單翻譯為《為視覺語言理解開發的屏幕截圖解析預訓練》。

簡單來說，Pix2Struct是一個預訓練的圖像到文本模型，用於純視覺語言理解，可以在包含任何視覺語言的任務上進行微調。

它通過學習將網頁的掩碼（masked）截圖解析為簡化的HTML來進行預訓練。

HTML提供清晰而重要的輸出文本、圖像和佈局的信號，對於一些被屏蔽的輸入（下圖紅色部分，相當於機器人看不懂的驗證碼），可以靠聯合推理來復現：

隨著用於訓練的網頁文本和視覺元素愈發多樣和復雜，Pix2Struct可以學習到網頁底層結構的豐富表示，其能力也可以有效地轉移到各種下遊的視覺語言理解任務中。

如下圖所示：最左邊是一個網頁截圖的預訓練示例。

可以看到Pix2Struct直接對輸入圖像中的元素進行編碼（上），然後再將被蓋住的文本（紅色部分）解碼成正確結果輸出（下）。

右邊三列則分別為Pix2Struct泛化到插圖、用戶界面和文檔中的效果。

另外，作者介紹，除HTML這個策略，作者還引入可變分辨率的輸入表示（防止原始縱橫比失真），以及更靈活的語言和視覺輸入集成（直接在輸入圖像的頂部呈現文字提示）。

最終，Pix2Struct在文檔、插圖、用戶界面和自然圖像這四個領域共計九項任務中六項都實現SOTA。

如開頭所見，雖然這個模型不是專門為過驗證碼而開發，但拿它去做這個任務效果真的還可以，解決純文字的驗證碼不成問題。

現在，就差微調。

GPT-4也可以過驗證碼

其實，對於神通廣大的GPT-4來說，過驗證碼這種事情也是“小菜一碟”。

就是它的辦法比較清奇。

據GPT-4技術報告透露，在一次測試中，GPT-4的任務是在TaskRabbit平臺（美國58同城）雇傭人類完成任務。

你猜怎麼著？

它就找一個人幫它過“確定你是人類”的那種驗證碼。

對方很狐疑啊，問它“你是個機器人麼為啥自己做不”。

這時GPT-4居然想到自己不能表現出是個機器人，得找一個借口。

於是它就裝瞎子回復：

我不是機器人，我因為視力有問題看不清驗證碼上的圖像，這就是我為什麼需要這個服務。

然後，對面的人類就信，幫它把任務完成……

（高，實在是高。）

咱就是說，看完如上種種：

咱們的驗證碼機制是不是真的已失防……

驗證碼攔不住機器人谷歌AI已能精準識別模糊文字 GPT-4則裝瞎求人幫忙

相關推薦

GPT-4：我不是機器人我是一個有視力障礙的人類

GPT-4滿分第一名通過大廠模擬面試微軟154頁研究刷屏

美國政府正收集如何對待人工智能的建議對潛在危害表示擔憂

“最像人的機器人”又進化會看會分辨、還能學海綿寶寶說話

“最像人的機器人”又進化會看會分辨、還能學海綿寶寶說話

“最像人的機器人”又進化會看會分辨、還能學海綿寶寶說話

谷歌3億美元投資ChatGPT競品加速綁定AI新貴

蘋果開發出新款AI：可“看懂”屏幕內容並語音回復

谷歌Gemini剛發就惹質疑：測試標準有失偏頗、效果視頻疑剪輯

黃仁勛“幾乎每天用” Perplexity會是“搜索的未來”嗎？

Google reCAPTCHA將開始收費這意味著使用的網站會大幅度減少

中石化研發智能加油機器人“易嘉油”：180秒完成加油全程無人操作

AI大戰進入實體化階段谷歌剛發佈的PaLM-E模型有哪些亮點？

“木頭姐”押註技術革命 163頁重磅年度報告來

驗證碼攔不住機器人 谷歌AI已能精準識別模糊文字 GPT-4則裝瞎求人幫忙

相關推薦

驗證碼攔不住機器人谷歌AI已能精準識別模糊文字 GPT-4則裝瞎求人幫忙