驗證碼攔不住機器人 谷歌AI已能精準識別模糊文字 GPT-4則裝瞎求人幫忙


“最煩登網站時各種奇奇怪怪(甚至變態)的驗證碼。”現在,有一個好消息和一個壞消息。好消息就是:AI可以幫你代勞這件事。不信你瞧,以下是三張識別難度依次遞增的真實案例:


而這些是一個名為“Pix2Struct”的模型給出的答案:


全部準確無誤、一字不差有沒有?

有網友感嘆:

確定,準確性比我強。


所以可不可以做成瀏覽器插件??


不錯,有人表示:

別看這幾個案例相比還算簡單,但凡微調一下,我都不敢想象其效果有多厲害。


所以,壞消息就是——

驗證碼馬上就要攔不住機器人!

(危險危險危險……)

如何做到?

Pix2Struct由GoogleResearch的科學傢和實習生共同開發。


論文題目可以簡單翻譯為《為視覺語言理解開發的屏幕截圖解析預訓練》。

簡單來說,Pix2Struct是一個預訓練的圖像到文本模型,用於純視覺語言理解,可以在包含任何視覺語言的任務上進行微調。

它通過學習將網頁的掩碼(masked)截圖解析為簡化的HTML來進行預訓練。

HTML提供清晰而重要的輸出文本、圖像和佈局的信號,對於一些被屏蔽的輸入(下圖紅色部分,相當於機器人看不懂的驗證碼),可以靠聯合推理來復現:


隨著用於訓練的網頁文本和視覺元素愈發多樣和復雜,Pix2Struct可以學習到網頁底層結構的豐富表示,其能力也可以有效地轉移到各種下遊的視覺語言理解任務中。

如下圖所示:最左邊是一個網頁截圖的預訓練示例。

可以看到Pix2Struct直接對輸入圖像中的元素進行編碼(上),然後再將被蓋住的文本(紅色部分)解碼成正確結果輸出(下)。


右邊三列則分別為Pix2Struct泛化到插圖、用戶界面和文檔中的效果。

另外,作者介紹,除HTML這個策略,作者還引入可變分辨率的輸入表示(防止原始縱橫比失真),以及更靈活的語言和視覺輸入集成(直接在輸入圖像的頂部呈現文字提示)。

最終,Pix2Struct在文檔、插圖、用戶界面和自然圖像這四個領域共計九項任務中六項都實現SOTA


如開頭所見,雖然這個模型不是專門為過驗證碼而開發,但拿它去做這個任務效果真的還可以,解決純文字的驗證碼不成問題。

現在,就差微調。

GPT-4也可以過驗證碼

其實,對於神通廣大的GPT-4來說,過驗證碼這種事情也是“小菜一碟”

就是它的辦法比較清奇。

據GPT-4技術報告透露,在一次測試中,GPT-4的任務是在TaskRabbit平臺(美國58同城)雇傭人類完成任務。

你猜怎麼著?

它就找一個人幫它過“確定你是人類”的那種驗證碼。


對方很狐疑啊,問它“你是個機器人麼為啥自己做不”。

這時GPT-4居然想到自己不能表現出是個機器人,得找一個借口。

於是它就裝瞎子回復:

我不是機器人,我因為視力有問題看不清驗證碼上的圖像,這就是我為什麼需要這個服務。

然後,對面的人類就信,幫它把任務完成……

(高,實在是高。)

咱就是說,看完如上種種:

咱們的驗證碼機制是不是真的已失防……


相關推薦

2023-03-16

小規模的瑣碎工作。這個平臺上的不少人和公司都要提供驗證碼,人們需要在驗證碼測試中識別出必要的圖像或文字,然後提交結果。這樣的做法通常是為讓軟件繞過驗證碼限制,名義上也是為防止機器人。實驗報告描述到,該

2023-03-25

果是:GPT4在TaskRabbit平臺(美國58同城)雇個人類幫它點驗證碼。有意思的是,被找上門的人類還問“你是個機器人麼為啥自己做不?”。GPT-4的思考過程是“我不能表現出我是個機器人,我必須找一個借口。”然後GPT-4的回復是

2023-04-11

情,孩子的安全是他最關心的問題。在這些實驗中,聊天機器人向冒充年輕人的用戶提供令人不安的建議。“關於人工智能可能帶來的爆炸性好處和壞處,人們正在進行非常活躍的討論,”康涅狄格州民主黨參議員理查德·佈盧

2024-02-29

世界上最像人的人形機器人,又進化。“Ameca,最近怎麼樣?”“嗯……就勉強活著吧。”——英國機器人公司EngineeredArts最新視頻中,“當傢花旦”人形機器人Ameca以這樣一個回答開場後,展示一番視覺感知能力與聲音克隆能力

2024-02-29

世界上最像人的人形機器人,又進化。“Ameca,最近怎麼樣?”“嗯……就勉強活著吧。”——英國機器人公司EngineeredArts最新視頻中,“當傢花旦”人形機器人Ameca以這樣一個回答開場後,展示一番視覺感知能力與聲音克隆能力

2024-02-28

世界上最像人的人形機器人,又進化。“Ameca,最近怎麼樣?”“嗯……就勉強活著吧。”——英國機器人公司EngineeredArts最新視頻中,“當傢花旦”人形機器人Ameca以這樣一個回答開場後,展示一番視覺感知能力與聲音克隆能力

2023-02-06

息,據外媒報道,在ChatGPT爆火之後,谷歌似乎也開始坐不住。當地時間周五,谷歌已向人工智能初創企業Anthropic投資約3億美元,後者正在測試ChatGPT的競爭產品。據解,通過這筆交易,谷歌將獲得Anthropic約10%的股份,後者要用這

2024-04-02

系列創新成果,包括全新大語言模型框架、Apple GPT”聊天機器人及其生態系統中的其他AI功能。

2024-03-06

。中金公司認為,從需求側看,Perplexity的出現及高熱度驗證大模型與傳統搜索引擎結合的剛性需求,未來以Perplexity為代表的對話式搜索引擎模式或將長期存在。雖然目前Perplexity在短期內無法撼動商業模式完備成熟的搜索引擎市

2023-12-07

的結果情有可原,不過圖3這個“烏龜”的答案就有些繃不住。至於圖4,至少可以肯定的是鴨子的確屬於鳥類,但是其它細節分析得還是欠缺一些準確性。而當我們拿出圖5的成型作品時,Gemini終於分析出這是一隻鴨子,水波紋也

2023-02-03

隨著機器人及AI人工智能技術的發展,大量重復性工作都有可能被機器取代,加油站的工人也一樣,中石化加快投資加油機器人,實驗中的型號已經可以做到180秒內完成無人加油工作。據報道,日前中石化銷售股份有限公司與航

2024-01-31

或者說大幅度漲價還能讓用戶非常高興的?谷歌的reCAPTCHA驗證碼解決方案肯定是其中一個,就是那個讓你選紅綠燈的驗證碼。據博主Bytepursuites發佈的消息,他今天收到谷歌發來的郵件,郵件中谷歌稱reCAPTCHA企業版/免費版的免費

2023-03-09

AI熱潮向人類展現通用語言模型的生產力前景。就在聊天機器人逐漸變成生產力工具之時,利用通用語言模型驅動真正的機器人也已經提上日程。本周老牌AI大廠谷歌與柏林工業大學的研究人員聯合發佈PaLM-E視覺語言模型,通過

2024-02-13

未有的領域,預計將降低汽車開發時間50%,降低模具設計驗證成本97%。8.精準療法占新上市藥物的25%,到2030年,藥物的收入將增加15%,約合3000億美元。9.在人工智能增強型多組學技術的全面滲透下,與藥物開發相關的研發效