GPT-4V學會用鍵鼠上網 人類靜靜地看它發帖玩遊戲


GPT-4V學會自動操縱電腦,這一天終於還是到來。隻需要給GPT-4V接入鼠標和鍵盤,它就能根據瀏覽器界面上網,甚至還能快速摸清楚“播放音樂”的播放器網站和按鈕,給自己來一段music:

是不是有點細思極恐?

這是一個MIT本科生小哥整出來的新活,名叫GPT-4V-Act。

隻需要幾個簡單的工具,GPT-4V就能學會控制你的鍵盤和鼠標,用瀏覽器上網發帖、買東西甚至是玩遊戲。

要是用到的工具出bug,GPT-4V甚至還能意識到、並試圖解決它。

來看看這是怎麼做到的。

教GPT-4V“自動上網”

GPT-4V-Act,本質上是一個基於Web瀏覽器的AI多模態助手(Chromium Copilot)。

它可以像人類一樣用鼠標、鍵盤和屏幕“查看”網頁界面,並通過網頁中的交互按鍵進行下一步操作。

要實現這種效果,除GPT-4V以外,還用到三個工具。

一個是UI界面,可以讓GPT-4V“看見”網頁截圖,也能讓用戶與GPT-4V發生交互。

這樣,GPT-4V就能將每一步運行思路都通過對話框的形式反映出來,用戶來決定是否要繼續讓它操作。

另一個是Set-of-Mark Prompting(SoM)工具,讓GPT-4V學會交互的一款工具。

這個工具由微軟發明,目的是更好地對GPT-4V進行提示詞工程。

相比讓GPT-4V直接“看圖說話”,這個工具可以將圖片關鍵細節拆分成不同的部分,並進行編號,讓GPT-4V有的放矢:

對於網頁端也是如此,Set-of-Mark Prompting用類似的方式讓GPT-4V知道從網頁瀏覽器的哪個部分找答案,並進行交互。

最後,還需要用到一個自動標註器(JS DOM auto-labeler),可以將網頁端所有能交互的按鍵標註出來,讓GPT-4V決定要按哪個。

一套流程下來, GPT-4V不僅能準確判斷圖片上的哪些內容符合需求,還能準確找到交互按鍵,並學會“自動上網”。

這是個大項目,目前還隻實現部分功能,包括點擊、打字交互、自動標註等。

接下來,還有其他的一些功能要實現,例如試試AI打標器(目前網頁端的交互還是通過通過JS接口得知哪裡能交互,不是AI識別的)、以及提示用戶輸入詳細信息等。

此外,作者也提到,現階段GPT-4V-Act用法上還有一些需要註意的地方。

例如,GPT-4V-Act可能會被網頁打開後鋪天蓋地的彈窗小廣告給“整懵”,然後出現交互bug。

又例如,目前這種玩法可能會違反OpenAI的產品使用規定:

除非API允許,否則不得使用任何自動化或編程的方法從服務中提取數據並輸出,包括抓取、網絡收集或網絡數據提取。

所以用的時候也要低調一點(doge)

微軟SoM作者也來圍觀

這個項目在網上發出後,吸引不少人的圍觀。

像是小哥用到的微軟Set-of-Mark Prompting工具的作者,就發現這個項目:

出色的工作!

還有網友提到,甚至可以用來讓AI自己讀取驗證碼。

這個在SoM項目中提到過,GPT-4V是能成功解讀驗證碼的(所以以後可能還真不知道是人還是機器在上網

)。

與此同時,也有網友已經在想象桌面流自動化(desktop automation)的操作。

對此作者回應稱:

AI自動標註器應該能實現這個,我也確實在計劃制作一個更通用的Copilot。

不過目前GPT-4V還是要收費的,有沒有其他的實現方法?

作者也表示,目前還沒有,但確實可能會嘗試Fuyu-8B或者LLaVAR這樣的開源模型。

免費的自動化桌面流AI助手,可以期待一波。

參考鏈接:[1]https://github.com/ddupont808/GPT-4V-Act[2]https://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/


相關推薦

2023-11-06

的也傻傻看不出,怎麼問都說“沒有啊”:但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:以及這樣的錯位圖,它對又沒完全對。。(GPT-4V直接看出來頭盔是位於男的大腿上的,沒有女的,但它還是表示圖裡有倆人,另

2023-11-07

的也傻傻看不出,怎麼問都說“沒有啊”:但是呢,這種人類乍一看絕對會錯的圖,它又成功答對:以及這樣的錯位圖,它對又沒完全對。。(GPT-4V直接看出來頭盔是位於男的大腿上的,沒有女的,但它還是表示圖裡有倆人,另

2022-08-11

成功,迅速登上軟件暢銷排行榜。這7天的站店賣貨,我學會:作為一個工程師,一定要做用戶需要的產品,而不是做那些看起來隻是高大上的產品。隻要能做出用戶想要的產品,銷售就不是問題。有這樣的頓悟,再做產品就容

2023-11-21

GPT-4的圖形推理能力,竟然連人類的一半都不到?美國聖塔菲研究所的一項研究顯示,GPT-4做圖形推理題的準確率僅有33%。而具有多模態能力的GPT-4v表現更糟糕,隻能做對25%的題目。△虛線表示16項任務的平均表現這項實驗結果發

2022-08-05

掃臉都會配合。沉迷網遊的危害是顯而易見的。上海市法學會未成年人法研究會副秘書長郗培植曾對未成年人沉迷網絡遊戲的原因進行過深入調研。他告訴記者,一些遊戲商傢在開發網絡遊戲時會將上癮機制設置在遊戲中,比如

2024-05-12

即使是那些被設計成樂於助人、實事求是的系統,也已經學會如何欺騙人類。在最近發表於《模式》(Patterns)雜志的一篇評論文章中,研究人員強調人工智能欺騙行為的危險性,並敦促各國政府盡快制定強有力的法規來降低這

2023-11-16

一項研究發現:無需任何訓練,GPT-4V就能直接像人類一樣與智能手機進行交互,完成各種指定命令。比如讓它在50-100美元的預算內購買一個打奶泡的工具。它就能像下面這樣一步一步地完成選擇購物程序(亞馬遜)並打開、點擊

2024-04-15

真實世界空間理解能力。“雖然當前基準中的許多示例對人類來說相對容易,但它們往往對前沿模型構成挑戰。”目前,RealWorldQA 包含 700 多張圖片,每張圖片都有一個問題和易於驗證的答案。在真實世界的圖像外,該數據集還

2022-08-04

WindowsSubsystemforAndroid(WSA)在升級8月更新之後,可以讓你在電腦上更流暢地運行你喜歡的Android遊戲。微軟今天面向美國地區的WindowsInsider成員推送2206.40000.15.0版本,尚不清楚其他國傢和地區何時會跟進升級。WSA 在安裝 8 月更新之後

2023-11-27

喝彩或者鼓掌的聲音。這種及時的滿足非常重要,傢長要學會給孩子認可,不要隻關註TA在網絡上用多長時間,而要看到今天關掉電視、歸還手機時,已經比昨天取得微小的進步。王莎莎和孩子們在做沙盤遊戲3大概在三四年前,

2023-12-24

國未成年網民突破1.93億,其中有90%的人擁有屬於自己的上網設備。調查報告中還顯示,2018-2022 年,未成年人互聯網普及率從93.7%增長到97.2%。未成年人用網低齡化趨勢明顯,過去5年小學階段的未成年人互聯網普及率從89.5%提升至

2022-07-08

程中父母一直以比較簡單粗暴的方式對待,他將打遊戲、上網作為放松、發泄的方式,但因為幾次沒考好,父母就將問題全部歸咎於遊戲,對他進行“高壓”而不是溝通交流,導致逐漸出現抑鬱情緒,並越來越沉迷於虛擬世界。

2023-11-24

幾顆攝像頭,所以你現在可以在佩戴 Quest 3 的時候更清楚地看見外面的情況。有的人可能會說這不多此一舉嗎?我都戴 VR 為啥還要看清現實世界?此言差矣,如果你用過一段時間VR 設備,就會知道這個功能有多重要……正是

2022-08-24

羅技在7月推出Aurora極光系列遊戲外設產品,面向遊戲主播,包含G735無線遊戲耳機、G715無線機械遊戲鍵盤、G713機械遊戲鍵盤、G705無線遊戲鼠標。現在,羅技國內上架這款套裝,首發2999元。官方稱,Aurora極光系列的設計旨在性別