OpenAI發佈最新的GPT-4。根據發佈會披露的內容來看,這個新一代比早先大傢使用的ChatGPT的GPT-3.5內核強悍一大截,再次刷新人們對AI的認知。首先,非常非常重要的一點是,GPT-4可以接受文字以外的內容輸入,目前支持文字與圖像的混合輸入。
在官方的示例中,用戶給 GPT-4 上傳一張梗圖,問 GPT-4 這張圖為什麼好笑:
GPT-4 非常詳細且精準地描述出圖片上的內容,並且有思維條理的解釋,為什麼這張圖會讓人覺得好笑。
這還不算完,就算是十分抽象的 Meme,它也能一本正經地給你解釋笑點在哪裡。
隻不過麼,GPT4 也還沒到能通過圖靈的程度。
當然,這個功能並不隻是能解釋梗圖那麼簡單,它擁有無限的想象空間,比如:
在今天凌晨的官方直播視頻中,GTP 的開發人員演示GPT-4 可以識別他手繪的一張網頁草圖,並且根據草圖寫出網頁的前端代碼。
手繪的網頁草圖,非常抽象 ▼
GPT-4 給出的網頁以及代碼 ▼
雖然這個示例裡的網站非常簡單,但 GPT-4 的理解能力和創造力還是讓人覺得不可思議:
重要的不是它能不能做得很好,而是它能做到,這是一個質的飛躍。
甚至,目前已經有公司在搞這項技術的落地應用,打算把它和導盲服務結合起來。
這樣一來,盲人隻需要拍張照,GPT-4 就能立即復述出面前物品的信息。
在文字問答方面,GPT-4 也有非常大的提升,輸入字增加到 2.5 萬。
在專業領域上的回答,特別是 “ 問題復雜度足夠高的時候……GPT-4 比老版本更細、更可信、更富有創造力 ”。
比如,在統一律師考試( Uniform Bar Exam )中,GPT-4 可以超過 90% 的人類考生,而老版本隻能超過 10% 的人類考生,妥妥學渣學霸的區別。
在 GRE 數學和語文( 閱讀與填空 )考試中 ,GPT-4 的考試成績已經是哈佛、麻省理工、斯坦福大學生的水平。
不僅自己回答問題能力變強,GPT-4 還會人格扮演。
比如你提出一個問題,ChatGPT 隻會機械式地回答,而 GPT-4 可以按你的要求以蘇格拉底風格給你作答。
那這個玩法就多呀。向下滑動▼
不過,說這麼多,百聞不如一試。
即使已經是凌晨 2 點,編輯部依舊花重金( 20 美元/月 ),連夜讓美國同事幫忙升級試用一波。
遺憾的是,OpenAI 考慮到用戶們搞幺蛾子的能力太狠,所以目前 GPT-4 的圖片輸入功能暫時不對公眾開放,也沒有說啥時候可以用上。
不過,我們還是可以試試它聰明的小腦瓜子。
先是給一個全網瘋傳的“ 華為、阿裡入職面試題 ”,挑戰大獲成功,而隔壁的 ChatGPT 就有點拉。
作為擊敗 90% 人類的大律師,GPT-4 的推理能力應該強無敵吧。
所以我們又搞道法考的經典案件,想掂量掂量 GPT-4 到底有幾斤幾兩。
問:乙去甲傢吃飯,結果電動車被偷。於是乙準備偷輛別人的電動車,此時,喝醉的甲來幫忙撬鎖,幫乙成功得手。結果調查後發現,乙偷的是甲的電動車,問甲算不算是盜竊罪?
雖然新舊兩款結論都是正確的,但是舊版的解題過程,就有點亂來。。
在一些更需要 “ 創造性 ” 或是 “ 思考 ” 的問題,比如:關於最近一次特斯拉投資者大會上 “ 實現全球可持續能源 ” 的計劃,你覺得是可行的嗎?為什麼可行?GPT-4 的表現就更讓人吃驚。
雖然 GPT-4 的知識庫停留在 2021 年 9月,並沒有覆蓋半個月前的那場投資者大會,但它卻神奇地未卜先知。
而老版本 ChatGPT 的回答就遜色很多,沒有條理,還有一堆車軲轆話,沒有建設性觀點。
隨後,我們又問一個行業思考相關的問題:你如何看待全球的碳排放戰略,它能成功嗎?
老版隻能浮於表面籠統地給點泛泛的概念,而 GPT-4 的回答明顯維度更寬、思考更深,洋洋灑灑列 10 點,更加細致有條理,並且含有更多專業詞匯與內容,可以說幾乎完美地回答這個問題。
上面這些,還僅僅隻是我們編輯部的試驗,在一些大佬們手上,GPT-4 令人恐懼的表現就更多。
比如僅僅隻用 60 秒,就做出一款 Pong 遊戲,20 秒就能做出貪吃蛇遊戲。
不可否認,GPT-4 比起舊版來說,強的不是一點半點。
不過我們試出來的問題,其實也不少。
我們搞套高中數學競賽試卷來考它,結果,一試就尷尬。
第一道選擇題,新舊兩個版本就都解錯。
難道說,斯坦福、麻省理工還不如。。?
因為 GPT-4 可以支持更長的輸入文本,所以我們就又測試它的總結概括能力。
這下餡露得更大。
我們甩給它的是之前發過的一篇文章的鏈接,其實 GPT-4 是沒有聯網的,正常來說是沒法總結的。
結果,它愣是憑空捏造兩個文章總結,而且和我們給的文章沒有任何關系。直到在我反復指正兩次,語氣都加重,它才承認自己的錯誤。
直到後面我們把原文直接貼進去後,GPT-4 才展露它超強的總結能力。
說實話,這個胡編亂造的能力讓我們心裡一驚,於是就又想個測試方法。
前兩天,小黑胖把“ 手拿把攥 ”記混成“ 手拿把蒜 ”,被編輯部嘲笑很久,於是我們就問 GPT-4 “ 手拿把蒜什麼意思?”
結果牛掰,GPT-4 在理解一部分“ 把蒜(攥) ”是形容事情輕而易舉的基礎上,引經據典地胡編亂造,頗有種當年我寫作文時,引用的俄羅斯文學傢“ 沃茲基索德 ”的味道。
要知道,如果是真實場,這個半真半假、引用權威的胡說八道的後果將是非常嚴重的,堪稱最高級的謊言。
明明連更老的 ChatGPT 也不敢這麼捏造來源地胡說,更高級的 GPT-4 怎麼會這樣呢?
我們猜測,就是因為新版本更傾向於表現出 “ 更具有深度思考 ”,這麼一來,在回答很多問題的時候,GPT-4 會自己給自己加戲,才會出現這些鬧劇。
雖然我們試這麼多漏洞,但總的來講,這次發佈的 ChatGPT,無論是基礎功能、想象空間、邏輯能力、思考能力,都比之前強一大截。
明明距離老版本 ChatGPT 顛覆我們的認知才沒幾個月,它們就又掏出一個船新版本,我們隻能說:恐怖如斯。
更恐怖的是,其實 GPT-4 誕生時間,可能比我們想的還要早很多,之前 OpenAI 發佈基於 GPT-3.5 的 ChatGPT 時,內部員工就質疑過為啥發個這麼古早的版本。
我們也早就接觸過 GPT-4 ,New Bing 官方今天發個公告,承認New Bing 其實就是 GPT-4。
所以這麼說的話,有沒有種可能,GPT-5 也已經近呢?
我已經開始期待除文字、圖片以外,視頻、音頻等形式的輸入。