ChatGPT-4威力加強版上手:它很強 但也有點拉


OpenAI發佈最新的GPT-4。根據發佈會披露的內容來看,這個新一代比早先大傢使用的ChatGPT的GPT-3.5內核強悍一大截,再次刷新人們對AI的認知。首先,非常非常重要的一點是,GPT-4可以接受文字以外的內容輸入,目前支持文字與圖像的混合輸入。


在官方的示例中,用戶給 GPT-4 上傳一張梗圖,問 GPT-4 這張圖為什麼好笑:


GPT-4 非常詳細且精準地描述出圖片上的內容,並且有思維條理的解釋,為什麼這張圖會讓人覺得好笑。


這還不算完,就算是十分抽象的 Meme,它也能一本正經地給你解釋笑點在哪裡。



隻不過麼,GPT4 也還沒到能通過圖靈的程度。

當然,這個功能並不隻是能解釋梗圖那麼簡單,它擁有無限的想象空間,比如:

在今天凌晨的官方直播視頻中,GTP 的開發人員演示GPT-4 可以識別他手繪的一張網頁草圖,並且根據草圖寫出網頁的前端代碼。

手繪的網頁草圖,非常抽象 ▼


GPT-4 給出的網頁以及代碼 ▼


雖然這個示例裡的網站非常簡單,但 GPT-4 的理解能力和創造力還是讓人覺得不可思議:

重要的不是它能不能做得很好,而是它能做到,這是一個質的飛躍。

甚至,目前已經有公司在搞這項技術的落地應用,打算把它和導盲服務結合起來。

這樣一來,盲人隻需要拍張照,GPT-4 就能立即復述出面前物品的信息。


在文字問答方面,GPT-4 也有非常大的提升,輸入字增加到 2.5 萬。

在專業領域上的回答,特別是 “ 問題復雜度足夠高的時候……GPT-4 比老版本更細、更可信、更富有創造力 ”。

比如,在統一律師考試( Uniform Bar Exam )中,GPT-4 可以超過 90% 的人類考生,而老版本隻能超過 10% 的人類考生,妥妥學渣學霸的區別。

在 GRE 數學和語文( 閱讀與填空 )考試中 ,GPT-4 的考試成績已經是哈佛、麻省理工、斯坦福大學生的水平。


不僅自己回答問題能力變強,GPT-4 還會人格扮演。

比如你提出一個問題,ChatGPT 隻會機械式地回答,而 GPT-4 可以按你的要求以蘇格拉底風格給你作答。

那這個玩法就多呀。向下滑動▼




不過,說這麼多,百聞不如一試。

即使已經是凌晨 2 點,編輯部依舊花重金( 20 美元/月 ),連夜讓美國同事幫忙升級試用一波。

遺憾的是,OpenAI 考慮到用戶們搞幺蛾子的能力太狠,所以目前 GPT-4 的圖片輸入功能暫時不對公眾開放,也沒有說啥時候可以用上。


不過,我們還是可以試試它聰明的小腦瓜子。

先是給一個全網瘋傳的“ 華為、阿裡入職面試題 ”,挑戰大獲成功,而隔壁的 ChatGPT 就有點拉。


作為擊敗 90% 人類的大律師,GPT-4 的推理能力應該強無敵吧。

所以我們又搞道法考的經典案件,想掂量掂量 GPT-4 到底有幾斤幾兩。

問:乙去甲傢吃飯,結果電動車被偷。於是乙準備偷輛別人的電動車,此時,喝醉的甲來幫忙撬鎖,幫乙成功得手。結果調查後發現,乙偷的是甲的電動車,問甲算不算是盜竊罪?

雖然新舊兩款結論都是正確的,但是舊版的解題過程,就有點亂來。。


在一些更需要 “ 創造性 ” 或是 “ 思考 ” 的問題,比如:關於最近一次特斯拉投資者大會上 “ 實現全球可持續能源 ” 的計劃,你覺得是可行的嗎?為什麼可行?GPT-4 的表現就更讓人吃驚。

雖然 GPT-4 的知識庫停留在 2021 年 9月,並沒有覆蓋半個月前的那場投資者大會,但它卻神奇地未卜先知。


而老版本 ChatGPT 的回答就遜色很多,沒有條理,還有一堆車軲轆話,沒有建設性觀點。

ChatGPT-4威力加強版上手:它很強 但也有點拉

隨後,我們又問一個行業思考相關的問題:你如何看待全球的碳排放戰略,它能成功嗎?

老版隻能浮於表面籠統地給點泛泛的概念,而 GPT-4 的回答明顯維度更寬、思考更深,洋洋灑灑列 10 點,更加細致有條理,並且含有更多專業詞匯與內容,可以說幾乎完美地回答這個問題。

ChatGPT-4威力加強版上手:它很強 但也有點拉

上面這些,還僅僅隻是我們編輯部的試驗,在一些大佬們手上,GPT-4 令人恐懼的表現就更多。

比如僅僅隻用 60 秒,就做出一款 Pong 遊戲,20 秒就能做出貪吃蛇遊戲。

ChatGPT-4威力加強版上手:它很強 但也有點拉

不可否認,GPT-4 比起舊版來說,強的不是一點半點。

不過我們試出來的問題,其實也不少。

我們搞套高中數學競賽試卷來考它,結果,一試就尷尬。

第一道選擇題,新舊兩個版本就都解錯。

難道說,斯坦福、麻省理工還不如。。?

ChatGPT-4威力加強版上手:它很強 但也有點拉

因為 GPT-4 可以支持更長的輸入文本,所以我們就又測試它的總結概括能力。

這下餡露得更大。

我們甩給它的是之前發過的一篇文章的鏈接,其實 GPT-4 是沒有聯網的,正常來說是沒法總結的。

結果,它愣是憑空捏造兩個文章總結,而且和我們給的文章沒有任何關系。直到在我反復指正兩次,語氣都加重,它才承認自己的錯誤。

ChatGPT-4威力加強版上手:它很強 但也有點拉

直到後面我們把原文直接貼進去後,GPT-4 才展露它超強的總結能力。

ChatGPT-4威力加強版上手:它很強 但也有點拉

說實話,這個胡編亂造的能力讓我們心裡一驚,於是就又想個測試方法。

前兩天,小黑胖把“ 手拿把攥 ”記混成“ 手拿把蒜 ”,被編輯部嘲笑很久,於是我們就問 GPT-4 “ 手拿把蒜什麼意思?”

結果牛掰,GPT-4 在理解一部分“ 把蒜(攥) ”是形容事情輕而易舉的基礎上,引經據典地胡編亂造,頗有種當年我寫作文時,引用的俄羅斯文學傢“ 沃茲基索德 ”的味道。

要知道,如果是真實場,這個半真半假、引用權威的胡說八道的後果將是非常嚴重的,堪稱最高級的謊言。

ChatGPT-4威力加強版上手:它很強 但也有點拉

明明連更老的 ChatGPT 也不敢這麼捏造來源地胡說,更高級的 GPT-4 怎麼會這樣呢?

我們猜測,就是因為新版本更傾向於表現出 “ 更具有深度思考 ”,這麼一來,在回答很多問題的時候,GPT-4 會自己給自己加戲,才會出現這些鬧劇。

雖然我們試這麼多漏洞,但總的來講,這次發佈的 ChatGPT,無論是基礎功能、想象空間、邏輯能力、思考能力,都比之前強一大截。

明明距離老版本 ChatGPT 顛覆我們的認知才沒幾個月,它們就又掏出一個船新版本,我們隻能說:恐怖如斯。

更恐怖的是,其實 GPT-4 誕生時間,可能比我們想的還要早很多,之前 OpenAI 發佈基於 GPT-3.5 的 ChatGPT 時,內部員工就質疑過為啥發個這麼古早的版本。

我們也早就接觸過 GPT-4 ,New Bing 官方今天發個公告,承認New Bing 其實就是 GPT-4。

ChatGPT-4威力加強版上手:它很強 但也有點拉

所以這麼說的話,有沒有種可能,GPT-5 也已經近呢?

我已經開始期待除文字、圖片以外,視頻、音頻等形式的輸入。


相關推薦

2023-03-23

用自然語言進行編程的時代真的要來——GitHubCEO托馬斯·多姆克在官方博客上宣佈:代碼輔助工具Copilot進行重大升級,接入GPT-4,更名CopilotX。因此,原來隻能幫你補全代碼的它,現在通過打字聊聊天甚至語音就能:直接寫代碼

2023-08-20

快科技8月19日消息,科技媒體AppleInsider上手蘋果空間計算設備Vision Pro,他們分享Vision Pro的使用心得。這款設備最大的亮點就是手勢、眼球運動和語音命令(Siri)三種交互方式。用戶可以通過眼睛鎖定觀看位置,並使用手勢來進

2023-08-20

快科技8月19日消息,科技媒體AppleInsider上手蘋果空間計算設備Vision Pro,他們分享Vision Pro的使用心得。這款設備最大的亮點就是手勢、眼球運動和語音命令(Siri)三種交互方式。用戶可以通過眼睛鎖定觀看位置,並使用手勢來進

2023-08-20

快科技8月19日消息,科技媒體AppleInsider上手蘋果空間計算設備Vision Pro,他們分享Vision Pro的使用心得。這款設備最大的亮點就是手勢、眼球運動和語音命令(Siri)三種交互方式。用戶可以通過眼睛鎖定觀看位置,並使用手勢來進

2023-04-25

科大訊飛版ChatGPT產品,提前交卷!就在昨夜,訊飛驟然向開發者提供內測通道,取名為訊飛星火認知大模型對外開啟內測。還有個神奇的英文名字SparkDesk,據說有“火花桌面智能助手”的意思。訊飛這波操作,多少有點“反向

2023-11-01

,有個大致的體驗方向。這回的通義 2.0,說是已經超過 ChatGPT 3.5,縮短和 GPT-4 的差距。但是,世超一上手,就覺得稍微有點失望,因為這個2.0 版依舊不支持聯網。不過雖然不具備聯網能力,但世超試著問一些熱梗。比如&nbs

2022-09-16

已經陸續收到新機。大傢也紛紛曬出自己新手機的圖片和上手感受,而此前被奉為神作的靈動島直接跌下神壇。雖然說蘋果對於靈動島的設計十分巧妙,但因為技術限制,挖孔區域和靈動島的UI黑色部分還是有明顯的色差。之前

2022-07-29

一堆廠商…泡哥果斷搞來這臺手機,給大傢來個全網首發上手體驗!到底是國產之光,還是電子垃圾?今天就給大傢看點幹貨!地表最強縫合怪,手機界的碰瓷王說實話,這款手機的復雜程度,已經遠遠超出泡哥能用語言形容的

2023-01-19

插入,備受玩傢青睞,一上市就被搶購一空。但是,這個加強版也掛。國外網友“u/Humble-Brilliant”曬圖顯示,電源線有多個針腳接口被燒毀,線纜部分有的甚至都融化,非常慘烈。幸運的是,2000美元購買的RTX 4090雖然供電接口也

2022-09-05

別,稱之為“披著 iOS 系統輸入法皮膚的 Gboard 本地化增強版”都不為過。如果微信鍵盤和文章一樣可以到這裡就結束那該有多好。微信鍵盤的主推體驗是“拼寫 Plus”,和大部分國內輸入法主推的輸入增強體驗一樣,這也是一個

2023-01-23

評的態度。1月21日,馬斯克在推文中寫道:“我在第二次加強劑註射後出現嚴重的副作用,好幾天我都感覺自己快要死。希望不會造成永久性的傷害。”但馬斯克並未透露他接種加強針的具體時間。對於為何願意接種加強針,馬

2023-01-04

顯變得頻繁。Pixel7a保持這種趨勢,它出現在一個所謂的上手視頻和一些圖片中。其中一張圖片強調Pixel6a所不具備的功能,這可能會成為它上市時的一個主要賣點。Pixel 7a現身於Facebook的一個私人小組,Twitter用戶@chunvn8888將圖片和

2022-09-20

(9月20日)23點“GeForceBeyond”活動開始前,一張CEO黃仁勛上手RTX4090的高清照片首次曝光。考慮到發佈會視頻已經提前錄制好,這張圖片或是翻拍於錄制現場,或是來自視頻截圖。不過,坦率來說,從手持方式來看,也有點P圖的

2023-05-27

據海外媒體MacRumors報道,預計蘋果公司將於今年9月發佈iPhone 15系列手機。相比上一代,iPhone 15系列同樣分為四款,包括iPhone 15、iPhone 15 Plus、iPhone 15 Pro和iPhone 15 Pro Max等。配件生產商提供的機模顯示,iPhone 15系列整體造型繼續延