OpenAI總裁:GPT-4並不完美但卻絕對與眾不同


3月16日消息,人工智能研究公司OpenAI於昨日發佈備受期待的文本生成AI模型GPT-4。OpenAI聯合創始人兼總裁格雷格·佈羅克曼(GregBrockman)在接受采訪時表示,GPT-4並不完美,但卻絕對與眾不同。

GPT-4在其前身GPT-3的基礎上,在許多關鍵方面進行改進,例如提供更多真實的陳述,並允許開發人員更容易控制其風格和行為。從某種意義上說,GPT-4也是多模式的,因為它可以理解圖像,能給照片添加註釋,甚至詳細描述照片中的內容。

但GPT-4也有嚴重的缺陷。就像GPT-3一樣,該模型會產生“幻覺”(即模型聚合的文本與源文本無關或不夠準確),並會犯下基本的推理錯誤。OpenAI在自己的博客上舉一個例子,GPT-4將“貓王”埃爾維斯·普雷斯利(Elvis Presley)描述為“演員的兒子”,但實際上他的父母都不是演員。

當被要求將GPT-4與GPT-3進行比較時,佈羅克曼隻給出四個字回答:與眾不同。他解釋稱:“GPT-4絕對與眾不同,盡管它還存在很多問題和錯誤。但你可以看到其在微積分或法律等學科技能方面的躍升。它在某些領域的表現曾很糟糕,現在卻已經達到超越普通人的水準。”

測試結果支持佈羅克曼的觀點。在高考微積分考試中,GPT-4得4分(滿分5分),GPT-3得1分,介於GPT-3和GPT-4之間的GPT-3.5也得4分。在模擬律師考試中,GPT-4成績進入前10%行列,而GPT-3.5的分數在後10%左右徘徊。

與此同時,GPT-4更受人關註的地方在於上面提到的多模式。與GPT-3和GPT-3.5不同,它們隻能接受文本提示,例如可以要求“寫一篇關於長頸鹿的文章”,而GPT-4可以同時接受圖像和文本提示來執行某些操作,比如識別在塞倫蓋蒂拍攝的長頸鹿圖像,並給出基本的內容描述。

這是因為GPT-4是針對圖像和文本數據進行培訓的,而它的前身隻針對文本進行培訓。OpenAI表示,培訓數據來自“各種合法授權的、公開可用的數據源,其中可能包括公開可用的個人信息”,但當被要求提供細節時,佈羅克曼表示拒絕。訓練數據以前也曾讓OpenAI陷入法律糾紛。

GPT-4的圖像理解能力給人留下相當深刻的印象。例如,輸入提示“這張圖片有什麼好笑的?GPT-4會將整張圖片分解,並正確地解釋這個笑話的笑點。

目前,隻有一個合作夥伴可以使用GPT-4的圖像分析功能,這是一款針對視障人士的輔助應用程序,名為Be My Eyes。佈羅克曼說,在OpenAI評估風險和利弊的過程中,無論何時,更廣泛的推廣都將是“緩慢而有意的”。

他還稱:“有些政策問題也需要解決,比如面部識別和如何處理人的圖像。我們需要找出危險區域在哪裡,紅線在哪裡,然後隨著時間的推移找到解決方案。”

OpenAI在其文本到圖像轉換系統Dall-E 2上也遇到類似倫理困境。在最初禁用該功能後,OpenAI允許客戶上傳人臉,以使用AI支持的圖像生成系統對其進行編輯。當時,OpenAI聲稱,其安全系統的升級使面部編輯功能成為可能,因為它將深度造假以及試圖創造色情、政治和暴力內容的潛在危害降至最低。

另一個長期問題是防止GPT-4在無意中被用於可能造成傷害的方式使用。該模型發佈幾小時後,以色列網絡安全初創公司Adversa AI發佈一篇博客文章,演示繞過OpenAI的內容過濾器並讓GPT-4生成釣魚電子郵件、對同性戀者的攻擊性描述以及其他令人反感文本的方法。

這在語言模型領域並不是新問題。Facebook母公司Meta的聊天機器人BlenderBot和OpenAI的ChatGPT也曾被誘惑輸出不恰當的內容,甚至透露它們內部工作的敏感細節。但包括記者在內的許多人曾希望,GPT-4可能會在這方面帶來重大改進。

當被問及GPT-4的健壯性時,佈羅克曼強調,該模型已經經過六個月的安全培訓。在內部測試中,它對OpenAI使用政策不允許的內容請求做出響應的可能性比GPT-3.5低82%,產生“事實”響應的可能性比GPT-3.5高40%。

佈羅克曼說:“我們花很多時間試圖解GPT-4的能力。我們正在不斷更新,包括一系列改進,這樣該模型就更具可擴展性,以適應人們希望它擁有的個性或模式。”

坦率地說,早期的現實測試結果並不是那麼讓人滿意。除Adversa AI測試之外,微軟的聊天機器人Bing Chat也被證明非常容易越獄。使用精心設計的輸入,用戶能夠讓該聊天機器人表達愛意,發出威脅傷害,為大屠殺辯護,並發明陰謀論。

佈羅克曼並未否認GPT-4在這方面的不足,但他強調該模型的新限制工具,包括被稱為“系統”消息的API級功能。系統消息本質上是為GPT-4的交互設定基調並建立界限的指令。例如,一條系統消息可能是這樣寫的:“你是一位總是以蘇格拉底風格回答問題的導師。你永遠不會給學生答案,而是總是試著問正確的問題,幫助他們學會獨立思考。”

其思想是,系統消息充當護欄,防止GPT-4偏離軌道。佈羅克曼說:“真正弄清楚GPT-4的語氣、風格和實質一直是我們非常關註的問題。我認為我們開始更多地解如何進行工程設計,如何擁有一個可重復的過程,讓你得到對人們真正有用的可預測結果。”

佈羅克曼還提到Evals,這是OpenAI最新的開源軟件框架,用於評估其AI模型的性能,這是OpenAI致力於“增強”其模型的標志。Evals允許用戶開發和運行評估模型(如GPT-4)的基準測試,同時檢查它們的性能,這是一種眾包的模型測試方法。

佈羅克曼說:“有Evals,我們可以更好地看到用戶關心的用例,並可以對其進行測試。我們之所以開源這個框架,部分原因是我們不再每隔三個月發佈一個新模型以不斷改進。你不會制造你不能測量的東西,對吧?但隨著我們推出新版模型,我們至少可以知道發生哪些變化。”

佈羅克曼還被問道,OpenAI是否會補償人們用Evals測試它的模型?他不願就此做出承諾,但他確實指出,在有限的時間內,OpenAI允許提出申請的Eevals用戶提前訪問GPT-4 API。

佈羅克曼還談到GPT-4的上下文窗口,該窗口指的是模型在生成額外文本之前可以考慮的文本。OpenAI正在測試一種版本的GPT-4,它可以“記住”大約50頁內容,是普通GPT-4“內存”的5倍,是GPT-3的8倍。

佈羅克曼認為,擴展的上下文窗口會帶來新的、以前從未探索過的用例,特別是在企業中。他設想一款為公司打造的AI聊天機器人,它可以利用來自不同來源(包括各部門員工)的背景和知識,以一種非常內行但具有對話性的方式回答問題。

這並不是一個新概念。但佈羅克曼認為,GPT-4的答案將比目前其他聊天機器人和搜索引擎提供的答案有用得多。他說:“以前,模型根本不知道你是誰,你對什麼感興趣等。而擁有更大的上下文窗口肯定會讓它變得更強,從而大大增強它能為人們提供的支持。”


相關推薦

2023-02-11

先回答幾個最基礎的問題:ChatGPT和過去的AI有什麼不同?OpenAI是如何戰勝Google的?OpenAI的成功花多少錢?ChatGPT爆火之後,誰是最後贏傢?一、ChatGPT,生成式AI的王炸剛剛過去的2022年,從矽谷到國內的科技公司,上上下下都蔓延

2023-03-15

今天,OpenAI帶來全面進化的GPT-4,相較此前的GPT-3.5,新模型在準確度等方面存在相當顯著的提升。但AI畢竟還是AI,OpenAI也明確表示,現階段的GPT-4並不完美,在一些方面依舊存在問題。比如,在GPT-3.5中就存在的,AI胡編亂造”問

2024-04-20

轉載發佈。ChatGPT 正確的使用姿勢。自 ChatGPT 問世以來,OpenAI 一直被認為是全球生成式大模型的領導者。2023年3月,OpenAI 官方宣佈,開發者可以通過 API 將 ChatGPT 和 Whisper 模型集成到他們的應用程序和產品中。在 GPT-4發佈的同時

2023-04-15

礎上進行更多的工作而已。”這封信的一個早期版本聲稱OpenAI現在正在訓練GPT-5。事實上我們沒有,而且在一段時間內也不會。我們正在GPT-4的基礎上做其他事情,我認為這些事情有各種各樣的安全問題需要解決,而這些問題被

2023-05-11

科學傢,都難以解釋大模型(LLM)運作的背後。而最近,OpenAI似乎做到——本周二,OpenAI發佈其最新研究:讓GPT-4去試著解釋GPT-2的行為。即:讓一個 AI “黑盒”去解釋另一個 AI “黑盒”。工作量太大,決定讓 GPT-4 去解釋 GPT-2Op

2023-03-16

為“這個男人在出租車上面熨衣服”。這不是暢想,而是OpenAI最新發佈的大型多模態GPT-4已經具備的能力。北京時間3月15日凌晨,OpenAI正式發佈該模型。簡單來說,GPT-4與前代相比可以接受的文本輸入上限更高,回答的準確性提

2023-03-15

ChatGPT公司OpenAI隔夜上線其最新人工智能模型GPT-4,轟動整個科技界。據OpenAI自己稱,GPT-4將是該公司裡程碑式的模型。在其概念視頻中,OpenAI介紹新模型可以解決更復雜的問題、編寫更大型的代碼,並通過圖片產生文字。此外,O

2023-03-16

人工智能研究機構OpenAI3月14日發佈備受期待的文本生成AI模型GPT-4。GPT-4在關鍵方面對其前代GPT-3進行改進,例如提供更符合事實的陳述,並允許開發人員更輕松地規定其風格和行為。它是多模態的模型,可以理解圖像內容。但是

2023-03-31

噪一時的Midjourney,近期在AI生成圖片領域熱度可以說堪比OpenAI。MidjourneyV4版本去年年底幾乎跟ChatGPT同期上線,而就在上周GPT-4推出的時候,Midjourney也飛速推出第五代版本,而這一次的更新堪稱“炸裂”。一周以來,各種用Midjourn

2023-11-08

模型Grok,宣稱很多方面都是業界最佳。但僅僅一天後,OpenAI就向業界展示更大的生態平臺野心,他們已經在生成式AI的行業競爭中占據著明顯的領先優勢。向來習慣引領行業的馬斯克,這一次隻能不甘心地扮演追趕者的角色。創

2024-03-06

帶來的沖擊還未平靜,Claude3又來。3月4日晚,被稱之為是OpenAI最強競爭對手的Anthropic發佈其最新大模型系列Claude3。該系列包含三個模型,能力由強至弱分別是Claude3Opus(著作)、Claude3Sonnet(十四行詩)和Claude3Haiku(俳句)。Anthr

2024-03-06

組Claude3系列大模型,稱其功能在各種基準測試中均優於OpenAI的GPT4和Google的Gemini1.0Ultra。在模型的通用能力上,Anthropic稱Claude3系列“為廣泛的認知任務設定新的行業基準”,在分析和預測、細致內容的生成、代碼生成以及包括中

2023-04-04

6個月的開發似乎隻是一廂情願,幾乎沒有現實基礎。從OpenAI去年11月開始公測GPT-3以來,生成式人工智能開發的高速列車就從來沒有停止過。在發佈ChatGPT並啟動人工智能軍備競賽的那一刻,OpenAI就打開“潘多拉的魔盒”。而在市

2023-03-21

3月21日消息,上周人工智能初創組織OpenAI首席執行官山姆·阿爾特曼(SamAltman)在接受采訪時表示,人工智能可能是“人類迄今為止所開發的最偉大技術”,將重塑現有社會。同時,他也承認這項技術有風險,對此還是“有點畏