GPT-4比ChatGPT有何進步?黃仁勛與OpenAI聯合創始人進行一次“爐邊談話”


英偉達碰上OpenAI會擦出怎樣的火花?就在剛剛,英偉達創始人兼首席執行官黃仁勛在GTC的爐邊談話中與OpenAI共同創辦人IlyaSutskever進行一次深入交流。



前兩天,OpenAI推出迄今為止最強大的人工智能模型GPT-4。OpenAI在官網上稱GPT-4是“OpenAI最先進的系統”,“能夠產生更安全、更有用的響應”。

Sutskever在談話中也表示,與ChatGPT相比,GPT-4在許多方面標志著“相當大的改進”,並指出新模型可以讀取圖像和文本。他說,“在未來的某個版本中,[用戶]可能會得到一張圖表”以回應提問和查詢。


毫無疑問,隨著ChatGPT與GPT-4在全球范圍內的爆火,這也成為這次談話的關註焦點,而除GPT-4及其前身包括ChatGPT相關話題外,黃仁勛與Sutskever也聊到深度神經網絡的能力、局限性和內部運作方式,以及對未來AI發展的預測。

接下來就和文摘菌一起深入這場對話看看吧~

從網絡規模和計算規模還無人在意時做起

可能不少人一聽到Sutskever的名字最先想到的就是OpenAI及其相關的AI產品,但要知道,Sutskever的履歷可以追溯到吳恩達的博士後、Google Brain的研究科學傢,以及Seq2Seq模型的合作開發者。

可以說,從一開始,深度學習就與Sutskever綁定在一起。

在談及對深度學習的認識時,Sutskever表示,從現在來看,深度學習確實改變世界。不過他個人的出發點更多是在於對AI存在的巨大影響潛力的直覺,對意識與人類體驗的濃厚興趣,以及認為AI的發展會幫助解答這些問題。

2002-03年期間,人們普遍認為學習是一件隻有人類才能做到的事,計算機是無法學習的。而如果能讓計算機具有學習的能力,那將是AI領域一次重大的突破。

這也成Sutskever正式進軍AI領域的契機。


於是Sutskever找到同一所大學的Jeff Hinton。在他看來,Hinton所從事的神經網絡正是突破口,因為神經網絡的特性就在於能夠學習,可以自動編程的並行計算機。

而彼時並沒有人在意網絡規模和計算規模的重要性,人們訓練的神經網絡隻有50個或100個,數百個的規模已經算大的,一百萬的參數也被視為很龐大。

除此之外,他們還隻能在沒有優化過的CPU代碼上跑程序,因為沒人懂BLAS,多用優化後的Matlab做一些實驗,比如用什麼樣的問題來提問比較好。

但問題是,這些都是很零散的實驗,無法真正推動技術進步。

構建面向計算機視覺的神經網絡

當時,Sutskever就察覺到,有監督學習才是未來前進的方向。

這不僅是一種直覺,也是無需爭辯的事實。在神經網絡足夠深足夠大的基礎上,那麼它就有能力去解決一些有難度的任務。但人們還沒有專註在深且大的神經網絡上,甚至人們根本沒有把目光放在神經網絡上。

為找到一個好的解決方案,就需要一個合適的大數據集以及大量的計算。

ImageNet就是那個數據。當時ImageNet是一個難度很高的數據集,但要訓練一個大的卷積神經網絡,就必須要有匹配的算力。


接下來GPU就該出場。在Jeff Hinton的建議下,他們發現隨著ImageNet數據集的出現,卷積神經網絡是非常適合GPU的模型,所以能夠讓它變得很快,規模也就這麼越來越大。

隨後更是直接大幅打破計算機視覺的紀錄,而這不是基於以往方法的延續,關鍵是在於這個數據集本身的難度與范圍。

OpenAI:從100人到ChatGPT

在OpenAI初期,Sutskever坦言道,他們也不是完全清楚如何推動這個項目。

在2016年初,神經網絡沒有那麼發達,研究人員也比現在少很多。Sutskever回憶稱,當時公司隻有100個人,大部分還都在Google或deepmind工作。


不過當時他們有兩個大的思路。

其中一個是通過壓縮進行無監督學習。2016年,無監督學習是機器學習中一個尚未解決的問題,沒有人知道怎麼實現。最近,壓縮也並不是人們通常會談到的話題,隻是突然間大傢突然意識到GPT實際上壓縮訓練數據。

從數學意義上講,訓練這些自回歸生成模型可以壓縮數據,並且直觀上也可以看到為什麼會起作用。如果數據被壓縮得足夠好,你就能提取其中存在的所有隱藏信息。這也直接導致OpenAI對情緒神經元的相關研究

同時,他們對相同的LSTM進行調整來預測亞馬遜評論的下一個字符時發現,如果你預測下一個字符足夠好,就會有一個神經元在LSTM內對應於它的情緒。這就很好地展示無監督學習的效果,也驗證下一個字符預測的想法。

但是要從哪裡得到無監督學習的數據呢?Sutskever表示,無監督學習的苦難之處不在於數據,更多關於為什麼要這麼做,以及意識到訓練神經網絡來預測下一個字符是值得追求和探索的。於此它會學習到一個可以理解的表征。

另一個大的思路就是強化學習。Sutskever一直相信,更大的就是更好的(bigger is better)。在OpenAI,他們的一個目標就是找出規模擴展的正確途徑。

OpenAI完成的第一個真正的大型項目是實施戰略遊戲Dota 2。當時OpenAI訓練一個強化學習的agent來與自己對抗,目標是達到一定水平能夠和人類玩傢遊戲。


從Dota的強化學習轉變為人類反饋的強化學習GPT產出技術基座結合,就成如今的ChatGPT。

OpenAI是如何訓練一個大型神經網絡的

當訓練一個大型神經網絡來準確預測互聯網上不同文本中的下一個詞的時候,OpenAI所做的是學習一個世界模型

這看上去像是隻在學習文本中的統計相關性,但實際上,學習這些統計相關性就可以把這些知識壓縮得非常好。神經網絡所學習的是生成文本的過程中的一些表述,這個文本實際上是世界的一個映射,因此神經網絡便能夠學習越來越多的角度來看待人類和社會。這些才是神經網絡真正在準確預測下一個詞的任務中學習到的東西。

同時,對下一個詞的預測越準確,還原度就越高,在這個過程中得到的對世界的分辨率就越高。這是預訓練階段的作用,但這並不能讓神經網絡表現出我們希望它表現出的行為。


一個語言模型真正要做到的是,如果我在互聯網上有一些隨機文本,以一些前綴或提示開始,它會補全什麼內容。

當然它也可以在互聯網上找到文本進行填充,但這就不是最初構想的那樣的,因此還需要額外的訓練,這就是微調、來自人類老師的強化學習,以及其他形式的AI協助可以發揮作用的地方。

但這不是教授新的知識,而是與它交流,向它傳達我們希望它變成什麼樣,其中也包括邊界。這個過程做得越好,神經網絡就越有用越可靠,邊界的保真度也就越高。

再談GPT-4

ChatGPT成為用戶增長最快的應用沒多久,GPT-4就正式釋出。

在談到兩者的區別時,Sutskever表示,GPT-4相較於ChatGPT在許多維度上都做到相當大的改進。

ChatGPT與GPT-4之間最重要的區別在於在GPT-4的基礎上構建預測下一個字符具有更高的準確度。神經網絡越能預測文本中的下一個詞,它就越能理解文本。

比如,你讀一本偵探小說,情節非常復雜,穿插非常多的故事情節和人物,埋很多神秘的線索。在書的最後一章,偵探收集所有的線索,召集所有人,說現在他將揭示誰是犯人,那個人就是……

這就是GPT-4能夠預測的東西。

人們都說,深度學習不會邏輯推理。但不管是這個例子還是GPT能做到的一些事,都展現出一定程度的推理能力。

Sutskever對此回應稱,當我們在定義邏輯推理時,在進行下一步決策時如果你能夠以某種方式思考一下或許能得到一個更好的答案。而神經網絡能走多遠也尚待考察,OpenAI目前還沒有充分挖掘出它的潛力。

一些神經網絡其實已經具備這類能力,但是大多都還不夠可靠。而可靠性是讓這些模型有用的最大阻礙,這也是當前模型的一大瓶頸。這不關乎模型是否具備特定的能力,而是具備多少能力。

Sutskever也表示,GPT-4發佈時並沒有內置的檢索功能,它隻是一個能夠預測下一個詞的很好的工具,但可以說它完全具備這個能力,將檢索變得更好。

GPT-4還有一個顯著的改進就是對圖像的響應和處理。多模態學習在其中發揮重要的作用,Sutskever說到,多模態有兩個維度,第一個在於多模態對神經網絡是有用處的,尤其是視覺;第二個在於除文本學習外,從圖像中也可以學習到世界的知識。

人工智能的未來

再說到利用AI訓練AI時,Sutskever表示這一部分的數據不應該被忽視。

預測未來語言模型的發展是一件困難的事,但是在Sutskever看來,有充分理由相信這個領域會持續進步,AI也將在自己的能力邊界繼續用實力震驚人類。AI的可靠性是由是否可以被信任決定的,未來肯定會達到可被完全信賴的地步

如果它不能完全理解,它也會通過提問來弄清楚,或者告訴你它不知道,這些正是AI可用性影響最大的領域,未來會有最大的進步。

現在就面臨這樣一個挑戰,你想讓一個神經網絡總結長文檔或獲取摘要,如何確定重要的細節沒有被忽視?如果一個要點顯然重要到每個讀者都會對此達成一致,那麼就可以承認神經網絡總結的內容是可靠的。

在神經網絡是否清楚地遵循用戶意圖這一點上也同樣適用。

未來兩年會看到越來越多這樣的技術,讓這項技術變得越來越可靠。


相關推薦

2023-03-24

,Ilya Sutskever表達自己對於GPT-4的看法。Sutskever表示,與ChatGPT相比,GPT-4確實存在相當明顯的進步,但當被問及GPT-4是否具有推理能力時,他則表示這個術語很難定義,而且這種能力可能仍在醞釀之中。根據他的說法,GPT-4的推理

2024-07-30

快科技7月30日消息,北京時間今早6:00,英偉達CEO黃仁勛和MetaCEO馬克紮克伯格在SIGGRAPH 2024上就AI領域新突破進行爐邊談話,這是兩人首次公開對話。黃仁勛與紮克伯格共同探討基礎研究如何推動AI突破性進展,以及生成式AI和開源

2024-03-26

在中國談及生成式AI話題。當媒體記者問及“iPhone在AI上有何進展”時,庫克表示,AI已經運用在蘋果產品的各方面,例如Apple Watch的摔倒檢測以及iPhone的預測性文本輸入等功能,都是由AI來完成驅動的。同時,有媒體爆料稱蘋果

2024-06-03

科技6月2日消息,據媒體報道,英偉達公司的創始人兼CEO黃仁勛與Stripe的聯合創始人帕特裡克科裡森進行一場深入對話,共同探討並分享英偉達獨特的管理哲學。在談話中,黃仁勛首先闡述他的工作理念與團隊管理心得。他直言

2023-09-03

行大10倍或100倍的訓練運行。今年3月份GPT-4正式發佈,和ChatGPT最初使用的GPT-3.5模型相比,GPT-4實現幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至2.5萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風

2024-02-13

計算機用於開發早期的生成式 AI模型,最終形成著名的 ChatGPT 在線聊天機器人。現在,Nvidia 領先的 H100 數據中心 GPU 售價高達 40,000 美元。微軟和亞馬遜等集中式數據中心運營商訂購數十萬個數據中心,為雲客戶提供開發人工

2023-11-30

等行業運行大量工作負載,它們還支持OpenAI的聊天機器人ChatGPT等。英偉達第三財季的營收增長兩倍,凈利潤從去年同期的6.8億美元攀升至92.4億美元。黃仁勛回憶他向OpenAI交付“世界上第一臺人工智能超級計算機”的情景。當時

2024-03-06

ity。近期,黃仁勛接受媒體采訪時被問到:“你自己使用ChatGPT或者Bard的頻率高嗎?還是會用其它產品?”黃仁勛稱,“我一般用Perplexity,且幾乎每天都在用”。比如,他最近想解計算機輔助藥物研發的時候,就會用Perplexity進

2023-03-24

微軟聯合創始人比爾·蓋茨一直在與ChatGPT的母公司OpenAI密切合作。周四,他分享他與微軟首席技術官凱文·斯科特(KevinScott)的對話,討論他的公司如何利用其新興的人工智能技術。 在最近的一次會議上,蓋

2023-10-28

點關註國際發展。"人工智能可以推動人類取得非凡的進步。從預測和應對危機,到推出公共衛生計劃和教育服務,人工智能可以全面擴大和增強各國政府、民間社會和聯合國的工作,"聯合國秘書長安東尼奧-古特雷斯談

2023-11-30

、工程和科學研究等行業運行大量工作負載,以及OpenAI的ChatGPT。英偉達第三財季的營收增長兩倍,凈利潤從去年同期的6.8億美元攀升至92.4億美元。在周三的采訪中,黃回憶他向OpenAI交付“世界上第一臺人工智能超級計算機”的

2024-03-08

Inflection AI推出Pi聊天機器人,向OpenAI正式下戰書。不同於ChatGPT等產品的“生產力工具”定位,Pi想做“個人AI”,成為用戶24小時在線的數字朋友,更註重為用戶帶來友好、豐富的社交互動體驗。Pi能記住與跨平臺登錄用戶的100次

2024-03-19

來的酷炫的視頻後,一切鋪墊就緒——英偉達就是這一切進步的基石。是時候該發佈重要芯片。人們對此有預期,但當B200出現的時候,現場(可能包括全世界圍觀者)都還是忍不住驚呼。這是Hooper後的新一代架構,以數學傢Black

2023-03-22

據報道,微軟聯合創始人比爾·蓋茨(BillGates)最近公開表示,OpenAI開發的GPT人工智能模型是1980年現代GUI(圖形桌面環境)出現以來最具革命性的技術進步。蓋茨稱,在現代GUI出現之前人類通過一行行代碼操作計算機。當年蓋茨