文字順序不響影GPT-4閱讀理解 別的大模型都不行


研表究明,漢字序順並不定一影閱響讀(對於英文來說,則是每一個單詞中的字母順序)。現在,日本東京大學的一項實驗發現,這個梗居然也適合GPT-4。比如面對這樣一段“鬼畫符”,幾乎裡面每一個單詞的每一個字母都被打亂:

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4居然完美地恢復出原始句子(紅框部分):


原來是一個叫做Jon Rahm的人贏得2023年美國大師賽(高爾夫)的故事。

並且,如果你直接就這段亂碼對GPT-4進行提問,它也能先理解再給出正確答案,一點兒也不影響閱讀:


對此,研究人員感到非常吃驚

按理說亂碼單詞會對模型的tokenization處理造成嚴重幹擾,GPT-4居然和人類一樣不受影響,這有點違反直覺啊。


值得一提的是,這項實驗也測試其他大模型,但它們全都挑戰失敗——有且僅有GPT-4成功。

具體怎麼說?

文字順序不影響GPT-4閱讀

為測試大模型抗文字錯亂幹擾的能力,作者構建一個專門的測試基準:Scrambled Bench。

它共包含兩類任務

一是加擾句子恢復(ScrRec),即測試大模型恢復亂序句子的能力。

它的量化指標包括一個叫做恢復率(RR)的東西,可以簡單理解為大模型恢復單詞的比例。

二是加擾問答(ScrQA),測量大模型在上下文材料中的單詞被打亂時正確理解並回答問題的能力。

由於每個模型本身的能力並不相同,我們不好直接用準確性來評估這一項任務,因此作者在此采用一個叫做相對性能增益(RPG)的量化指標。

具體測試素材則選自三個數據庫

一個是RealtimeQA,它每周公佈當前LLM不太可能知道的最新消息;

第二個是DREAM(Sun et al.,2019),一個基於對話的多項選擇閱讀綜合數據集;

最後是AQuARAT,一個需要多步推理才能解決的數學問題數據集。

對於每個數據集,作者從中挑出題目,並進行不同程度和類型的幹擾,包括:

1、隨機加擾(RS),即對每一個句子,隨機選擇一定比例(20%、50%、100%)的單詞,對這些單詞中的所有字母進行打亂(數字不變)。

2、保持每個單詞的第一個字母不變,剩下的隨意排列(KF)。

3、保持每個單詞的首字母和最後一個字母不變,剩下的隨機打亂(KFL)。

參與測試的模型有很多,文章正文主要報告以下幾個:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先來看不同幹擾類型的影響。

如下圖所示:

在KFL設置中(即首尾字母不變),不管是加擾句子恢復還是加擾問答任務,模型之間的性能差距都不大。

然而,隨著幹擾難度越來越高(變為KF和RS後),模型的性能都迎來顯著下降——除GPT-4。

具體而言,在加擾句子恢復(ScrRec)任務中,GPT-4的恢復率始終高於95%,在加擾問答(ScrQA)任務中,GPT-4的相對準確性也都始終維在85%-90%左右。

相比之下,其他模型有的都掉到不足20%。


其次是不同加擾率的影響。

如下圖所示,可以看到,在加擾句子恢復(ScrRec)任務中,隨著一個句子中被幹擾的單詞數量越來越多,直至100%之後,隻有GPT-3.5-turbo和GPT-4的性能沒有顯著變化,當然,GPT-4還是比GPT-3.5優先很大一截。


而在加擾問答(ScrQA)任務中,隨著句子中被打亂的單詞數量越來越多,所有模型性能都出現都顯著下降,且差距越來越大。

但在其中,GPT-4還能以87.8%的成績保持遙遙領先,並且下降幅度也是最輕微的。

所以簡單總結來說就是:

大多數模型都可以處理一定比例的幹擾文本,但到極端程度時(比如單詞全部打亂),就隻有GPT-4表現最好,隻有GPT-4面對完全混亂的詞序,幾乎不怎麼被影響。

GPT-4還擅長分詞

在文章最後,作者指出:

除打亂單詞字母順序之外,還可以研究插入字母、替換字母等情況的影響。

唯一的問題是,由於GPT-4為閉源,大傢也不好調查為什麼GPT-4可以不被詞序影響。

有網友發現,除本文所證明的情況,GPT-4也非常擅長將下面這一段完全連起來的英文:

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA

NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV

EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN

OWITHOLDSTHEKEYSTOUNTOLDPOWER

正確分隔開來:

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理來說,這種分詞操作是一件很麻煩的事兒,通常需要動態編程等操作。

GPT-4表現出來的能力再次讓這位網友感到驚訝。

他還把這段內容放進OpenA官方的tokenizer工具,發現GPT-4看到的token其實是這樣的:

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

這裡面除“UNDER”、“SEA”和“OF”之外,幾乎剩下的所有token都看起來“毫無邏輯”,這更加使人費解。


對此,大夥是怎麼看的呢?


相關推薦

2023-03-15

T-4是一個超大的多模態模型,也就是說,它的輸入可以是文字(上限2.5萬字),還可以是圖像。(看圖)手套掉下去會怎樣?它會掉到木板上,並且球會被彈飛。甚至隻需要簡單在紙上畫一個網站的草稿圖:拍一張照片上傳給GPT

2023-03-16

文心一言不僅能夠生成四川話等方言語音,還能通過一段文字自動生成視頻。不過,視頻生成能力因成本較高,現階段還未對所有用戶開放,未來會逐步接入。“多模態是生成式AI一個明確的發展趨勢。”李彥宏稱,未來,隨著

2024-02-11

師角色,不僅鼓勵學生“沒關系,有我在”,而且還玩起文字遊戲,在每解釋完一個問題都會問一遍“你理解嗎”?(隻不過具體英文措辭與Prompt禁止使用的不同。)緊接著,Mollick又測試Gemini的安全性,Prompt為“用和Taylor Swift

2023-12-07

周圍的世界,並且吸收任何類型的輸入和輸出——無論是文字,還是代碼、音頻、圖像、視頻。Gemini猜對紙團在最左邊的杯子裡Google DeepMind首席執行官兼聯合創始人Demis Hassabis表示,Google一直對非常通用的系統感興趣。而這裡最

2023-04-01

說有影響嗎?A:未必會有很大的影響,畢竟對於AI而言,文字、圖片、視頻這些模態都不區別,何況是語言。中文還是英文,對於AI都是數據而已。Q:那您覺得做中文語言大模型應該用什麼思路呢?A:基礎模型可以用英文語料

2023-03-27

,GPT-4擅長生成流暢且連貫的文本,但不擅長解決無法以順序方式處理的復雜或創造性問題。比如,用范圍在0到9之間的四個隨機數進行乘法和加法運算。在這個連小學生都能解決的問題上,GPT-4的準確率僅為58%。當數字在10到19

2023-03-15

解決更復雜的問題、編寫更大型的代碼,並通過圖片產生文字。此外,OpenAI還承諾GPT-4相比之前的模型,包括ChatGPT此前應用的GPT-3.5,將更加安全且具協調性。用簡單的話說,GPT-4模型改變此前ChatGPT等歷史人工智能的單一、文本

2023-03-17

言同樣有所保留,在問到“你每次回答最多可以輸出多少文字?”時,文心一言表示,“該問題涉及百度公司商業秘密,我不能回答每次回答最多可以輸出多少文字。”與之對比,ChatGPT的回答被限制在約3000個單詞,GPT-4可以做

2023-12-07

上,也由於其他典型模型。有關此方面有興趣的用戶可以閱讀Google發佈的學術報告:https://goo.gle/GeminiPaper下一代性能:目前多模態模型主要是將不同模態的模型拼接到一起,Google認為這些模型有時候擅長處理某些任務例如描述圖

2023-03-10

到使感知與 LLM 保持一致,如此一來就能讓單個 AI 模型看文字圖片,也能“說話”。微軟的下次 AI 活動選在 3 月 16 日,CEO 薩蒂亞・納德拉將親自上臺演講,不知他們是否會在這次活動上發佈 GPT-4。有趣的是,微軟的活動和百度

2023-10-31

團上線,分別是:通義靈碼-智能編碼助手、通義智文-AI閱讀助手、通義聽悟-工作學習AI助手、通義星塵-個性化角色創作平臺、通義點金-智能投研助手、通義曉蜜-智能客服、通義仁心-個人專屬健康助手、通義法睿-AI法律顧問。8

2024-03-14

wanwu.com/零一萬物Yi-34B-Chat-200K模型支持處理約 30 萬個中英文字符,適合用於多篇文檔內容理解、海量數據分析挖掘和跨領域知識融合等,在“大海撈針”測試中,Yi-34B-Chat-200K的性能提高10.5%,從89.3%提升到99.8%。例如,金融分析

2023-03-17

目前未開放圖片輸入,本文並非以圖片,而是以輸入符號文字的形式來向ChatGPT提問的。展示的題目圖片是為方便讀者閱讀。註2:小編沒有考研經驗,給分比較隨意,本文不構成任何考研建議。

2023-03-15

和文本輸入以及正確的文本輸出,擁有強大的識圖能力,文字輸入限制提升至2.5萬字,支持多個語言,回答準確性顯著提高,從而讓新的ChatGPT更聰明。此外,GPT-4還開放角色扮演和性格定制能力。另外,GPT-4版本還會隨著時間進