騰訊AI Lab:我們發現ChatGPT的又一個短板


在今天,狂熱追捧ChatGPT,仿佛已經成為一種“政治正確”。ChatGPT一出,學界、工業界無不驚為天人。一位研究機構的資深研究員就對AI科技評論說過:“ChatGPT出來,直接給我們整不會——生成做的比我們好就不說,NLP(自然語言處理)能力還比我們強不少。”

微軟註資百億美元,Google則如臨大敵,ChatGPT在科技圈裡掀起的巨浪,仍是現在進行時。

但是,ChatGPT並非“萬能鑰匙”——大模型在某些專業領域的準確度,仍然無法超越其他垂類產品。近日,騰訊AI Lab 就通過實驗證明,在機器翻譯領域,ChatGPT在某些情況下,能力弱於其他商業翻譯產品。


論文地址:https://arxiv.org/pdf/2301.08745v1.pdf

1

ChatGPT是個好翻譯嗎?

騰訊AI Lab的調查文指出:

首先,在高資源環境——如歐洲語言上——ChatGPT的表現與商業翻譯產品(如Google翻譯、DeepL Translate)相比具有競爭力,但是,在低資源環境——如古代語言——明顯落後;

其次,在翻譯的魯棒性上,ChatGPT在生物醫學摘要、或Reddit評論方面表現不如商業翻譯產品,但是在口語方面也許會是一個很好的翻譯工具。

為更好地理解ChatGPT的翻譯能力,騰訊AI Lab從以下三個方面開展實驗:

提示詞(Prompt)翻譯:ChatGPT是一個大型語言模型,在翻譯時需有提示詞(Prompt)作為引導才能引導系統進行翻譯。所以,提示詞的風格會影響翻譯輸出的質量。例如,在多語言機器翻譯模型中,如何將兩種語言信息聯系起來非常重要,這通常是通過附加語言標記來解決。

多語言翻譯:ChatGPT是一個處理各種NLP任務並涵蓋不同語言的單一模型,可以被視為一個統一的多語言機器翻譯模型。因此,ChatGPT在資源差異(如高與低)和語系差異(如歐洲與亞洲)上的表現是該實驗所探討的重點之一。

翻譯魯棒性:ChatGPT是基於GPT-3開發的模型,GPT-3在涵蓋各種領域的大規模數據集進行上訓練,因此,在特定領域的表現,是這次研究者們的重點之一。

提示詞翻譯

為設計觸發ChatGPT機器翻譯能力的提示詞,騰訊AI Lab團隊向ChatGPT提出以下prompt:

提供十個可以讓你翻譯的簡明提示或模版

並獲得圖1中的結果:


圖1: ChatGPT推薦的10個可引發其進行機器翻譯的prompt

生成的提示語看起來很合理,但是都有相似的格式,研究人員將它們總結成三個候選prompt(如圖2),其中[SRC] 和 [TGT] 分別代表翻譯的源語言和目標語言。另外,研究人員在Tp2中增加一個額外命令,要求ChatGPT不要在翻譯的句子上加雙引號(在原始格式中經常發生)。盡管如此,ChatGPT依舊不穩定,如會將同一批次的多行句子翻譯成單行。

圖2:候選翻譯提示

研究人員將三種不同的候選prompt與Flores-101的測試集在漢譯英任務中的表現進行比較,圖3顯示ChatGPT和其他三個翻譯軟件的結果。雖然ChatGPT提供相當好的翻譯,但它仍然落後於基線至少5.0個BLEU點。關於三個候選prompt,Tp3在所有指標方面表現的最好,因此在這篇論文中,研究者默認使用Tp3。


圖3:在中譯英翻譯任務中ChatGPT使用不同提示語的翻譯表現對比

多語言翻譯

騰訊AI Lab選擇四種語言來評估ChatGPT在多語言翻譯中的能力,包括德語(De)、英語(En)、羅馬尼亞語(Ro)和中文(Zh),這些語言在研究和競賽中都被普遍采用。前三種語言同來自拉丁語系,而後一種則來自中文語系。研究人員測試任意兩種語言間的翻譯表現,共涉及12次翻譯。

資源差異

通過實驗發現,在同語系中不同語言也存在資源差異。在機器翻譯中,德英互譯通常被認為是一個高資源任務,有超過1000萬條語料。而羅馬尼亞語與英語間互譯語料要少得多。

如圖4所示,ChatGPT在德譯英和英譯德上,與Google翻譯和DeepL可以分庭抗禮;而在羅馬尼亞語譯英,和英譯羅馬尼亞語方面,則要明顯落後。具體來說,ChatGPT在英譯羅馬尼亞語上獲得的BLEU分數比Google翻譯低46.4%。


圖4:ChatGPT在多語言翻譯中的表現

研究者認為,英語和羅馬尼亞語之間的單一語言數據的巨大資源差異,限制羅馬尼亞語的語言建模能力,這部分解釋將英語翻譯成羅馬尼亞語表現差的原因。

相反,羅馬尼亞語譯成英語可以受益於強大的英語建模能力,使平行數據的資源缺口可以得到一定程度的補償。

語系

同時,研究人員也考慮語系的影響。

通常認為,對於機器翻譯,不同語系之間的翻譯通常比同一語系間翻譯更難。研究人員發現,德英互譯、漢英互譯,或者德漢互譯在文化和書寫方式上存在差異。

另外可以發現,在這幾種翻譯中,ChatGPT和幾款商業翻譯軟件間差距較大,研究者認為,這是因為在同一語系中知識轉移比在不同語系間要好,對於既是低資源又來自不同語系的語言來說(如羅馬尼亞語和漢語的互譯),這種差距會進一步擴大。

由於ChatGPT在一個模型中處理不同的任務,低資源的翻譯任務不僅與高資源的翻譯任務競爭,而且還與其他NLP任務競爭模型容量,這說明其性能表現欠佳。

翻譯魯棒性

騰訊AI Lab進一步評估ChatGPT在WMT19 Bio和WMT20Rob2和Rob3測試集上的翻譯魯棒性,這些測試集引入領域偏見和潛在的噪聲數據。

例如WMT19 Bio測試集是由Medline摘要組成的,這需要特定領域的知識處理,WMT20Rob2是來自Reddit的評論,可能包含各種錯誤,如拼寫錯誤、單詞遺漏、插入重復、語法錯誤、破壞性語言,和網絡俚語等。圖5列出BLEU分數,顯然ChatGPT在WMT19 Bio和WMT20Rob2測試集上的表現不如Google翻譯和DeepL Translate。


圖5:ChatGPT在翻譯魯棒性方面的表現

原因可能在於,像Google翻譯這樣的商業翻譯產品往往需要不斷提高其翻譯特定領域(如生物醫學)或噪音句子的能力,因為它們是現實世界的應用,需要對分佈之外的數據有更好地概括性,ChatGPT不太能夠完成這一點。

不過,一個有趣的發現是,ChatGPT在包含眾包語音識別語料的WMT20Rob3測試集上大大超過Google翻譯和DeepL Translate。這表明,ChatGPT本質上是一個人工智能對話工具,能夠比商業翻譯軟件生成更自然的口語(見圖6)。


圖6:來自WMT20魯棒集set3的例子

2

ChatGPT應如何揚長避短?

從該研究可知,高舉高打的ChatGPT每訓練一次就耗費大量算力資源,但也不能在全領域盡善盡美。所以,一些人開始思考,是否應該“摒棄”大模型思路,轉而去做“精耕細作”的小模型。

騰訊AI Lab在Chat GPT“測評”中提到,羅馬尼亞語與英語互譯,相較德英互譯存在較大差距,原因在於:巨大資源差異,限制羅馬尼亞語的語言建模能力,也恰恰證明,AI學習能力常常受到低資源的掣肘。

但也有資深學者認為,盡管現時ChatGPT仍存在不少不足之處,但仍然對研究者和創業者有著不少啟示。以ChatGPT為代表的AI 3.0走的是跟過去 AI 浪潮不一樣的路,即更落地、更接近真實世界,在工業應用上,更直接,更落地,從學術研究到工業落地的路徑也變得更短、更快。

未來,“helpful, truthful, harmless”的 AI 系統會成為現實。


相關推薦

2024-02-16

麼說吧,上一次這麼瘋狂的刷屏可能還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出它最強的LLMGemini1.5,並試圖宣稱自己終於殺死GPT-4,然而,顯然現在沒人關註。因為看完Sora你可能會發現,OpenAI自己可能

2023-01-05

字節跳動又一次把觸手伸向騰訊腹地——社交主場,而這一次,他進軍社交領域的號角,又能吹響多久?近日,抖音在官網上線一款桌面端聊天軟件,名為“抖音聊天”。官網顯示,該軟件更新時間為2022年12月30日,最新版本為1

2023-03-28

ChatGPT在全球掀起AI大模型的浪潮。在美國,以OpenAI、Anthropic等初創企業和以微軟、Google為代表的科技巨頭帶領著美國在AI大模型的道路上蒙眼狂奔,最大參數已卷到5620億。在中國,美團王慧文、阿裡賈揚清、前搜狗CEO王小川、前

2023-03-03

3月2日,OpenAI正式開放ChatGPT的API接口,開發人員可以將ChatGPT模型集成到他們的應用程序和產品中。ChatGPTAPI調用的價格以Token(數字代幣)計算,0.002美元可以獲得1000Token,1000個Token約等750個單詞。這個價格比ChatGPT剛剛開放測試

2024-03-17

一個可利用的側信道。然後,他們演示如何利用 OpenAI 的 ChatGPT-4 和微軟的 Copilot 的加密網絡流量。研究人員在論文中寫道:"我們能夠準確地重建 29% 的人工智能助手的回答,並成功地從 55% 的回答中推斷出主題。"最初的

2023-02-10

“ChatGPT的意義不亞於PC或互聯網的誕生”,比爾蓋茨對這個新風口不吝贊譽。裁員潮下一片慘淡的矽谷,因為ChatGPT再次燃起希望之光。微軟斥資100億美元投資OpenAI,並計劃將ChatGPT融入旗下全線產品。2月4日,微軟融合ChatGPT-4的Bi

2023-03-15

道德邊界愈發變得不可忽視。OpenAI早期上線的聊天機器人ChatGPT用自動生成的流暢文字獲得大量關註,也讓公眾對其杜撰論文、虛構劇本的能力感到不安。要知道,ChatGPT用的還是一年多前就已經落伍的老一代技術GPT-3。相比之下

2024-02-08

辛辛苦苦手寫的論文,卻被審稿人鑒定為“一眼ChatGPT”而被拒收。一位副教授的遭遇引發學術界關註,登上Nature專欄。她決定從此以後每篇論文都在GitHub上寫,用變更記錄來證明自己的清白。在文章中她根據自己的經歷提出“AI

2023-01-03

ChatGPT大火出圈的時候,人們就開始討論,它會不會顛覆搜索引擎。畢竟,它可以為各種問題提供高質量的回答,“智能”到不可思議。直到最近,Google內部啟動“RedCode(紅色警報)”,圍繞ChatGPT,全面調整明年在AI領域的工作

2022-07-05

7月5日,北京協和醫院聯合騰訊AILab,共同發佈具有完全自主知識產權的便攜式、智能化手術導航系統,臨床初步應用取得成功。該系統由導航平板電腦、導航棒、深度相機等設備組成,小巧便攜,不占據手術室空間,是一款可

2023-02-27

“那些倒賣ChatGPT使用方法的人,有的都賺走上百萬元。”近期的一場活動上,一位資深媒體人為AIGC(人工智能生成內容)熱度發出這般感嘆。如果說柯潔對戰AlphaGo讓公眾小小地感受一番AI震撼,那麼2022年下半年以來,自ChatGPT

2023-03-15

事到如今,OpenAI的ChatGPT在AI社區的統治地位已經無需多言。特別是OpenAI開放ChatGPT的API之後,在開發者社區掌握極大的話語權。反觀Google那邊,在第一波發佈Bard失利之後,一直處於沉默狀態。但在今日,Google組織第二波反擊:開

2023-02-27

“那些倒賣ChatGPT使用方法的人,有的都賺走上百萬元。”近期的一場活動上,一位資深媒體人為AIGC(人工智能生成內容)熱度發出這般感嘆。如果說柯潔對戰AlphaGo讓公眾小小地感受一番AI震撼,那麼2022年下半年以來,自ChatGPT

2023-02-27

“那些倒賣ChatGPT使用方法的人,有的都賺走上百萬元。”近期的一場活動上,一位資深媒體人為AIGC(人工智能生成內容)熱度發出這般感嘆。如果說柯潔對戰AlphaGo讓公眾小小地感受一番AI震撼,那麼2022年下半年以來,自ChatGPT