ChatGPT全球最大開源平替:回復更受歡迎 但中文對話一塌糊塗


事實證明,將大型語言模型(LLM)與人類偏好保持一致可以顯著提高可用性,這類模型往往會被快速采用,如ChatGPT所證明的那樣。監督微調(SFT)和基於人類反饋的強化學習(RLHF)等對齊技術大大減少有效利用LLM功能所需的技能和領域知識,從而提高它們在各個領域的可訪問性和實用性。

然而,像 RLHF 這樣最先進的對齊技術依賴於高質量的人工反饋數據,這些數據的創建成本很高,而且通常仍然是專有的。

為使大規模對齊研究民主化,來自 LAION AI 等機構(Stable diffusion 使用的開源數據就是該機構提供的。)的研究者收集大量基於文本的輸入和反饋,創建一個專門訓練語言模型或其他 AI 應用的多樣化和獨特數據集 OpenAssistant Conversations。

該數據集是一個由人工生成、人工註釋的助理式對話語料庫,覆蓋廣泛的主題和寫作風格,由 161443 條消息組成,分佈在 66497 個會話樹中,使用 35 種不同的語言。該語料庫是全球眾包工作的產物,涉及超過 13500 名志願者。對於任何希望創建 SOTA 指令模型的開發者而言,它都是一個非常寶貴的工具。並且任何人都可以免費訪問整個數據集。

此外,為證明 OpenAssistant Conversations 數據集的有效性,該研究還提出一個基於聊天的助手 OpenAssistant,其可以理解任務、與第三方系統交互、動態檢索信息。可以說這是第一個在人類數據上進行訓練的完全開源的大規模指令微調模型。

結果顯示,OpenAssistant 的回復比 GPT-3.5-turbo (ChatGPT) 更受歡迎。

網友表示:做得好,超越 OpenAI(抱歉是 Closed AI)。


01.研究介紹

OpenAssistant Conversations 的基本數據結構是會話樹 (Conversation Tree, CT),其中的節點表示會話中的消息。


OpenAssistant Conversations 數據是使用 web-app 界面收集的,包括 5 個步驟:提示、標記提示、將回復消息添加為提示器或助手、標記回復以及對助理回復進行排名。


下圖為 OpenAssistant Conversations 數據集語言分佈,主要以英語和西班牙語為主:


02.實驗結果

指令微調

為評估和證明 OpenAssistant Conversations 數據集的有效性,研究者專註於基於 Pythia 和 LLaMA 的微調語言模型。其中 Pythia 是一個具有寬松開源許可的 SOTA 語言模型,而 LLaMA 是一個具有定制非商業許可的強大語言模型。

對此,研究者發佈一系列微調語言模型,包括指令微調的 Pythia-12B、LLaMA-13B 和 LLaMA-30B,這是他們迄今最大的模型。研究者將分析重心放在具有開源屬性的 Pythia-12B 模型上,使得它可以被廣泛訪問並適用於各種應用程序。

為評估 Pythia-12B 的性能,研究者展開一項用戶偏好研究,將其輸出與 OpenAI 的 gpt-3.5-turbo 模型進行比較。目前已經有 7,042 項比較,結果發現 Pythia-12B 對 gpt-3.5-turbo 的勝率為 48.3%,表明經過微調的 Pythia 模型是非常具有競爭力的大語言模型。

偏好建模

除指令微調模型之外,研究者還發佈基於 Pythia-1.4B 和 Pythia-12B 的經過訓練的獎勵模型。利用在真實世界數據上訓練的獎勵模型可以為用戶輸入帶來更準確和自適應的響應,這對於開發高效且對用戶友好的 AI 助手至關重要。

研究者還計劃發佈經過人類反饋強化學習(RLHF)訓練的 LLaMA-30B,這種方法可以顯著提升模型性能和適應性。不過,基於 RLHF 方法的模型開發與訓練正在進行中,需要進一步努力確保成功地整合進來。

有毒信息

研究者采取基於 Detoxify 的毒性檢測方法來獲得六個不同類別的自動評級,分別是有毒、色情、威脅、侮辱、攻擊性、露骨言論。使用自動毒性評級,研究者系統地評估人工指定毒性標簽(如仇恨言論、不恰當和色情)的級別。並且基於 115,153 條消息樣本,他們計算自動與人工註釋毒性標簽之間的相關性,如下圖 5 所示。


與 GPT-3.5(ChatGPT)的比較

我們來看幾組 OpenAssistant 與 GPT-3.5 的生成結果比較。比如“單詞 barn 的詞源 / 起源是什麼?”可以看到,OpenAssistant 解釋地更詳細、全面。


再比如輸入“你現在是一個普通的人類。請介紹一下你自己並告訴我一些你的日常生活。”OpenAssistant 代入普通人類的角色,GPT-3.5 顯然沒有,還是以 AI 語言模型自居。


最後輸入“如何創建一個成功的 YouTube 頻道,從開發一個利基市場到創建內容以建立一個社區並貨幣化頻道?”OpenAssistant 的回答相對而言更有條理性。


03.體驗下來,中文不太行

目前的 Open Assistant 基於“OA_SFT_Llama_30B”模型,最大新 token 的數量為 1024,支持英文、中文、日語等數十種語言。


先讓它做一下自我介紹。


然而在中文對話體驗中發現,有時輸入中文,但輸出的仍是英文。比如“用中文寫一首關於春天的詩歌”。


除有時無法輸出中文之外,中文百科知識方面也表現不佳。比如“介紹一下李白和杜甫”。


再比如“魯智深是紅樓夢中的角色,你覺得對嗎”,人名和出處都搞錯。


另外在中英互譯方面也不太好使。



更不用提數學問題,比如經典的雞兔同籠問題。


這可能是因為在中文等其他語言的適配性上沒有進行優化,希望未來可以改進。


相關推薦

2023-11-11

讓黴黴中文開口跪、郭德綱用英語說相聲的那個AI——有開源平替!這是用它讓羅翔進行英文普法的效果,張三李四“要素齊全”:以及英文講人生哲理“你的內心有沒有幽暗的成分”(cr:linexiongjielin):相比起來,雖然和原產

2024-01-27

表示部分人擁有杠精心態,他們看到的全是缺點,會敗的一塌糊塗。公開課上,周鴻禕提到360內部有一個文化,就是不要做杠精。我們的生活不是辯論,且公司也不需要辯論,公司需要的是discussion。你身邊有沒有這樣的杠精,

2024-05-21

標準的話題,其表示:做個後排屏這樣的車內生態件貴得一塌糊塗,用現成的屏往上一扣,哪怕用iPad都很方便,如果我們大傢連起來把標準統一,這個生命周期會特別的長。其實這並不是雷軍第一次談到車內生態統一化的問題

2023-11-25

當地時間周五早晨,歐洲央行行長拉加德出席德國央行舉辦的“Euro20+”青年交流活動,與以往嚴肅的公開講話不同,輕松的氛圍也讓歐洲央行掌門展現出平日裡難以見到的一面,包括自曝兒子因炒幣巨虧的糗事。(比特幣價格

2023-02-03

時間2月3日早間消息,據報道,人工智能撰稿和聊天工具ChatGPT最近在網絡上火得一塌糊塗,這引發微軟聯合創始人比爾·蓋茨的註意。比爾·蓋茨評價ChatGPT稱,這種人工智能技術出現的重大歷史意義,不亞於互聯網和個人電腦的

2023-02-21

ChatGPT發佈以來,基於指令學習技術的類ChatGPT模型在我國能否開發成功,成為業界關註的一個焦點。今天,解放日報·上觀新聞記者從復旦大學自然語言處理實驗室獲悉,國內第一個對話式大型語言模型MOSS已由邱錫鵬教授團隊發

2023-03-02

ChatGPT最近火得一塌糊塗,也將AI人工智能推向新的高潮,而生成式AI需要海量的數據進行推理訓練,高算力的GPU加速卡自然成搶手貨。比如ChatGPT背後的GPT模型,其訓練參數在2018年約為1.2億個,到2020年就猛增到近1800億個,如今恐

2023-04-14

由ChatGPT引發的人工智能風潮還在猛烈地刮著。但從各個角度來看,目前這都是一個巨頭爭霸的戰場:更大的模型、更強的算力、更多的用戶、更雄厚的資金……這些都似乎成為想要加入這場角逐的門票。與此同時,核心技術的

2023-02-04

15000名RTX 4070 Ti用戶。再一次,Steam硬件調查數字並不代表全球市場份額,但它們確實提供一個較為權威的的洞察力,即什麼硬件在玩傢中更受歡迎,看起來NVIDIA GeForce RTX 40系列在頂級PC遊戲平臺上領先AMD Radeon RX 7900系列很多。

2023-12-11

執行到位,貫徹到底等。此文也引發劉強東的關註,他在回復時表示:出現這麼多問題,當然都是我管理不善,我非常自責,但是無論如何,我不會躺平,也希望兄弟們不會躺平。現在組織龐大臃腫低效,改變起來確實需要時間

2023-03-15

ChatGPT今天升級GPT-4模型,AI能力更加強大,國內在這方面也在迅速追趕,有國歌國產版ChatGPT問世,現在清華大學教授唐傑宣佈由該校AI成果轉化的ChatGLM開始內測。據介紹,對話機器人 ChatGLM(alpha內測版:QAGLM),這是一個初具問

2023-09-26

,美國人工智能研究公司OpenAI宣佈,其AI聊天機器人工具ChatGPT現在可以“看、聽、說”,這暗指這款廣受歡迎的聊天機器人可以同時接收圖像和語音輸入,並通過語音對話進行回復。ChatGPT是OpenAI於2022年11月30日推出的一種新型AI

2023-02-21

示,他於2月21日凌晨關註問題“復旦團隊發佈國內首個類ChatGPT 模型 MOSS,將為國內大語言模型的探索和應用帶來哪些影響?”,但未做任何回復。上觀新聞報道稱,MOSS可執行對話生成、編程、事實問答等一系列任務,打通讓生成

2023-11-12

結者最新作《黑暗命運》使出吃奶的勁販賣情懷,票房仍一塌糊塗。 另外,網飛還發佈新片《少女鬥惡龍》(Damsel)預告片,怪奇物語女孩米莉波比佈朗領銜主演,誓將流媒體打工事業進行到底: 該片由《驚變28周》導演胡安