OpenAI希望與機構合作建立新的人工智能訓練數據集


用於訓練人工智能模型的數據集存在嚴重缺陷,這已是公開的秘密。圖像語料庫往往以美國和西方為中心,部分原因是在編制數據集時,西方圖像在互聯網上占據主導地位。最近,艾倫人工智能研究所(AllenInstituteforAI)的一項研究強調,用於訓練大型語言模型(如Meta'sLlama2)的數據包含有毒語言和偏見。

模型會以有害的方式放大這些缺陷。現在,OpenAI 表示希望通過與外部機構合作創建新的數據集來消除這些缺陷,並希望這些數據集能夠得到改進。

OpenAI 今天宣佈"數據夥伴關系"(Data Partnerships)計劃,該計劃旨在與第三方機構合作,建立用於人工智能模型訓練的公共和私有數據集。OpenAI 在一篇博文中表示,數據合作夥伴關系旨在"讓更多組織能夠幫助引導人工智能的未來",並"從更有用的模型中獲益"。

"為最終制造出安全且有益於全人類的[人工智能],我們希望人工智能模型能夠深入理解所有主題、行業、文化和語言,這就需要盡可能廣泛的訓練數據集,"OpenAI寫道。"將您的內容納入其中可以增加人工智能模型對您所在領域的理解,從而對您更有幫助。"

OpenAI 表示,作為數據合作夥伴計劃的一部分,它將收集"反映全人類社會"的"大規模"數據集,這些數據集目前還不容易在網上獲取。該公司計劃在包括圖像、音頻和視頻在內的各種模式下開展工作,但它特別希望收集能"表達人類意圖"的數據(如長篇寫作或對話),這些數據將跨越不同的語言、主題和格式。

OpenAI表示,如有必要,它將與企業合作,使用光學字符識別和自動語音識別工具對訓練數據進行數字化處理,並在必要時刪除敏感或個人信息。

一開始,OpenAI 希望創建兩種類型的數據集:一種是公開的開源數據集,任何人都可以在人工智能模型訓練中使用;另一種是私有數據集,用於訓練專有的人工智能模型。OpenAI表示,私有數據集的對象是那些希望數據保密,但又希望OpenAI的模型能夠更好地理解其領域的組織;到目前為止,OpenAI已經與冰島政府和Miðeind ehf合作,提高GPT-4的冰島語能力,並與自由法律項目合作,提高模型對法律文件的理解能力。

"總之,我們正在尋求合作夥伴,幫助我們教會人工智能理解我們的世界,以便最大限度地幫助每個人,"OpenAI 寫道。

那麼,OpenAI 能比之前的許多數據集構建工作做得更好嗎?暫時還不太確定--最大限度地減少數據集的偏差是困擾世界上許多專傢的難題。至少,希望該公司能對整個過程保持透明--以及在創建這些數據集時不可避免地遇到的挑戰。

盡管這篇博文用詞華麗,但其中似乎也有明顯的商業動機,那就是以犧牲他人利益為代價來提高 OpenAI 模型的性能,而且還不給數據所有者任何補償。這完全符合 OpenAI 的權利。但考慮到一些創作者的公開信和訴訟,稱 OpenAI 在未經他們許可或支付報酬的情況下,用他們的作品訓練許多模型,這似乎有點聽不進去。


相關推薦

2024-05-08

書2”(books2)的龐大數據集,這些數據集曾用於訓練其GPT-3人工智能(AI)模型。這些文件來自美國作傢協會對OpenAI提起的集體訴訟。美國作傢協會的律師在法庭文件中表示,這些數據集很可能包含“10萬多本已出版書籍”,是該協會

2024-05-09

人工智能的炒作還是很熱,仿佛全自動駕駛和比人聰明的人工智能就是幾年內的事情。但訓練數據集擴大帶來的回報正在遞減,而用所述數據集所需的算力(能源、成本)又呈指數級增長,再加上更高效的解決方案還沒有出現或

2023-08-17

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-08-17

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-08-16

》日前更新其服務條款,禁止未經許可將其內容用於訓練人工智能系統。通過采取預防措施,阻止其內容被用來訓練人工智能模型。據悉,《紐約時報》8月3日更新其服務條款,禁止將其內容(包括文本、照片、圖像、音頻/視頻

2023-04-20

4月20日消息,過去四個月,人工智能聊天機器人變得越來越受歡迎,它們能夠完成各種任務,比如寫復雜的學術論文和進行緊張的對話,能力很令人驚嘆。聊天機器人並不像人類那樣思考,它們甚至不知道自己在說什麼。它們之

2023-03-28

SON格式回答問題。所以,對於GPT系列來說,誰最可能載入人工智能史冊?奧特曼倒不認為是GPT-4:從可用性和RLHF來看,ChatGPT無疑是最具裡程碑的那一個,背後的模型沒有產品的實用性重要。最會打太極的CEOGPT-4論文中沒有透露參

2023-04-20

型照單全收。當地時間周三,《華盛頓郵報》發表與艾倫人工智能研究院合作進行的調查結果,他們拆解谷歌的C4數據集,這也是許多知名英語AI大模型的訓練材料,例如谷歌的T5和Facebook的LLaMA。中國投資者更關註的OpenAI並沒有

2023-03-16

人工智能研究機構OpenAI3月14日發佈備受期待的文本生成AI模型GPT-4。GPT-4在關鍵方面對其前代GPT-3進行改進,例如提供更符合事實的陳述,並允許開發人員更輕松地規定其風格和行為。它是多模態的模型,可以理解圖像內容。但是

2024-04-24

生成式人工智能以各種方式被越來越多地使用,這引起人們對其可能被敵對分子和團體用來威脅兒童安全的擔憂。谷歌、Meta、OpenAI、微軟和亞馬遜等科技公司今天承諾,將對其人工智能訓練數據中的兒童性虐待材料(CSAM)進行

2023-04-14

的幻覺是指對環境中實際不存在的東西的感知;類似地,人工智能的“幻覺”,指的是 AI 生成的文本中的錯誤,這些錯誤在語義或句法上是合理的,但實際上是不正確或無意義的。AI 的“幻覺”是普遍存在的,可以發生在各種

2023-12-05

消息,谷歌的一組研究人員聲稱,他們已經找到獲取OpenAI人工智能聊天機器人ChatGPT部分訓練數據的方法。在最新發表的論文中,谷歌研究人員表示,某些關鍵詞可迫使ChatGPT泄露其所接受訓練數據集的部分內容。他們舉例稱,該

2024-04-08

迎刃而解。——Sam Altman不過,這件事真的這麼容易嗎?人工智能研究者們已經研究合成數據多年,但要構建一個能自我訓練的人工智能系統並非易事。專傢發現,模型如果隻依賴於自我生成的數據,可能會不斷重復自己的錯誤

2022-09-22

強大的語音識別系統置於其軟件和服務的核心地位。但在人工智能和機器學習領域,語音識別仍是一個頗具挑戰性的話題。好消息是,今日OpenAI隆重地宣佈Whisper的開源——可知作為一套自動語音識別系統,官方宣稱它能夠實現