OpenAI希望與機構合作建立新的人工智能訓練數據集

2023-11-10 發表於業界精選

用於訓練人工智能模型的數據集存在嚴重缺陷，這已是公開的秘密。圖像語料庫往往以美國和西方為中心，部分原因是在編制數據集時，西方圖像在互聯網上占據主導地位。最近，艾倫人工智能研究所（AllenInstituteforAI）的一項研究強調，用於訓練大型語言模型（如Meta&#39;sLlama2）的數據包含有毒語言和偏見。

模型會以有害的方式放大這些缺陷。現在，OpenAI 表示希望通過與外部機構合作創建新的數據集來消除這些缺陷，並希望這些數據集能夠得到改進。

OpenAI 今天宣佈"數據夥伴關系"（Data Partnerships）計劃，該計劃旨在與第三方機構合作，建立用於人工智能模型訓練的公共和私有數據集。OpenAI 在一篇博文中表示，數據合作夥伴關系旨在"讓更多組織能夠幫助引導人工智能的未來"，並"從更有用的模型中獲益"。

"為最終制造出安全且有益於全人類的[人工智能]，我們希望人工智能模型能夠深入理解所有主題、行業、文化和語言，這就需要盡可能廣泛的訓練數據集，"OpenAI寫道。"將您的內容納入其中可以增加人工智能模型對您所在領域的理解，從而對您更有幫助。"

OpenAI 表示，作為數據合作夥伴計劃的一部分，它將收集"反映全人類社會"的"大規模"數據集，這些數據集目前還不容易在網上獲取。該公司計劃在包括圖像、音頻和視頻在內的各種模式下開展工作，但它特別希望收集能"表達人類意圖"的數據（如長篇寫作或對話），這些數據將跨越不同的語言、主題和格式。

OpenAI表示，如有必要，它將與企業合作，使用光學字符識別和自動語音識別工具對訓練數據進行數字化處理，並在必要時刪除敏感或個人信息。

一開始，OpenAI 希望創建兩種類型的數據集：一種是公開的開源數據集，任何人都可以在人工智能模型訓練中使用；另一種是私有數據集，用於訓練專有的人工智能模型。OpenAI表示，私有數據集的對象是那些希望數據保密，但又希望OpenAI的模型能夠更好地理解其領域的組織；到目前為止，OpenAI已經與冰島政府和Miðeind ehf合作，提高GPT-4的冰島語能力，並與自由法律項目合作，提高模型對法律文件的理解能力。

"總之，我們正在尋求合作夥伴，幫助我們教會人工智能理解我們的世界，以便最大限度地幫助每個人，"OpenAI 寫道。

那麼，OpenAI 能比之前的許多數據集構建工作做得更好嗎？暫時還不太確定--最大限度地減少數據集的偏差是困擾世界上許多專傢的難題。至少，希望該公司能對整個過程保持透明--以及在創建這些數據集時不可避免地遇到的挑戰。

盡管這篇博文用詞華麗，但其中似乎也有明顯的商業動機，那就是以犧牲他人利益為代價來提高 OpenAI 模型的性能，而且還不給數據所有者任何補償。這完全符合 OpenAI 的權利。但考慮到一些創作者的公開信和訴訟，稱 OpenAI 在未經他們許可或支付報酬的情況下，用他們的作品訓練許多模型，這似乎有點聽不進去。

OpenAI希望與機構合作建立新的人工智能訓練數據集

相關推薦

OpenAI突然“銷毀”10萬多本書，到底發生什麼？

給炒作潑盆冷水：人工智能正在遭遇一道難以逾越的天花板

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

《紐約時報》更新條款禁止使用其內容訓練人工智能模型

美媒揭秘大模型訓練數據集：部分內容有些"臟"

GPT-4老板：AI可能會殺死人類已經出現我們無法解釋的推理能力

美國媒體揭開大模型陰暗面：訓練用的數據可能有點臟

GPT-4很強大但仍有諸多謎團 OpenAI選擇隻透露這麼多

多傢大型科技公司聯合宣佈為生成式AI服務提供新的兒童安全承諾

ChatGPT張口就來的“病”應該怎麼“治”？

研究人員稱重復某些關鍵詞可讓ChatGPT自曝訓練數據 OpenAI：違反服務條款

你的自拍和聊天記錄正被矽谷大廠砸數十億美元瘋搶

OpenAI宣佈開源多語言語音識別系統Whisper