用於訓練人工智能模型的數據集存在嚴重缺陷,這已是公開的秘密。圖像語料庫往往以美國和西方為中心,部分原因是在編制數據集時,西方圖像在互聯網上占據主導地位。最近,艾倫人工智能研究所(AllenInstituteforAI)的一項研究強調,用於訓練大型語言模型(如Meta'sLlama2)的數據包含有毒語言和偏見。
模型會以有害的方式放大這些缺陷。現在,OpenAI 表示希望通過與外部機構合作創建新的數據集來消除這些缺陷,並希望這些數據集能夠得到改進。
OpenAI 今天宣佈"數據夥伴關系"(Data Partnerships)計劃,該計劃旨在與第三方機構合作,建立用於人工智能模型訓練的公共和私有數據集。OpenAI 在一篇博文中表示,數據合作夥伴關系旨在"讓更多組織能夠幫助引導人工智能的未來",並"從更有用的模型中獲益"。
"為最終制造出安全且有益於全人類的[人工智能],我們希望人工智能模型能夠深入理解所有主題、行業、文化和語言,這就需要盡可能廣泛的訓練數據集,"OpenAI寫道。"將您的內容納入其中可以增加人工智能模型對您所在領域的理解,從而對您更有幫助。"
OpenAI 表示,作為數據合作夥伴計劃的一部分,它將收集"反映全人類社會"的"大規模"數據集,這些數據集目前還不容易在網上獲取。該公司計劃在包括圖像、音頻和視頻在內的各種模式下開展工作,但它特別希望收集能"表達人類意圖"的數據(如長篇寫作或對話),這些數據將跨越不同的語言、主題和格式。
OpenAI表示,如有必要,它將與企業合作,使用光學字符識別和自動語音識別工具對訓練數據進行數字化處理,並在必要時刪除敏感或個人信息。
一開始,OpenAI 希望創建兩種類型的數據集:一種是公開的開源數據集,任何人都可以在人工智能模型訓練中使用;另一種是私有數據集,用於訓練專有的人工智能模型。OpenAI表示,私有數據集的對象是那些希望數據保密,但又希望OpenAI的模型能夠更好地理解其領域的組織;到目前為止,OpenAI已經與冰島政府和Miðeind ehf合作,提高GPT-4的冰島語能力,並與自由法律項目合作,提高模型對法律文件的理解能力。
"總之,我們正在尋求合作夥伴,幫助我們教會人工智能理解我們的世界,以便最大限度地幫助每個人,"OpenAI 寫道。
那麼,OpenAI 能比之前的許多數據集構建工作做得更好嗎?暫時還不太確定--最大限度地減少數據集的偏差是困擾世界上許多專傢的難題。至少,希望該公司能對整個過程保持透明--以及在創建這些數據集時不可避免地遇到的挑戰。
盡管這篇博文用詞華麗,但其中似乎也有明顯的商業動機,那就是以犧牲他人利益為代價來提高 OpenAI 模型的性能,而且還不給數據所有者任何補償。這完全符合 OpenAI 的權利。但考慮到一些創作者的公開信和訴訟,稱 OpenAI 在未經他們許可或支付報酬的情況下,用他們的作品訓練許多模型,這似乎有點聽不進去。