亞馬遜希望用戶能更好地評估人工智能模型,並鼓勵更多人類參與到這一過程中來。在AWSre:Invent大會上,AWS數據庫、分析和機器學習副總裁SwamiSivasubramanian宣佈Bedrock上的模型評估(ModelEvaluationonBedrock)功能,該功能現已推出預覽版,適用於其存儲庫AmazonBedrock中的模型。
如果沒有透明測試模型的方法,開發人員最終可能會使用那些對於問答項目來說不夠準確的模型,或者對於他們的使用案例來說過於龐大的模型。
Sivasubramanian 說:"模型選擇和評估不隻是在開始時進行,而是要定期重復進行。我們認為有一個人在環路中是很重要的,因此我們提供一種方法,可以輕松管理人工評估工作流和模型性能指標"。
一些開發人員常常不知道是否應該在項目中使用更大的模型,因為他們以為功能更強大的模型可以滿足他們的需求。後來他們發現,他們本可以在更小的模型上進行開發。模型評估包括兩個部分:自動評估和人工評估。在自動化版本中,開發人員可以進入 Bedrock 控制臺,選擇一個模型進行測試。然後,他們就可以評估模型在摘要、文本分類、問題解答和文本生成等任務中的魯棒性、準確性或毒性等指標的表現。
Bedrock 包括流行的第三方人工智能模型,如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。
AWS 提供測試數據集,客戶也可以將自己的數據帶入基準測試平臺,以便更好地解模型的表現。系統隨後會生成一份報告。
如果需要人工參與,用戶可以選擇與 AWS 人工評估團隊或自己的團隊合作。客戶必須指定任務類型(例如摘要或文本生成)、評估指標以及想要使用的數據集。AWS 將為與評估團隊合作的客戶提供定制的價格和時間安排。
AWS 負責生成式人工智能的副總裁 Vasi Philomin 表示,更好地解模型的性能可以更好地指導開發。它還允許公司在使用模型進行構建之前,解模型是否不符合一些負責任的人工智能標準,比如較低或過高的毒性敏感度。
Philomin說:"重要的是,模型要適合我們的客戶,要知道哪種模型最適合他們,我們正在為他們提供一種更好的評估方法。"AWS不會要求所有客戶都對模型進行基準測試,因為一些開發人員以前可能使用過Bedrock上的一些基礎模型,或者對模型的功能有一定的解。仍在探索使用哪種模型的公司可以從基準測試過程中獲益。
Sivasubramanian 還表示,當人類評估人工智能模型時,他們可以檢測到自動化系統無法檢測到的其他指標--比如同理心或友好度。
AWS 表示,雖然基準測試服務還處於預覽階段,但它隻對評估過程中使用的模型推理收費。
雖然沒有特定的人工智能模型基準標準,但一些行業普遍接受特定的指標。Bedrock基準測試的目標不是對模型進行廣泛評估,而是為企業提供一種衡量模型對其項目影響的方法。