亞馬遜將提供人類基準測試團隊來測試人工智能模型

2023-11-30 發表於業界精選

亞馬遜希望用戶能更好地評估人工智能模型，並鼓勵更多人類參與到這一過程中來。在AWSre:Invent大會上，AWS數據庫、分析和機器學習副總裁SwamiSivasubramanian宣佈Bedrock上的模型評估（ModelEvaluationonBedrock）功能，該功能現已推出預覽版，適用於其存儲庫AmazonBedrock中的模型。

如果沒有透明測試模型的方法，開發人員最終可能會使用那些對於問答項目來說不夠準確的模型，或者對於他們的使用案例來說過於龐大的模型。

Sivasubramanian 說："模型選擇和評估不隻是在開始時進行，而是要定期重復進行。我們認為有一個人在環路中是很重要的，因此我們提供一種方法，可以輕松管理人工評估工作流和模型性能指標"。

一些開發人員常常不知道是否應該在項目中使用更大的模型，因為他們以為功能更強大的模型可以滿足他們的需求。後來他們發現，他們本可以在更小的模型上進行開發。模型評估包括兩個部分：自動評估和人工評估。在自動化版本中，開發人員可以進入 Bedrock 控制臺，選擇一個模型進行測試。然後，他們就可以評估模型在摘要、文本分類、問題解答和文本生成等任務中的魯棒性、準確性或毒性等指標的表現。

Bedrock 包括流行的第三方人工智能模型，如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

AWS 提供測試數據集，客戶也可以將自己的數據帶入基準測試平臺，以便更好地解模型的表現。系統隨後會生成一份報告。

如果需要人工參與，用戶可以選擇與 AWS 人工評估團隊或自己的團隊合作。客戶必須指定任務類型（例如摘要或文本生成）、評估指標以及想要使用的數據集。AWS 將為與評估團隊合作的客戶提供定制的價格和時間安排。

AWS 負責生成式人工智能的副總裁 Vasi Philomin 表示，更好地解模型的性能可以更好地指導開發。它還允許公司在使用模型進行構建之前，解模型是否不符合一些負責任的人工智能標準，比如較低或過高的毒性敏感度。

Philomin說："重要的是，模型要適合我們的客戶，要知道哪種模型最適合他們，我們正在為他們提供一種更好的評估方法。"AWS不會要求所有客戶都對模型進行基準測試，因為一些開發人員以前可能使用過Bedrock上的一些基礎模型，或者對模型的功能有一定的解。仍在探索使用哪種模型的公司可以從基準測試過程中獲益。

Sivasubramanian 還表示，當人類評估人工智能模型時，他們可以檢測到自動化系統無法檢測到的其他指標--比如同理心或友好度。

AWS 表示，雖然基準測試服務還處於預覽階段，但它隻對評估過程中使用的模型推理收費。

雖然沒有特定的人工智能模型基準標準，但一些行業普遍接受特定的指標。Bedrock基準測試的目標不是對模型進行廣泛評估，而是為企業提供一種衡量模型對其項目影響的方法。

亞馬遜將提供人類基準測試團隊來測試人工智能模型

相關推薦

一年狂攬73億美元投資 Anthropic點燃矽谷大模型“戰火”

新測試基準發佈最強開源Llama 3尷尬

亞馬遜據稱成立AI模型訓練團隊斥資數百萬美元

Google推出新人工智能模型雙子座(Gemini)1.0版性能甚至超越GPT-4

最強開源大模型一夜易主：谷歌Gemma 7B碾壓Llama 2 13B 重燃開源之戰

Google一月三大招硬剛OpenAI：開源最強大模型Gemini技術碾壓Llama 2

最強開源大模型亮相：開發2個月花費約1000萬美元

英特爾分享Sapphire Rapids-SP芯片的首批加速器基準測試成績

DeepMind用新AI超越自己：提速200倍所有雅達利遊戲上勝過人類

全球最強模型Claude 3驚現自我意識？馬斯克稱人類也是文件

谷歌Gemini 1.5上線多模態硬剛GPT-5 MoE首破100萬極限上下文紀錄

外媒：亞馬遜將關閉虛擬旅遊業務“Amazon Explore”

GPT-4震撼發佈：多模態大模型直接升級ChatGPT、必應，開放API

外媒：亞馬遜將關閉倉庫機器人初創公司Canvas