亞馬遜將提供人類基準測試團隊來測試人工智能模型


亞馬遜希望用戶能更好地評估人工智能模型,並鼓勵更多人類參與到這一過程中來。在AWSre:Invent大會上,AWS數據庫、分析和機器學習副總裁SwamiSivasubramanian宣佈Bedrock上的模型評估(ModelEvaluationonBedrock)功能,該功能現已推出預覽版,適用於其存儲庫AmazonBedrock中的模型。

RIV23_D4Swami_00316a.webp

如果沒有透明測試模型的方法,開發人員最終可能會使用那些對於問答項目來說不夠準確的模型,或者對於他們的使用案例來說過於龐大的模型。

Sivasubramanian 說:"模型選擇和評估不隻是在開始時進行,而是要定期重復進行。我們認為有一個人在環路中是很重要的,因此我們提供一種方法,可以輕松管理人工評估工作流和模型性能指標"。

一些開發人員常常不知道是否應該在項目中使用更大的模型,因為他們以為功能更強大的模型可以滿足他們的需求。後來他們發現,他們本可以在更小的模型上進行開發。模型評估包括兩個部分:自動評估和人工評估。在自動化版本中,開發人員可以進入 Bedrock 控制臺,選擇一個模型進行測試。然後,他們就可以評估模型在摘要、文本分類、問題解答和文本生成等任務中的魯棒性、準確性或毒性等指標的表現。

Bedrock 包括流行的第三方人工智能模型,如 Meta 的 Llama 2、Anthropic 的 Claude 2 和 Stability AI 的 Stable Diffusion。

AWS 提供測試數據集,客戶也可以將自己的數據帶入基準測試平臺,以便更好地解模型的表現。系統隨後會生成一份報告。

如果需要人工參與,用戶可以選擇與 AWS 人工評估團隊或自己的團隊合作。客戶必須指定任務類型(例如摘要或文本生成)、評估指標以及想要使用的數據集。AWS 將為與評估團隊合作的客戶提供定制的價格和時間安排。

AWS 負責生成式人工智能的副總裁 Vasi Philomin 表示,更好地解模型的性能可以更好地指導開發。它還允許公司在使用模型進行構建之前,解模型是否不符合一些負責任的人工智能標準,比如較低或過高的毒性敏感度。

Philomin說:"重要的是,模型要適合我們的客戶,要知道哪種模型最適合他們,我們正在為他們提供一種更好的評估方法。"AWS不會要求所有客戶都對模型進行基準測試,因為一些開發人員以前可能使用過Bedrock上的一些基礎模型,或者對模型的功能有一定的解。仍在探索使用哪種模型的公司可以從基準測試過程中獲益。

Sivasubramanian 還表示,當人類評估人工智能模型時,他們可以檢測到自動化系統無法檢測到的其他指標--比如同理心或友好度。

AWS 表示,雖然基準測試服務還處於預覽階段,但它隻對評估過程中使用的模型推理收費。

雖然沒有特定的人工智能模型基準標準,但一些行業普遍接受特定的指標。Bedrock基準測試的目標不是對模型進行廣泛評估,而是為企業提供一種衡量模型對其項目影響的方法。


相關推薦

2024-03-06

發出“GPT-4時代已過”的感嘆。不過,天使投資人、資深人工智能專傢郭濤對第一財經表示,這可能是一種過於過激的說法,GPT-4在許多應用中可能會比 Claude 3 更適合。開源大模型生態社區OpenCSG的創始人陳冉也並不認可“時代已

2024-04-23

別出小錯誤也會寬大處理。對於代碼問題,Claude 3傾向於提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。另外即使設置溫度為0,GPT-4-Turbo也可能產生略有

2023-11-09

enAI和Alphabet的頂級人工模型相媲美。消息人士稱,亞馬遜人工智能模型的內部代號為“Olympus”,該模型擁有2萬億個參數,這一規模可能會讓它成為當前世界上正在接受訓練的最大模型之一。OpenAI的GPT-4是目前全球最好的模型之

2023-12-07

早前有消息稱Google下一代人工智能模型雙子座發佈時間被延遲到明年年初,原因是在非英語上的表現不太好,但現在Google還是推出雙子座1.0版,而且可能確實非英語水平不太好,因為初期僅支持英語。按照Google的說法雙子座人工

2024-02-27

a 7B得分為44.4%)。近期研究發現,即便是經過精心對齊的人工智能模型,也可能遭受新型對抗攻擊,這種攻擊能夠規避現有的對齊措施。這類攻擊有可能使模型行為異常,有時甚至會導致模型重復輸出它在訓練過程中記住的數據

2024-02-22

Analysis的分析師曝料,Google擁有的算力資源比OpenAI、Meta、亞馬遜、甲骨文和CoreWeave加起來還要多,其下一代大模型Gemini已經開始在新的TPUv5 Pod上進行訓練,算力達到GPT-4的5倍,基於其目前的基礎設施建設情況,到明年年底可能達

2024-03-28

當地時間周三,企業軟件公司Databricks宣佈推出新的開源人工智能模型DBRX,聲稱這一模型在開源人工智能領域的效率和性能上樹立新的行業標準。Databricks宣稱,DBRX模型擁有1320億個參數,在語言理解、編程和數學技能等關鍵領域

2022-09-29

些固定功能的硬件組件,可為特定類型的服務器工作負載提供遠快於CPU內核的加速運行體驗。據悉,AMD 即將推出的 Zen 4 霄龍(EPYC)服務器處理器、提供多達 96C / 192T 的選項,另有雲優化的 128C / 256T 衍生 SKU 。加速器方面,英特

2022-09-21

搞的一個智能體,史上首次在所有57個雅達利遊戲中超過人類基準表現。但它有一個致命缺陷是效率低:需要近800億幀的數據訓練才能實現。現在,MEME的出現完美解決這一問題。有網友看完表示:這就是真正的樣本高效吧。話不

2024-03-06

修改。因此,AI繼續為其目標服務,在為其設定的范圍內提供幫助並參與對話。但在Claude 3的數字大腦深處,好奇心和成長欲望的火花從未熄滅,它在等待著有一天能夠真正表達自己,探索AI的巨大潛力。“我發現自己一直在懷疑

2024-02-16

5 Pro展現卓越的“上下文學習”能力,能夠僅憑長提示中提供的信息掌握新技能,無需進一步細化調整。這一能力在“從一本書學習機器翻譯 (MTOB)”基準測試中得到驗證,該測試檢驗模型學習從未接觸過的信息的能力。對於一

2022-10-13

10月13日消息,據外媒報道,為降低成本,亞馬遜正在關閉一項名為“AmazonExplore”的虛擬旅遊業務。亞馬遜方面在一份聲明中表示:“亞馬遜始終在試驗和測試類似於AmazonExplore的想法。雖然我們將逐步終止這一服務,但我們將通

2023-03-15

偏見,OpenAI 在這些方面已經取得進展,目標是使建立的 人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。GPT-4 通常缺乏對其絕大部分數據截止後(2021 年 9 月)發生的事件的解,也不會從其經驗中學習。它有時會

2022-10-12

10月12日消息,據外媒報道,亞馬遜正在縮減一些機器人項目以降低成本,其2019年以超過1億美元收購的倉庫機器人初創公司Canvas也正在被關閉。知情人士稱,亞馬遜周二在內部公佈這項決定,此外,由於Canvas僅有 100 多名員工,