NVIDIA發佈工具包使基於文本生成的AI更安全

2023-04-25 發表於業界精選

對於所有的大肆宣傳，像OpenAI的GPT-4這樣的文本生成人工智能模型會犯很多錯誤--其中一些是有害的。這些模型背後的公司說，他們正在采取措施解決這些問題，比如實施過濾器和人類版主團隊來糾正被標記的問題。但沒有一個正確的解決方案。即使是今天最好的模型，也容易受到偏見、毒性和惡意攻擊的影響。

f6597d45-nvidia-image-nemo-guardrails-1280x680-1-1024x544.jpg

為追求"更安全"的文本生成模型，NVIDIA今天發佈NeMo Guardrails，這是一個開源工具包，旨在使人工智能驅動的應用程序更加"準確、適當、符合主題和安全"。

NVIDIA的應用研究副總裁Jonathan Cohen說，該公司已經在Guardrails的底層系統上工作"多年"，但就在大約一年前意識到它很適合GPT-4和ChatGPT這樣的模型。

"從那時起，我們一直在朝著NeMo Guardrails的這個版本發展，"Cohen通過電子郵件表示。"人工智能模型安全工具對於為企業用例部署模型至關重要。"

Guardrails包括代碼、示例和文檔，用於為生成文本和語音的AI應用"增加安全性"。NVIDIA聲稱，該工具包旨在與大多數生成性語言模型配合使用，允許開發人員使用幾行代碼創建規則。

具體而言，Guardrails可用於防止--或至少試圖防止模型偏離主題，用不準確的信息或有毒的語言進行回應，以及與"不安全"的外部來源建立聯系。例如，可以考慮不讓客戶服務助理回答關於天氣的問題，或者不讓搜索引擎聊天機器人鏈接到不值得信賴的學術期刊。

Cohen說："最終，開發者通過Guardrails控制他們的應用程序的界限，"他說。"他們可能會開發出過於寬泛的護欄，或者反過來說，對於他們的用例來說過於狹窄。"

對語言模型的缺點進行普遍修復，聽起來好得不像真的--事實上也是如此。雖然像Zapier這樣的公司正在使用Guardrails為他們的生成模型增加一層安全保障，但NVIDIA承認，這個工具包並非不完美；換句話說，它不會抓住一切不對勁的地方。

Cohen還指出，Guardrails與那些"足夠擅長遵循指令"的模型配合得最好，比如ChatGPT，以及使用流行的LangChain框架來構建AI驅動的應用程序。這使一些開源的選擇失去資格。

而且，撇開技術的有效性不談，必須強調的是，NVIDIA不一定是出於善意而發佈Guardrails的。它是該公司NeMo框架的一部分，可通過NVIDIA的企業AI軟件套件及其NeMo完全管理的雲服務獲得。任何公司都可以實施Guardrails的開源版本，但NVIDIA肯定更希望他們為托管版本付費。

相關推薦