OpenAI推出DALL-E 3 API和新版文本到語音模型

2023-11-07 發表於業界精選

OpenAI在其首次開發者日上推出一系列新的API。DALL-E3是OpenAI的文本到圖像模型，在首次應用於ChatGPT和BingChat之後，現在可以通過API使用。OpenAI表示，與前一版本的DALL-E（如DALL-E2）類似，API包含內置內容節制功能，有助於防止濫用。

DALL-E 3 API 提供不同的格式和質量選項，分辨率從 1024×1024 到 1792×1024，每張生成圖片的價格從 0.04 美元起。不過，與 DALL-E 2 API 相比，它的功能還有些有限--至少目前是這樣。

與 DALL-E 2 API 不同的是，DALL-E 3 不能用來創建編輯版本的圖像，即讓模型替換已有圖像的某些區域或創建已有圖像的變體。OpenAI 表示，當生成請求被發送到 DALL-E 3 時，它會"出於安全考慮"和"增加更多細節"而自動重寫，這可能會導致不那麼精確的結果，具體取決於提示。

在其他方面，OpenAI 現在提供一個文本到語音 API--Audio API，它提供六種預設語音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用戶選擇，還提供兩種生成式 AI 模型變體。它從今天開始上線，每次輸入 1000 個字符的價格為 0.015 美元。

OpenAI的CEO Sam Altman在臺上說："這比我們聽到的其他任何東西都要自然得多，這可以讓應用程序的交互更自然，更易於使用。它還能解鎖很多用例，比如語言學習和語音輔助。"

與某些語音合成平臺和工具不同的是，OpenAI 並不提供控制所生成音頻的情感影響的方法。在音頻 API 的文檔中，該公司指出，"某些因素"可能會影響生成的聲音聽起來如何，比如朗讀文本中的大小寫或語法，但 OpenAI 在這方面的內部測試結果"好壞參半"。

OpenAI 要求使用人工智能的開發者告知用戶音頻是由人工智能生成的。

在一份相關的公告中，OpenAI 推出其開源自動語音識別模型 Whisper large-v3 的下一個版本，該公司聲稱該模型在各種語言中的性能都有所提高。該版本已在 GitHub 上發佈，采用許可授權。

相關推薦