OpenAI在其首次開發者日上推出一系列新的API。DALL-E3是OpenAI的文本到圖像模型,在首次應用於ChatGPT和BingChat之後,現在可以通過API使用。OpenAI表示,與前一版本的DALL-E(如DALL-E2)類似,API包含內置內容節制功能,有助於防止濫用。
DALL-E 3 API 提供不同的格式和質量選項,分辨率從 1024×1024 到 1792×1024,每張生成圖片的價格從 0.04 美元起。不過,與 DALL-E 2 API 相比,它的功能還有些有限--至少目前是這樣。
與 DALL-E 2 API 不同的是,DALL-E 3 不能用來創建編輯版本的圖像,即讓模型替換已有圖像的某些區域或創建已有圖像的變體。OpenAI 表示,當生成請求被發送到 DALL-E 3 時,它會"出於安全考慮"和"增加更多細節"而自動重寫,這可能會導致不那麼精確的結果,具體取決於提示。
在其他方面,OpenAI 現在提供一個文本到語音 API--Audio API,它提供六種預設語音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用戶選擇,還提供兩種生成式 AI 模型變體。它從今天開始上線,每次輸入 1000 個字符的價格為 0.015 美元。
OpenAI的CEO Sam Altman在臺上說:"這比我們聽到的其他任何東西都要自然得多,這可以讓應用程序的交互更自然,更易於使用。它還能解鎖很多用例,比如語言學習和語音輔助。"
與某些語音合成平臺和工具不同的是,OpenAI 並不提供控制所生成音頻的情感影響的方法。在音頻 API 的文檔中,該公司指出,"某些因素"可能會影響生成的聲音聽起來如何,比如朗讀文本中的大小寫或語法,但 OpenAI 在這方面的內部測試結果"好壞參半"。
OpenAI 要求使用人工智能的開發者告知用戶音頻是由人工智能生成的。
在一份相關的公告中,OpenAI 推出其開源自動語音識別模型 Whisper large-v3 的下一個版本,該公司聲稱該模型在各種語言中的性能都有所提高。該版本已在 GitHub 上發佈,采用許可授權。