OpenAI推出DALL-E 3 API和新版文本到語音模型


OpenAI在其首次開發者日上推出一系列新的API。DALL-E3是OpenAI的文本到圖像模型,在首次應用於ChatGPT和BingChat之後,現在可以通過API使用。OpenAI表示,與前一版本的DALL-E(如DALL-E2)類似,API包含內置內容節制功能,有助於防止濫用。

Greg-Brockman-OpenAI-Sam-Altman-DSC02856.webp

DALL-E 3 API 提供不同的格式和質量選項,分辨率從 1024×1024 到 1792×1024,每張生成圖片的價格從 0.04 美元起。不過,與 DALL-E 2 API 相比,它的功能還有些有限--至少目前是這樣。

與 DALL-E 2 API 不同的是,DALL-E 3 不能用來創建編輯版本的圖像,即讓模型替換已有圖像的某些區域或創建已有圖像的變體。OpenAI 表示,當生成請求被發送到 DALL-E 3 時,它會"出於安全考慮"和"增加更多細節"而自動重寫,這可能會導致不那麼精確的結果,具體取決於提示。

在其他方面,OpenAI 現在提供一個文本到語音 API--Audio API,它提供六種預設語音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用戶選擇,還提供兩種生成式 AI 模型變體。它從今天開始上線,每次輸入 1000 個字符的價格為 0.015 美元。

OpenAI的CEO Sam Altman在臺上說:"這比我們聽到的其他任何東西都要自然得多,這可以讓應用程序的交互更自然,更易於使用。它還能解鎖很多用例,比如語言學習和語音輔助。"

與某些語音合成平臺和工具不同的是,OpenAI 並不提供控制所生成音頻的情感影響的方法。在音頻 API 的文檔中,該公司指出,"某些因素"可能會影響生成的聲音聽起來如何,比如朗讀文本中的大小寫或語法,但 OpenAI 在這方面的內部測試結果"好壞參半"。

OpenAI 要求使用人工智能的開發者告知用戶音頻是由人工智能生成的。

在一份相關的公告中,OpenAI 推出其開源自動語音識別模型 Whisper large-v3 的下一個版本,該公司聲稱該模型在各種語言中的性能都有所提高。該版本已在 GitHub 上發佈,采用許可授權。


相關推薦

2023-11-07

OpenAI宣佈對其大型語言模型GPT-4和GPT-3.5進行更多改進,包括更新知識庫和更長的上下文窗口。該公司表示,它還將效仿Google和微軟的做法,開始保護客戶免受版權訴訟。該公司在周一舉行的首次開發者大會上宣佈,目前通過 API

2023-11-07

atGPT每周活躍用戶大約有1億。”北京時間11月7日凌晨,在OpenAI的首次開發者大會上,SamAltman公佈過去一年中OpenAI的驕人成績。“今天,有大約200萬開發者在使用我們的API進行各種用例的開發。超過92%的財富500強公司正在使用我們

2023-12-06

在詳細介紹其Copilot服務即將推出的一系列新功能,包括OpenAI的最新模型。Copilot將很快獲得對GPT-4Turbo的支持,同時更新的還有DALL-E3模型、新的代碼解釋器功能和必應內部的深度搜索功能。Copilot 很快就能使用 OpenAI 最新的 GPT-4 Tur

2023-11-07

OpenAI稱,用戶無需編寫代碼就可打造自己的GPT並公開分享,本月晚些時候將推出GPTStore,若用戶的原創GPT上線這種GPT商店,可以根據GPT使用人數獲得收入;Turbo版GPT-4有128k上下文窗口,可一次容納300多頁文本內容的提示詞,輸出to

2023-11-07

能是一夜未眠。北京時間11月7日凌晨,美國人工智能公司OpenAI的開發者大會正式開啟,創始人SamAltman在臺上和同事,隻用45分鐘時間,就“轟”出團隊最新的成果GPT-4Turbo,後者不僅更快、有更長的上下文、而且更好的控制。同時

2023-03-02

今日凌晨,OpenAI放出真正的ChatGPTAPI,不是背後的GPT-3.5大模型,是ChatGPT的本體模型!ChatGPTAPI價格為1ktokens/$0.002,等於每輸出100萬個單詞,價格才2.7美金(約18元人民幣),比已有的GPT-3.5模型便宜10倍。手快的開發者可以沖!這將

2023-03-02

當地時間周三(3月1日),OpenAI宣佈正式推出面向商業用戶的ChatGPT和Whisper語音轉文字API,並給出一系列商業夥伴已經上線的案例。簡單來說,繼去年11月向公眾推出ChatGPT聊天機器人後,OpenAI現在開始向有意在自傢APP或產品中提

2024-04-13

ChatGPT,OpenAI的人工智能聊天機器人剛剛獲得一次重大升級。OpenAI今天宣佈,ChatGPT的高級用戶(ChatGPTPlus、Team或Enterprise的付費用戶)現在可以使用GPT-4Turbo的升級和增強版本,GPT-4Turbo是支持ChatGPT對話體驗的模型之一。OpenAI 聲稱

2024-02-07

越多的公司推出對內容真實性聯盟(C2PA)標準的支持,OpenAI的圖像生成器DALL-E3將在圖像元數據中添加水印。該公司表示,C2PA的水印將出現在ChatGPT網站生成的圖片和DALL-E3模型的API中。移動用戶將在2月12日前獲得水印。水印將包

2023-03-09

Cortana 應用,僅保留對 Windows 平臺的支持。更重要的是,OpenAI 帶著 ChatGPT 來,微軟直接拿到 AI 時代目前為止最好的一張船票。與此同時,語音助手在過去幾年基本陷入停滯,Siri 的聯合創始人 Adam Cheyer 也承認,ChatGPT 理解復雜

2023-11-08

不出意外地,OpenAI的首屆開發者大會,讓人特別意外。一夜醒來,大模型圈一隻腳踏入Agent的世界,另一隻腳則踏入GPTStore生態的河流中。美東時間11月6日,OpenAI開發者大會正式開啟,創始人兼CEO山姆·奧特曼站在臺上,45分鐘的

2024-03-23

OpenAI申請商標VoiceEngine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或者服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標VoiceEngine,商標的覆蓋范圍主要是圍繞語音識別、語音合成和語音生成幾個

2023-03-16

3月16日消息,人工智能研究公司OpenAI於昨日發佈備受期待的文本生成AI模型GPT-4。OpenAI聯合創始人兼總裁格雷格·佈羅克曼(GregBrockman)在接受采訪時表示,GPT-4並不完美,但卻絕對與眾不同。GPT-4在其前身GPT-3的基礎上,在許多關

2023-11-07

當地時間周一,人工智能行業龍頭OpenAI的歷史首屆開發者大會揭幕。OpenAI首席執行官山姆·奧特曼在接近45分鐘的開幕演講中,向全球開發者和ChatGPT用戶展示AI龍頭即將推出的一系列產品更新。(來源:OpenAI DevDay)在發佈會的開