Google的文本到圖像的人工智能模型Imagen有限公開亮相


Google在發佈其文本到圖像的人工智能系統方面極為謹慎。盡管該公司的Imagen模型產生的輸出質量與OpenAI的DALL-E2或StabilityAI的StableDiffusion相當,但Google還沒有向公眾提供該系統。不過今天,這傢搜索巨頭宣佈它將把Imagen--以非常有限的形式--添加到其AITestKitchen應用中,作為收集對該技術早期反饋的一種方式。

smorecity.webp

AI Test Kitchen是在今年早些時候推出的,是Google對各種AI系統進行測試的一種方式。目前,該應用程序提供一些不同的方式與Google的文本模型LAMDA(是的,就是那個工程師認為有知覺的模型,然後他被開除)進行互動,該公司很快將增加類似的限制性Imagen請求,作為其所謂的應用程序"第二季"更新的一部分。簡而言之,將有兩種方式與Imagen互動,Google在今天的公告前演示這一點。演示項目分別是:"城市夢想傢"和"搖擺不定"。

在"城市夢想傢"中,用戶可以要求模型生成圍繞他們選擇的主題設計的城市元素--例如,南瓜、牛仔佈或黑顏色。Imagen創建樣本建築和地塊(城市廣場、公寓樓、機場等等),所有的設計都以類似於《模擬城市》中看到的等距模型出現。

cybercity.webp

城市夢想傢"任務讓用戶要求以等距設計為主題的城市建築

與其他文本到圖像的模式相比,這些互動是非常受限制的,用戶不能隨便要求他們喜歡的東西。不過,這也是Google有意為之。正如Google產品管理高級總監喬希-伍德沃德(Josh Woodward)向The Verge解釋的那樣,AI Test Kitchen的全部意義在於:a)獲得公眾對這些AI系統的反饋;b)找出更多關於人們將如何打破它們的信息。

伍德沃德不願意討論任何關於AI Test Kitchen用戶如何破壞其LaMDA功能的具體例子,但他指出,當模型被要求描述具體地點時,就出現一個弱點。

伍德沃德說:"在歷史上的不同時期,一個地點對不同的人意味著不同的東西,所以我們看到一些相當有創意的方式,人們試圖把某個地方放到系統中,看看它產生什麼,"。當被問及哪些地方可能產生有爭議的描述時,伍德沃德舉俄克拉荷馬州塔爾薩的例子。"20世紀20年代,塔爾薩發生一系列種族騷亂,"他說。"如果有人輸入'塔爾薩',模型甚至可能不參考這個......你可以想象世界各地的復雜情況。"

wobble.webp

"搖擺"功能讓用戶設計一個怪物並讓它跳舞

想象一下,如果你要求一個人工智能模型描述德國中世紀的達豪鎮。你是否希望模型的答案提及建在那裡的納粹集中營?你怎麼知道用戶是否在尋找這些信息?在任何情況下省略它都是可以接受的嗎?在許多方面,設計具有文本界面的人工智能模型的問題與微調搜索的挑戰相似:需要以一種讓用戶滿意的方式解釋用戶的請求。

Google不會分享關於有多少人在實際使用AI Test Kitchen的數據("我們並沒有打算把它變成一個10億用戶的Google應用,"伍德沃德說),但他說它得到的反饋是非常寶貴的。"參與度遠遠高於我們的預期。並且這是一個非常活躍、有主見的用戶群體。"他指出,該應用程序在接觸"某些類型的人--研究人員、政策制定者"方面非常有用,他們可以用它來更好地解最先進的人工智能模型的局限性和能力。

不過,最大的問題是,Google是否會想把這些模型推向更廣泛的公眾,如果是這樣,會采取什麼形式?目前,該公司的競爭對手OpenAI和Stability AI正急於將文本-圖像模型商業化。

Google是否會覺得自己的系統足夠安全,可以走出人工智能測試階段,從而直接提供給用戶?


相關推薦

2022-10-07

op一樣奇怪,AI隻不過是另一個工具。Jeffries稱未來是環境人工智能(Ambient AI)的時代,各個行業、各個領域都會在人工智能的加持下進行發展。不過現在我們需要的是一個更開放的人工智能環境,也就是說:開源!最後,如果

2022-06-30

上。漫畫書插圖。谷歌“自己卷自己”在這項研究來自 Google Research,團隊中的華人居多。研究核心工作人員包括 Yuanzhong Xu、Thang Luong 等,目前均就職於谷歌從事 AI 相關研究工作。(Thang Luong 在谷歌學術上的引用量高達 20000+)

2022-08-15

文本-圖像人工智能系統目前在能力和受歡迎程度上都在蓬勃發展,還有什麼比它們出現在世界最熱門的應用程序中更好的證明?那就是TikTok。這個視頻平臺最近增加一種新的效果,它稱之為"人工智能綠屏",

2022-07-15

目前熱門的算法過程,OpenAI的Craiyon(以前的DALL-Emini)和Google的ImagenAI釋放出由人類和計算機想象力合成的奇妙怪異的程序生成藝術的浪潮。本周二,Meta透露,它也開發一個AI圖像生成引擎,它希望這將有助於在Metaverse中建立沉

2024-04-10

美國時間周二舉辦的GoogleNext大會上,谷歌宣佈,通過其人工智能應用開發平臺VertexAI,將Gemini1.5Pro首次對外開放。該模型最初於今年2月亮相。Gemini 1.5 Pro被視為Gemini傢族中的“中量級”(middle-weight)模型,其性能已經超越最大

2022-08-27

動狗頭)這個神奇的文字-圖像生成模型名叫DreamBooth,是Google的最新研究成果,基於Imagen的基礎上進行調整,一經發佈就在Twitter上引發熱議。有網友調侃:這簡直是最先進的梗圖生成器。目前相關研究論文已上傳至arXiv。幾張照

2022-12-21

直接勒令開除。但好在,這位John是一個由ArtsTechnica為做人工智能社交圖片實驗而虛構出來的人物。圖片來自Arts Technica網站,版權屬於原作者John的人物設定是一位普通的小學老師,和我們生活中的大部分的人一樣,在過去的 12

2024-01-31

Google剛剛推出一款新的生成式人工智能工具Lumiere,它將幫助你通過基於文本的命令創建更逼真的圖像和視頻。Lumiere的一大亮點是,它能夠制作出看起來逼真的動作,而且不會出現不連貫的情況。之所以能做到這一點,是因為該

2023-03-09

科學傢一直努力破解的問題。隨著研究的不斷深入,如今人工智能(AI)在模仿上述圖像轉化過程方面表現得越來越好。近日,在日本研究團隊開展的一項新研究中,AI可以通過讀取大腦掃描圖像,重建與人們看到的真實景象相

2023-12-07

emini)之後,Meta公司也在網絡上推出一種全新的、獨立的人工智能生成體驗-"與Meta一起想象"(ImaginewithMeta),允許用戶通過自然語言描述來創建圖像。與 OpenAI 的 DALL-E、Midjourney 和 Stable Diffusion 類似,Imagine wi

2024-02-16

AI正在推出一種新的視頻生成模型,它的名字叫Sora。這傢人工智能公司稱,Sora"可以根據文字說明創建逼真而富有想象力的場景"。文本到視頻模式允許用戶根據自己編寫的提示創建長達一分鐘的逼真視頻。根

2022-09-20

以來,很多人都認為,能夠繪制逼真圖像的AI是邁向通用人工智能(AGI)的一大步。OpenAI的CEO SamAltman曾在DALL-E2發佈的時候宣稱“AGIisgoingtobewild”,媒體也都在渲染這些系統對於通用智能進展的重大意義。但真的是如此

2022-11-02

一目標的第一步,該公司公佈一個經過400多種語言訓練的人工智能模型,它將其描述為"今天在一個語音模型中看到的最大的語言覆蓋范圍"。語言和人工智能可以說一直是Google產品的核心,但最近機器學習的

2023-11-07

方面的內部測試結果"好壞參半"。OpenAI 要求使用人工智能的開發者告知用戶音頻是由人工智能生成的。在一份相關的公告中,OpenAI 推出其開源自動語音識別模型 Whisper large-v3 的下一個版本,該公司聲稱該模型在各種語言