蘋果發佈人工智能模型MGIE 可根據自然語言輸入編輯圖片


蘋果公司的研究人員發佈一個新的開源人工智能模型,它能夠根據用戶的自然語言指令編輯圖像。MGIE是MLLM-GuidedImageEditing的縮寫,它使用多模態大型語言模型(MLLM)來解釋用戶請求並執行像素級操作。

該模型能夠編輯圖像的各個方面。全局照片增強可包括亮度、對比度或銳利度,或應用素描等藝術效果。局部編輯可以修改圖像中特定區域或對象的形狀、大小、顏色或紋理,而 Photoshop 風格的修改則包括裁剪、調整大小、旋轉和添加濾鏡,甚至是更改背景和混合圖像。

用戶對一張披薩照片的輸入可能是"讓它看起來更健康"。利用常識推理,模型可以添加蔬菜配料,如西紅柿和香草。全局優化輸入請求的形式可以是"增加對比度,模擬更多光線",而 Photoshop 風格的修改可以是要求模型將人物從照片背景中移除,將圖像的焦點轉移到拍攝對象的面部表情上。

蘋果公司與加州大學的研究人員合作創建 MGIE,並在 2024 年國際學習表征會議(ICLR)上發表一篇論文。該模型可在 GitHub 上獲取,包括代碼、數據和預訓練模型。

MGIE-apple-AI-model-image-editing.jpg

這是蘋果公司幾個月來在人工智能研究領域取得的第二次突破。12 月底,蘋果公司透露,通過發明一種創新的閃存利用技術,它在 iPhone 和其他內存有限的蘋果設備上部署大型語言模型 (LLM) 方面取得長足進步。

在過去的幾個月裡,蘋果一直在測試一種可以與 ChatGPT 競爭的"Apple GPT"。據彭博社的馬克-古爾曼(Mark Gurman)稱,人工智能工作是蘋果公司的一個優先事項,該公司正在為大型語言模型設計一個"Ajax"框架。

The Information和分析師傑夫-普(Jeff Pu)都聲稱,蘋果將在2024 年底左右在 iPhone 和 iPad 上推出某種生成式人工智能功能,也就是 iOS 18 上市的時候。據古爾曼稱,iOS 18 據說將包括一個增強版 Siri,具有類似 ChatGPT 的生成式人工智能功能,並有可能成為 iPhone 歷史上"最大的"軟件更新。


相關推薦

2024-05-07

們使用智能手機和Vision Pro的方式。以下是翻譯內容:在人工智能領域的競爭中,常有人誤以為蘋果起步較晚。自2022年底ChatGPT風靡全球以來,多數競爭對手都在加速追趕。雖然蘋果偶爾參與討論人工智能,並推出一些相關技術的

2023-03-31

這也對應西瓜的英文單詞Watermelon;要求畫樹葉、封面、蘋果,畫出的圖是樹葉覆蓋蘋果,顯然系統是把封面翻譯成Cover,這個單詞也有覆蓋的意思;畫“土耳其張開翅膀”,出現的畫面是張開翅膀的火雞,我們都知道,Turkey是土

2023-11-17

Facebook和Instagram正在獲得一些新的人工智能創意工具,這些工具將允許用戶使用文字描述編輯照片和制作"高質量視頻"。本周四,Meta首席執行官馬克-紮克伯格(MarkZuckerberg)宣佈兩項基於Emu(該公司圖像生成

2024-02-18

類和海洋生物。左:一幅數字繪畫,描繪一隻幼年老虎在蘋果樹下,采用精美的啞光畫風。右:一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴

2024-02-18

類和海洋生物。左:一幅數字繪畫,描繪一隻幼年老虎在蘋果樹下,采用精美的啞光畫風。右:一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴

2024-02-17

類和海洋生物。左:一幅數字繪畫,描繪一隻幼年老虎在蘋果樹下,采用精美的啞光畫風。右:一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴

2024-04-24

日消息,商湯科技在中國北京舉行新品發佈會,正式發佈人工智能大模型日日新5.0”。日日新5.0大模型采用先進的MOE(Mixture of Experts)混合專傢架構,這一架構的引入,使得模型在處理復雜任務時能夠表現出更高的效率和準確性

2024-02-17

類和海洋生物。左:一幅數字繪畫,描繪一隻幼年老虎在蘋果樹下,采用精美的啞光畫風。右:一個被雪覆蓋的山村,溫馨的小屋和壯麗的北極光相映成趣,畫面細膩逼真,采用50mm f/1.2鏡頭拍攝。視頻風格和環境的變換利用擴

2024-09-06

技9月6日消息,聯想在IFA百年展會期間舉辦創新世界大會發佈全新系列的Yoga和IdeaPad筆記本電腦。其中,聯想Creator Zone成為備受關註的AI PC明星級應用程序。聯想Creator Zone是一款設備本地應用程序,它利用自然語言處理技術來生成

2023-12-07

emini)之後,Meta公司也在網絡上推出一種全新的、獨立的人工智能生成體驗-"與Meta一起想象"(ImaginewithMeta),允許用戶通過自然語言描述來創建圖像。與 OpenAI 的 DALL-E、Midjourney 和 Stable Diffusion 類似,Imagine wi

2023-07-17

7月16日消息,近日,Meta宣佈,將開發一款名為CM3Leon的AI模型,該模型能夠根據文本內容生成圖片,也可以為圖片生成文本描述。Meta方面表示,CM3Leon在文生圖方面的表現,達到業界最高水平。這意味著,該模型的表現將超越谷歌

2024-06-15

,每周更新,歡迎關註。本周手機圈最大的熱點,莫過於蘋果WWDC24帶來的iOS 18更新,以及自傢AI技術Apple Intelligence,我們這周的機圈周報也會多花一點篇幅講講有意思的新功能、新玩法,快來一起看看吧。每年的全球開發者大會

2023-12-04

12月4日消息,據外媒報道,谷歌已將其下一代人工智能(AI)模型Gemini的發佈時間推遲到明年1月。據外媒報道,在谷歌“發現該AI模型不能可靠地處理一些非英語查詢”後,谷歌CEO桑達爾·皮查伊(Sundar Pichai)做出推遲發佈Gemini

2023-05-11

皮柴登場,幾句簡單的寒暄後他直擊主題,“眾所周知,人工智能今年非常忙碌,而作為一傢 AI-first 公司,我們有很多話要談。所以,讓我們開始吧。”Gmail、Maps等AI升級,創造更智能的生活體驗活動的一開始,Google先上幾個“