Meta新模型“分割一切”:摳圖完成究極進化 計算機視覺迎來GPT-3時刻


對於每一個看過漫威的人來說,鋼鐵俠的頭盔無疑是大傢都想擁有的一個裝備。透過這個頭盔,你可以一眼識別並標記出眼前所有的人和物品,並且看到這些事物獨特的數據和特點。而現在,Meta正在把這一科幻設想推向現實。

當最近巨頭們正在AIGC領域上激戰之時,Meta默默的在人工智能的另一個重要分支搞起大動作——計算機視覺。

本周三,Meta研究部門發佈一篇名為其“Segment Anything(分割一切)”的論文,文中介紹一個全新的Segment Anything Model(即SAM),可以用於識別圖像和視頻中的物體,甚至是人工智能從未被訓練過的物品。

所謂的“分割”,用最通俗的話來說就是摳圖。但Meta此次所展示的人工智能摳圖能力,可能遠比你想象的要更加強大,甚至在人工智能領域被認為是計算機視覺的“GPT-3時刻”。

01.圖片、視頻一鍵識別,哪裡喜歡點哪裡

雖然智能摳圖這件事並不算是個新鮮事物,但如果你嘗試過用P圖軟件來摳圖換背景,就會發現想把照片摳得快、摳得準、摳得自然其實是一件費時又費力的事。

從技術的角度來說,數字圖像的“摳圖”一直就是計算機視覺領域的一項經典且復雜的任務,其中關鍵的難點在於識別的時間和精準度。Meta此次發佈的SAM可以說給出近乎完美的解決方案。

對於任何一張照片,Meta都可以快速識別照片中的所有物體,並智能地將其分割成不同的形狀和板塊。你可以點擊圖中的任意物品進行單獨處理。

Meta新模型“分割一切”:摳圖完成究極進化 計算機視覺迎來GPT-3時刻

此次SAM的一大突破還在於即使是在訓練過程中從未遇到過的物品和形狀,人工智能也能將其準確識別並分割出來。


而除簡單的識別圖片中的物品之外,此次SAM還支持用戶使用各種交互性的方式來分離出想要的物體。

比如你可以通過將鼠標懸浮在該物體之上,就能自動定位出物體的輪廓。即使是顏色非常相近或者有連人眼都很難快速分辨出的倒影的圖片之中,SAM都能非常準確的找出輪廓邊線。


再比如,你也可以直接通過輸入文字查詢,AI就可以幫你找到並標記出這個圖片中的你想找的這個文字對象。

Meta新模型“分割一切”:摳圖完成究極進化 計算機視覺迎來GPT-3時刻

不僅僅是靜態圖片,對於視頻中的物體,SAM也能準確識別並且還能快速標記出物品的種類、名字、大小,並自動用ID給這些物品進行記錄和分類。Meta表示未來這一技術會跟AR/AR頭顯進行廣泛結合。這聽上去是不是確實有點鋼鐵俠頭盔的味道?


看到這裡是不是已經覺得很厲害?別著急,Meta這次還有大招。

除能把物品從圖像中精準地分離出來,SAM還能支持對這個物品的編輯。也就是說,你可以把這個衣服從這個模特身上換下來,或許再換個顏色改個大小,放在另一模特身上。


你也可以把你從靜態圖片中“摳”出來的椅子,進行3D渲染和編輯,讓它從一個圖片立刻動起來,接著你還可以改變形狀或者進行更多的創意操作。


02.計算機視覺領域的 GPT-3 時刻,打開更大應用想象空間

Meta發佈SAM之後,立刻吸引大量關註,甚至在很多人工智能業內人士的眼中,SAM的出現可以說是計算機視覺領域的GPT-3時刻。

英偉達人工智能科學傢 Jim Fan 表示此次SAM最大的一點突破是它已經基本能夠理解“物品”的一般概念,即使對於未知對象、不熟悉的場景(例如水下和顯微鏡裡的細胞)它都能比較準確的理解。因此他表示相信SAM的出現會是在計算機視覺領域裡的GPT-3時刻。

不僅是Jim有這樣的觀點,一些AI研究專傢甚至也表示,SAM之於計算機視覺,就像是GPT之於大語言模型。


而就在SAM昨天發佈之後,很多人也在第一時間上手進行實測。矽星人瀏覽一圈,發現不僅基本滿屏都是驚嘆,一些網友還結合自身的工作領域打開SAM更廣的應用想象空間。

有人將包含眾多復雜元素的圖片上傳之後,SAM識別起來毫無壓力,無論是近景還是遠景,大量的復雜細微的元素都可以基本準確找出。


有自然科學研究者將SAM和衛星圖像結合在一起,表示SAM能夠很好的識別和找到他標記的風貌類型。


有神經外科影像學的專傢將SAM用到一個脊髓血管病的病例文件之中,認為SAM在幫助判斷和分析病情上有很大幫助。


有生物學傢輸入一張顯微鏡下的組織圖片,即使圖中形狀特征毫無規律,但憑借著Zero-shot技術,SAM也能夠自動識別多細胞結構中的腺體、導管、動脈等。該生物學傢認為SAM的產出結果已經非常接近完美,未來能夠節省大量手動註釋的時間。


還有有騎行愛好者將地圖和SAM結合起來,認為能夠幫助自己未來更快更高效地給地圖做標記。


03.基於1100萬張照片訓練,模型和數據全部開源

總體來看,跟過去的一些計算機視覺模型相比,SAM 在幾個方面有著顯著的提升和不同。

首先,SAM 開創性地跟Prompt結合起來。它可以接受各種輸入提示,例如點擊、框選或指定想要分割的對象,這種輸入並不是一次性指令,你可以不停地對圖像下達不同的指令達到最終的編輯效果,這也意味著此前在自然語言處理的Prompt模式也開始被應用在計算機視覺領域。

此外,SAM基於1100 萬張圖像和 11 億個掩碼的海量數據集上進行訓練,這是迄今為止最大的分割數據集。該數據集涵蓋廣泛的對象和類別,例如動物、植物、車輛、傢具、食物等,這些圖像的分辨率達到1500×2250 pixels,平均每張圖像約有100個掩碼。此次SAM采用輕量級掩碼解碼器,可以在每次提示僅幾毫秒內在網絡瀏覽器中運行。

SAM 在各種分割任務上具有很強的零樣本性能。零樣本意味著 SAM 可以在不對特定任務或領域進行任何額外訓練或微調的情況下分割對象。例如,SAM 可以在沒有任何先驗知識或監督的情況下分割人臉、手、頭發、衣服和配飾。SAM 還可以以不同的方式分割對象,例如紅外圖像或深度圖等。


SAM的訓練數據集是OpenImage V5的6倍

Meta表示,目前公司內部已經開始使用SAM相關技術,用於在Facbook、Instagram等社交平臺上照片的標記、內容審核和內容推薦等。而之後,生成人工智能作為"創意輔助工具"也將被作為今年的重點優先事項被納入到Meta更多的應用程序中。

此次,可能最讓很多業內人士驚喜的地方在於,無論是SAM模型還是巨大的訓練數據集都是開源的!也就是說,目前任何人都可以在非商用許可下載和使用SAM及數據。

Meta表示,此舉是希望進一步加速整個行業對圖像分割以及更通用圖像與視頻理解的研究。‘Meta也預計,隨著SAM的演進和發展,該技術可能會成為未來AR/VR、內容創作、設計更多領域的強大的輔助工具。


相關推薦

2023-02-27

,它是這樣解釋的:GPT是基於Transformer架構的預訓練語言模型,可以生成自然語言文本。Transformer是基於自註意力機制的深度學習模型架構,它在自然語言處理領域中得到廣泛的應用,如機器翻譯、文本分類和生成模型等。GPT是

2024-05-23

昆(Yann LeCun)近日對ChatGPT等生成式AI產品背後的大語言模型的能力提出質疑。他表示,大模型永遠無法實現像人類一樣的推理和規劃能力。楊立昆明確指出,大語言模型在邏輯理解方面存在極大的限制,它們缺乏對物理世界的

2024-04-19

件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上最好

2022-10-19

Omneky是一傢利用OpenAI的DALLE-2和GPT-3模型來生成可用於社交平臺廣告的視覺和文字的創業公司。由於最近在人工智能和計算機視覺方面的創新,該公司希望讓在線廣告變得既便宜又更有效。Omneky眼下正在參加TechCrunchDisrupt2022的創業

2023-02-11

I。現在大火的ChatGPT,以及DALL-E、GPT-3等都是OpenAI推出的AI模型。以ChatGPT為例,簡單來說這是一個AI聊天機器人,可以用自然語言回答各種問題,甚至還可以幫人寫代碼、搞設計、寫詩……ChatGPT背後則是通過強化學習進行訓練,

2022-09-26

行們的追求是必要的,但還遠遠不夠。其中包括大型語言模型的研究,如基於Transformer的GPT-3。正如勒昆所描述的那樣,Transformer的支持者們相信:“我們將所有東西標記化,並訓練巨型模型進行離散預測,AI由此脫穎而出。”勒

2023-04-24

將這個產品推廣到多個行業裡,即從計算機視覺到語言大模型,我真的很興奮!對於她的離開,底下網友紛紛留言,有人表示出遺憾和惋惜。但更多人表達祝福。隱隱之中似乎還揭示凱特來自韓國,但她並沒有在公開資料裡介紹

2024-02-06

線或完全在線工作。在線版本具有一組更高級的機器學習模型,以及更好的微調模型,對於本地設備也更省電。整個系統為真實場景而設計,並允許對大多數零件進行快速迭代。在客戶端,用戶通過移動應用程序與腦機接口設備

2024-02-19

2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無論是清晰度、連貫性和時間上都令人驚艷,一時間,諸如“現實不存在!”的評論在全網刷屏。Sora是如何實現如此顛覆性的能力的呢?這就不得不提到其背後的兩項核心技

2022-06-23

tereo matching using belief propagation”。第二篇則是他帶領團隊完成的“去霧”論文“Single Image Haze Removal Using Dark Channel Prior”,這也是亞洲第一篇獲得CVPR最佳論文獎的論文。第三篇則是“Deep Residual Learning for Image Recognition”,這篇是

2023-03-03

並在更少的監督下構建強大的人工智能,從而使深度學習模型能夠安全地部署在現實世界當中。為實現這個目標,她對包括表征學習、自監督學習和可擴展多模態學習等方向進行探索。Yifan Jiang (江亦凡)江亦凡是德克薩斯大學

2024-03-04

范麟熙曾透露,團隊有足夠的資金一次性解決機器人基礎模型、遊戲基礎模型和生成式模擬。他認為,2024年將是機器人之年、遊戲AI之年、模擬之年。而關於人工智能的過去和未來,都繞不開他們身後共同的老師——李飛飛。李

2022-11-01

寫一篇研究論文,涉及在這一領域訓練的機器學習(ML)模型的構建。麻省理工學院新聞網站上的一篇博文介紹說,MIT-IBM沃森人工智能實驗室合作建立一個ML模型,利用空間聲學來觀察和模擬環境。簡單地說,這個模型通過弄清

2023-03-25

類的插件,信息的時效性和可靠性也比一般單純由大語言模型驅動的搜索引擎更有保障。比如OpenAI舉例,當你想搜索當前地球和木星之間的距離時,此時並不是由ChatGPT來直接把答案生成給你,而是通過安裝的Wolfram插件來執行這