新型人工智能算法可在5秒鐘內從2D圖像中創建3D模型


創意產業需要源源不斷的內容才能讓粉絲們滿意,而這些內容需要以某種方式創建。說到三維模型,人工智能算法可以提供很大的幫助,縮短生成時間。通過使用一個大型數據集來訓練機器學習算法,Adobe公司和澳大利亞國立大學的研究人員創造出一種技術,可以在3D模型創建方面創造奇跡。

研究人員創建首個大型重建模型(LRM),他們認為該模型能夠通過單張二維圖像預測三維模型的形狀,而且隻需 5 秒鐘即可完成。

研究人員在論文中解釋說,以前的三維生成模型是在專註於單一圖像類別的小規模數據集上進行訓練的。相反,他們的 LRM 模型具有高度可擴展性、基於變換器的架構,擁有 5 億個可學習參數,並已在 Objaverse 和 MVImgNet 數據集中的約 100 萬個 3D 物體上進行訓練。

2023-11-10-image-4-p_1100.webp

研究人員解釋說,大容量模型和大規模訓練數據的結合為 LRM 算法提供"高度通用"的內容創建能力。論文稱,該模型能夠從包括真實世界照片在內的各種測試圖像中生成"高質量"的三維重建。此外,LRM 還能將"正常"圖像和由 DALL-E 和 Stable Diffusion 等人工智能服務生成的視覺拼湊圖像作為其輸入二維模型。

該研究的第一作者洪一聰認為,LRM 是單圖像三維重建領域的重大突破。這種人工智能算法可以從視頻或形狀圖像中生成詳細的幾何圖形,並保留木紋等復雜紋理。

研究人員指出,LRM 具有潛在的"變革"能力,可以應用於設計、娛樂和遊戲等眾多行業。設計師或三維藝術傢可以簡化三維建模過程,大大縮短生成視頻遊戲或動畫資產所需的時間。在快速發展的行業中創建三維內容已成為一項挑戰,人工智能公司正急於提供潛在的解決方案,如 Stability AI 最近推出的 Stable 3D 服務。

LRM 還能使 3D 建模的工作普及化,因為"普通"用戶有可能通過智能手機拍攝的照片制作出高度精細的模型。盡管 LRM 仍面臨挑戰,例如圖像隱藏部分的紋理模糊,但它為創意和商業機會開辟廣闊天地。研究人員提供一個頁面,上面有視頻演示和交互式 3D 網格,展示 LRM 目前能做什麼:

https://yiconghong.me/LRM/


相關推薦

2024-03-08

生成式人工智能主要以創建令人震驚的可信文本和靜態圖像而聞名,這種工具也已開始編輯相當逼真的視頻剪輯。包括遊戲在內的互動體驗可能是下一步的發展方向之一。Google的研究可以讓人工智能影響虛擬世界的構建,用人工

2022-08-14

你上傳3張不同角度的陶瓷貓照片,可能會得到以下4張新圖像:兩隻在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術風格的貓以及陶瓷貓主題的午餐盒。同樣的例子還有藝術品:鎧甲小人:碗:不隻是提取圖像中的物體,AI還能

2023-01-28

隨著人工智能(AI)技術的不斷發展,用戶將能夠創造屬於自己的沉浸式世界。據《時代》1月27日報道,元宇宙的從業者們已經開始使用ChatGPT、DALL-E這樣的生成式人工智能進行創作,輸入問題後,人工智能可以快速輸出相關的文

2023-05-12

Meta周二(5月9日)宣佈一個新的開源人工智能(AI)模型ImageBind,該模型可以將六種類型的數據流聯系在一起。ImageBind以視覺(圖片和視頻)為核心,結合文本、聲音、3D深度、溫度、運動讀數(IMU),最終可以做到在六個模態

2023-03-22

模、high NA EUV、亞原子級光刻膠模型等新技術節點所需的新型解決方案和創新技術成為可能。02.發佈ChatGPT專用推理GPU 登瀏覽器即可訪問AI超級計算機圍繞生成式AI,英偉達發佈一系列加速模型訓練和推理的軟硬件新品及服務。

2023-02-24

高通公司正在展示其在移動領域的人工智能能力,展示其聲稱的人工智能圖像生成器StableDiffusion在智能手機上有史以來最快的部署。在一個演示視頻中,高通公司展示1.5版本的StableDiffusion系統在15秒內生成512x512像素的圖像。雖然

2023-04-06

Facebook的所有者Meta公司發佈一個新的人工智能模型,當被提示時,它不僅可以識別圖像中的單個物體。還可以根據輸入模型的文本來選擇它們。該工具名為SegmentAnything,其工作原理是識別哪些圖像像素屬於一個物體。它被作為一

2024-02-25

消息,據國外媒體報道稱,對於用戶反饋谷歌公司推出的人工智能(AI)模型Gemini在生成人物圖像時出現問題,谷歌高級副總裁普拉巴卡爾拉加萬進行道歉。谷歌公司推出的AI模型Gemini具有根據文字生成圖像的功能,但尷尬的是

2023-04-07

故障的根源。我們通過提供在他們的環境中訓練的對話式人工智能實現這一點。我們將可觀察性數據饋送到一個大型語言模型中。然後,當出現故障時,他們隻需要向Moose提出問題,就可以得到答案。Wild Moose的創始團隊是以色列

2022-08-03

拼接完成。來自斯坦福大學、麻省理工大學加速季科學和人工智能實驗室、AutodeckAI實驗室的科研團隊聯合開發一種基於機器學習的框架,能夠根據2D拼搭指導手冊來展示3D效果。該框架叫做 Manual-to-Executable-Plan Network(簡稱 MEPNet

2022-07-15

文字到圖像的生成是目前熱門的算法過程,OpenAI的Craiyon(以前的DALL-Emini)和Google的ImagenAI釋放出由人類和計算機想象力合成的奇妙怪異的程序生成藝術的浪潮。本周二,Meta透露,它也開發一個AI圖像生成引擎,它希望這將有助

2022-07-05

具有同樣的精準程度,完成手術導航系統的國產化替代。新型導航在具有較高精度的前提下,將其成本壓縮到傳統手術導航產品的十分之一,填補國內市場的空白。基於騰訊AI Lab的前沿算法能力和北京協和醫院神經外科多年的臨

2022-10-02

人工智能,讓我們穿越時空。如何利用數字化之力讓文化遺產更好地“活”起來,成不少人關心的問題。數字技術和文化遺產的深度融合,一是可以強化對文化遺產存量破損的針對性修復與增量破損的前瞻性預防,讓文化遺產得

2022-08-22

,比如“立方螺旋(cubehelix)”。Cubehelix是一種色盤生成算法,其生成的色表在轉換為灰度或替換色調後,其強度的變化不會有影響。該研究合著者Mona Minkara也是一位視障科學傢,她興奮地表示,這項研究可以徹底改變她與學生