創意產業需要源源不斷的內容才能讓粉絲們滿意,而這些內容需要以某種方式創建。說到三維模型,人工智能算法可以提供很大的幫助,縮短生成時間。通過使用一個大型數據集來訓練機器學習算法,Adobe公司和澳大利亞國立大學的研究人員創造出一種技術,可以在3D模型創建方面創造奇跡。
研究人員創建首個大型重建模型(LRM),他們認為該模型能夠通過單張二維圖像預測三維模型的形狀,而且隻需 5 秒鐘即可完成。
研究人員在論文中解釋說,以前的三維生成模型是在專註於單一圖像類別的小規模數據集上進行訓練的。相反,他們的 LRM 模型具有高度可擴展性、基於變換器的架構,擁有 5 億個可學習參數,並已在 Objaverse 和 MVImgNet 數據集中的約 100 萬個 3D 物體上進行訓練。
研究人員解釋說,大容量模型和大規模訓練數據的結合為 LRM 算法提供"高度通用"的內容創建能力。論文稱,該模型能夠從包括真實世界照片在內的各種測試圖像中生成"高質量"的三維重建。此外,LRM 還能將"正常"圖像和由 DALL-E 和 Stable Diffusion 等人工智能服務生成的視覺拼湊圖像作為其輸入二維模型。
該研究的第一作者洪一聰認為,LRM 是單圖像三維重建領域的重大突破。這種人工智能算法可以從視頻或形狀圖像中生成詳細的幾何圖形,並保留木紋等復雜紋理。
研究人員指出,LRM 具有潛在的"變革"能力,可以應用於設計、娛樂和遊戲等眾多行業。設計師或三維藝術傢可以簡化三維建模過程,大大縮短生成視頻遊戲或動畫資產所需的時間。在快速發展的行業中創建三維內容已成為一項挑戰,人工智能公司正急於提供潛在的解決方案,如 Stability AI 最近推出的 Stable 3D 服務。
LRM 還能使 3D 建模的工作普及化,因為"普通"用戶有可能通過智能手機拍攝的照片制作出高度精細的模型。盡管 LRM 仍面臨挑戰,例如圖像隱藏部分的紋理模糊,但它為創意和商業機會開辟廣闊天地。研究人員提供一個頁面,上面有視頻演示和交互式 3D 網格,展示 LRM 目前能做什麼:
https://yiconghong.me/LRM/