隨著技術的發展,研究人員繼續尋找新的方法來利用人工智能和機器學習能力。本周早些時候,Google科學傢宣佈創建Transframer,這是一個新的框架,它能根據單一的圖像輸入來生成短視頻。這項新技術有朝一日可以增強傳統的渲染解決方案並使開發者能夠基於機器學習能力創建虛擬環境。
這個新框架的名稱(及在某些方面的概念)是對另一個基於人工智能的模型Transformer的點贊。Transformer最初於2017年推出,是一個新穎的神經網絡架構,它有能力通過建模和比較句子中的其他詞來生成文本。此後,該模型被納入標準的深度學習框架如TensorFlow和PyTorch。
據悉,Transframer使用具有類似屬性的背景圖像,結合查詢註釋來創建短視頻。盡管在原始圖像輸入中沒有提供任何幾何數據,但產生的視頻在目標圖像周圍移動並將準確的視角可視化。
這項新技術使用Google的DeepMind人工智能平臺進行演示,其功能是分析單一的照片背景圖像以此來獲得關鍵的圖像數據並生成額外的圖像。在這一分析過程中,系統確定圖片的框架,這反過來又幫助系統預測圖片的周圍環境。
然後,語境圖像被用來進一步預測圖片從不同角度會出現的情況。預測根據數據、註釋及語境框架中的任何其他信息對額外圖像框架的概率進行建模。
該框架通過提供基於非常有限的數據集生成合理準確的視頻的能力,這標志著視頻技術的巨大進步。Transframer任務在其他跟視頻有關的任務和基準上也顯示出極有前景的結果,如語義分割、圖像分類和光流預測。
對基於視頻的行業如遊戲開發可能具有潛在的巨大影響。目前的遊戲開發環境依賴於核心渲染技術,如著色、紋理映射、景深和光線追蹤。像Transframer這樣的技術有可能通過使用人工智能和機器學習來構建他們的環境並與此同時來減少創建環境所需的時間、資源和精力以為開發者提供一個全新的開發路徑。