谷歌發佈新交互模型——Genie,該技術將為AI領域帶來革命性的突破。據解,Genie共有110億個參數,能夠基於用戶輸入的一張圖片和提示詞,生成一款較為完整的2D平臺遊戲。Genie三由個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻tokenizer,用於將原始視頻幀轉換為離散token。
另有一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。這三個組件共同協作,使得Genie能夠生成具有高度交互性和可控性的虛擬世界。
Genie通過網絡上超過20萬小時的2D遊戲視頻訓練,目前隻是一個研究預覽版,這些遊戲更像是2D平臺遊戲,而不是完全的VR遊戲。
此外,它能生成圖像和其他資產,將你的草圖變成一個完全實現的開放世界,然後根據玩傢提供的操作預測下一個像素幀,Genie還可以應用於設計相關的創作領域,進一步拓寬創作者的想象空間。