豆包視頻生成大模型發佈：首次突破多主體互動難關

2024-09-25 來自快科技發表於業界精選

快科技9月24日消息，據媒體報道，字節跳動正式宣告進軍AI視頻生成。發佈豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型發佈，面向企業市場開啟邀測。

豆包視頻生成”大模型憑借其卓越的語義理解能力、對復雜交互畫面的精準捕捉以及多鏡頭切換下的內容一致性，成功躋身業界先進水平。

該模型不僅能夠深度理解並響應復雜指令，驅動不同人物角色完成一系列精細的動作互動，更在細節處理上達到極致，從人物樣貌、服裝的微妙變化到頭飾的精準呈現，均能在不同運鏡角度下保持高度一致，仿佛實拍般自然流暢。

值得一提的是，豆包視頻生成”模型依托字節跳動自主研發的DiT（Dynamic Integration Transformer）架構，通過高效的DiT融合計算單元，實現視頻在大動態場景與多樣運鏡之間的無縫切換。這一技術突破賦予視頻變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力，讓視頻創作更加自由靈動，滿足創作者對視覺表達的無限想象。

為進一步提升視頻創作的專業性和觀賞性，豆包視頻生成”團隊還創新性地采用全新設計的擴散模型訓練方法。

這一方法有效攻克多鏡頭切換過程中保持主體、風格、氛圍一致性的技術難題，確保在鏡頭切換的瞬間，視頻的整體氛圍與細節表現依然和諧統一，為觀眾帶來更加沉浸式的觀看體驗。

目前，豆包視頻生成”系列模型已在即夢AI內測版中開啟小范圍測試，旨在收集寶貴的用戶反饋，不斷優化產品性能。

豆包視頻生成大模型發佈：首次突破多主體互動難關

相關推薦

AI視頻新戰場：字節對決快手、反擊Sora

字節跳動正式發佈豆包視覺理解模型：1元可處理近300張高清圖

緩解字節 AI 焦慮的超級應用：剪映 or 豆包？

字節內部AI“賽馬”結束，大模型全跟豆包姓，一出手就點名阿裡百度

百度大模型賺錢李彥宏又面臨三隱憂

從“天價”到“骨折價”，大模型要變天

國際頂尖水平！首個Sora級國產自研視頻大模型Vidu發佈

豆包卡在中間？

全球首搭字節豆包AI大模型！全新smart精靈#5發佈

字節AI兇猛上位

送懂車帝“出嫁”，張一鳴豪賭AI

VALL-E：微軟全新文字轉語音模型可以在三秒鐘內復制任何人的聲音

為什麼全人類都呼籲把通用人工智能“管起來”？

字節跳動回應AI處理器傳聞：消息不實