豆包視頻生成大模型發佈:首次突破多主體互動難關


快科技9月24日消息,據媒體報道,字節跳動正式宣告進軍AI視頻生成發佈豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型發佈,面向企業市場開啟邀測。

豆包視頻生成”大模型憑借其卓越的語義理解能力、對復雜交互畫面的精準捕捉以及多鏡頭切換下的內容一致性,成功躋身業界先進水平。

該模型不僅能夠深度理解並響應復雜指令,驅動不同人物角色完成一系列精細的動作互動,更在細節處理上達到極致,從人物樣貌、服裝的微妙變化到頭飾的精準呈現,均能在不同運鏡角度下保持高度一致,仿佛實拍般自然流暢。

值得一提的是,豆包視頻生成”模型依托字節跳動自主研發的DiT(Dynamic Integration Transformer)架構,通過高效的DiT融合計算單元,實現視頻在大動態場景與多樣運鏡之間的無縫切換。這一技術突破賦予視頻變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力,讓視頻創作更加自由靈動,滿足創作者對視覺表達的無限想象。

為進一步提升視頻創作的專業性和觀賞性,豆包視頻生成”團隊還創新性地采用全新設計的擴散模型訓練方法。

這一方法有效攻克多鏡頭切換過程中保持主體、風格、氛圍一致性的技術難題,確保在鏡頭切換的瞬間,視頻的整體氛圍與細節表現依然和諧統一,為觀眾帶來更加沉浸式的觀看體驗。

目前,豆包視頻生成”系列模型已在即夢AI內測版中開啟小范圍測試,旨在收集寶貴的用戶反饋,不斷優化產品性能。


相關推薦

2024-09-29

起價格競爭,但高性能模型仍保持付費門檻。B端市場對豆包視頻大模型的接納度有待觀察,其商業變現與用戶場景適配性成為主要考驗。一場由Sora引發的AI視頻生成競賽,如今迎來新的競爭者!9月24日,2024火山引擎AI創新巡展深

2024-05-31

,包括精簡組織,高管調動。差不多三個月後,朱駿現身豆包大模型發佈會。他跟張楠的軌跡類似,都是創立的公司被字節收購,本人加入,而且倆人都是抖音和TikTok崛起的關鍵人物,現在又都投身大模型。朱駿現在是字節AI主

2024-05-16

會上,字節大模型進行全系列更名,從雲雀大模型升級為豆包大模型傢族,一口氣發佈 9 個豆包模型,其中包括通用模型pro版、通用模型lite版以及各個領域的垂類模型,並宣佈正式對外服務。這是一次很有意思的更名,我們甚

2024-03-13

,屢被用戶投訴。總體活躍用戶數也已被字節跳動旗下的豆包超越。桌面搜索引擎,優勢失守從2013年百度開始佈局AI至今,在經歷長達十年的苦熬,累計投資1462億元之後,百度終於在剛過去的2023年迎來“春天”。隨著ChatGPT橫空

2024-05-21

為1元 /200萬tokens。4天後,火山引擎放出一記重彈,宣佈豆包Pro32k模型定價是0.8厘/千tokens,這個價格比行業降低99.3%,此外,豆包Pro128k模型定價是5厘錢/千tokens。與行業模型比,價格足足降低95.8%。這則消息一經放出,整個AI圈都

2024-04-28

聯合清華大學發佈中國首個長時長、高一致性、高動態性視頻大模型Vidu。這也是自Sora發佈之後全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,還在加速迭代提升中。據解,該模型采用團隊原創的Diffusion與Tran

2024-08-29

科技配置尤為引人註目,它是全球首款搭載字節跳動自研豆包AI大模型”的量產車,配備AMD V2000桌面級高算力芯片。這些尖端技術的結合,確保車輛擁有直觀生動的視覺效果和流暢的用戶體驗。車內配備25.6英寸AR增強型抬頭顯示

2024-06-14

模型做一系列佈局。今年5月底,字節AI拿出階段性成果,豆包大模型傢族亮相。此外,字節先後推出十多款AI大模型應用,包括AI對話助手豆包、AI機器人開發平臺扣子、二次元AI聊天機器人話爐、AI教育軟件Gauth等,剪映、飛書等

2023-01-10

個基於轉換器的TTS模型,隻需聽到三秒鐘的聲音樣本就能生成任何聲音的語音。這比以前的模型有很大的改進,以前的模型需要更長的訓練時間才能生成新的聲音。對於計算機行業來說,VALL-E是一項驚人的技術壯舉,有可能改變

2023-04-13

業,即“基於算法、模型、規則生成文本、圖片、聲音、視頻、代碼等內容的技術。”顯然這是從AI與社會關系的角度出發。畢竟AGI未來的技術特征會改變,模型大小會浮動,但它最終要追求與社會之間互動的內核不會變。而無

2024-06-25

領域,字節跳動於2023年8月震撼發佈其首個大型語言模型豆包”以及多模態大模型BuboGPT,這兩大模型無疑彰顯其在AI技術領域的深厚實力。豆包”作為一款先進的聊天機器人產品,具備強大的問答、文本生成、語言翻譯等功能,

2024-09-20

何用AI實現人生第一個13萬的過程中,向用戶展示如何用豆包生產內容;打工人上班途中在北京地鐵1號線永安裡站出口,看到智譜清言應用的大屏廣告;好學的年輕人睡前在自己常聽的播客節目裡,聽到MiniMax的植入......廣告投放,

2024-05-10

帶貨”的 Perplexity、微軟的 Copilot,國內除秘塔 AI 搜索,豆包(字節跳動旗下)、Kimi 也都支持 AI 搜索。圖/秘塔 AI 搜索、豆包、Kimi下周,搜索引擎領域的“老大哥”Google還要舉辦一年一度的 I/O 開發者大會,Gemini 和搜索都會是

2024-09-27

也會與外部硬件公司合作,其中相關部門負責人正在推動豆包大模型與其他手機廠商的智能助手合作,類似OpenAI與蘋果的結合。早在今年 4 月份,字節就開始在內部啟動AI手機研發項目,探索基於手機的大模型軟件解決方案,提