AI視頻新戰場:字節對決快手、反擊Sora


聲明:本文來自於微信公眾號科技新知,作者丨蕭維編輯丨蕨影,授權站長之傢轉載發佈。

字節跳動以性價比策略切入市場,掀起價格競爭,但高性能模型仍保持付費門檻。B端市場對豆包視頻大模型的接納度有待觀察,其商業變現與用戶場景適配性成為主要考驗。

一場由Sora引發的AI視頻生成競賽,如今迎來新的競爭者!

9月24日,2024火山引擎AI創新巡展深圳站上,字節跳動的兩款AI視頻模型—豆包視頻生成-PixelDance、豆包視頻生成-Seaweed發佈,並面向企業市場開啟邀測。

距離Sora已經橫空出世已經超過7個月,這段時間國產視頻大模型的發佈此起彼伏,圍剿Sora在商業語境中似乎成為參與玩傢的共有使命。

字節在七個月之後,才選擇正式蹚入這條沸騰之河,而此時在其面前,不止有Sora,一眾國產大模型弄潮兒,還有一個抖音眼熟的名字—快手。

老對手,新領域,可靈AI的影響力正在被加速釋放,在這一點上,字節如坐針氈,畢竟強如Sora,仍是外敵,而快手AI,早已殺到城下。

追逐使命還是修築護城河,囊外還是安內,答案藏在視頻大模型裡—字節不做選擇題。

Part.1

字節殺入,Sora遭遇圍堵

無論戰局多麼復雜,源頭都能追溯到Sora。

2024年2月,OpenAI公佈的Sora AI視頻生成模型成為全世界的焦點,憑借提供提示詞描述或者靜態圖片,Sora就能生成超高畫質、質感直逼電影的畫面,最高能達到1分鐘視頻的體量,直接震撼國產大模型行業。

隨後,國產廠商集體發力視頻大模型,才有圍堵Sora的大趨勢。《生成式AI商業落地白皮書》顯示,當前有53%的中國企業已開始有組織地進行生成式AI佈局。這意味著,很多中國企業已意識到生成式AI技術對於自身發展的重要性,並將在其中投入資源和精力。而自今年5月起,國內達到類Sora級別的 AI 視頻模型技術陸續公佈,生數、智象未來(HiDream.ai)等腰部企業輪番登場,智譜AI推出視頻生成模型“清影”、愛詩科技發佈視頻生成產品PixVerse V2、生數科技上線視頻生成模型Vidu紮堆七月亮相,整個賽道熱鬧非凡。

但一眾視頻大模型追趕Sora的過程,有一傢的產品可謂一鳴驚人,它就是6月6日開啟邀測的快手可靈 AI 視頻生成模型。

快手可靈剛一推出,就憑借參數博得市場的關註:視頻分辨率高達1080p,時長最高可達2分鐘(幀率30fps),單次文生視頻時長已增至10秒,指標全部位於業績前列。

工具從來都是輔助,而快手可靈俘獲用戶的速度之快,讓人始料不及。在快手光合創作者大會上,官方透露的數據為:超過160萬人使用過快手的視頻生成大模型可靈AI,累計生成超1600萬條視頻。

口碑、熱度、性能俱佳,可靈AI成為目前國內排名最高的視頻生成類AI應用,自然是水到渠成。

對手收獲掌聲,字節五味雜陳。實際上,字節在AI大模型的佈局比快手還早。2023年8月,該公司上線首個大語言模型“豆包”及多模態大模型BuboGPT。其抖音雲雀大模型通過首批《生成式人工智能服務管理暫行辦法》備案,面向公眾開放;字節跳動基礎模型發力語言和圖像兩種模態方向。而在AI應用層,字節跳動不僅已去年11月成立新AI部門Flow,還已推出三款AI對話類產品,包括豆包、扣子和Cici。

但是,需要註意的是,字節AI產品對平臺內容的加持是否得到市場認可,還需要進一步驗證,而在B站等內容平臺中,用AI二創視頻已經成為賽道,同時也降低創作者門檻,為平臺擴充內容提供有力支撐。

抖快之爭向來是短視頻賽道的焦點,而當對手手握超級武器後,字節自然如坐針氈,本次隆重推出的兩款視頻模型,既是與Sora一爭高下,更是與快手的軍備競賽,攘外安內的字節,接下來勢必動作頻頻。

Part.2

不拼參數拼場景,誰來買單?

當前,視頻大模型最能直觀打動人,就是參數,但本次字節推出視頻大模型,卻反其道而行之,到目前為止字節仍未透露兩款產品可以生成的最大時間長度。

如此重要的內容沒有公佈,原因可能隻有一個:還有其他更重要的東西需要被市場解。字節相關人士在介紹本次模型的特點時,多次強調其為多場景而生,其中三個核心功能更是頗為驚艷。

精準語義理解上,豆包AI視頻生成能夠遵從復雜的用戶提示詞,形成多個主體、人、物之間的互動畫面。

畫面展現上,豆包AI視頻具有逼真的動態與絲滑的運鏡,並具備變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力,靈活控制視角,同時保持主體、風格和氛圍的一致性。

畫質上,大模型支持包括黑白、3D 動畫、2D 動畫、國畫等多種風格,包含1:1、3:4、4:3、16:9、9:16、21:9六個比例,適配於各種終端,以及電影、手機豎屏等不同畫幅,質感優秀,格調出眾。

實際上,豆包視頻大模型在多場景上的發力,也正是字節大模型商業化的設計構想,電商、城市文旅、音樂 MV、微電影、短劇等應用場景,都是豆包·視頻生成模型助力客戶實現降本提效和創意合規的主戰場。

可以說,豆包視頻大模型聚焦To B業務的商業邏輯十分清晰,而下一步則是依靠價格殺出重圍。早在今年5月,火山引擎推出的豆包大模型把價格降至最低每千 token 低於一厘錢,比行業便宜99.3%,燃起大模型廠商的價格戰。

字節視頻大模型相關人士曾透露當下價格與市場份額之間的關系:價格降十分之一,量就可能漲十倍。這種量價關系下,對於先期獲得市場的大模型廠商來說,勢必要跟進低價策略。

以豆包語言模型為例,據官方披露,截至9月,豆包語言模型的日均 tokens 使用量超過1.3萬億,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。

這就是低價的魔力,但需要註意的是,慘烈的價格戰中,各方拿出手的基本是偏輕量化的模型版本,壓箱底的高性能模型並沒有參與,這多少說明大模型廠商的態度:給點甜頭嘗嘗,但要好的,得買單。

B端會不會為豆包視頻大模型買單,還需要觀察。但從以往大模型的落地來看,B端市場的需求適配用時並不會太短,而降本增效的核心訴求如何滿足,考驗的不僅是廠商大模型的能力,更是用戶自身對業務邏輯梳理打磨的能力。換言之,大模型這份收入,很難掙。

Part.3

AI驅動,打破版權壁壘

抖音的長視頻野望,可以靠AI視頻大模型內容生成來作為支撐。

隨著流量進入存量周期,短視頻平臺用內容留存用戶,成當務之急,2018年短視頻用戶規模增長率為107.0%,2020迅速降低到15.2%,而抖音DAU破6億後,出現增長放緩的態勢。

老對手快手的情況更為明顯,據快手2024年一季度財報顯示,快手實際月活人數為6.97億,較上一季度環比下降0.4%,呈現流失趨勢,二季度平均月活為6.92億,再次下探。

這可能才是視頻大模型最需要解決的問題:內容創作賦能,保住用戶規模基本盤。

在豆包視頻大模型發佈前,《山海奇鏡之劈波斬浪》和《三星堆:未來啟示錄》就是抖音和快手在AI內容領域的官方嘗試,前者屬於AI科幻短劇,後者則是AI奇幻短劇。

官方作品具有引導意義,但要想撬動更多內容創作者加入賽道,還需要更多行動。

不過,AI內容創作這一點上,抖音與快手態度趨同:鼓勵,但反對低質。今年6月,快手電商發佈使用AIGC能力直播的倡議公告,鼓勵商傢/達人和老鐵們進行良好互動,但明確流量不會傾斜,避免低質內容。來到9月8日,抖音則公佈關於“發佈特定內容需主動添加標識”的公告,鼓勵創作者尊重事實、發佈客觀真實信息,同時對於特定信息,應以“內容標識”的形式提供充分的說明,降低用戶的理解成本。

但事實上,創作者和用戶顯然更關註AI創作帶來的娛樂性,“容嬤嬤喂紫薇吃香腸”“唐僧啃雞腿、吃漢堡”“悟空掏手 槍”“爾康失態”等無腦爆改短視頻風靡全網,以腦洞、爆笑等元素獲得粉絲的關註,抖音上,相關話題“當AI擴圖卷土重來”登上熱榜,截至目前共有3.9億次播放。

對於抖音來說,這是個不錯的開始,內容拓展後,粉絲粘性提高、收入提升、制作成本下降,都是AI視頻大模型帶來的優勢,當然抖音更大的期待,還包括規避版權費風險。

兩年前,愛奇藝、優酷、騰訊視頻等長視頻平臺,70多傢影視機構、數百名藝人先後兩次公開發佈“聯合聲明”,呼籲短視頻平臺和公眾賬號生產運營者尊重原創、保護版權,強調未經授權,不得使用影視作品侵權創作,這份聲明中明確指出將對侵權行為依法追責。矛頭直指抖音等短視頻巨頭。隨後,抖音與騰訊更是因《雲南蟲谷》和《亮劍》等作品,互告對方侵權。

和解發生在短劇爆火後,長短視頻巨頭為進軍新市場握手言和,互相借助優勢成為新趨勢。但從長遠看,抖音短視頻二創還依賴原創視頻素材,風險並未化解,而隨著AIGC內容的開啟,抖音在版權側至少可以安心落地,二創的素材庫也更加豐富安全,確實是抖音樂得所見。

從這個角度看,字節的視頻大模型確實任重而道遠。

參考資料:

1、《快手蓋坤:可靈AI已生成視頻超1600萬條,用戶超160萬人》,新京報

2、《抖音快手激戰人工智能大模型》,億邦動力

3、《豆包進擊,字節版Sora“雖遲但到” 火山引擎總裁譚待:一落地就開始考慮商業化》,每日經濟新聞

4、《AI生成視頻,究竟有多癲狂?》,無限智能


相關推薦

2024-05-31

兩個人物,都放在AI相關的核心位置。今年2月,OpenAI發佈視頻生成模型Sora過去9天後,張楠放下抖音CEO的位置,聚焦剪映。看上去這是一個舍大取小的舉動,甚至有被流放之嫌。事實是,和陳林當初負責教育業務一樣,張楠在為

2022-07-25

原在采訪中也提到,“字節的自研芯片探索主要圍繞自身視頻推薦業務展開,研發團隊將為字節大規模視頻推薦服務專用場景定制硬件優化如視頻編解碼、雲端推理加速等。”具體來看,視頻編解碼很好理解,對數字視頻進行壓

2024-03-03

件編碼器)這和Sora技術報告的內容基本差不多。對於Sora視頻的可變長寬比,團隊通過參考上海AI Lab剛剛提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升級版DiT”)實施一種動態掩碼策略,從而在並行批量訓練的同時保

2024-02-18

AI(人工智能)新銳巨頭OpenAI近日推出文生視頻模型Sora,成為繼聊天機器人ChatGPT之後又一大新爆款。在Sora官網上,OpenAI寫道:“我們正在教AI理解和模擬運動中的物理世界,目的是訓練模型幫助人們解決需要現實世界互動的問

2022-08-11

200,目前已進入內測階段。這一芯片是快手加強雲端智能視頻處理能力的重要一步。采訪中,快手高級副總裁、Streamlake業務負責人於冰對第一財經記者表示,StreamLake是一個快手獨立業務部門,跟主業務既有關聯,又是比較獨立

2024-07-11

色應用,以及更多用戶創建的智能體。商湯展示可控人物視頻生成大模型Vimi,Vimi基於商湯日日新大模型的強大能力,僅通過一張任意風格的照片就能生成和目標動作一致的人物類視頻,並支持多種驅動方式,可通過已有人物視

2024-02-20

今天有報道表示,在Sora引爆文生視頻賽道之前,國內的字節跳動也推出一款顛覆性視頻模型——Boximator。而且與Gen-2、Pink1.0等模型不同的是,Boximator可以通過文本精準控制生成視頻中人物或物體的動作。對此,字節跳動相關人

2024-02-21

OpenAI首個視頻生成模型Sora近日刷屏科技圈,扔進去一段文字,分分鐘生成“大片”級別的視頻內容,時長可達到60秒。但同時這也衍生出新的問題:用別人的文案使用Sora文生視頻侵權嗎?生成的視頻版權算誰的?“全新創作不

2024-04-28

4月28日消息,Sora爆火後,掀起全球競逐AI視頻生成的熱潮。近日,國內一支AI生成的視頻短片引發關註。該視頻來自生數科技聯合清華大學最新發佈的視頻大模型Vidu。根據官方介紹,該模型采用團隊原創的Diffusion與Transformer融合

2024-02-18

AI巨頭在同一天各自放出自己的AI新核武器,OpenAI的文生視頻模型Sora又一次贏得滿堂彩。Sora的驚艷亮相,不僅碾壓諸多AGI視頻同行,更有可能改變電影電視廣告遊戲行業的未來遊戲規則。Google新模式性能完勝周四,Google突然發佈

2022-08-09

創立,它們幾乎都選擇押註與智能手機密切相關的直播、視頻和遊戲賽道,服務這些領域的大多數客戶,如抖音、快手、拼多多等。這些客戶不斷拉升著中國獨立雲廠商的營收增速。到2020年左右,它們紛紛啟動上市,金山雲成

2024-06-30

7月,快手與斑馬合作,在斑馬智行3.0系統中接入快手短視頻功能,並裝進上汽榮威RX5MAX的智慧出行娛樂系統中,但用戶反響平平,主要原因在於一來受限於場景。有車聯網產業鏈人士吳柯維告訴字母榜,更有價值的,是給車主

2022-10-10

,各板塊負責人直接向梁汝波匯報;並將今日頭條、西瓜視頻等老業務劃歸抖音旗下。這一調整旨在減少架構層級,提高管理效率和執行力;與之相搭配的,自然是各條線人員規模的收縮。在接踵而至的裁員中,字節不少部門遭

2023-12-26

本地生活腹地酒旅進攻。抖音之外,持續走向交易的還有視頻號和小紅書。3月初,小紅書進行組織架構調整,將直播從二級部門的一個業務組上調為獨立部門,統一管理直播內容和直播電商等板塊。此後,小紅書直播電商生態