聲明:本文來自於微信公眾號科技新知,作者丨蕭維編輯丨蕨影,授權站長之傢轉載發佈。
字節跳動以性價比策略切入市場,掀起價格競爭,但高性能模型仍保持付費門檻。B端市場對豆包視頻大模型的接納度有待觀察,其商業變現與用戶場景適配性成為主要考驗。
一場由Sora引發的AI視頻生成競賽,如今迎來新的競爭者!
9月24日,2024火山引擎AI創新巡展深圳站上,字節跳動的兩款AI視頻模型—豆包視頻生成-PixelDance、豆包視頻生成-Seaweed發佈,並面向企業市場開啟邀測。
距離Sora已經橫空出世已經超過7個月,這段時間國產視頻大模型的發佈此起彼伏,圍剿Sora在商業語境中似乎成為參與玩傢的共有使命。
字節在七個月之後,才選擇正式蹚入這條沸騰之河,而此時在其面前,不止有Sora,一眾國產大模型弄潮兒,還有一個抖音眼熟的名字—快手。
老對手,新領域,可靈AI的影響力正在被加速釋放,在這一點上,字節如坐針氈,畢竟強如Sora,仍是外敵,而快手AI,早已殺到城下。
追逐使命還是修築護城河,囊外還是安內,答案藏在視頻大模型裡—字節不做選擇題。
Part.1
字節殺入,Sora遭遇圍堵
無論戰局多麼復雜,源頭都能追溯到Sora。
2024年2月,OpenAI公佈的Sora AI視頻生成模型成為全世界的焦點,憑借提供提示詞描述或者靜態圖片,Sora就能生成超高畫質、質感直逼電影的畫面,最高能達到1分鐘視頻的體量,直接震撼國產大模型行業。
隨後,國產廠商集體發力視頻大模型,才有圍堵Sora的大趨勢。《生成式AI商業落地白皮書》顯示,當前有53%的中國企業已開始有組織地進行生成式AI佈局。這意味著,很多中國企業已意識到生成式AI技術對於自身發展的重要性,並將在其中投入資源和精力。而自今年5月起,國內達到類Sora級別的 AI 視頻模型技術陸續公佈,生數、智象未來(HiDream.ai)等腰部企業輪番登場,智譜AI推出視頻生成模型“清影”、愛詩科技發佈視頻生成產品PixVerse V2、生數科技上線視頻生成模型Vidu紮堆七月亮相,整個賽道熱鬧非凡。
但一眾視頻大模型追趕Sora的過程,有一傢的產品可謂一鳴驚人,它就是6月6日開啟邀測的快手可靈 AI 視頻生成模型。
快手可靈剛一推出,就憑借參數博得市場的關註:視頻分辨率高達1080p,時長最高可達2分鐘(幀率30fps),單次文生視頻時長已增至10秒,指標全部位於業績前列。
工具從來都是輔助,而快手可靈俘獲用戶的速度之快,讓人始料不及。在快手光合創作者大會上,官方透露的數據為:超過160萬人使用過快手的視頻生成大模型可靈AI,累計生成超1600萬條視頻。
口碑、熱度、性能俱佳,可靈AI成為目前國內排名最高的視頻生成類AI應用,自然是水到渠成。
對手收獲掌聲,字節五味雜陳。實際上,字節在AI大模型的佈局比快手還早。2023年8月,該公司上線首個大語言模型“豆包”及多模態大模型BuboGPT。其抖音雲雀大模型通過首批《生成式人工智能服務管理暫行辦法》備案,面向公眾開放;字節跳動基礎模型發力語言和圖像兩種模態方向。而在AI應用層,字節跳動不僅已去年11月成立新AI部門Flow,還已推出三款AI對話類產品,包括豆包、扣子和Cici。
但是,需要註意的是,字節AI產品對平臺內容的加持是否得到市場認可,還需要進一步驗證,而在B站等內容平臺中,用AI二創視頻已經成為賽道,同時也降低創作者門檻,為平臺擴充內容提供有力支撐。
抖快之爭向來是短視頻賽道的焦點,而當對手手握超級武器後,字節自然如坐針氈,本次隆重推出的兩款視頻模型,既是與Sora一爭高下,更是與快手的軍備競賽,攘外安內的字節,接下來勢必動作頻頻。
Part.2
不拼參數拼場景,誰來買單?
當前,視頻大模型最能直觀打動人,就是參數,但本次字節推出視頻大模型,卻反其道而行之,到目前為止字節仍未透露兩款產品可以生成的最大時間長度。
如此重要的內容沒有公佈,原因可能隻有一個:還有其他更重要的東西需要被市場解。字節相關人士在介紹本次模型的特點時,多次強調其為多場景而生,其中三個核心功能更是頗為驚艷。
精準語義理解上,豆包AI視頻生成能夠遵從復雜的用戶提示詞,形成多個主體、人、物之間的互動畫面。
畫面展現上,豆包AI視頻具有逼真的動態與絲滑的運鏡,並具備變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力,靈活控制視角,同時保持主體、風格和氛圍的一致性。
畫質上,大模型支持包括黑白、3D 動畫、2D 動畫、國畫等多種風格,包含1:1、3:4、4:3、16:9、9:16、21:9六個比例,適配於各種終端,以及電影、手機豎屏等不同畫幅,質感優秀,格調出眾。
實際上,豆包視頻大模型在多場景上的發力,也正是字節大模型商業化的設計構想,電商、城市文旅、音樂 MV、微電影、短劇等應用場景,都是豆包·視頻生成模型助力客戶實現降本提效和創意合規的主戰場。
可以說,豆包視頻大模型聚焦To B業務的商業邏輯十分清晰,而下一步則是依靠價格殺出重圍。早在今年5月,火山引擎推出的豆包大模型把價格降至最低每千 token 低於一厘錢,比行業便宜99.3%,燃起大模型廠商的價格戰。
字節視頻大模型相關人士曾透露當下價格與市場份額之間的關系:價格降十分之一,量就可能漲十倍。這種量價關系下,對於先期獲得市場的大模型廠商來說,勢必要跟進低價策略。
以豆包語言模型為例,據官方披露,截至9月,豆包語言模型的日均 tokens 使用量超過1.3萬億,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。
這就是低價的魔力,但需要註意的是,慘烈的價格戰中,各方拿出手的基本是偏輕量化的模型版本,壓箱底的高性能模型並沒有參與,這多少說明大模型廠商的態度:給點甜頭嘗嘗,但要好的,得買單。
B端會不會為豆包視頻大模型買單,還需要觀察。但從以往大模型的落地來看,B端市場的需求適配用時並不會太短,而降本增效的核心訴求如何滿足,考驗的不僅是廠商大模型的能力,更是用戶自身對業務邏輯梳理打磨的能力。換言之,大模型這份收入,很難掙。
Part.3
AI驅動,打破版權壁壘
抖音的長視頻野望,可以靠AI視頻大模型內容生成來作為支撐。
隨著流量進入存量周期,短視頻平臺用內容留存用戶,成當務之急,2018年短視頻用戶規模增長率為107.0%,2020迅速降低到15.2%,而抖音DAU破6億後,出現增長放緩的態勢。
老對手快手的情況更為明顯,據快手2024年一季度財報顯示,快手實際月活人數為6.97億,較上一季度環比下降0.4%,呈現流失趨勢,二季度平均月活為6.92億,再次下探。
這可能才是視頻大模型最需要解決的問題:內容創作賦能,保住用戶規模基本盤。
在豆包視頻大模型發佈前,《山海奇鏡之劈波斬浪》和《三星堆:未來啟示錄》就是抖音和快手在AI內容領域的官方嘗試,前者屬於AI科幻短劇,後者則是AI奇幻短劇。
官方作品具有引導意義,但要想撬動更多內容創作者加入賽道,還需要更多行動。
不過,AI內容創作這一點上,抖音與快手態度趨同:鼓勵,但反對低質。今年6月,快手電商發佈使用AIGC能力直播的倡議公告,鼓勵商傢/達人和老鐵們進行良好互動,但明確流量不會傾斜,避免低質內容。來到9月8日,抖音則公佈關於“發佈特定內容需主動添加標識”的公告,鼓勵創作者尊重事實、發佈客觀真實信息,同時對於特定信息,應以“內容標識”的形式提供充分的說明,降低用戶的理解成本。
但事實上,創作者和用戶顯然更關註AI創作帶來的娛樂性,“容嬤嬤喂紫薇吃香腸”“唐僧啃雞腿、吃漢堡”“悟空掏手 槍”“爾康失態”等無腦爆改短視頻風靡全網,以腦洞、爆笑等元素獲得粉絲的關註,抖音上,相關話題“當AI擴圖卷土重來”登上熱榜,截至目前共有3.9億次播放。
對於抖音來說,這是個不錯的開始,內容拓展後,粉絲粘性提高、收入提升、制作成本下降,都是AI視頻大模型帶來的優勢,當然抖音更大的期待,還包括規避版權費風險。
兩年前,愛奇藝、優酷、騰訊視頻等長視頻平臺,70多傢影視機構、數百名藝人先後兩次公開發佈“聯合聲明”,呼籲短視頻平臺和公眾賬號生產運營者尊重原創、保護版權,強調未經授權,不得使用影視作品侵權創作,這份聲明中明確指出將對侵權行為依法追責。矛頭直指抖音等短視頻巨頭。隨後,抖音與騰訊更是因《雲南蟲谷》和《亮劍》等作品,互告對方侵權。
和解發生在短劇爆火後,長短視頻巨頭為進軍新市場握手言和,互相借助優勢成為新趨勢。但從長遠看,抖音短視頻二創還依賴原創視頻素材,風險並未化解,而隨著AIGC內容的開啟,抖音在版權側至少可以安心落地,二創的素材庫也更加豐富安全,確實是抖音樂得所見。
從這個角度看,字節的視頻大模型確實任重而道遠。
參考資料:
1、《快手蓋坤:可靈AI已生成視頻超1600萬條,用戶超160萬人》,新京報
2、《抖音快手激戰人工智能大模型》,億邦動力
3、《豆包進擊,字節版Sora“雖遲但到” 火山引擎總裁譚待:一落地就開始考慮商業化》,每日經濟新聞
4、《AI生成視頻,究竟有多癲狂?》,無限智能