張一鳴姍姍來遲,卻更遲了
作者|馬舒葉 來源|字母榜(ID:wujicaijing)
進入9月,視頻大模型成為了大廠的AI新賽點。而這一次,張一鳴再次姍姍來遲。
距離阿里通義千問文生視頻上線5天,距離6月份快手發(fā)布可靈,時間已經(jīng)過去3個月,9月24日,字節(jié)終于推出了自己的豆包·視頻生成模型。
而值得關注的是,一向看重投資回報率(ROI)、偏實用主義的張一鳴,一開始就為豆包視頻大模型定了“商業(yè)化”的調(diào)。
在活動現(xiàn)場,火山引擎總裁譚待表示,豆包視頻生成模型從一落地就開始考慮商業(yè)化,使用領域包括電商營銷、動畫教育、城市文旅和微劇本,例如音樂MV、微電影和短劇等。
圖注:輸入“一個戴著圣誕帽的小女孩抱著布偶貓”生成效果
圖源:字母榜
同時譚待也強調(diào),在豆包視頻大模型發(fā)布前,就已經(jīng)在抖音不少短劇項目“露臉”。而上個月,昆侖萬維發(fā)布 AI 短劇生成平臺SkyReels,7月,美圖秀秀發(fā)布AI 短片生成工具MOKI。
“現(xiàn)在已經(jīng)有上百家短劇出海企業(yè)成為AI大模型用戶。”某頭部AI 工具服務商亦表示,對于大模型廠商如字節(jié)而言,用AI打下高昂的影視制作成本,AI加持下,短劇、MV將成為類似網(wǎng)文、短視頻一樣有更多用戶參與的內(nèi)容產(chǎn)品,在他看來,“晚來的字節(jié),下的是商業(yè)化的棋。”
事實上,當Sora“平地一聲雷”炸圈,能否推出視頻大模型,成為了2024年衡量大模型廠商技術是否先進的“新標準”。
在這場齊追Sora的追逐戰(zhàn)里,“不緊不慢”的字節(jié),拖到9月底才在豆包大模型Pro升級的當口,為視頻大模型“留了一個版面”。
當字母榜打開即夢AI,注意到應用豆包視頻大模型后,C端用戶能夠在即夢AI內(nèi)體驗視頻生成。
最長12秒“中規(guī)中矩”的生成時長,對齊可靈的生成效果,“不算驚艷,但遲了幾個月,也沒被先發(fā)的視頻大模型甩出技術差距。”作為首批內(nèi)測豆包視頻大模型的AI從業(yè)者,張洋告訴字母榜,盡管國內(nèi)視頻大模型扎堆更新,但字節(jié)姍姍來遲的底氣,或許正在于此前AI視頻生成的效果,都并未能讓用戶“驚艷”。
而國產(chǎn)模型追Sora的同時,OpenAI卻已經(jīng)通過GPT-o1的推出,為基座大模型展示了強化學習的新路徑,OpenAI或即將迎來估值超萬億的新時代,大模型廠商們,也將面臨新的賽點。
一
剪映此前推出的即夢AI只支持3秒的視頻時長;加載豆包大模型后,即夢AI內(nèi)可以生成3-12秒的視頻。
相比之下,可靈1.0版本,在未開通會員的情況下,只能體驗5秒的視頻生成,而字節(jié)的即夢AI通過每天登錄發(fā)放66積分的形式,支持用戶的免費試用。
不過,不像豆包大模型憑借低于行業(yè)98%的價格,開始卷起“大模型零元購”,引發(fā)熱議,豆包大模型似乎不符合字節(jié)一貫“悶聲干大事”的傳統(tǒng),顯得有些粗糙。
輸入“一個小女孩懷抱著布偶貓”的關鍵詞,在豆包視頻大模型發(fā)布前的內(nèi)測版,第一次,AI似乎將布偶貓理解成了玩偶,生成的視頻是懷抱著假貓,視頻內(nèi)的人臉也略顯僵硬。
而等9月25日再次生成后,布偶貓又變成了田園貓,第三次生成時,才AI大模型才準確完成了指令。張洋告訴字母榜,作為首批內(nèi)測的AI從業(yè)者,豆包視頻大模型的使用效果并不算驚艷。
不過,豆包視頻大模型可以切換3D動畫、2D動畫、國畫、黑白、厚涂等不同風格,還可以選擇隨機運鏡,或者自定義推近、拉遠等運鏡形式,相比起只提供16:9、9:16、1:1三種畫面比例的可靈,豆包顯然更加適配不同的畫面比例,包括3:4、2:3、4:3、3:2等更多的比例選擇。
在張洋看來,在用戶的互動的體驗上,豆包確實提供了更多的選擇。不過,雖然豆包視頻大模型可以實現(xiàn)一個prompt內(nèi)的多鏡頭切換,但“整體畫面的銜接仍有些不流暢,人物的表情有些失真。”
不過,張一鳴這次也毫不意外地將“實用主義”刻在了豆包視頻大模型的基因里。
豆包視頻大模型一經(jīng)發(fā)布,便面向企業(yè)市場開啟邀測,同時火山引擎總裁譚待更表示,豆包視頻生成模型從一落地就開始考慮商業(yè)化,使用領域包括電商營銷、動畫教育、城市文旅和微劇本,例如音樂MV、微電影和短劇等。
不同于其他“拿著錘子找釘子”的AI創(chuàng)企,不論是字節(jié)還是快手,“本身有內(nèi)容有平臺,釘子在手,做視頻大模型天然有著更多的應用場景。”張洋表示,
7月24日,可靈AI官方微信發(fā)文透露,目前申請權限的用戶數(shù)已突破100萬,并在同一天上線付費會員體系,包含黃金、鉑金、鉆石3個會員類別,年度會員價格從500多元到5000多元不等。對于姍姍來遲的字節(jié)而言,或許能在技術上與可靈不分上下,但在商業(yè)化路徑上,已經(jīng)開啟C端付費的可靈,似乎再次快了一步。
二
5月,面對“OpenAI 在谷歌發(fā)布I/O的前一天發(fā)布GPT-4o”的問題,谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言,“當我們正處于AI的拐點上時,我看到的是機會,所以如果把這個時間線拉長,那么某一天發(fā)生的某一件事就都無關緊要了。”
如同被OpenAI時時搶跑的谷歌,晚來的字節(jié),手握釘子,似乎打的還是后來居上的主意。
根據(jù)QuestMobile數(shù)據(jù)顯示,截止到7月份,AI APP月活用戶規(guī)模已突破6630萬。其中,豆包、文小言、Kimi、星野、通義位居top5,月活用戶規(guī)模分別為3042萬、1008萬、625萬、466萬、424萬。
盡管豆包APP的發(fā)布時間明顯晚于阿里的通義千問、更晚于百度的文心一言、Kimi,但豆包的月活用戶規(guī)模已經(jīng)大于其他四家APP用戶活躍數(shù)的總和。
因此,在AI視頻生成領域,面對國內(nèi)技術突破遲滯的現(xiàn)狀,字節(jié)也似乎有著晚來的底氣。
不管是先出圈的可靈,還是姍姍來遲的字節(jié)豆包視頻大模型,7月、9月扎堆推出視頻大模型的廠商們,似乎誰都沒能追趕上Sora。
從快手的《山海奇鏡之劈波斬浪》,到字節(jié)的《三星堆:未來啟示錄》,用AI做短劇成為了頭部廠商AI視頻生成效果的“煉金石”。
顯然,相比起需要真實人物出現(xiàn)并互動的傳統(tǒng)短劇,神話、科幻等類型的短劇,更適合現(xiàn)階段的AI大模型。
“現(xiàn)在的AI生成水平不穩(wěn)定,大場景的炸彈爆炸、煙火升空等等的效果已經(jīng)真假難辨,但也需要調(diào)試人員先生圖,再進行1-2個小時的調(diào)整,”張洋告訴字母榜,現(xiàn)在的AI大模型生成的視頻,更細節(jié)的人物表情和動作生成,仍然存在表情不自然,動作幅度小、表現(xiàn)形式機械的問題。
而AI短劇平臺 Reel.AI 朱江也在采訪中直言,“非動漫短劇預計要在今年下半年才能達到可消費水平。
李彥宏曾表示,“所謂領先12個月或落后18個月并不重要,每個公司都處在完全競爭的市場內(nèi),你不管做什么都有很多競爭對手。”
手握億級用戶規(guī)模的抖音APP,字節(jié)的從容不難解釋。甚至如今還未發(fā)布視頻大模型的騰訊,也手握著微信這一最大的社交APP,對于“手握釘子”的張一鳴和馬化騰,他們似乎有著更多的選擇。
三
“現(xiàn)在用哪家的視頻大模型,都在抽卡。”
“生成10次里大概有1次能真的達到商用標準,但調(diào)試10次的過程,或許還不如人工更有效率。”試用過市面上的幾家視頻大模型后,影視從業(yè)者單杉直言,現(xiàn)在的大模型在生成效果上,沒有達到用戶的期望。
“輸入生成一段布偶貓的視頻,結果要不就是理解成玩具貓,要不就是田園貓,當用戶2-3次試用無法得到穩(wěn)定且超出預期的結果,就很難真正地完成用戶留存”。在單杉眼里,這或許也能解釋為何發(fā)布已超半年,Sora卻遲遲沒有公測。
年初便曾有報道稱,OpenAI CEO奧特曼將投入7萬億美元與臺積電合作建設晶圓廠,意在跳過英偉達自研芯片,而9月,OpenAI被爆出臺積電正在為其“Sore視頻模型”開發(fā)一款定制A16埃米級工藝芯片,目的在于提升其視頻生成能力。
而這款A16的芯片,密度提升1.10倍,在相同工作電壓下,速度提升了8%—10%;在相同速度下,功耗卻降低了15%—20%。用“更低的價格和能耗,推進更快的AI視頻生成”,顯然是OpenAI押后Sora公測的重要原因。
想要實現(xiàn)更好的AI視頻生成效果,更大的算力成本的支出,更低的價格和能耗,這也成為了國內(nèi)視頻大模型最終能否“跑出來”的關鍵因素。
而近日,字節(jié)又被爆出計劃與臺積電就AI芯片開展合作,盡管字節(jié)隨后回應稱報道不實,并表示在芯片領域的探索更多集中于推薦和廣告的業(yè)務優(yōu)化。但在字節(jié)招聘網(wǎng)頁輸入“芯片”等關鍵詞,包含AI芯片架構、芯片SIL測試工程師在內(nèi),已經(jīng)有200多個相關崗位。
但對于張一鳴乃至國內(nèi)的大模型頭部廠商而言,擺在他們面前的挑戰(zhàn)或許更為棘手。
9月19日,在2024云棲大會上,月之暗面創(chuàng)始人楊植麟表示,GPT-o1的推出的主要意義在于提升了 AI上限。“提升10%的生產(chǎn)力,還是說10倍GDP,這里面最重要的問題,就是能不能通過強化學習去進一步scaling。”
在GPT-o1時代,當如今的豆包、通義千問、文心、Kimi的即時聊天,從思考10秒、20秒生成答案,到能夠調(diào)用各種工具,去執(zhí)行分鐘級別甚至天級別的任務,國內(nèi)用戶已熟知的AI即時聊天產(chǎn)品形態(tài)將迎來巨大的改變,“AI更像人,或者一位助理”,這似乎成為了月之暗面?zhèn)兿乱淮巫汾sOpenAI的新賽程。
當新的競爭時刻再次到來,國內(nèi)大模型廠商的基座大模型彼時未見“新水花”,但對于張一鳴們而言,則又一次面臨抉擇。
是將大把的“人、錢、算力”繼續(xù)投向文生視頻這樣的功能場景做迭代,還是學習OpenAI,引進強化迭代路線?對于不缺錢的字節(jié)來說,當然可以“兩個都要”。
而當“強化學習”帶來的想象空間足夠大、足夠誘人,新的發(fā)令槍打響,沒能起早的字節(jié),這一次能沖在前頭嗎?
(文中張洋、單杉為化名)
編者按:本文轉載自微信公眾號:字母榜(ID:wujicaijing),作者:馬舒葉
前瞻經(jīng)濟學人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關注。