中國(guó)創(chuàng)業(yè)者,不敢追 Sora
(圖片來(lái)源:攝圖網(wǎng))
作者|趙錦杰 馬舒葉 來(lái)源|字母榜(ID:wujicaijing)
Sora現(xiàn)身近一個(gè)月,卻未能在國(guó)內(nèi)掀起如同ChatGPT時(shí)期的緊追不舍之態(tài)。
科技大廠仍停留在內(nèi)部探索、研發(fā)Demo的階段:字節(jié)推出AI生成視頻產(chǎn)品Boximator,騰訊研發(fā)了視頻生成模型VideoCrafter,百度發(fā)表了統(tǒng)一模式視頻生成系統(tǒng)UNiVG。至于究竟何時(shí)會(huì)推出“中國(guó)版Sora”,大廠用靜悄悄回應(yīng)著外部期待。
恒業(yè)資本創(chuàng)始合伙人江一告訴字母榜(ID:wujicaijing),投入產(chǎn)出比或?qū)⑹抢_國(guó)內(nèi)大模型玩家選擇跟進(jìn)的一大因素。在追趕Sora之前,目前在對(duì)話大模型領(lǐng)域尚處在GPT-3.5的國(guó)內(nèi)頭部玩家,對(duì)于是否要追趕上GPT-4的水平,“實(shí)際上他們也都有擔(dān)憂(yōu):一方面想要證明自身價(jià)值,至少要做到Meta開(kāi)源模型Llama 2的水平;另一方面,Meta新一代開(kāi)源模型Llama 3即將發(fā)布,屆時(shí)萬(wàn)一投入重金后的自研模型,水平不及Llama 3乃至遭遇OpenAI自身的開(kāi)源模型競(jìng)爭(zhēng),很可能導(dǎo)致前期投資‘竹籃打水一場(chǎng)空’。”
高企的成本,不僅困擾著大模型訓(xùn)練廠商推出Sora的步伐,而且同樣阻礙著創(chuàng)業(yè)者率先體驗(yàn)Sora的熱情。
在ChatGPT引爆新一輪AI應(yīng)用熱潮后,定位桌面機(jī)器人的小麗智造創(chuàng)始人兼CEO胡捷,一度找上國(guó)內(nèi)某大廠商談合作,希望將其大模型能力嵌入自家硬件。不過(guò),在前者報(bào)出的數(shù)百萬(wàn)元合作費(fèi)用面前,胡捷最終選擇了國(guó)內(nèi)一家二線大模型廠商,費(fèi)用降低了近乎十分之一。
需要更多算力支持的視頻大模型Sora,其應(yīng)用成本更是胡捷這類(lèi)初創(chuàng)公司難以承擔(dān)的代價(jià),等待越來(lái)越多國(guó)產(chǎn)平替方案的出現(xiàn),可能是更具性?xún)r(jià)比的選擇。
除了用不起之外,Sora在視頻生成方面存在的精確度等Bug,也讓一些支付得起C端使用成本的創(chuàng)業(yè)者,不敢輕易替換掉人工。
坐擁百萬(wàn)粉絲的上海市錦天城律師事務(wù)所律師候朝輝,以法律博主的身份運(yùn)營(yíng)著兩檔視頻對(duì)話欄目《知V見(jiàn)》和《披荊斬棘的律師》,其視頻時(shí)長(zhǎng)在10-30分鐘之間。為了保證長(zhǎng)視頻的信息精確度和畫(huà)面精致感,候朝輝以15000元月薪,雇傭了一個(gè)專(zhuān)業(yè)剪輯師。
Sora出現(xiàn)后,候朝輝并沒(méi)有下意識(shí)覺(jué)得可以每月節(jié)省15000元成本了,“我不會(huì)自己去學(xué),肯定讓剪輯師去學(xué),他如果學(xué)會(huì)這套AI工具,就可以將效率變現(xiàn),接更多活,賺更多錢(qián)。”
一
ChatGPT爆火之后,胡捷開(kāi)始有了將大模型對(duì)話能力融入自家產(chǎn)品中的想法,嘗試打造一個(gè)桌面機(jī)器人結(jié)合類(lèi)ChatGPT的新交互方式。
“(用戶(hù))語(yǔ)音對(duì)話的過(guò)程中,ChatGPT的生成過(guò)程是以一個(gè)個(gè)點(diǎn)的形狀呈現(xiàn),我們借助屏幕為其配備了一個(gè)對(duì)應(yīng)口型的虛擬人形象,可以把ChatGPT吐回來(lái)的文字,讓虛擬人開(kāi)口講出來(lái)。”胡捷說(shuō)道。
為了實(shí)現(xiàn)上述意圖,胡捷首先找到了一家自研大模型的國(guó)內(nèi)大廠,希望直接接入對(duì)方的對(duì)話大模型產(chǎn)品,但后者報(bào)了一個(gè)300萬(wàn)元左右的合作價(jià)格,還設(shè)置了終端使用量要達(dá)到過(guò)萬(wàn)臺(tái)的門(mén)檻。
對(duì)于這家去年才剛剛成立、初始團(tuán)隊(duì)在10人左右的小麗智造而言,無(wú)論是大廠給出的報(bào)價(jià),還是設(shè)備出貨量要求,都超出了胡捷能夠承受的范圍。
退而求其次,胡捷最終選擇了國(guó)內(nèi)一家二線大模型廠商,后者按年收費(fèi),報(bào)價(jià)只有幾十萬(wàn)元,且在定制開(kāi)發(fā)上配合度更高,“盡管大模型能力沒(méi)那么強(qiáng),但是能滿(mǎn)足我們初期的要求。而且開(kāi)放性比較強(qiáng),允許我們接入第三方大模型,他們提供開(kāi)發(fā)對(duì)接服務(wù)。”
Sora引爆新一輪大模型熱議后,胡捷們也開(kāi)始等待國(guó)內(nèi)平替的到來(lái)。但平替究竟何時(shí)會(huì)來(lái),卻不像ChatGPT時(shí)期那么有確定性了。
在江一看來(lái),國(guó)內(nèi)大模型廠商想要追趕OpenAI,保持一個(gè)相對(duì)領(lǐng)先優(yōu)勢(shì),在資源投入上需要優(yōu)先考慮總成本領(lǐng)先,即能否用比競(jìng)爭(zhēng)對(duì)手低的成本,訓(xùn)練出足以媲美行業(yè)頭部水平的大模型,其次才是基于數(shù)據(jù)和場(chǎng)景打造差異化。
在推動(dòng)大模型性能不斷迭代過(guò)程中,其所需要的算力等各類(lèi)資源也呈指數(shù)級(jí)增長(zhǎng)。ChatGPT成功運(yùn)行的背后,最少需要一萬(wàn)張英偉達(dá)GPU提供算力。迭代到GPT-4后,其所需的英偉達(dá)GPU數(shù)量被爆超過(guò)了2萬(wàn)張,價(jià)值達(dá)數(shù)億美元。
面對(duì)越拉越大的投入產(chǎn)出比,在江一看來(lái),國(guó)內(nèi)大模型廠商擔(dān)憂(yōu)的,不是能不能做出Sora,而是投入重金研發(fā)后,做著做著突然被硅谷的開(kāi)源模型突襲,“你的價(jià)值就幾乎歸零了。”
二
對(duì)于那些直接付費(fèi)使用C端大模型產(chǎn)品的創(chuàng)業(yè)者而言,盡管免去了用不起的煩惱,但在大模型生成內(nèi)容的“幻覺(jué)”問(wèn)題尚未解決之前,想讓他們跳過(guò)人工成本,自己用上Sora,還有點(diǎn)難。
專(zhuān)注長(zhǎng)視頻創(chuàng)作的候朝輝,為了確保畫(huà)面的精確和精致感,平時(shí)需要用到專(zhuān)業(yè)相機(jī)拍攝,大容量的視頻素材使得剪映一類(lèi)的傻瓜式剪輯軟件,根本無(wú)法滿(mǎn)足需求,日常剪輯只能用達(dá)芬奇等專(zhuān)業(yè)軟件,這也迫使他以每月15000元的價(jià)格,在上海雇用了一個(gè)專(zhuān)職剪輯師,保證一個(gè)月能剪出兩條視頻。
除此之外,候朝輝還會(huì)不定時(shí)發(fā)布訪談視頻,后期剪輯則以一條3000元的價(jià)格外包了出去。
ChatGPT時(shí)期延續(xù)下來(lái)的內(nèi)容不準(zhǔn)確、部分?jǐn)?shù)據(jù)陳舊等問(wèn)題,在采取同源技術(shù)架構(gòu)的Sora身上也難以幸免。在候朝輝看來(lái),即便真等到Sora公測(cè)那一天,也是讓剪輯師去學(xué),而不是自己去學(xué)習(xí)如何使用,“(說(shuō)到底)這個(gè)工具還是要有人去操作,它很難在短期內(nèi)把一個(gè)人淘汰掉,更多可能帶來(lái)效率的提升,然后剪輯師就可以接更多活,賺更多錢(qián)。”
即便是被外界視為影響最大的游戲影視領(lǐng)域,Sora的實(shí)際應(yīng)用效果也存疑。
在游戲行業(yè),哪怕是獨(dú)立游戲,都不存在用不起AI工具的情況。但AI究竟能發(fā)揮多大效用,則是另一回事。獨(dú)立游戲制作人阿圖(化名)曾經(jīng)期待用AI繪圖,減輕長(zhǎng)期占游戲行業(yè)重頭支出的游戲畫(huà)師的工作量,但是真的讓AI畫(huà)“秦王繞柱”,結(jié)果出來(lái)的效果是“秦王在跳鋼管舞”。
Sora演示效果看起來(lái)很厲害,但阿圖擔(dān)憂(yōu)的另一個(gè)點(diǎn)在于,制作者還要考慮市場(chǎng)是否買(mǎi)賬,“類(lèi)Sora的AI工具大量應(yīng)用在游戲行業(yè),不僅要考慮技術(shù)本身的完善程度,還要考慮市場(chǎng)的反應(yīng)。在消費(fèi)心理上,用戶(hù)是否認(rèn)可制作方在游戲中大規(guī)模地使用Sora,會(huì)不會(huì)覺(jué)得這是在偷工減料?對(duì)于部分用戶(hù)來(lái)說(shuō),他愿意為了畫(huà)師的畫(huà)工,特效師的構(gòu)思付費(fèi),但用AI生成的文本、畫(huà)面,并非是畫(huà)師設(shè)計(jì)的,這算不算是在糊弄消費(fèi)者?在這一點(diǎn)上,目前許多科技媒體調(diào)研時(shí),都似乎忽略了市場(chǎng)的反映,而我認(rèn)為這恰恰是很重要的。”
基于上述種種擔(dān)憂(yōu),阿圖的團(tuán)隊(duì),即使使用AI工具,更多也只是做一些邊角料的工作,比如畫(huà)一些概念,做一些配色嘗試,目前還沒(méi)達(dá)到可以替代部分崗位的應(yīng)用程度。
獨(dú)立導(dǎo)演杜蘭馨甚至比阿圖更進(jìn)一步,基于AI制作帶來(lái)的人員投入和精力問(wèn)題,在其影視公司內(nèi),他沒(méi)有嘗試引入AI制作,“如果把時(shí)間和精力耗費(fèi)在AI如何應(yīng)用上,可能還完不成公司接下的案例。”
在杜蘭馨看來(lái),如同用文生圖產(chǎn)品一樣,要想應(yīng)用類(lèi)Sora的工具,影視從業(yè)者還需要懂AI語(yǔ)言,掌握一定的技巧,才能生成想要的視頻效果。“但是目前的訓(xùn)練,工作量似乎并沒(méi)有被消減,寄望用AI減少人力成本的初衷可能只是想象中的美好,實(shí)際工作量從自己繪圖,變成了重復(fù)下達(dá)指令訓(xùn)練AI繪圖,在這個(gè)過(guò)程中,不只是人掌握了技巧,也是AI訓(xùn)練了人。”
杜蘭馨認(rèn)真算了一筆賬,以影視公司剪輯師為例,假設(shè)此前負(fù)責(zé)初級(jí)剪輯的剪輯師,月薪8000元,主要工作是收集整理素材,如果可以用Sora代替初剪,就可以節(jié)省這部分支出。但同時(shí),公司需要把文生視頻的指令輸入工作交給高級(jí)剪輯師,那么就要上調(diào)高級(jí)剪輯師的工資。最終只有類(lèi)Sora的工具應(yīng)用節(jié)約成本,足以抵消上調(diào)薪資帶來(lái)的支出,影視公司才不會(huì)虧本。
三
Sora在視頻生成方面的各類(lèi)Bug,同樣是OpenAI遲緩?fù)瞥龅闹匾蛑?。在官網(wǎng)介紹中,OpenAI提醒道,Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無(wú)法理解因果關(guān)系,還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。
根據(jù)部分拿到內(nèi)測(cè)名額的博主分享,Sora在物理方面遇到的困難,在表現(xiàn)腿部特征,或者行走方面,尤為明顯,如經(jīng)常生成雙腿交叉和相互融合的畫(huà)面。
導(dǎo)致Sora在內(nèi)容生成上出現(xiàn)各類(lèi)“幻覺(jué)”的背后技術(shù)動(dòng)因,在與其采用了與ChatGPT一樣的Transformer架構(gòu)。
這也是胡捷將 ChatGPT視為一個(gè)革命性產(chǎn)品,而將Sora的到來(lái),認(rèn)為是一種延續(xù)性創(chuàng)新的原因之一。“Sora出來(lái)之后,你可以認(rèn)為是在鐵軌上運(yùn)行的火車(chē),變成了高鐵。Claude 3的發(fā)布,同樣如此,給我的感覺(jué)就是速度由原來(lái)的300km/h,提升到了350km/h、400km/h,只是沿著既定路線的彼此較勁,而非顛覆性的突破。”
江一同樣對(duì)Sora可能給行業(yè)帶來(lái)的所謂“革命性沖擊”,持懷疑態(tài)度。在他看來(lái),Sora再更新兩三個(gè)版本,可能就會(huì)觸摸到技術(shù)迭代的天花板,然后慢慢被后來(lái)者追平差距。就像之前國(guó)內(nèi)的語(yǔ)音翻譯大戰(zhàn),一開(kāi)始領(lǐng)先的科大訊飛,最后其實(shí)跟搜狗之間翻譯結(jié)果差不太多,“從商業(yè)角度考量,大模型這場(chǎng)混戰(zhàn)中,廠商也應(yīng)該優(yōu)先追求最小可行化產(chǎn)品,先商業(yè)化,然后再在往前走的路途中盡善盡美。”
過(guò)去一年中,上述競(jìng)爭(zhēng)姿態(tài)已經(jīng)在對(duì)話大模型上上演過(guò)一次。隨著越來(lái)越多玩家推出大模型部署服務(wù),在日益激烈的商業(yè)化比拼中,大模型私有化部署的價(jià)格,“從一開(kāi)始的幾千萬(wàn)報(bào)價(jià),降到一千多萬(wàn),后來(lái)又降到幾百萬(wàn),乃至100萬(wàn),直到現(xiàn)在降到了50萬(wàn)。”江一表示。
編者按:本文轉(zhuǎn)載自微信公眾號(hào):字母榜(ID:wujicaijing),作者:趙錦杰 馬舒葉
前瞻經(jīng)濟(jì)學(xué)人
專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。