當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專欄

谷歌又沒能“遙遙領(lǐng)先”

分享到：

字母榜 ? 2023-12-11 09:34:01 　來源：字母榜　E5343G0

作者|畢安娣來源|字母榜(ID：wujicaijing)

千呼萬喚始出來，谷歌終于釋放了大模型的新大招——Gemini。

當(dāng)?shù)貢r間12月6日，谷歌正式發(fā)布了Gemini大模型。在一份聲明中，谷歌CEO桑達(dá)爾·皮查伊（Sundar Pichai）稱，這是谷歌迄今為止“功能最強(qiáng)大、最通用”的模型。

對于Gemini，谷歌就差說出“遙遙領(lǐng)先”四個大字。皮查伊描述其意義是人工智能發(fā)展的一個重要里程碑，也是谷歌新時代的開始：“這個新時代的模型代表了我們作為公司所進(jìn)行的最大的科學(xué)和工程努力之一。我對即將到來的發(fā)展和Gemini為全球人民帶來的機(jī)遇感到無比激動。”

演示視頻中Gemini的表現(xiàn)的確稱得上“驚艷”。在一段視頻中，谷歌的人員用視頻給Gemini 畫畫、展示物品，并和它對話。Gemini用語音和文字進(jìn)行回答，不僅可以識別出工作人員手繪的簡筆畫是什么，還能“看”出其手持的玩具鴨子的材質(zhì)是“橡膠”，并且還和其玩起了互動小游戲。甚至在工作人員詢問鴨子一詞的普通話發(fā)音時，Gemini也精準(zhǔn)讀出，還順帶科普了普通話的四個音調(diào)。

這則演示之所以驚艷，是因為它融合展示了Gemini不俗的多模態(tài)能力。在圖像、視頻、音頻等的輸入和輸出中，Gemini不需要特別做切換，更貼近人與人交互的體驗。皮查伊在一篇博文中提到：“Gemini一開始就是為多模態(tài)打造的，這意味著它可以生成并理解、操作和組合成不同類型的信息，包括文本、代碼、音頻、圖像和視頻。”

谷歌也拿出數(shù)據(jù)展示Gemini的能力，比如在MMLU多任務(wù)語言理解數(shù)據(jù)集測試中，Gemini Ultra不僅超越了GPT-4，也比人類專家強(qiáng)。

眼尖的朋友不會忽略后綴“Ultra”。這次Gemini發(fā)布提供了三個版本，分別是輕便的Gemini Nano，可以在安卓設(shè)備上原生離線運(yùn)行；Gemini Pro，已經(jīng)接入Bard；Gemini Ultra，本次發(fā)布的最強(qiáng)版本。

實(shí)際上，這次發(fā)布Gemini最亮眼的表現(xiàn)由Gemini Ultra貢獻(xiàn)，也是這個版本對標(biāo)了GPT-4，但這個版本計劃2024年才會正式推出。而Gemini Pro已經(jīng)接入Bard，但目前只可在英文交互中被調(diào)動，該模型對標(biāo)GPT-3.5，后者是OpenAI在2022年初就釋放的模型。至于Gemini Nano，“谷歌親兒子”Pixel手機(jī)的最新版Pixel 8 Pro的用戶將很快體驗到。

總而言之就是，Gemini挺好的，就是“但是”有點(diǎn)多，承諾也多于當(dāng)下的應(yīng)用。更要命的是，在Gemini發(fā)布不久，就被外界扒出展示視頻疑似拼接剪輯的產(chǎn)物、Gemini Ultra和GPT-4的測試疑似被谷歌“雙標(biāo)”等問題。

Gemini也許真的強(qiáng)，但是否達(dá)到了谷歌需要的“遙遙領(lǐng)先”？

一

先來看看Gemini在發(fā)布之后遭遇了什么質(zhì)疑。

首先是那個頗為驚艷的展示視頻，視頻中Gemini流暢地與工作人員對話，用多模態(tài)的方式進(jìn)行著交互。

但很快，展示視頻的聲明就被關(guān)注到了。聲明是這樣說的：“為了演示的目的，（視頻中）延遲已經(jīng)減少，Gemini的輸出已經(jīng)進(jìn)行精簡。”而這個聲明并沒有放在顯眼的位置，而是在谷歌發(fā)布的YouTube視頻的描述文本中，不仔細(xì)看很容易忽略。

難道谷歌的展示視頻并不是實(shí)時錄制，而是經(jīng)過編輯的？可能更糟。彭博社（Bloomberg）的專欄作家奧爾森（Parmy Olson）就此事問詢谷歌，得到了一位發(fā)言人的回應(yīng)：這段視頻是通過“使用視頻中的靜態(tài)圖像，并通過文字提示”制作的。

也就是說，演示視頻雖然給人一種人類和Gemini“視頻通話”暢聊的感覺，但這只是感覺，實(shí)際上視頻中工作人員所說的話，是在念給Gemini的文字提示，而展示的也不是視頻，而是靜態(tài)圖像。

另有谷歌員工匿名向彭博社吐槽，對演示視頻并不感到驚訝，因為他們已經(jīng)習(xí)慣了某種程度的營銷炒作：“我認(rèn)為，大多數(shù)使用過LLM（大語言模型）技術(shù)的員工都知道，要對這一切持保留態(tài)度。”

面對外界的質(zhì)疑，谷歌選擇放低姿態(tài)，不僅放出了演示視頻背后詳細(xì)的交互過程，谷歌DeepMind的產(chǎn)品副總裁伊萊·柯林斯（Eli Collins）還明確表示，畫鴨子的演示展示的是一種研究層面的努力，至少目前不在谷歌的產(chǎn)品中。

其次是Gemini Ultra在測試中的表現(xiàn)。依據(jù)谷歌的展示，Gemini Ultra在大規(guī)模多任務(wù)語言理解測試MMLU中，得分高達(dá)90%，是首個在該測試中超越人類專家的模型。MMLU綜合運(yùn)用了數(shù)學(xué)、歷史、法律、物理、醫(yī)學(xué)和倫理等57個科目，是測試AI世界知識和問題解決能力的重要工具。

其中，谷歌展示的一張圖令人印象深刻，圖中Gemini的得分“遙遙領(lǐng)先”于GPT-4和人類專家，圖中GPT-4的得分在最底部，人類專家的得分大約在中間的位置，而Gemini Ultra的得分在頂部。

但人們很快就發(fā)現(xiàn)不對，GPT-4在MMLU中的得分為86.4%，人類專家是89.8%，而Gemini Ultra的得分為90%，何至于在折線圖中展示出均分畫面的效果？

這不是縱軸尺度不均的把戲嗎？這個把戲騙不了打工人，畢竟大家在工作匯報的時候都熟練運(yùn)用了。

當(dāng)紅的AI初創(chuàng)公司HuggingFace的CEO菲利普·施密德（Philipp Schmid）在社交平臺上吐槽“永遠(yuǎn)別相信營銷”，并貼出了他幫谷歌修正后的折線圖，Gemini Ultra的領(lǐng)先優(yōu)勢立刻變得不那么明顯了。

此外，施密德還發(fā)現(xiàn)了一個關(guān)鍵點(diǎn)，雖然同樣是對MMLU的測試，但GPT-4和Gemini的“待遇”不大相同。Gemini Ultra的得分是基于CoT思維鏈提示技巧，嘗試32次后取的最佳得分，但GPT-4是在無提示詞技巧下，嘗試了5次拿到的得分。

施密德也提到，其實(shí)同樣是用CoT@32（思維鏈提示技巧下嘗試32次），GPT-4的得分為87.29%，的確不如Gemini Ultral；但要是同樣在無提示詞技巧下嘗試5次，Gemini Ultra的得分其實(shí)只有83.7%，低于GPT-4的86.4%。

相當(dāng)于Gemini Ultra和GPT-4分別參加了兩場考試，都拿到了兩個分?jǐn)?shù)。明明是各自贏了一場考試，谷歌宣傳自己贏的那場考試就算了，還偏偏用自己在一場考試中的高分，去對陣GPT-4在另一場考試中的低分，怎么看都有點(diǎn)“不講武德”了。

二

自從ChatGPT出現(xiàn)，谷歌踏入尷尬之境。

一方面，谷歌在AI領(lǐng)域的野心與成就有目共睹。早在2011年，谷歌大腦Google Brain就已經(jīng)成立，目標(biāo)是研究深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。次年，谷歌大腦由1.6萬臺電腦集群組成的人工神經(jīng)網(wǎng)絡(luò)，在學(xué)習(xí)了10萬個YouTube視頻后，沒有學(xué)習(xí)“貓”為何物而自行精準(zhǔn)識別出“貓”，震驚四座。

2014年，谷歌又以6億美元價格收購DeepMind，當(dāng)時后者還是僅有50名員工的小公司。谷歌對AI如此舍得下血本，也直接促成了馬斯克等人應(yīng)激式地成立OpenAI，以對抗谷歌未來在AI領(lǐng)域可能形成的壟斷局面。

僅僅兩年后，已經(jīng)被谷歌收入麾下的DeepMind就推出了AlphaGo，擊敗圍棋頂尖選手李世石，一炮而紅。谷歌就此成為AI領(lǐng)域不可忽視的、第一梯隊的力量。

其后數(shù)年，做研究、發(fā)論文、推產(chǎn)品，谷歌沒有停下在AI領(lǐng)域的腳步。OpenAI的GPT模型之“T”，正是Transformer模型之意。Transformer模型是一種用于自然語言處理中的神經(jīng)網(wǎng)絡(luò)模型，是由谷歌的研究人員在2017年提出的，那一年皮查伊喊出“從移動優(yōu)先轉(zhuǎn)向AI優(yōu)先”的口號。當(dāng)年寫就Transformer論文的研究人員，也被冠以“Transformer八子”的稱號，可見其分量之重。

但另一方面，ChatGPT推出之后，谷歌就陷入了被動。

如果說幾年前做“誰會造出一個轟動世界的大模型驅(qū)動的聊天機(jī)器人”，那谷歌八成是猜測的大熱門。但這并不是故事的走向，OpenAI推出了ChatGPT，而谷歌至今沒有能與之抗衡的產(chǎn)品。

今年2月，在外界的矚目下，谷歌推出了聊天機(jī)器人Bard。作為ChatGPT的直接競品，Bard被寄予厚望，卻不如預(yù)期。先是演示中出現(xiàn)事實(shí)錯誤，讓谷歌母公司一夜之間市值蒸發(fā)千億美元。而后也沒能以性能表現(xiàn)吸引足量用戶，據(jù)Similarweb的數(shù)據(jù)，Bard全球月訪問量只有2.2億次，僅為ChatGPT的八分之一。

谷歌在AI領(lǐng)域明明素有“遙遙領(lǐng)先”之態(tài)，為什么這次不能“遙遙領(lǐng)先”了，問題到底出在哪兒？

“Transformer八子”也許能掀開谷歌難題的一角。這八子目前已經(jīng)全部從谷歌出走，其中1位加入OpenAI，其余7人創(chuàng)業(yè)。彭博社引用谷歌科學(xué)家和工程師稱，谷歌規(guī)模龐大，任何創(chuàng)意都要經(jīng)過多層確認(rèn)。就算創(chuàng)意通過，從創(chuàng)意到產(chǎn)品的門檻也很高。在谷歌，高級研究人才想將想法變?yōu)楝F(xiàn)實(shí)，難度頗大。

換句話說，谷歌多少有點(diǎn)“大公司病”，這也可以解釋為何谷歌在應(yīng)對OpenAI和微軟的挑戰(zhàn)時顯得有些“遲緩”。

ChatGPT的推出，使得AI的戰(zhàn)場更加瞬息萬變，看看OpenAI和微軟過去一年對模型和產(chǎn)品的迭代速度就知道了——今年2月微軟推出新必應(yīng)，3月OpenAI就正式推出了GPT-4，9月微軟推出微軟“智能副駕”Microsoft Copilot，10月就開始向Windows 11用戶推送更新，11月OpenAI又推出了GPT-4 Turbo。況且OpenAI每次的發(fā)布會還會有真槍實(shí)彈的演示，動輒就是“即日起可用”。在這樣的競爭環(huán)境下，谷歌的“謹(jǐn)慎”就變成了一種詛咒。

三

谷歌有足夠的理由著急。

在AI驅(qū)動的云計算競賽中，谷歌一直落后于微軟。今年兩大巨頭多次同日發(fā)布財報，讓對比更加明顯。截至9月底的2023年第三季度財報顯示，谷歌云營收低于華爾街預(yù)期，且為11個季度以來增長最慢的一季。而微軟同樣截至9月底的2024財年第一財季業(yè)績報告則顯示，微軟智能云部門收入同比增長19%，其中Azure更是同比增長29%。

在Bard效果不佳的情況下，Gemini是谷歌尋求突破的一枚關(guān)鍵棋子，這也是Gemini還沒推出就備受矚目的原因。

今年4月，谷歌將谷歌大腦Google Brain和DeepMind合并，成為新的部門谷歌DeepMind。此前谷歌原生孵化的谷歌大腦與收購而來且一直享有高度自主權(quán)的DeepMind之間，一直有資源搶奪和內(nèi)部競爭的問題，這與“Transformer八子”出走暴露出的谷歌的問題一致。

而合并二者，顯示出了谷歌從組織層面上入手，掃清AI競賽上的障礙之決心。合并之后，DeepMind聯(lián)合創(chuàng)始人德米斯·哈薩比斯（Demis Hassabis）成為谷歌DeepMind的CEO。

不出兩個月，哈薩比斯就在采訪中透露了Gemini項目，并放出豪言，稱Gemini的能力將強(qiáng)過OpenAI的GPT-4。

在今年年中的谷歌I/O開發(fā)者大會上，谷歌共提及143次AI，皮查伊首次承認(rèn)Gemini的存在。從那時起，全世界都在等著谷歌“憋大招”。

如此看來，就能理解谷歌為什么在那么多“但是”的情況下，就發(fā)布Gemini，又為什么要如此用力地營造“遙遙領(lǐng)先”的形象。

好消息是，盡管外界質(zhì)疑頗多，但市場對谷歌Gemini的發(fā)布給出了正反饋。當(dāng)?shù)貢r間周四，谷歌母公司Alphabet的股價大幅上漲了5.3%，市值上漲800億美元。巧合的是，今年9月傳出的OpenAI最新估值正在800億美元到900億美元之間。谷歌一夜?jié)q出了一個OpenAI。

壞消息是，承諾大過落地的Gemini，需要實(shí)實(shí)在在地兌現(xiàn)承諾，2024年Gemini Ultra的正式推出將是一個關(guān)鍵節(jié)點(diǎn)。

而在那之前，只能默默祈禱OpenAI的GPT-5來得慢一些。就在上個月，OpenAI的CEO山姆·阿爾特曼（Sam Atlman）透露，GPT-5正在開發(fā)中。

參考資料：

1、新浪科技：《兩個小時：谷歌說了143次AI，股價連漲兩天》

2、財聯(lián)社：《OpenAI承認(rèn)正開發(fā)GPT-5 終極目標(biāo)是相當(dāng)于人腦的超級AI》

3、極客公園：《谷歌 25 周年｜3.0——從 AI 弄潮兒到追趕者》

4、北京商報：《同日發(fā)財報：微軟贏了谷歌》

編者按：本文轉(zhuǎn)載自微信公眾號：字母榜(ID：wujicaijing)，作者：畢安娣編者按：本文轉(zhuǎn)載自微信公眾號：字母榜(ID：wujicaijing)，作者：畢安娣

本文來源字母榜，內(nèi)容僅代表作者本人觀點(diǎn)，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p28 q0 我要投稿

標(biāo)簽：谷歌人工智能

品牌、內(nèi)容合作請點(diǎn)這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。