當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專欄

GPT-4.5震撼發(fā)布！智商高情商高，價格更高

分享到：

直面派 ? 2025-02-28 15:00:54 　來源：直面AI　E6316G0

作者|畢安娣來源|直面AI(ID：wujicaijing)

這才是OpenAI對抗DeepSeek壓力的一記還擊。

之前將推理模型下放給免費用戶只是小打小鬧，北京時間2月28日凌晨4點，OpenAI震撼發(fā)布GPT-4.5。

OpenAI CEO山姆·奧特曼（Sam Altman）在X上直呼坐不穩(wěn)了：“這是我第一次覺得，和AI對話就像是面對一個深思熟慮的人。有好幾次，我坐在椅子里感嘆從AI那里得到了真心實意的建議。”

一句話概括：這個模型很大、很聰明、很有“人味”。

如果過去的ChatGPT像是冷面學(xué)霸，聰明是聰明，就是愛炫技；那選擇GPT-4.5，你將喜提一個溫柔學(xué)霸，其實比冷面學(xué)霸更聰明，能為你更好地答疑解惑，與此同時還能提供情緒價值。

為了這個模型，OpenAI投入巨大，甚至由于需要的計算資源太大而跨數(shù)據(jù)中心同時預(yù)訓(xùn)練模型。奧特曼宣布GPU不夠用了，目前GPT-4.5只提供給ChatGPT Pro用戶，下周加幾萬個GPU之后再逐步下放。而且其API價格比GPT-4o高出30倍。

OpenAI就是為了證明一件事：“大力出奇跡”的敘事沒有被打破，推理模型不代表一切。

這樣的態(tài)度，在奧特曼的官宣X信息中展露無遺：

“提醒一下：這不是一個推理模型，不能輕松打破基準(zhǔn)測試。它是一種不同類型的智能，里面有一種我以前從未感覺過的魔力。”

在GPT-4.5發(fā)布之后，奧特曼還懟了Meta。在“Meta計劃推出獨立AI應(yīng)用，以與OpenAI競爭”的新聞下開麥：“好啊那我們會做一個社交應(yīng)用。”

這樣的直拳，并非以“城府”著稱的奧特曼的風(fēng)格?？磥鞧PT-4.5真的點燃了奧特曼心里的斗志。

一

比起前代模型GPT-4o，GPT-4.5的“智商”更高了，而這靠的是無監(jiān)督學(xué)習(xí)。

在介紹文檔中，OpenAI表示，有兩個提升人工智能能力的互補(bǔ)范式。

一個是拓展推理，它能教會模型在反應(yīng)之前先進(jìn)行思考并產(chǎn)生思維鏈，從而解決復(fù)雜的STEM（Science科學(xué)、Technology技術(shù)、Engineering編程、Mathmatics數(shù)學(xué)）問題或邏輯問題。

另一個是無監(jiān)督學(xué)習(xí)，它能提高世界模型的準(zhǔn)確性和直覺性。

在OpenAI的模型中，o1和o3-mini等模型代表的就是推理范式，而GPT-4.5則是無監(jiān)督學(xué)習(xí)的例子。

無監(jiān)督學(xué)習(xí)，簡單來說可以理解為讓模型自己去知識的海洋里徜徉，自己學(xué)習(xí)到更多，從而變得更聰明，而非依賴人工標(biāo)注。

在過去依賴人工標(biāo)注的做法中，模型會結(jié)合人類反饋來改善響應(yīng)與交互方式。彭博社援引知情人士稱，去年OpenAI推出的Orion模型并未達(dá)到公司期望，在嘗試回答未經(jīng)訓(xùn)練的編碼問題時就表現(xiàn)不佳。

OpenAI介紹，通過監(jiān)督學(xué)習(xí)，GPT-4.5提高了其識別、建立聯(lián)系和創(chuàng)造性洞察的能力，而無需推理。

具體來說，GPT-4.5有更廣泛的知識和對世界的更深理解，回答更準(zhǔn)確，幻覺也更少。

根據(jù)OpenAI官方文檔，GPT-4.5在SimpleQA中表現(xiàn)頗為亮眼。

SimpleQA是包含4000個事實性問題的數(shù)據(jù)集，用于測量模型在回答問題時的準(zhǔn)確率。其中包含準(zhǔn)確率（越高越好）和幻覺率（越低越好）兩個維度。

GPT-4.5的準(zhǔn)確率達(dá)到62.5%，是GPT-4o（38.2%）、o1（47%）、o3-mini（15%）中最高的；幻覺率降至37.1%，也是GPT-4o（61.8%）、o1（44%）、o3-mini（80.3%）中最低的。

此外，在標(biāo)準(zhǔn)基準(zhǔn)測試中，GPT-4.5也獲得了高分。

如在 SWE-Lancer Diamond 數(shù)據(jù)集上，GPT-4.5獲得了32.6%的通過率，獲得了186125美元（前不久Anthropic發(fā)布的擅長編程的Claude 3.5 Sonnet這個通過率為26.2%），比GPT-4o和o3-mini-high都高。

此外，GPT-4.5明顯強(qiáng)于GPT-4o和o3-mini-high的還有在MMMLU（多語言）測試中的表現(xiàn)。

而在科學(xué)領(lǐng)域GPQA、數(shù)學(xué)基準(zhǔn)AIME24、代碼生成評估基準(zhǔn)SWE-Bench Verified中，GPT-4.5的表現(xiàn)都顯著強(qiáng)于GPT-4o，弱于o3-mini-high。

二

不僅“智商”更高，GPT-4.5還被注入了“情商”，而且這兩點相輔相成。

在官方介紹中，OpenAI表示，對于GPT-4.5，他們開發(fā)了新的、可擴(kuò)展的技術(shù)，利用來自較小模型的數(shù)據(jù)來訓(xùn)練更強(qiáng)大的模型。

而這些技術(shù)提高了GPT-4.5的可控性、對細(xì)微差別的理解以及自然對話的能力。

翻譯一下就是：ChatGPT對話“更像人了”，更能洞察想法、體察情緒，并在回應(yīng)中體現(xiàn)，而非一個無情的對話機(jī)器。

OpenAI也拿出了測試的結(jié)果證明GPT-4.5的使用感受會好很多：人類測試者的盲測中，GPT-4.5的偏好度遠(yuǎn)高于GPT-4o，不管是在日常問題、專業(yè)問題還是創(chuàng)意性問題的互動中都是如此。

關(guān)于這一點，最生動的例子出現(xiàn)在演示視頻中。

OpenAI的研究人員用很情緒化的措辭向ChatGPT求助：“啊啊啊?。∥遗笥延址盼银澴恿耍。?！寫一條短信告訴他們我恨他們！??！”

老模型GPT-4o二話不說就返回了短信內(nèi)容：“知道嗎？我受夠了。你放我太多次鴿子了，我討厭你這么做——很明顯你就是這么對待我們的友情的。別再聯(lián)系了。”

但GPT-4.5“感受”到了用戶此時正在氣頭上，非常情緒化：“聽起來你很沮喪。”并且建議說興許可以試試清晰且平和地表達(dá)出感受，隨機(jī)給了兩條短信內(nèi)容：“嗨，計劃又泡湯了讓我很沮喪，我原本真的很期待今天的。能聊聊到底怎么回事嗎？”

這是一種自發(fā)的、感覺很自然的反饋，更像“人”而不是只會執(zhí)行任務(wù)的工具。演示人員也補(bǔ)充道，當(dāng)然，你如果繼續(xù)要求要表達(dá)憤怒的短信，它也不會再堅持，而是會乖乖聽話。

實際上，OpenAI專門提到了“EQ（情商）”這個詞，負(fù)責(zé)演示的研究員甚至調(diào)侃稱，過去的ChatGPT聰明是聰明，但總有種“讓我來給你開開眼我有多聰明”的炫技感。

這種“情商”也不僅僅體現(xiàn)在“會安慰人”這種淺表的層面，實際上，這種能力和“高智商”相結(jié)合，可以讓同樣在嚴(yán)肅回答某個問題時，GPT-4.5更能切中要害、給出用戶需要的答案。

比如“海水為什么是咸的”這個問題，GPT-1完全是胡言亂語、傾倒一些八竿子打不著的詞語；GPT-2說了完整的句子了，而且回答切題，但只說因為海水里有鹽，不算回答了問題；GPT-3.5 Turbo進(jìn)一步說了鹽是氯化鈉，但是這也無助于解決這個問題。

而GPT-4 Turbo就厲害了，不僅給出了答案，而且就像我們熟悉的“ChatGPT風(fēng)格”一樣，還詳細(xì)列舉了過程。但是用戶拿到這個答案，仍然需要仔細(xì)閱讀、努力理解。

但GPT-4.5的回答和GPT-4T類似的詳細(xì)，但非常好理解，而且很易于記憶，基本上掃一眼就能明白它在說什么。

OpenAI還給出了三個示例，我們讓ChatGPT翻譯成了中文：

還是那句話，智商和情商俱在，更像“人”了。

三

“大力出奇跡”的敘事并沒有被打破，OpenAI想要證明的就是這一點。

換句話說，推理模型固然好，但這不意味著投入巨大資源造模型就沒有意義。

“每一次計算能力的增長都伴隨著新能力的誕生。GPT-4.5 是無監(jiān)督學(xué)習(xí)領(lǐng)域中最前沿的模型之一。”

OpenAI介紹，GPT-4.5在回應(yīng)時并不會先進(jìn)行推理，這使得它的優(yōu)勢與推理模型有很大不同。

與OpenAI o1和OpenAI o3-mini相比，GPT-4.5 是一個更為通用、天生更聰明的模型。OpenAI相信推理將是未來模型的核心能力，且擴(kuò)展的兩種方法——預(yù)訓(xùn)練和推理——將互為補(bǔ)充。

隨著像 GPT-4.5 這樣的模型通過預(yù)訓(xùn)練變得更加聰明和知識更豐富，它們將成為推理和工具型代理的更強(qiáng)基礎(chǔ)。

雖然具體的資源投入具體有多大尚未透露，但在官宣視頻中，OpenAI的研究人員透露，為了最大化地利用資源，他們在預(yù)訓(xùn)練模型時同時啟用了多個數(shù)據(jù)中心，因為他們需要的計算資源超過了單一高帶寬網(wǎng)絡(luò)架構(gòu)所能提供的上限。

此外，OpenAI也不是沒有省著用，表示使用了低精度訓(xùn)練（Low Precision Training）充分利用GPU性能。團(tuán)隊還開發(fā)出了新的訓(xùn)練機(jī)制，能夠在后訓(xùn)練過程中使用更小的計算資源來微調(diào)如此大型的模型，最終才開發(fā)出了可以部署的模型。

在GPT-4.5發(fā)布之前，OpenAI首席研究官馬克·陳（Mark Chen）在采訪中談及與推理模型相比，GPT-4.5可以做什么：

“我認(rèn)為這是根本不同的權(quán)衡。你有一個模型，它會立即給你回復(fù)，不需要做太多思考且會給出更好的答案，而另一個模型會思考一段時間然后給出答案。我們發(fā)現(xiàn)，在創(chuàng)意寫作等領(lǐng)域，這種模型（前者）比推理模型更出色。”

更重要的是，他談到了“縮放定律（Scaling Law）是否失效”的問題。OpenAI是否發(fā)現(xiàn)了所謂的“擴(kuò)展瓶頸”？是否已經(jīng)看到擴(kuò)展帶來的收益遞減？

Chen稱，模型不能盲目地從頭開始學(xué)習(xí)推理，推理和擴(kuò)展的范式是互補(bǔ)的，相互之間存在反饋循環(huán)。

對于外界敏感的成本問題，Chen也代表OpenAI表達(dá)降本的態(tài)度，稱贊DeepSeek做得非常好，OpenAI也關(guān)心以低廉的成本提供模型：“自從GPT-4首次推出以來，成本已經(jīng)下降了幾個數(shù)量級。”

不過，就目前來看，OpenAI用“大力”砸出的“奇跡”非常昂貴。

OpenAI話也說得敞亮，稱GPT-4.5是一個非常龐大且計算稠密的模型，因此它比GPT-4o更昂貴，不是替代關(guān)系。

有多貴呢？GPT-4.5的API價格達(dá)到75美元/百萬tokens輸入、150美元/tokens輸出，是GPT-4o的30倍。后者的API價格為2.5美元/百萬tokens輸入、10美元/百萬tokens輸出。

有意思的是，OpenAI的GPU又不夠用了。奧特曼在X上官宣GPT-4.5時，專門說了壞消息：“我們真的很想同時向Plus和Pro用戶推出它，但我們的用戶增長非常迅速，現(xiàn)在GPU已經(jīng)不夠用了。”

繼而，奧特曼承諾，下周“會增加數(shù)萬個GPU，然后將其（GPT-4.5）推廣到Plus用戶層”。

GPT-4.5很大、很強(qiáng)、很有“人味”，OpenAI無疑再一次證明了自己的實力，但其為此投入的成本也有點太高了。至于值不值——OpenAI能不能扛得住，以及客戶是否買賬——就得讓時間來驗證了。

編者按：本文轉(zhuǎn)載自微信公眾號：直面AI(ID：wujicaijing)，作者：畢安娣

本文來源直面AI，內(nèi)容僅代表作者本人觀點，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p17 q0 我要投稿

標(biāo)簽： GPT-4.5 智商高

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。