要聞

海外評(píng)測(cè)DeepSeek-V4：智能體任務(wù)排名開源第一，幻覺率上升，Token消耗大

2026-04-25 13:16:54

4月24日，DeepSeek-V4預(yù)覽版正式上線并開源。海外測(cè)評(píng)顯示，V4-Pro在智能體任務(wù)評(píng)測(cè)中登頂開源模型第一，但幻覺率上升，Token消耗大。分析師點(diǎn)評(píng)稱，DeepSeek-V4大模型適配搭載華為芯片，標(biāo)志著中國頂級(jí)大模型如今已能夠?qū)崿F(xiàn)國產(chǎn)化硬件落地運(yùn)行。DeepSeek此次技術(shù)路線轉(zhuǎn)向，也印證了英偉達(dá)首席執(zhí)行官黃仁勛此前的擔(dān)憂：英偉達(dá)正面臨失去中國開發(fā)者生態(tài)的風(fēng)險(xiǎn)。

每經(jīng)編輯｜蘭素英

4月24日， DeepSeek-V4預(yù)覽版正式發(fā)布并同步開源，號(hào)稱在Agent能力、世界知識(shí)與推理性能三大維度達(dá)到國內(nèi)及開源領(lǐng)域領(lǐng)先水平。

DeepSeek-V4分為Pro與Flash兩個(gè)版本，均支持百萬（1M）token超長上下文。

兩個(gè)版本均大幅降低了對(duì)計(jì)算和顯存的需求，將每個(gè)標(biāo)記的推理FLOP降低 73%，并將KV緩存內(nèi)存占用降低90%。

4月24日，全球最大AI模型應(yīng)用程序編程接口聚合平臺(tái)OpenRouter的數(shù)據(jù)顯示，V4-Flash的調(diào)用量達(dá)270億Token，V4-Pro為47.9億Token，但沒有登上排行榜。

DeepSeek-V4發(fā)布后，主流評(píng)測(cè)平臺(tái)進(jìn)行了能力測(cè)試和排名。

Artificial Analysis對(duì)DeepSeek-V4進(jìn)行了推理能力專項(xiàng)測(cè)評(píng)。結(jié)果顯示，V4-Pro在人工分析智能指數(shù)中斬獲52分，相較V3.2版本的42分實(shí)現(xiàn)10分躍升，成為僅次于Kimi K2.6的全球第二大開源推理模型。

V4-Flash得分47分，性能弱于V4-Pro，但顯著超越DeepSeek-V3.2，綜合智能水平對(duì)標(biāo)Claude Sonnet 4.6（全力版），介于頂尖閉源模型與主流中端模型之間。

在智能體任務(wù)表現(xiàn)方面，V4-Pro在真實(shí)場(chǎng)景智能體工作任務(wù)中，性能位居所有開源權(quán)重模型首位，得分1554，超越Kimi K2.6（1484）、GLM-5.1（1535）、GLM-5（1402）以及MiniMax-M2.7（1514）。

DeepSeek-V4知識(shí)儲(chǔ)備升級(jí)，但幻覺發(fā)生率上升。V4-Pro在全知綜合評(píng)測(cè)指標(biāo)（AA-Omniscience）中得分為-10，較V3.2推理版提升11分，核心得益于知識(shí)回答準(zhǔn)確率的顯著優(yōu)化。V4-Flash得分為-23，整體水平與V3.2基本持平。

相較于V3.2的幻覺率（82%），V4兩款模型的幻覺問題突出：V4-Pro幻覺率為94%、V4-Flash幻覺率為96%，意味著模型在未知問題場(chǎng)景下，幾乎都會(huì)強(qiáng)行生成答案。

DeepSeek-V4的運(yùn)行成本低于頂級(jí)閉源模型，高于主流開源模型，較前代大幅上漲。完成全套人工分析智能指數(shù)測(cè)評(píng)，V4-Pro的運(yùn)行成本為1071美元，僅不到Claude Opus 4.7（4811 美元）的四分之一；但對(duì)比同類開源模型仍偏高，高于Kimi K2.6（948 美元）、GLM-5.1（544美元）、DeepSeek-V3.2（71美元）、gpt-oss-120B（67 美元）。DeepSeek-V4-Flash運(yùn)行成本僅約113美元，成本優(yōu)勢(shì)顯著。

完成標(biāo)準(zhǔn)測(cè)評(píng)流程，V4-Pro輸出Token消耗量達(dá)1.9億，屬于本次測(cè)評(píng)中Token消耗最高的模型之一；V4-Flash消耗進(jìn)一步攀升至2.4億Token。即便定價(jià)偏低，高額的Token消耗仍是V4-Pro綜合使用成本高于其他開源模型的核心原因。

在其他評(píng)測(cè)中，大模型競(jìng)技場(chǎng)Arena.ai將DeepSeek-V4-Pro定性為“相較DeepSeek-V3.2的重大飛躍”，在其代碼競(jìng)技場(chǎng)中位列開源模型第3位、綜合第14位。DeepSeek-V4-Pro在智能體網(wǎng)頁開發(fā)任務(wù)中與GPT-5.4-high和Gemini-3.1-Pro處于同一水平。在其文本競(jìng)技場(chǎng)中，DeepSeek-V4-Pro位列開源模型排名第2、綜合第14，與Kimi-2.6持平。DeepSeek-V4-Flash位列開源模型排名第10、綜合第14。

另一家測(cè)評(píng)方Vals AI稱，DeepSeek-V4在其Vibe Code Benchmark（氛圍代碼基準(zhǔn)）中以“壓倒性優(yōu)勢(shì)”拿下開源權(quán)重模型榜首，較上代V3.2實(shí)現(xiàn)約10倍性能躍升，甚至擊敗了像Gemini 3.1 Pro這樣的頂尖閉源模型。DeepSeek-V4也是唯一一個(gè)在Vibe Code Benchmar上突破40%的開源權(quán)重模型。

相較于DeepSeek-V4的能力，海外更加關(guān)注DeepSeek與華為的合作。

在DeepSeek-V4公布API價(jià)格信息的最下方，官方特別標(biāo)注指出：“受限于高端算力，目前Pro的服務(wù)吞吐量十分有限，預(yù)計(jì)下半年昇騰（Ascend）950超節(jié)點(diǎn)批量上市后，Pro的價(jià)格會(huì)大幅下調(diào)?！?/p>

DeepSeek在技術(shù)報(bào)告中稱，V4已在NVIDIA GPU和華為昇騰NPUs平臺(tái)上驗(yàn)證了精細(xì)粒度的EP（專家并行）方案，相較于強(qiáng)大的非融合基線，其在通用推理任務(wù)上可實(shí)現(xiàn)1.50~1.73倍的加速效果，而在對(duì)時(shí)延敏感的場(chǎng)景（如RL推演和高速代理服務(wù)）中則可達(dá)到1.96倍的加速效果。

而在V4發(fā)布后，華為昇騰也同步宣布“超節(jié)點(diǎn)全系列產(chǎn)品支持DeepSeek-V4系列模型”。據(jù)悉，昇騰950通過融合kernel和多流并行技術(shù)降低Attention計(jì)算和訪存開銷，大幅提升推理性能，結(jié)合多種量化算法，實(shí)現(xiàn)了高吞吐、低時(shí)延的DeepSeek-V4模型推理部署。

對(duì)于DeepSeek此次與華為合作，市場(chǎng)研究機(jī)構(gòu)Omdia半導(dǎo)體研究主管何輝表示：“這對(duì)中國人工智能行業(yè)而言意義重大。”

他進(jìn)一步說道：“華為昇騰芯片是中國自研水平最高、可替代英偉達(dá)的產(chǎn)品。DeepSeek-V4大模型適配搭載華為芯片，標(biāo)志著中國頂級(jí)大模型如今已能夠?qū)崿F(xiàn)國產(chǎn)化硬件落地運(yùn)行。”

高盛分析師Christopher Moniz點(diǎn)評(píng)稱，DeepSeek-V4預(yù)覽版發(fā)布后，GPU及國產(chǎn)芯片板塊應(yīng)聲走強(qiáng)。核心關(guān)注點(diǎn)之一是支撐V4模型的芯片底層架構(gòu)：包括模型訓(xùn)練所使用的芯片，以及推理階段搭載的硬件設(shè)備。華為搭載昇騰AI處理器的新一代人工智能計(jì)算集群，可適配運(yùn)行DeepSeek-V4模型。這也意味著，中國自研AI硬件生態(tài)，正在為DeepSeek持續(xù)迭代前沿大模型提供算力支撐。

DeepSeek此次技術(shù)路線轉(zhuǎn)向，也印證了英偉達(dá)首席執(zhí)行官黃仁勛此前的擔(dān)憂：英偉達(dá)正面臨失去中國開發(fā)者生態(tài)的風(fēng)險(xiǎn)。

本月上旬，英偉達(dá)創(chuàng)始人黃仁勛在接受Dwarkesh Patel專訪時(shí)曾言：“如果DeepSeek先在華為平臺(tái)上發(fā)布，那對(duì)美國來說將是災(zāi)難性的?！痹邳S仁勛看來，雖然DeepSeek是一款開源模型，同樣可被用于英偉達(dá)產(chǎn)品上，但如果DeepSeek專門針對(duì)華為算力進(jìn)行優(yōu)化，在高端算力采購受限等局限下，英偉達(dá)將處于劣勢(shì)。

與DeepSeek-R1不同，DeepSeek-V4并沒有引發(fā)美國科技股大跌。晨星高級(jí)股票分析師Ivan Su表示，DeepSeek-V4很難復(fù)刻推理模型R1當(dāng)初的市場(chǎng)影響力，因?yàn)榻灰资袌?chǎng)早已充分消化了預(yù)期：中國人工智能技術(shù)具備競(jìng)爭(zhēng)力，且使用成本更低。

Ivan Su還稱，DeepSeek此次全新的產(chǎn)品定位，將國內(nèi)其他開源大模型直接劃入競(jìng)品行列。

布魯金斯學(xué)會(huì)研究員Kyle Chan表示，DeepSeek-V4令人印象深刻，因?yàn)樗且粋€(gè)接近最先進(jìn)水平的模型，具有高效的100萬Token上下文長度，并且可以在華為的新芯片上運(yùn)行。DeepSeek-V4沒有復(fù)制“DeepSeek-R1時(shí)刻”，因?yàn)橥饨鐚?duì)中國AI能力的期望值要比以往高得多。

免責(zé)聲明：本文內(nèi)容與數(shù)據(jù)僅供參考，不構(gòu)成投資建議，使用前請(qǐng)核實(shí)。據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

封面圖片來源：每經(jīng)記者蘭素英攝

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

5次“搶跑”，35億美元“砸盤”！起底中東沖突背后的美國“原油內(nèi)幕交易”疑云

返回每經(jīng)網(wǎng)首頁

下一篇文章

美國“原油內(nèi)幕交易”疑云：35億美元，5次“搶跑”；海外評(píng)測(cè)DeepSeek-V4，智能體任務(wù)排名開源第一；CPU需求被引爆，英特爾、AMD今年市值增長3萬億元 | 一周國際財(cái)經(jīng)

相關(guān)文章