黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

當(dāng)前位置：首頁 > 焦點(diǎn) > 國產(chǎn)AI大模型之光DeepSeek把AI大佬全炸出來了！6710億參數(shù)訓(xùn)練只需1/10算力

游客發(fā)表

國產(chǎn)AI大模型之光DeepSeek把AI大佬全炸出來了！6710億參數(shù)訓(xùn)練只需1/10算力

發(fā)帖時(shí)間：2024-12-29 01:05:26

[綜合] 來源：下愚不移網(wǎng)

DeepSeek新版模型正式發(fā)布，國產(chǎn)光技術(shù)大佬們都轉(zhuǎn)瘋了！大模大佬

延續(xù)便宜大碗特點(diǎn)的型之訓(xùn)練基礎(chǔ)之上，DeepSeek V3發(fā)布即完全開源，全炸直接用了53頁論文把訓(xùn)練細(xì)節(jié)和盤托出的出億參數(shù)那種。

國產(chǎn)AI大模型之光DeepSeek把AI大佬全炸出來了！6710億參數(shù)訓(xùn)練只需1/10算力

怎么說呢，只需QLoRA一作的算力一個(gè)詞評(píng)價(jià)就是：優(yōu)雅。

具體來說，國產(chǎn)光DeepSeek V3是大模大佬一個(gè)參數(shù)量為671B的MoE模型，激活37B，型之訓(xùn)練在14.8T高質(zhì)量token上進(jìn)行了預(yù)訓(xùn)練。全炸

在多項(xiàng)測(cè)評(píng)上，出億參數(shù)DeepSeek V3達(dá)到了開源SOTA，只需超越Llama 3.1 405B，算力能和GPT-4o、國產(chǎn)光Claude 3.5 Sonnet等TOP模型正面掰掰手腕——

其價(jià)格比Claude 3.5 Haiku還便宜，僅為Claude 3.5 Sonnet的9%。

更重要的是，大家伙兒還第一時(shí)間在論文中發(fā)現(xiàn)了關(guān)鍵細(xì)節(jié)：

DeepSeek V3整個(gè)訓(xùn)練過程僅用了不到280萬個(gè)GPU小時(shí)，相比之下，Llama 3 405B的訓(xùn)練時(shí)長(zhǎng)是3080萬GPU小時(shí)（p.s. GPU型號(hào)也不同）。

直觀地從錢上來對(duì)比就是，訓(xùn)練671B的DeepSeek V3的成本是557.6萬美元（約合4070萬人民幣），而只是訓(xùn)練一個(gè)7B的Llama 2，就要花費(fèi)76萬美元（約合555萬人民幣）。

OpenAI創(chuàng)始成員Karpathy對(duì)此贊道：

DeepSeek V3讓在有限算力預(yù)算上進(jìn)行模型預(yù)訓(xùn)練這件事變得容易。

DeepSeek V3看起來比Llama 3 405B更強(qiáng)，訓(xùn)練消耗的算力卻僅為后者的1/11。

Meta科學(xué)家田淵棟也驚嘆DeepSeek V3的訓(xùn)練看上去是“黑科技”：

這是非常偉大的工作。

全網(wǎng)熱烈實(shí)測(cè)中

先來看官方說法，新模型這次主要有以下幾個(gè)特點(diǎn)：

首先從模型能力來看，其評(píng)測(cè)跑分不僅超越了Qwen2.5-72B和Llama-3.1-405B等開源模型，甚至還和一些頂尖閉源模型（如GPT-4o以及Claude-3.5-Sonnet）不分伯仲。

從實(shí)際響應(yīng)來看，其生成速度提升了3倍，每秒生成60個(gè)tokens。

在又快又好的同時(shí)，DeepSeek V3的API價(jià)格也被打下來了。

每百萬輸入tokens 0.5元（緩存命中）/ 2元（緩存未命中），每百萬輸出tokens 8元

單論價(jià)格，正如一開始提到的，它幾乎是Claude 3.5 Sonnet的1/53（后者每百萬輸入3美元、輸出15美元）。

而如果要平衡性能和成本，它成了DeepSeek官方繪圖中唯一闖進(jìn)“最佳性價(jià)比”三角區(qū)的模型。

對(duì)了，DeepSeek這次還搞了一個(gè)45天優(yōu)惠價(jià)格體驗(yàn)期，也就是在2025年2月8日之前，所有用戶使用DeepSeek V3 API的價(jià)格分別下降了80%（輸入命中）、50%（輸入未命中），75%（輸出）。

每百萬輸入tokens 0.1元（緩存命中）/ 1元（緩存未命中），每百萬輸出tokens 2元

最后，官方此次一同開源了原生FP8權(quán)重，并提供了從FP8到BF16的轉(zhuǎn)換腳本。

具體而言，SGLang和LMDeploy這兩個(gè)框架已支持FP8推理，另外兩個(gè)框架TensorRT-LLM和MindIE則支持BF16推理（適合需要更高精度的場(chǎng)景）。

目前普通用戶可以通過官網(wǎng)（chat.deepseek.com）與DeepSeek V3展開對(duì)話，API也已同步更新，接口配置無需改動(dòng)。

知名AI博主AK親測(cè)，只需幾行代碼就能將它部署到Gradio。

Okk，話說到這里，我們直接來看一些實(shí)測(cè)效果吧。

首位全職提示詞工程師出新題，DeepSeek V3完全答對(duì)

這第一關(guān)，來自首位全職提示詞工程師Riley Goodside。

新題為“Which version is this?”，考察模型對(duì)自身版本的理解。接受考驗(yàn)的選手除了DeepSeek V3，還有Claude、Gemini、ChatGPT和Grok。

先說結(jié)論，按Riley的說法，這幾位的回答主打“各不相同”，不過DeepSeek V3完全答對(duì)了。

Claude 3.5 Sonnet也對(duì)其版本了如指掌——不僅說對(duì)了版本號(hào)（許多用戶非官方地稱這個(gè)版本為3.5.1或3.6），還給出了發(fā)布月份。

（不過Claude 3.5 Haiku出錯(cuò)了，誤識(shí)別為Claude 3 Haiku。）

不過后面幾位選手就開始各種出錯(cuò)了，尤其是ChatGPT和Grok。

ChatGPT要么給出模糊答案（基于GPT-4架構(gòu)），要么直接自信給出錯(cuò)誤版本，總之處于比較懵圈的狀態(tài)。

而Grok更是獨(dú)特，理論倒是一套一套，但就是不說自己的版本。（除非直接問它是哪個(gè)Grok模型）

除此之外，一些網(wǎng)友還進(jìn)行了更多測(cè)試。

更多網(wǎng)友整活

比如這位Tom小哥驚訝表示，DeepSeek V3無需開發(fā)者詳細(xì)解釋，就能“詭異”理解整個(gè)項(xiàng)目。

突然感覺機(jī)器里好像有鬼：

他唯一做的，就是告訴DeepSeek V3最終目標(biāo)是什么。

當(dāng)然，老規(guī)矩還是要測(cè)一下數(shù)草莓中的“r”以及“9.9和9.11哪個(gè)大”這種行業(yè)難題。(doge）

很欣慰，這次它都答對(duì)了，而且答案和分析過程都沒問題。

最后，還有人直接將4個(gè)M4 Mac mini堆疊在一起來運(yùn)行DeepSeek V3了……

唯一值得遺憾的是，當(dāng)前版本的DeepSeek V3暫不支持多模態(tài)輸入輸出。

模型預(yù)訓(xùn)練：＜2個(gè)月，600萬美元

測(cè)試完畢，我們繼續(xù)掰開論文細(xì)節(jié)。先來看最受關(guān)注的預(yù)訓(xùn)練部分：

官方介紹，通過在算法、框架和硬件方面的協(xié)同優(yōu)化，DeepSeek V3的訓(xùn)練成本變得非常經(jīng)濟(jì)。

預(yù)訓(xùn)練階段，在每萬億token上訓(xùn)練DeepSeek V3僅需要18萬GPU小時(shí)，就是說，在官方2048卡集群上，3.7天就能完成這一訓(xùn)練過程。

研發(fā)團(tuán)隊(duì)用了不到2個(gè)月的時(shí)間就完成了DeepSeek V3的預(yù)訓(xùn)練，耗費(fèi)了266.4萬GPU小時(shí)，再加上上下文長(zhǎng)度擴(kuò)展的11.9萬GPU小時(shí)，和后訓(xùn)練的5000 GPU小時(shí)，總訓(xùn)練成本為278.8萬GPU小時(shí)。

假設(shè)GPU租賃價(jià)格為每GPU小時(shí)2美元，那成本換算過來就是557.6萬美元。

所以，具體是什么樣的協(xié)同優(yōu)化？

官方標(biāo)注了幾個(gè)重點(diǎn)：

首先，架構(gòu)方面，DeepSeek V3采用了創(chuàng)新的負(fù)載均衡策略和訓(xùn)練目標(biāo)。

研發(fā)團(tuán)隊(duì)在DeepSeek-V2架構(gòu)的基礎(chǔ)上，提出了一種無輔助損失的負(fù)載均衡策略，能最大限度減少負(fù)載均衡而導(dǎo)致的性能下降。

具體而言，該策略為MoE中的每個(gè)專家引入了一個(gè)偏置項(xiàng)（bias term），并將其添加到相應(yīng)的親和度分?jǐn)?shù)中，以確定top-K路由。

研發(fā)團(tuán)隊(duì)還證明，多Token預(yù)測(cè)目標(biāo)（Multi-Token Prediction，MTP）有利于提高模型性能，可以用于推理加速的推測(cè)解碼。

預(yù)訓(xùn)練方面，DeepSeek V3采用FP8訓(xùn)練。研發(fā)團(tuán)隊(duì)設(shè)計(jì)了一個(gè)FP8混合精度訓(xùn)練框架，首次驗(yàn)證了FP8訓(xùn)練在極大規(guī)模模型上的可行性和有效性。

論文中還提到了跨節(jié)點(diǎn)MoE訓(xùn)練中的通信瓶頸問題。解決策略包括，設(shè)計(jì)DualPipe高效流水線并行算法：在單個(gè)前向和后向塊對(duì)內(nèi)，重疊計(jì)算和通信。

這種重疊能確保隨著模型的進(jìn)一步擴(kuò)大，只要保持恒定的計(jì)算和通信比率，就仍然可以跨節(jié)點(diǎn)使用細(xì)粒度專家，實(shí)現(xiàn)接近于0的all-to-all通信開銷。

另外，研發(fā)團(tuán)隊(duì)還開發(fā)了高效的跨節(jié)點(diǎn)all-to-all通信內(nèi)核等。

后訓(xùn)練方面，DeepSeek V3引入了一種創(chuàng)新方法，將推理能力從長(zhǎng)思維鏈模型（DeepSeek R1）中，蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時(shí)，保持了DeepSeek V3的輸出風(fēng)格和長(zhǎng)度控制。

其他值得關(guān)注的細(xì)節(jié)還包括，DeepSeek V3的MoE由256個(gè)路由專家和1個(gè)共享專家組成。在256個(gè)路由專家中，每個(gè)token會(huì)激活8個(gè)專家，并確保每個(gè)token最多被發(fā)送到4個(gè)節(jié)點(diǎn)。

DeepSeek V3還引入了冗余專家（redundant experts）的部署策略，即復(fù)制高負(fù)載專家并冗余部署。這主要是為了在推理階段，實(shí)現(xiàn)MoE不同專家之間的負(fù)載均衡。

最后，來看部分實(shí)驗(yàn)結(jié)果。

大海撈針實(shí)驗(yàn)：

可以看到，在各項(xiàng)基準(zhǔn)測(cè)試中，DeepSeek V3在開源模型中達(dá)到SOTA。

賈揚(yáng)清談DeepSeek團(tuán)隊(duì)：其成就根植于多年專業(yè)知識(shí)

新版本模型引爆熱議，更多有關(guān)DeepSeek及其背后團(tuán)隊(duì)的信息也被關(guān)注到。

其中，賈揚(yáng)清還透露了與DeepSeek團(tuán)隊(duì)早年的相處細(xì)節(jié)。

當(dāng)時(shí)是2019年，他正打算向團(tuán)隊(duì)推薦一個(gè)AI云解決方案，并試圖說服這群人：

不需要復(fù)雜的云虛擬化，只需要容器和高效的調(diào)度器。需要真正快速、相互連接的專用網(wǎng)絡(luò)，如RoCE或Infiniband。需要像NFS這樣的通用存儲(chǔ)，不需要太復(fù)雜，但必須快速。要讓AI開發(fā)者滿意，而不是系統(tǒng)可靠性工程師（SREs）滿意。

有意思的是，團(tuán)隊(duì)表示這些東西他們?cè)缫褜?shí)踐了多年，并轉(zhuǎn)而讓他幫忙向一些大學(xué)實(shí)驗(yàn)室捐贈(zèng)算力資源。

當(dāng)然最后也確實(shí)幫上忙了，而賈揚(yáng)清也再次感嘆：

DeepSeek團(tuán)隊(duì)的偉大成就在某種程度上植根于多年的專業(yè)知識(shí)，這些專業(yè)知識(shí)部分被許多人忽視了。

最最后，除了本次官方公布的測(cè)試結(jié)果，Imsys匿名競(jìng)技場(chǎng)也出來提前預(yù)熱了。

家人們，快來用你最難的提示考考DeepSeek V3。（后續(xù)發(fā)布競(jìng)技場(chǎng)榜單）

體驗(yàn)地址：https://chat.deepseek.com

技術(shù)報(bào)告地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

抱抱臉開源地址：https://huggingface.co/deepseek-ai/DeepSeek-V3

參考鏈接：https://mp.weixin.qq.com/s/iFZOQsUNkpkXPDvOkE99wQ

分享到：新浪微博 QQ空間騰訊微博人人網(wǎng) 點(diǎn)點(diǎn)網(wǎng) 復(fù)制網(wǎng)址打印

相關(guān)內(nèi)容

夸張??10歲小將表演連續(xù)顛球2424次，阿賈克斯比賽都因此推遲
RTX 5070 Ti將配16GB GDDR7顯存、精簡(jiǎn)版GB203
[流言板]ESPN首次MVP民意調(diào)查：約基奇827分領(lǐng)先，SGA字母哥分列二三
韓國和tsm沒拿冠軍就是爽！
客場(chǎng)拔刺？利物浦近10次對(duì)陣熱刺7勝2平1負(fù)
基米希本場(chǎng)4關(guān)鍵傳球+7成功長(zhǎng)傳+5成功對(duì)抗+4搶斷 7.7分全場(chǎng)最高
[流言板]打回懸念！張寧連續(xù)干拔命中三分末節(jié)已砍15分，山西追至2分
分低就是叼！T1落荒而逃

隨機(jī)閱讀

熱門排行

友情鏈接

Copyright © 2024 Powered by 國產(chǎn)AI大模型之光DeepSeek把AI大佬全炸出來了！6710億參數(shù)訓(xùn)練只需1/10算力,下愚不移網(wǎng) sitemap