您現(xiàn)在的位置是:素昧平生網(wǎng) > 探索
剛剛,DeepSeek開源V3.2
素昧平生網(wǎng)2025-12-01 05:22:04【探索】6人已圍觀
簡介剛剛,DeepSeek-V3.2-Exp 開源了!該模型參數(shù)量為 685B,HuggingFace 鏈接:https://huggingface.co/deepseek-ai/DeepSeek-V3.

剛剛,剛剛DeepSeek-V3.2-Exp 開源了!開源

該模型參數(shù)量為 685B,剛剛HuggingFace 鏈接:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
此外,開源此次發(fā)布竟然也同步公開了論文,剛剛公開了 DeepSeek 新的開源稀疏注意力機制,為我們提供了更多結(jié)束細節(jié):

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek Sparse Attention(DSA)稀疏注意力機制
在官方介紹中,剛剛DeepSeek 表示 DeepSeek-V3.2-Exp 是開源實驗版本。作為邁向下一代架構(gòu)的剛剛過渡,V3.2-Exp 在 V3.1-Terminus 的開源基礎(chǔ)上引入了 DeepSeek 稀疏注意力機制(DeepSeek Sparse Attention,DSA)—— 一種旨在探索和驗證在長上下文場景下訓練和推理效率優(yōu)化的剛剛稀疏注意力機制。
DSA 也是開源 3.2 版本的唯一架構(gòu)改進。

DeepSeek-V3.2-Exp 的剛剛架構(gòu),其中 DSA 在 MLA 下實例化。開源
重點要說的剛剛是,DeepSeek 稱該實驗版本代表了他們對更高效的 Transformer 架構(gòu)的持續(xù)研究,特別注重提高處理擴展文本序列時的計算效率。

在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次實現(xiàn)了細粒度稀疏注意力,在保持幾乎相同的模型輸出質(zhì)量的同時,顯著提高了長上下文訓練和推理效率。
為了嚴格評估引入稀疏注意力機制的影響,DeepSeek 特意將 DeepSeek-V3.2-Exp 的訓練配置與 9 月 22 日剛剛推出的 V3.1-Terminus 進行了對比。在各個領(lǐng)域的公開基準測試中,DeepSeek-V3.2-Exp 的表現(xiàn)與 V3.1-Terminus 相當。

更多信息,讀者們可以查閱 DeepSeek-V3.2-Exp 的 huggingface 介紹。
值得一提的是,智譜的 GLM-4.6 也即將發(fā)布,在 Z.ai 官網(wǎng)可以看到,GLM-4.5 標識為上一代旗艦模型。

最后,有一波小節(jié)奏。在模型發(fā)布前,已經(jīng)有網(wǎng)友在 Community 里發(fā)帖稱:國慶是休息日,請給我們關(guān)注的同學一點休息時間。

對此,你怎么看?
很贊哦!(56132)
相關(guān)文章
- 美聯(lián)邦航空局:因炸彈威脅,飛往費城國際機場航班全部停飛
- 韓國京畿道汗蒸房燃氣爆炸事故已致28人受傷
- 直擊風波后的西貝:25分鐘計時沙漏取消,羊肉串羊排現(xiàn)烤、西蘭花承諾1個月內(nèi)用完
- 最新!零跑汽車回應成失信被執(zhí)行人:361萬元欠款早已付清,正協(xié)商后續(xù),目前一切運轉(zhuǎn)正常
- 雷軍發(fā)布小米購置稅補貼重要提示小米汽車購置稅補貼政策重要提示
- 泰國陸軍發(fā)言人:柬埔寨士兵向泰方開火,泰軍回擊
- “半年一改款一年一換代”,汽車已成“快消品”?
- 伊朗拒絕濃縮鈾換“制裁暫緩期”要求
- 美股集體高開 谷歌鏈和存儲芯片板塊領(lǐng)漲
- 美聯(lián)儲10月降息25個基點的概率為87.7%





