您現(xiàn)在的位置是：素昧平生網(wǎng) > 探索

剛剛，DeepSeek開源V3.2

素昧平生網(wǎng)2025-12-01 05:22:04【探索】6人已圍觀

簡介剛剛，DeepSeek-V3.2-Exp 開源了！該模型參數(shù)量為 685B，HuggingFace 鏈接：https：//huggingface.co/deepseek-ai/DeepSeek-V3.

　　剛剛，剛剛DeepSeek-V3.2-Exp 開源了！開源

　　該模型參數(shù)量為 685B，剛剛HuggingFace 鏈接：

　　https：//huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

　　此外，開源此次發(fā)布竟然也同步公開了論文，剛剛公開了 DeepSeek 新的開源稀疏注意力機制，為我們提供了更多結(jié)束細節(jié)：

　　https：//github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

　　DeepSeek Sparse Attention（DSA）稀疏注意力機制

　　在官方介紹中，剛剛DeepSeek 表示 DeepSeek-V3.2-Exp 是開源實驗版本。作為邁向下一代架構(gòu)的剛剛過渡，V3.2-Exp 在 V3.1-Terminus 的開源基礎(chǔ)上引入了 DeepSeek 稀疏注意力機制（DeepSeek Sparse Attention，DSA）—— 一種旨在探索和驗證在長上下文場景下訓練和推理效率優(yōu)化的剛剛稀疏注意力機制。

　　DSA 也是開源 3.2 版本的唯一架構(gòu)改進。

　　DeepSeek-V3.2-Exp 的剛剛架構(gòu)，其中 DSA 在 MLA 下實例化。開源

　　重點要說的剛剛是，DeepSeek 稱該實驗版本代表了他們對更高效的 Transformer 架構(gòu)的持續(xù)研究，特別注重提高處理擴展文本序列時的計算效率。

　　在 v3.2 版本中，DeepSeek 稀疏注意力（DSA）首次實現(xiàn)了細粒度稀疏注意力，在保持幾乎相同的模型輸出質(zhì)量的同時，顯著提高了長上下文訓練和推理效率。

　　為了嚴格評估引入稀疏注意力機制的影響，DeepSeek 特意將 DeepSeek-V3.2-Exp 的訓練配置與 9 月 22 日剛剛推出的 V3.1-Terminus 進行了對比。在各個領(lǐng)域的公開基準測試中，DeepSeek-V3.2-Exp 的表現(xiàn)與 V3.1-Terminus 相當。