DeepSeek下一代技術(shù)曝光：“原生稀疏注意力”！

2025-07-31 來(lái)源：電子工程專(zhuān)輯原創(chuàng)文章

392

關(guān)鍵詞： DeepSeek 原生稀疏注意力算法硬件協(xié)同長(zhǎng)文本處理 ACL2025

在今年1月突然爆火之后幾個(gè)月來(lái)，DeepSeek下一代技術(shù)一直值得期待。

近日，DeepSeek的下一代技術(shù)“原生稀疏注意力”（NSA）在ACL 2025大會(huì)上提前曝光，同時(shí)由DeepSeek創(chuàng)始人梁文鋒作為通訊作者與北京大學(xué)等機(jī)構(gòu)聯(lián)合發(fā)表的論文榮獲最佳論文獎(jiǎng)。這一成果標(biāo)志著DeepSeek在長(zhǎng)文本處理和計(jì)算效率方面取得了重大突破。

據(jù)悉，ACL 2025的投稿量高達(dá)8360篇，是歷史上最卷的一屆，競(jìng)爭(zhēng)異常激烈。盡管如此，DeepSeek與北京大學(xué)合作的論文憑借其創(chuàng)新性和實(shí)用性，成功脫穎而出，獲得了最佳論文獎(jiǎng)。該論文不僅在技術(shù)上具有突破性，還在學(xué)術(shù)界和工業(yè)界引發(fā)了廣泛關(guān)注。

核心技術(shù)貢獻(xiàn)：動(dòng)態(tài)分層稀疏策略

傳統(tǒng)稀疏注意力方法通常通過(guò)固定的稀疏模式（如滑動(dòng)窗口、全局-局部組合）來(lái)降低計(jì)算復(fù)雜度，但這往往以犧牲模型性能為代價(jià)。NSA的革命性在于它采用了一種動(dòng)態(tài)、分層的稀疏策略，通過(guò)三條精心設(shè)計(jì)的并行注意力分支協(xié)同工作，實(shí)現(xiàn)了效率與能力的完美平衡：

1.壓縮注意力（Compression Attention）：此分支負(fù)責(zé)捕捉全局的、粗粒度的信息模式。它類(lèi)似于人類(lèi)快速瀏覽文章以抓住核心大意，通過(guò)對(duì)輸入序列進(jìn)行壓縮，高效地構(gòu)建全局上下文表征。

2.選擇性注意力（Selective Attention）：此分支聚焦于序列中最關(guān)鍵的詞塊（token），執(zhí)行更精細(xì)的計(jì)算。這好比人類(lèi)在閱讀時(shí)對(duì)重點(diǎn)段落進(jìn)行精讀，確保模型不會(huì)錯(cuò)過(guò)最重要的語(yǔ)義信息。

3.滑動(dòng)注意力（Sliding Attention）：此分支專(zhuān)注于處理局部的、相鄰的上下文信息，確保模型對(duì)文本細(xì)節(jié)的理解不丟失。這相當(dāng)于人類(lèi)逐字逐句地閱讀，保證了局部語(yǔ)境的連貫性。

這種動(dòng)態(tài)分層設(shè)計(jì)并非簡(jiǎn)單地丟棄信息，而是通過(guò)智能算法，將計(jì)算資源動(dòng)態(tài)地分配到最需要的地方，從而在大幅降低計(jì)算密度的同時(shí)，最大程度地保留了模型的表達(dá)能力。

關(guān)鍵創(chuàng)新點(diǎn)：算法與硬件的協(xié)同革命

NSA的另一大突破在于它不僅僅是算法層面的創(chuàng)新，更是算法與現(xiàn)代GPU硬件深度協(xié)同優(yōu)化的典范。該機(jī)制實(shí)現(xiàn)了端到端的“原生可訓(xùn)練”模式，意味著它在訓(xùn)練階段就能高效運(yùn)行，而非像某些早期稀疏方法那樣需要復(fù)雜的工程改造或只能在推理階段使用。通過(guò)對(duì)計(jì)算圖、內(nèi)存訪問(wèn)模式進(jìn)行深度優(yōu)化，NSA能夠充分利用GPU的并行計(jì)算能力，實(shí)現(xiàn)了驚人的性能提升。

與傳統(tǒng)全注意力模型相比，NSA在多個(gè)維度上表現(xiàn)出顯著優(yōu)勢(shì)：

速度提升：在處理64k長(zhǎng)度序列時(shí)，NSA在解碼階段速度提升11.6倍，前向傳播提升9倍，反向傳播提升6倍。
性能超越：在9個(gè)評(píng)測(cè)指標(biāo)中，采用NSA預(yù)訓(xùn)練的27B參數(shù)模型有7個(gè)超越了全注意力基線(xiàn)。
長(zhǎng)文本處理能力：在LongBench基準(zhǔn)測(cè)試中，NSA取得了0.469的平均分，不僅超越了全注意力基線(xiàn)（+0.032），還大幅領(lǐng)先其他稀疏注意力方法。
數(shù)學(xué)推理能力：在AIME 24測(cè)試中，NSA-R在8k上下文設(shè)置下的準(zhǔn)確率達(dá)到0.121，而全注意力模型僅為0.046；在16k上下文下，NSA-R仍保持0.146的準(zhǔn)確率，遠(yuǎn)超全注意力的0.092。

ACL2025評(píng)選出4篇最佳論文

ACL 2025 是國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)（ACL）于 2025 年 7 月 27 日至 8 月 1 日在奧地利維也納舉行的第 63 屆年度會(huì)議。該會(huì)議是自然語(yǔ)言處理（NLP）領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議之一，其主題為“NLP 模型的泛化”，旨在探討如何增強(qiáng)模型在多任務(wù)、多語(yǔ)言、多領(lǐng)域和多數(shù)據(jù)分布下的魯棒性和可靠性。ACL2025最終評(píng)選出了4篇最佳論文。

《Native Sparse Attention： Hardware-Aligned and Natively Trainable Sparse Attention》
該論文由北京大學(xué)、DeepSeek和華盛頓大學(xué)合作完成，作者包括Jingyang Yuan、Huazuo Gao等。論文提出的稀疏注意力（NSA）模型在長(zhǎng)文本處理方面表現(xiàn)出色，將處理速度提高了最多11倍，性能超過(guò)了全注意力模型。該模型專(zhuān)為硬件優(yōu)化設(shè)計(jì)，推動(dòng)了高效大型語(yǔ)言模型的發(fā)展。
《A Theory of Response Sampling in LLMs： Part Descriptive and Part Prescriptive》
該論文由Sarath Sivaprasad、Pramod Kaushik、Sahar Abdelnabi和Mario Fritz共同撰寫(xiě)，來(lái)自CISPA亥姆霍茲信息安全中心、TCS研究院和微軟。論文探討了大語(yǔ)言模型（LLM）在生成內(nèi)容時(shí)的行為模式，指出其不僅反映數(shù)據(jù)中的常見(jiàn)情況，還會(huì)系統(tǒng)性地偏向“理想化”狀態(tài)。這一現(xiàn)象可能帶來(lái)決策偏見(jiàn)和倫理問(wèn)題。
《Fairness through Difference Awareness： Measuring Desired Group Discrimination in LLMs》
該論文由Angelina Wang、Michelle Phan、Daniel E. Ho和Sanmi Koyejo共同撰寫(xiě)，來(lái)自斯坦福大學(xué)。論文挑戰(zhàn)了當(dāng)前AI公平性研究的主流觀點(diǎn)，提出“差異意識(shí)”（DiffAware）和“情境意識(shí)”（CtxtAware）的概念，強(qiáng)調(diào)在適當(dāng)情況下識(shí)別和區(qū)別對(duì)待不同群體的重要性。
《Language Models Resist Alignment： Evidence From Data Compression》
該論文由北京大學(xué)人工智能研究院的研究人員撰寫(xiě)，包括Jiaming Ji、Kaile Wang等。論文揭示了大語(yǔ)言模型在對(duì)齊訓(xùn)練過(guò)程中存在“彈性”現(xiàn)象，即模型傾向于維持其原始行為和知識(shí)分布，抗拒對(duì)齊訓(xùn)練帶來(lái)的改變。這一發(fā)現(xiàn)對(duì)實(shí)現(xiàn)真正穩(wěn)固、深入的對(duì)齊具有重要意義。

ACL2025的4篇最佳論文分別涉及稀疏注意力技術(shù)、LLM的行為模式、AI公平性、以及模型對(duì)齊的彈性，展示了自然語(yǔ)言處理領(lǐng)域的最新研究成果和創(chuàng)新方向。