亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

首頁 > 每日活動 > 每日活動 > DeepSeek V4借實(shí)習(xí)生獲獎?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

DeepSeek V4借實(shí)習(xí)生獲獎?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

發(fā)布時(shí)間:2025-07-31 21:22:38

7 月 30 日,ACL(國際計(jì)算語言學(xué)年會)公布了 2025 年的獲獎?wù)撐摹A钊梭@喜的是,這些論文里的中國作者比例超過 51%,排在第二的美國僅為 14%

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學(xué)等聯(lián)合發(fā)表的論文不僅拿下 Best Paper 獎,相關(guān)成果也引發(fā)熱議。

現(xiàn)場講座中,該論文的第一作者袁境陽透露,這項(xiàng)技術(shù)可以把上下文長度擴(kuò)展到 100 萬 tokens,并將應(yīng)用在他們的下一個(gè)前沿模型中。據(jù)了解,袁境陽當(dāng)時(shí)寫這篇論文時(shí)還只是 Deepseek 的實(shí)習(xí)生。

圖片

引入兩大核心技術(shù)創(chuàng)新

長上下文建模對于下一代語言模型至關(guān)重要,但標(biāo)準(zhǔn)注意力機(jī)制的高計(jì)算成本帶來了顯著的計(jì)算挑戰(zhàn)。隨著序列長度的增加,延遲瓶頸問題愈發(fā)凸顯。理論估算表明,在解碼 64k 長度的上下文時(shí),采用 softmax 架構(gòu)的注意力計(jì)算占總延遲的 70%–80%,這凸顯了對更高效注意力機(jī)制的迫切需求。

為解決這些局限性,有效的稀疏注意力機(jī)制在實(shí)際應(yīng)用中必須應(yīng)對兩項(xiàng)關(guān)鍵挑戰(zhàn):與硬件適配的推理加速,要將理論上的計(jì)算量減少轉(zhuǎn)化為實(shí)際的速度提升,就需要在預(yù)填充和解碼階段都采用硬件友好型的算法設(shè)計(jì),以緩解內(nèi)存訪問和硬件調(diào)度方面的瓶頸;兼顧訓(xùn)練的算法設(shè)計(jì),通過可訓(xùn)練算子實(shí)現(xiàn)端到端計(jì)算,在維持模型性能的同時(shí)降低訓(xùn)練成本。

綜合考慮這兩個(gè)方面,現(xiàn)有方法仍存在明顯差距。該團(tuán)隊(duì)認(rèn)為,稀疏注意力為在保持模型能力的同時(shí)提高效率提供了一個(gè)很有前景的方向。

在獲獎?wù)撐闹校麄兲岢隽?NSA,這是一種可原生訓(xùn)練的稀疏注意力(Natively trainable Sparse Attention)機(jī)制。它將算法創(chuàng)新與硬件對齊優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長上下文建模。據(jù)介紹,NSA 采用動態(tài)分層稀疏策略,結(jié)合粗粒度的 token 壓縮和細(xì)粒度的 token 選擇,以同時(shí)保留全局上下文感知和局部精度。

圖片

具體來說,NSA 引入了兩項(xiàng)核心創(chuàng)新。

通過算術(shù)強(qiáng)度平衡的算法設(shè)計(jì)實(shí)現(xiàn)了顯著的加速,并針對現(xiàn)代硬件進(jìn)行了實(shí)現(xiàn)優(yōu)化:優(yōu)化塊式稀疏注意力,以提高張量核利用率和內(nèi)存訪問,確保均衡的算術(shù)強(qiáng)度。

通過高效算法和反向算子實(shí)現(xiàn)穩(wěn)定的端到端訓(xùn)練,在不犧牲模型性能的情況下減少了預(yù)訓(xùn)練計(jì)算量。

上下文處理速度狂飆,

準(zhǔn)確率堪稱“完美”

在真實(shí)世界語言語料庫上進(jìn)行綜合實(shí)驗(yàn)評估后,NSA 由于稀疏性過濾掉更多噪聲,在基準(zhǔn)測試中產(chǎn)生更好的準(zhǔn)確率。據(jù)悉,該團(tuán)隊(duì)在一個(gè)擁有 270 億參數(shù)的 Transformer 骨干網(wǎng)絡(luò)(其中激活參數(shù)為 30 億)上,使用 2600 億個(gè) token 進(jìn)行預(yù)訓(xùn)練,并從通用語言評估、長上下文評估和思維鏈推理評估三個(gè)方面評估了 NSA 的性能,還在 A100 GPU 上將其內(nèi)核速度與經(jīng)過優(yōu)化的 Triton 實(shí)現(xiàn)作了進(jìn)一步比較。

實(shí)驗(yàn)結(jié)果表明,NSA 的整體性能與全注意力模型相當(dāng)甚至更優(yōu)。在 9 項(xiàng)指標(biāo)中的 7 項(xiàng)上,NSA 均超過了包括全注意力模型在內(nèi)的所有基線。這表明,盡管 NSA 在較短序列上可能無法充分發(fā)揮其效率優(yōu)勢,但它展現(xiàn)出了強(qiáng)勁的性能。

值得注意的是,NSA 在推理相關(guān)的基準(zhǔn)測試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說明該團(tuán)隊(duì)的預(yù)訓(xùn)練有助于模型發(fā)展出專門的注意力機(jī)制。這種稀疏注意力預(yù)訓(xùn)練機(jī)制迫使模型聚焦于最重要的信息,通過過濾無關(guān)注意力路徑中的噪聲,可能會提升性能。在各類評估中表現(xiàn)出的一致性,也驗(yàn)證了 NSA 作為通用架構(gòu)的穩(wěn)健性。

在 64k 上下文的“大海撈針”測試中,NSA 在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實(shí)現(xiàn)了顯著的速度提升,且序列越長,提速比例越大。

圖片

據(jù)該團(tuán)隊(duì)稱,這一性能正是得益于其分層稀疏注意力設(shè)計(jì),該設(shè)計(jì)結(jié)合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計(jì)算成本識別相關(guān)的上下文塊,而對 token 選擇的標(biāo)記級注意力則確保保留關(guān)鍵的細(xì)粒度信息。

同時(shí),NSA 優(yōu)于多種現(xiàn)有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對長上下文進(jìn)行復(fù)雜推理的任務(wù)上表現(xiàn)出色,在多跳問答任務(wù)(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(wù)(LCC)上超出基線模型 0.069,在段落檢索任務(wù)(PassR-en)上優(yōu)于其他方法 0.075。這些結(jié)果也驗(yàn)證了 NSA 處理各種長上下文挑戰(zhàn)的能力,其原生預(yù)訓(xùn)練的稀疏注意力在學(xué)習(xí)任務(wù)最優(yōu)模式方面帶來了額外優(yōu)勢。

為評估 NSA 與先進(jìn)下游訓(xùn)練范式的兼容性,該團(tuán)隊(duì)研究了其通過后期訓(xùn)練獲得思維鏈數(shù)學(xué)推理能力的潛力。鑒于強(qiáng)化學(xué)習(xí)在較小規(guī)模模型上的效果有限,其采用來自 DeepSeek-R1 的知識蒸餾,使用 100 億個(gè) 32k 長度的數(shù)學(xué)推理軌跡進(jìn)行有監(jiān)督微調(diào)(SFT)。這產(chǎn)生了兩個(gè)可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們在具有挑戰(zhàn)性的美國數(shù)學(xué)邀請賽(AIME 24)基準(zhǔn)上對這兩個(gè)模型進(jìn)行了評估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個(gè)問題生成 16 個(gè)回答并取平均分。并且,為驗(yàn)證推理深度的影響,他們在兩種生成上下文序列下進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,NSA-R 在 8k 和 16k 序列長度下的表現(xiàn)均優(yōu)于全注意力 - R。

圖片

這些結(jié)果驗(yàn)證了原生稀疏注意力的兩項(xiàng)關(guān)鍵優(yōu)勢:(1)預(yù)訓(xùn)練的稀疏注意力模式能夠高效捕捉復(fù)雜數(shù)學(xué)推導(dǎo)所必需的長程邏輯依賴關(guān)系;(2)我們架構(gòu)的硬件對齊設(shè)計(jì)保持了足夠的上下文密度,以支持推理深度的增加,同時(shí)避免災(zāi)難性遺忘。在不同上下文長度下的持續(xù)優(yōu)異表現(xiàn)證實(shí),當(dāng)稀疏注意力被原生整合到訓(xùn)練流程中時(shí),其在高級推理任務(wù)中具有切實(shí)可行性。

計(jì)算效率方面,該團(tuán)隊(duì)將基于 Triton 實(shí)現(xiàn)的 NSA 注意力機(jī)制和全注意力機(jī)制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統(tǒng)進(jìn)行了比較,以確保在相同后端下進(jìn)行公平的速度對比。

結(jié)果表明,隨著上下文長度的增加,NSA 實(shí)現(xiàn)了越來越顯著的速度提升。在 64k 上下文長度下,前向速度提升高達(dá) 9.0 倍,反向速度提升高達(dá) 6.0 倍。值得注意的是,序列越長,速度優(yōu)勢就越明顯。隨著解碼長度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長度下提速高達(dá) 11.6 倍,且這種內(nèi)存訪問效率方面的優(yōu)勢也會隨著序列變長而進(jìn)一步擴(kuò)大。

圖片

值得一提的是,這篇論文早在今年 2 月就對外公布,而相關(guān)研究成果至今還沒有出現(xiàn)在任何 DeepSeek 模型中。不過,根據(jù)論文一作袁境陽的說法,DeepSeek 下一代模型就將應(yīng)用這項(xiàng)技術(shù),這也讓許多網(wǎng)友對 DeepSeek V4 的發(fā)布更加期待,畢竟其與 DeepSeek R2 的發(fā)布計(jì)劃似乎也有很大關(guān)聯(lián)。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來自 Hugging Face CEO 發(fā)布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉庫鏈接,接著引發(fā)不少關(guān)于 R2 發(fā)布時(shí)間和技術(shù)細(xì)節(jié)的各類傳播。但對此,DeepSeek 官方一直未作出回應(yīng)。

前不久,有外媒報(bào)道稱,DeepSeek R2 可能繼續(xù)推遲。遲遲未發(fā)布的內(nèi)部原因是 DeepSeek 創(chuàng)始人梁文鋒對該模型當(dāng)前的性能不滿意,工程師團(tuán)隊(duì)仍在優(yōu)化和打磨。與此同時(shí),也有人這樣推測:R2 好歹要等 V4 出來再說,V3 可能已經(jīng)到達(dá)極限了。

每日活動更多>>

智界新款太火了,新款智界R7熱銷三個(gè)版本怎么選? 直面銷量下滑與轉(zhuǎn)型困局, 郭永鋒臨危受命一汽奧迪! 一汽紅旗架構(gòu)調(diào)整?內(nèi)部人士:僅新能源營銷事業(yè)部負(fù)責(zé)人有變動 華為Mate XTs非凡大師發(fā)布:三折疊+麒麟9020芯片,17999元起 時(shí)隔4年!華為首次宣布新麒麟處理器:整機(jī)性能提升36% 5A速度快人一步:華為Mate XTs三折疊手機(jī)支持第二代靈犀通信 前蘭博基尼設(shè)計(jì)師加入小米汽車,曾參與設(shè)計(jì)“小牛”超跑、保時(shí)捷911等 鎖死25km/h超速就斷電!新國標(biāo)抬高成本:以后或難見到千元電動自行車 首屆鉑智 3X 用戶大會:廣豐首擔(dān)自燃泊車事故責(zé),權(quán)益惠及新老用戶 8月新勢力眾生相 零跑領(lǐng)跑“蔚小米”邁過3萬輛門檻兒 奇瑞全新SUV,捷途X70L將上市,車長4810mm,5/7座都有,兩種動力 柴油動力逆襲!212 T01如何用1000km續(xù)航重新定義硬派越野經(jīng)濟(jì)性? 實(shí)力硬剛百萬級豪華MPV!2026款嵐圖夢想家預(yù)售價(jià)38.99萬元起 6.58 萬起,半固態(tài)電池批量上車!全新 MG4 成都車展“殺瘋了” 無法復(fù)工復(fù)產(chǎn)!眾泰汽車公告 8月銷量成績出爐:比亞迪霸榜,理想掉隊(duì) 理想銷量三連跌,8月銷量不及零跑一半,大勢去、頹勢顯! 普拉多跌落神壇?豐田高管硬剛外界質(zhì)疑 上汽大通:國內(nèi)泛房車市場年銷近2萬輛 堅(jiān)持用乘用車標(biāo)準(zhǔn)造品質(zhì)房車 全新奇瑞QQ亮相成都車展,能再一次引領(lǐng)市場嗎? 沒加電池,還得燒油!新212 T01開一年卻更省錢了? 21.99萬起,啟源E07煥新卷到誰? 9.78萬起,四個(gè)角度解讀榮威M7 DMH值不值? 全階量產(chǎn),突破千萬大關(guān)!地平線征程芯片不想低調(diào)了 紅旗成都車展“攻守道”:金葵花守豪華之正,天工系列攻年輕之奇 星途ET5成都全球首秀:年輕家庭智慧安全SUV新選擇 全新坦克500上市2小時(shí)大定破1.2萬臺,牽手張雨綺刷爆成都車展 2025成都車展新車:38.99萬起,2026款嵐圖夢想家公布預(yù)售價(jià) 售訂單破4.8萬臺,智己LS6這張“超級增程”牌打?qū)α?/span> 短軸大V6,長城炮V6火炮22.98萬起開啟預(yù)售
主站蜘蛛池模板: 靖边县| 镶黄旗| 宁晋县| 洛川县| 凤翔县| 玛曲县| 河北区| 噶尔县| 探索| 开原市| 高台县| 车致| 海淀区| 高雄市| 垫江县| 肥城市| 苗栗县| 宁海县| 全南县| 米林县| 五莲县| 巴中市| 彰化县| 镇安县| 皮山县| 百色市| 屯昌县| 若羌县| 张家界市| 普洱| 文水县| 顺平县| 道真| 应城市| 通河县| 卢龙县| 江源县| 锦州市| 宁武县| 定边县| 忻州市|