亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

首頁(yè) > 科技活動(dòng) > 每日活動(dòng) > DeepSeek V4借實(shí)習(xí)生獲獎(jiǎng)?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

DeepSeek V4借實(shí)習(xí)生獲獎(jiǎng)?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

發(fā)布時(shí)間:2025-07-31 21:22:38

7 月 30 日,ACL(國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì))公布了 2025 年的獲獎(jiǎng)?wù)撐?。令人驚喜的是,這些論文里的中國(guó)作者比例超過(guò) 51%,排在第二的美國(guó)僅為 14%。

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學(xué)等聯(lián)合發(fā)表的論文不僅拿下 Best Paper 獎(jiǎng),相關(guān)成果也引發(fā)熱議。

現(xiàn)場(chǎng)講座中,該論文的第一作者袁境陽(yáng)透露,這項(xiàng)技術(shù)可以把上下文長(zhǎng)度擴(kuò)展到 100 萬(wàn) tokens,并將應(yīng)用在他們的下一個(gè)前沿模型中。據(jù)了解,袁境陽(yáng)當(dāng)時(shí)寫(xiě)這篇論文時(shí)還只是 Deepseek 的實(shí)習(xí)生。

圖片

引入兩大核心技術(shù)創(chuàng)新

長(zhǎng)上下文建模對(duì)于下一代語(yǔ)言模型至關(guān)重要,但標(biāo)準(zhǔn)注意力機(jī)制的高計(jì)算成本帶來(lái)了顯著的計(jì)算挑戰(zhàn)。隨著序列長(zhǎng)度的增加,延遲瓶頸問(wèn)題愈發(fā)凸顯。理論估算表明,在解碼 64k 長(zhǎng)度的上下文時(shí),采用 softmax 架構(gòu)的注意力計(jì)算占總延遲的 70%–80%,這凸顯了對(duì)更高效注意力機(jī)制的迫切需求。

為解決這些局限性,有效的稀疏注意力機(jī)制在實(shí)際應(yīng)用中必須應(yīng)對(duì)兩項(xiàng)關(guān)鍵挑戰(zhàn):與硬件適配的推理加速,要將理論上的計(jì)算量減少轉(zhuǎn)化為實(shí)際的速度提升,就需要在預(yù)填充和解碼階段都采用硬件友好型的算法設(shè)計(jì),以緩解內(nèi)存訪問(wèn)和硬件調(diào)度方面的瓶頸;兼顧訓(xùn)練的算法設(shè)計(jì),通過(guò)可訓(xùn)練算子實(shí)現(xiàn)端到端計(jì)算,在維持模型性能的同時(shí)降低訓(xùn)練成本。

綜合考慮這兩個(gè)方面,現(xiàn)有方法仍存在明顯差距。該團(tuán)隊(duì)認(rèn)為,稀疏注意力為在保持模型能力的同時(shí)提高效率提供了一個(gè)很有前景的方向。

在獲獎(jiǎng)?wù)撐闹?,他們提出?NSA,這是一種可原生訓(xùn)練的稀疏注意力(Natively trainable Sparse Attention)機(jī)制。它將算法創(chuàng)新與硬件對(duì)齊優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模。據(jù)介紹,NSA 采用動(dòng)態(tài)分層稀疏策略,結(jié)合粗粒度的 token 壓縮和細(xì)粒度的 token 選擇,以同時(shí)保留全局上下文感知和局部精度。

圖片

具體來(lái)說(shuō),NSA 引入了兩項(xiàng)核心創(chuàng)新。

通過(guò)算術(shù)強(qiáng)度平衡的算法設(shè)計(jì)實(shí)現(xiàn)了顯著的加速,并針對(duì)現(xiàn)代硬件進(jìn)行了實(shí)現(xiàn)優(yōu)化:優(yōu)化塊式稀疏注意力,以提高張量核利用率和內(nèi)存訪問(wèn),確保均衡的算術(shù)強(qiáng)度。

通過(guò)高效算法和反向算子實(shí)現(xiàn)穩(wěn)定的端到端訓(xùn)練,在不犧牲模型性能的情況下減少了預(yù)訓(xùn)練計(jì)算量。

上下文處理速度狂飆,

準(zhǔn)確率堪稱“完美”

在真實(shí)世界語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行綜合實(shí)驗(yàn)評(píng)估后,NSA 由于稀疏性過(guò)濾掉更多噪聲,在基準(zhǔn)測(cè)試中產(chǎn)生更好的準(zhǔn)確率。據(jù)悉,該團(tuán)隊(duì)在一個(gè)擁有 270 億參數(shù)的 Transformer 骨干網(wǎng)絡(luò)(其中激活參數(shù)為 30 億)上,使用 2600 億個(gè) token 進(jìn)行預(yù)訓(xùn)練,并從通用語(yǔ)言評(píng)估、長(zhǎng)上下文評(píng)估和思維鏈推理評(píng)估三個(gè)方面評(píng)估了 NSA 的性能,還在 A100 GPU 上將其內(nèi)核速度與經(jīng)過(guò)優(yōu)化的 Triton 實(shí)現(xiàn)作了進(jìn)一步比較。

實(shí)驗(yàn)結(jié)果表明,NSA 的整體性能與全注意力模型相當(dāng)甚至更優(yōu)。在 9 項(xiàng)指標(biāo)中的 7 項(xiàng)上,NSA 均超過(guò)了包括全注意力模型在內(nèi)的所有基線。這表明,盡管 NSA 在較短序列上可能無(wú)法充分發(fā)揮其效率優(yōu)勢(shì),但它展現(xiàn)出了強(qiáng)勁的性能。

值得注意的是,NSA 在推理相關(guān)的基準(zhǔn)測(cè)試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說(shuō)明該團(tuán)隊(duì)的預(yù)訓(xùn)練有助于模型發(fā)展出專門的注意力機(jī)制。這種稀疏注意力預(yù)訓(xùn)練機(jī)制迫使模型聚焦于最重要的信息,通過(guò)過(guò)濾無(wú)關(guān)注意力路徑中的噪聲,可能會(huì)提升性能。在各類評(píng)估中表現(xiàn)出的一致性,也驗(yàn)證了 NSA 作為通用架構(gòu)的穩(wěn)健性。

在 64k 上下文的“大海撈針”測(cè)試中,NSA 在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實(shí)現(xiàn)了顯著的速度提升,且序列越長(zhǎng),提速比例越大。

圖片

據(jù)該團(tuán)隊(duì)稱,這一性能正是得益于其分層稀疏注意力設(shè)計(jì),該設(shè)計(jì)結(jié)合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計(jì)算成本識(shí)別相關(guān)的上下文塊,而對(duì) token 選擇的標(biāo)記級(jí)注意力則確保保留關(guān)鍵的細(xì)粒度信息。

同時(shí),NSA 優(yōu)于多種現(xiàn)有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對(duì)長(zhǎng)上下文進(jìn)行復(fù)雜推理的任務(wù)上表現(xiàn)出色,在多跳問(wèn)答任務(wù)(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(wù)(LCC)上超出基線模型 0.069,在段落檢索任務(wù)(PassR-en)上優(yōu)于其他方法 0.075。這些結(jié)果也驗(yàn)證了 NSA 處理各種長(zhǎng)上下文挑戰(zhàn)的能力,其原生預(yù)訓(xùn)練的稀疏注意力在學(xué)習(xí)任務(wù)最優(yōu)模式方面帶來(lái)了額外優(yōu)勢(shì)。

為評(píng)估 NSA 與先進(jìn)下游訓(xùn)練范式的兼容性,該團(tuán)隊(duì)研究了其通過(guò)后期訓(xùn)練獲得思維鏈數(shù)學(xué)推理能力的潛力。鑒于強(qiáng)化學(xué)習(xí)在較小規(guī)模模型上的效果有限,其采用來(lái)自 DeepSeek-R1 的知識(shí)蒸餾,使用 100 億個(gè) 32k 長(zhǎng)度的數(shù)學(xué)推理軌跡進(jìn)行有監(jiān)督微調(diào)(SFT)。這產(chǎn)生了兩個(gè)可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們?cè)诰哂刑魬?zhàn)性的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME 24)基準(zhǔn)上對(duì)這兩個(gè)模型進(jìn)行了評(píng)估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個(gè)問(wèn)題生成 16 個(gè)回答并取平均分。并且,為驗(yàn)證推理深度的影響,他們?cè)趦煞N生成上下文序列下進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,NSA-R 在 8k 和 16k 序列長(zhǎng)度下的表現(xiàn)均優(yōu)于全注意力 - R。

圖片

這些結(jié)果驗(yàn)證了原生稀疏注意力的兩項(xiàng)關(guān)鍵優(yōu)勢(shì):(1)預(yù)訓(xùn)練的稀疏注意力模式能夠高效捕捉復(fù)雜數(shù)學(xué)推導(dǎo)所必需的長(zhǎng)程邏輯依賴關(guān)系;(2)我們架構(gòu)的硬件對(duì)齊設(shè)計(jì)保持了足夠的上下文密度,以支持推理深度的增加,同時(shí)避免災(zāi)難性遺忘。在不同上下文長(zhǎng)度下的持續(xù)優(yōu)異表現(xiàn)證實(shí),當(dāng)稀疏注意力被原生整合到訓(xùn)練流程中時(shí),其在高級(jí)推理任務(wù)中具有切實(shí)可行性。

計(jì)算效率方面,該團(tuán)隊(duì)將基于 Triton 實(shí)現(xiàn)的 NSA 注意力機(jī)制和全注意力機(jī)制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統(tǒng)進(jìn)行了比較,以確保在相同后端下進(jìn)行公平的速度對(duì)比。

結(jié)果表明,隨著上下文長(zhǎng)度的增加,NSA 實(shí)現(xiàn)了越來(lái)越顯著的速度提升。在 64k 上下文長(zhǎng)度下,前向速度提升高達(dá) 9.0 倍,反向速度提升高達(dá) 6.0 倍。值得注意的是,序列越長(zhǎng),速度優(yōu)勢(shì)就越明顯。隨著解碼長(zhǎng)度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長(zhǎng)度下提速高達(dá) 11.6 倍,且這種內(nèi)存訪問(wèn)效率方面的優(yōu)勢(shì)也會(huì)隨著序列變長(zhǎng)而進(jìn)一步擴(kuò)大。

圖片

值得一提的是,這篇論文早在今年 2 月就對(duì)外公布,而相關(guān)研究成果至今還沒(méi)有出現(xiàn)在任何 DeepSeek 模型中。不過(guò),根據(jù)論文一作袁境陽(yáng)的說(shuō)法,DeepSeek 下一代模型就將應(yīng)用這項(xiàng)技術(shù),這也讓許多網(wǎng)友對(duì) DeepSeek V4 的發(fā)布更加期待,畢竟其與 DeepSeek R2 的發(fā)布計(jì)劃似乎也有很大關(guān)聯(lián)。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來(lái)自 Hugging Face CEO 發(fā)布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉(cāng)庫(kù)鏈接,接著引發(fā)不少關(guān)于 R2 發(fā)布時(shí)間和技術(shù)細(xì)節(jié)的各類傳播。但對(duì)此,DeepSeek 官方一直未作出回應(yīng)。

前不久,有外媒報(bào)道稱,DeepSeek R2 可能繼續(xù)推遲。遲遲未發(fā)布的內(nèi)部原因是 DeepSeek 創(chuàng)始人梁文鋒對(duì)該模型當(dāng)前的性能不滿意,工程師團(tuán)隊(duì)仍在優(yōu)化和打磨。與此同時(shí),也有人這樣推測(cè):R2 好歹要等 V4 出來(lái)再說(shuō),V3 可能已經(jīng)到達(dá)極限了。

每日活動(dòng)更多>>

七年磨一劍,捷途的“旅行+”如何成就200萬(wàn)傳奇? 四折瑪莎拉蒂:豪華品牌價(jià)值崩塌下的車市浮世繪 增程與純電雙選 首搭廣汽自研GSD智駕系統(tǒng) 埃安i60配置怎么選? 再造新廣汽!閤先慶任總經(jīng)理,攻堅(jiān)梯隊(duì)成型 調(diào)查:換代在即,奧迪Q5L開(kāi)啟“清庫(kù)存”模式 訂單突破30000臺(tái)!試駕星光730,全家人都滿意的MPV 有地暖的大六座SUV新能源汽車,是南方車企做的智己LS9 神龍汽車“在中國(guó),為全球”戰(zhàn)略加速 法式駕控體驗(yàn)季深化品牌承諾 悅達(dá)起亞出口50萬(wàn)輛,其他合資車企續(xù)命的一面鏡子 明年開(kāi)始,寶馬新款車型方向盤,將變成這3種! 如何追上“中國(guó)速度”?豐田:以信任提速,做更極致的“本土化” 激光雷達(dá)+長(zhǎng)續(xù)航組合拳,歐拉5能否打破“顏值花瓶”魔咒? 搭“恒星”超級(jí)增程/售價(jià)32.28萬(wàn)起 智己LS9正式上市 7.3萬(wàn)元起,星光730:三種動(dòng)力+舒適大7座,五菱又行了 前10個(gè)月銷量增長(zhǎng)0.6%!燃油車打響“智能化反擊戰(zhàn)” 業(yè)內(nèi):明年燃油車將以幾何級(jí)速度普及中高階智駕 李鳳剛“負(fù)氣”出走,一汽奧迪的下滑危機(jī)還將持續(xù)多久? 試駕smart #5 EHD:如何做到家用SUV的“全能平衡”? 官方指導(dǎo)價(jià)7.30-10.98萬(wàn)元 五菱星光730正式上市 從場(chǎng)景破局到生態(tài)共建:廣汽高域如何走通飛行汽車產(chǎn)業(yè)化之路 任何新技術(shù)落地后都需要經(jīng)歷一段磨合期才能真正成熟,別看只是“換了種電池”,背后的門檻很高 真全球車新軒逸要來(lái)了!海外售價(jià)16.84萬(wàn)起,國(guó)產(chǎn)版性價(jià)比更高 螢火蟲(chóng)又更新了,升級(jí)高功率電機(jī),價(jià)格更貴? 中型SUV別亂買 1-9銷量榜單出爐 5款銷量過(guò)十萬(wàn) 探岳第四 別卷軸距了!雅閣用吉尼斯級(jí)操控告訴你:B級(jí)車的尊嚴(yán)是開(kāi)出來(lái)的 比亞迪全球化按下加速鍵 10月英國(guó)銷量是特斯拉七倍 零跑汽車旗下全新車型——零跑Lafa5正式預(yù)售。新車共推出5款車型,預(yù)售價(jià)格為10.58-13.18萬(wàn)元 15萬(wàn)級(jí)熱門SUV行情盤點(diǎn)!這4款車型,誰(shuí)最香? 奔馳純電 CLA 的誠(chéng)意,是百年豪華對(duì)電動(dòng)時(shí)代的精準(zhǔn)作答 美國(guó)市場(chǎng)推出2026款寶馬i4,續(xù)航性能雙提升 保值率TOP10、擔(dān)綱“政要接待”、銷量勁增 上汽乘用車榮威MG雙品牌逆勢(shì)上揚(yáng)
亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区
欧美一区二区在线观看| 国户精品久久久久久久久久久不卡| 久久亚洲色图| 噜噜噜91成人网| 欧美日韩国产成人在线91| 国产精品美女主播| 好吊妞**欧美| 99国产精品久久久久久久成人热| 亚洲欧美综合精品久久成人| 久久视频国产精品免费视频在线| 欧美日韩国产91| 国产欧美日韩三区| 在线观看国产精品网站| 亚洲视频第一页| 玖玖综合伊人| 国产精品美女主播| 亚洲欧洲精品一区二区三区 | 欧美日韩国产二区| 国产一区二区三区久久精品| 99re6热在线精品视频播放速度| 先锋影音网一区二区| 欧美精品尤物在线| 国产亚洲精品v| 在线视频日本亚洲性| 可以看av的网站久久看| 国产精品视频网| 亚洲精品国产精品久久清纯直播| 午夜精品美女自拍福到在线| 欧美激情第二页| 国内成人在线| 亚洲在线免费观看| 欧美激情成人在线| 国语自产精品视频在线看8查询8| 一本一本a久久| 免费看黄裸体一级大秀欧美| 国产日本欧美一区二区| 一区二区av在线| 美女脱光内衣内裤视频久久网站| 国产欧美日韩另类视频免费观看| 一本久久综合亚洲鲁鲁| 欧美不卡高清| 一区二区在线观看av| 午夜精品区一区二区三| 欧美日韩午夜在线| 亚洲高清中文字幕| 久久精品亚洲乱码伦伦中文 | 久久在线免费观看| 国产欧美日韩三级| 亚洲视频图片小说| 欧美精品91| 亚洲国产成人在线| 久久人人97超碰精品888| 国产模特精品视频久久久久| 亚洲天堂av在线免费| 欧美片第一页| 亚洲精品在线免费| 欧美国产三级| 亚洲国产日韩欧美| 美日韩精品免费| 影音先锋一区| 久久久亚洲高清| 国内一区二区三区| 久久av资源网| 国产亚洲成精品久久| 一区二区三区欧美| 欧美日韩性生活视频| 亚洲黄一区二区| 欧美不卡视频一区| 亚洲国产cao| 老司机精品久久| 激情偷拍久久| 久久久久国色av免费看影院| 国产一区二区高清| 午夜一区在线| 国产日韩欧美精品综合| 亚洲欧美三级在线| 国产女主播在线一区二区| 午夜久久久久| 国产一区二区三区黄视频| 欧美主播一区二区三区| 国产午夜精品美女毛片视频| 久久精品中文字幕免费mv| 韩日成人在线| 免费视频最近日韩| 在线免费观看日本欧美| 欧美大片免费久久精品三p | 国产精品一区二区久久国产| 午夜精品免费视频| 国产亚洲人成网站在线观看| 久久国产天堂福利天堂| 精品1区2区| 欧美成人午夜| 亚洲最新在线视频| 国产精品热久久久久夜色精品三区 | 久久久国产视频91| 在线观看欧美一区| 欧美激情影院| 亚洲视频一区二区| 国产欧美一区视频| 久久精品日韩一区二区三区| 国产精品日韩欧美| 久久久久国产精品厨房| 亚洲国产欧美一区二区三区久久| 欧美日韩爆操| 午夜宅男欧美| 在线欧美日韩国产| 久久久精品2019中文字幕神马| 在线视频国产日韩| 欧美日韩三级电影在线| 欧美一区二区三区视频| 好吊色欧美一区二区三区视频| 欧美xx69| 亚洲欧美国产不卡| 精品不卡在线| 欧美日韩亚洲一区三区| 羞羞答答国产精品www一本| 激情五月***国产精品| 欧美精品一区二区三区一线天视频| 在线亚洲精品| 国内精品久久久久久影视8| 欧美激情精品久久久久久大尺度| 亚洲伊人网站| 在线播放日韩| 欧美亚一区二区| 久久免费视频网| 亚洲婷婷综合久久一本伊一区| 国产午夜精品全部视频在线播放 | 国内精品免费午夜毛片| 欧美日本不卡视频| 久久精品99国产精品酒店日本| 亚洲欧洲精品一区二区三区 | 久久精品一本| 一区二区三区视频在线| 国产伦理一区| 免费成人美女女| 亚洲免费伊人电影在线观看av| 精品动漫3d一区二区三区免费| 欧美日韩成人一区二区三区| 久久精品视频免费观看| 一区二区三区国产精品| 精品9999| 国产精品天美传媒入口| 免费不卡中文字幕视频| 欧美亚洲免费高清在线观看| 亚洲精品自在久久| 国内精品免费午夜毛片| 欧美三级电影一区| 快射av在线播放一区| 亚洲欧洲av一区二区三区久久| 亚洲人体影院| 狠狠噜噜久久| 欧美亚洲成人精品| 欧美激情第9页| 久久裸体艺术| 性18欧美另类| 亚洲深夜福利| 亚洲欧洲精品一区二区| 红桃视频国产一区| 国产精品男女猛烈高潮激情| 美女久久网站| 亚洲一二三区在线| 亚洲精品国产精品国产自| 狠狠色狠狠色综合人人| 国产精品一区免费视频| 欧美日韩午夜在线| 欧美经典一区二区| 老鸭窝毛片一区二区三区 | 国产精品久久久久久久久久ktv| 欧美第一黄色网| 麻豆freexxxx性91精品| 久久久精品国产免费观看同学| 亚洲欧美自拍偷拍| 亚洲一级免费视频| 99在线视频精品| 亚洲精品一区二| 亚洲国产一区二区三区a毛片| 极品少妇一区二区三区| 国产女优一区| 国产精品一区久久久久| 欧美三级网址| 欧美日韩视频在线| 欧美激情国产日韩精品一区18| 久久综合久色欧美综合狠狠| 久久久高清一区二区三区| 欧美在线观看视频在线| 先锋影音国产精品| 性欧美大战久久久久久久久| 亚洲欧美成人在线| 亚洲一二三级电影| 亚洲网站在线播放| 亚洲无吗在线| 亚洲一区不卡| 亚洲一区二区三区四区视频| 一区二区三区视频观看| 一本色道久久综合狠狠躁的推荐| 亚洲精品久久久久久久久久久久| 亚洲人永久免费| 亚洲乱码国产乱码精品精天堂| 亚洲精品色婷婷福利天堂| 亚洲另类自拍| 一个色综合av| 亚洲一区二区三区影院| 亚洲欧美国产高清va在线播| 亚洲欧美日韩国产中文|