亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

首頁 > 生活知識 > 生活知識 > 比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

發(fā)布時間:2025-08-24 11:55:03

DeepConf由Meta AI與加州大學圣地亞哥分校提出,核心思路是讓大模型在推理過程中實時監(jiān)控置信度,低置信度路徑被動態(tài)淘汰,高置信度路徑則加權(quán)投票,從而兼顧準確率與效率。在AIME 2025上,它首次讓開源模型無需外部工具便實現(xiàn)99.9%正確率,同時削減85%生成token。

如何讓模型在思考時更聰明、更高效,還能對答案有把握?

最近,Meta AI與加州大學圣地亞哥分校的研究團隊給出了一個令人振奮的答案——Deep Think with Confidence(DeepConf),讓模型自信的深度思考。

論文地址:https://arxiv.org/pdf/2508.15260

項目主頁:https://jiaweizzhao.github.io/deepconf

這項新方法通過并行思考與「置信度篩選」,不僅讓模型在國際頂尖數(shù)學競賽AIME 2025上拿下了高達99.9%的正確率。

可以說,這是首次利用開源模型在AIME 2025上實現(xiàn)99.9%的準確率,并且不使用任何工具!

并且在保持高質(zhì)量推理的同時,將生成的token數(shù)量削減了84.7%

DeepConf還為并行思考(parallel thinking)帶來了多項硬核優(yōu)勢:

性能飆升:在各類模型與數(shù)據(jù)集上,準確率平均提升約10%

極致高效:生成token數(shù)量銳減高達85%

即插即用:兼容任何現(xiàn)有模型——無需額外訓練(也無需進行超參數(shù)微調(diào)!)

輕松部署:在vLLM中僅需約50行代碼即可集成

以DeepConf在HMMT 25(哈佛–麻省理工數(shù)學競賽)的第11道題目上的推理過程為例。

核心思想是DeepConf通過「置信度信號」篩選推理路徑,從而得到高質(zhì)量答案,并在效率與準確率之間取得平衡。

橫軸(token index):表示模型生成的推理步驟(隨著token逐步增加)。

縱軸(confidence):表示每條推理路徑在該步驟上的置信度水平。

綠色曲線:表示不同推理路徑的置信度軌跡,越深的綠色表示置信度越高。

紅色叉叉:低于置信度閾值的推理路徑,被動態(tài)篩除。

綠色對勾:最終被保留下來的高置信度路徑。

最終表決:這些路徑在基于置信度加權(quán)的多數(shù)表決下,最終得出統(tǒng)一答案:29。

DeepConf在生成過程中,會持續(xù)監(jiān)控推理路徑的置信度,低置信度路徑被及時淘汰,只保留「更有把握」的路徑,提升整體準確性。

通過準確率對比曲線,上圖可以看出縱軸是accuracy(準確率),黃色曲線(DeepConf)比藍色曲線(標準方法)明顯更高。

表明DeepConf在相同投票規(guī)模下能達到更高的準確率。

下圖橫軸是token數(shù)量(推理所需的計算成本),黃色曲線在準確率保持較高的同時,token消耗明顯更少。

表明DeepConf大幅減少了無效token的生成,推理效率更優(yōu)。

DeepConf讓模型不再「胡思亂想」,而是高效地走在高置信度的推理軌道上。

DeepConf支持兩種工作模式:

離線模式:根據(jù)置信度篩選已完成的推理路徑,然后根據(jù)質(zhì)量對投票進行加權(quán)。

在線模式:當置信度實時降至閾值以下時,立即停止生成。

DeepConf的秘訣是什么?

其實,LLM知道自己何時開始不確定的,只是大家一直沒有認真關(guān)注過他們的「思考過程」。

之前的方法在完整生成之后使用置信度/熵用于測試時和強化學習(RL)。

DeepConf的方法不同,不是在完成后,而是在生成過程中捕捉推理錯誤。

DeepConf實時監(jiān)控「局部置信度」,在錯誤的推理路徑消耗數(shù)千個token之前及時終止。

只有高質(zhì)量、高置信度的推理路徑才能保留下來!

DeepConf是怎樣「用置信度篩選、用置信度投票」?

這張圖展示了DeepConf在離線思考時的核心機制:

它先判斷哪些推理路徑值得信賴,把不靠譜的路徑提前剔除,再讓靠譜的路徑進行加權(quán)投票,從而得到一個更準確、更高效的最終答案。

首先是每一token「有多確定」。

當模型在寫推理步驟時,其實每個詞(token)背后都有一個「信心值」。

如果模型覺得「這一步答案很靠譜」,信心值就高。如果它自己都拿不準,這個信心值就會低。

上圖里用不同深淺的綠色和紅色標出來:綠色=更自信,紅色=不自信。

其次,不光要看單token,還要看整體趨勢。

DeepConf不只看某一個詞,而是會滑動窗口:看看一小段話里的平均信心值,衡量「這段話整體是否靠譜」。

重點看看最后幾句話的信心值,因為最終答案、最終結(jié)論往往決定于結(jié)尾。

DeepConf也會記下這條推理鏈里最差的一步,如果中間有明顯「翻車」,這條路徑就不太可靠。

這樣一來,每條完整的推理鏈路都會得到一個綜合的「置信度分數(shù)」。

最后,是先淘汰,再投票。

當模型并行生成很多條不同的推理路徑時:

第一步:過濾,把「置信度分數(shù)」排序,最差的10%直接丟掉,避免浪費。

第二步:投票,在剩下的推理鏈里,不是簡單數(shù)票,而是按照置信度加權(quán)投票。

也就是說:一條高置信度的路徑,它的意見分量更大;低置信度的路徑,即便答案一樣,也不會拉高太多票重。

最后看一下結(jié)果,在圖的右邊可以看到:有的路徑說「答案是109」,有的說「答案是103、104、98」。

但由于支持「109」的路徑更多、而且置信度更高,所以最終投票選出了109作為答案。

成績刷爆99.9%

比GPT-5還高

離線模式結(jié)果:在AIME 2025上達到99.9%的準確率(基線為97%)!

在5個模型×5個數(shù)據(jù)集上實現(xiàn)普適性增益。

在所有設(shè)置下均取得約10%的穩(wěn)定準確率提升。

在線模式結(jié)果:在所有基準測試中節(jié)省33%-85%的token!

在AIME 2025基準測試中,使用GPT-OSS-120B,在減少85%的token消耗下,仍達到97.9%的準確率。

該方法適用于從8B到120B的各類開源模型——在不犧牲質(zhì)量的前提下實現(xiàn)實時高效。

在離線環(huán)境中對置信度度量進行基準測試。報告的數(shù)值為準確率(%)。

Cons@512和mean@512分別表示使用512條推理軌跡進行的多數(shù)投票結(jié)果,以及平均置信度的均值。所有實驗均重復進行了64次。

在在線環(huán)境中對DeepConf進行基準測試。

在投票規(guī)模預算為512的條件下,報告多數(shù)投票方法與DeepConf(高/低)的方法的準確率(%)以及生成的token數(shù)量(×10?)。

基于置信度的深度思考

研究者的思考是:到底怎么把「置信度」用得更巧妙,讓模型既想得更準,又想得更快呢?

正如前文所述,這里可以分成兩個使用場景:

離線思考:等模型把一整條推理路徑都寫完了,再回頭去評估每條路徑的置信度,把靠譜的結(jié)果聚合在一起。這樣做的好處是能最大化提升答案的準確性

在線思考:在模型一步步生成推理的過程中,就實時參考置信度。如果發(fā)現(xiàn)某條思路不靠譜,可以及時停掉,避免浪費算力。這樣能邊走邊篩選,提升效率甚至精度。

離線思考

在離線思考模式下,每個問題的所有推理路徑均已生成。

此時的核心挑戰(zhàn)是:如何聚合來自多條路徑的信息,從而更準確地確定最終答案。

針對這一點,研究人員采用了標準的多數(shù)投票(majority voting)方法。

多數(shù)投票(Majority Voting)

在標準的多數(shù)投票中,每條推理路徑得出的最終答案對最終決策的貢獻是均等的。

設(shè)T為所有已生成路徑的集合,對于任意路徑t∈T,設(shè)answer(t)為從該路徑中提取的答案文本。

那么,每個候選答案a的票數(shù)為:

置信度加權(quán)多數(shù)投票

這個方法不再均等對待每條路徑的投票,而是依據(jù)其關(guān)聯(lián)路徑的置信度,為每個最終答案賦予權(quán)重。

對于每個候選答案a,它的總投票權(quán)會被重定義為:

置信度過濾

在加權(quán)多數(shù)投票的基礎(chǔ)上,還需要應(yīng)用置信度過濾,才能在將投票更集中于高置信度的推理路徑。

具體來說就是,通過路徑的置信度分數(shù),篩選出排序前η%的路徑,從而確保只有最可靠的路徑參與最終答案的決定。

選擇前10%:專注于置信度最高的少數(shù)路徑。適用于少數(shù)路徑就能解決問題的場景,但風險是如果模型存在偏見,容易選錯答案。

選擇前90%:納入更廣泛的路徑。這種方法能保持多樣性、減少模型偏見,在各路徑置信度相差不大時尤其穩(wěn)健。

圖3闡釋了各種置信度度量方法以及基于置信度的離線思考的工作原理。

算法1則提供了該算法的詳細實現(xiàn)。

在線思考

在線思考模式通過在生成過程中實時評估推理路徑的質(zhì)量,來動態(tài)終止低質(zhì)量的路徑,進而確保其在后續(xù)的置信度過濾階段大概率能被排除。

對此,研究人員提出了兩種基于最低分組置信度,并會自適應(yīng)地中止生成過程并調(diào)整推理路徑的預算的方法:DeepConf-low和DeepConf-high。

其中,共包含兩大核心組件:離線預熱與自適應(yīng)采樣。

離線預熱(Offline Warmup)

DeepConf需要一個離線預熱階段,以便為在線決策過程建立停止閾值s。

對于每個新的提示詞,首先生成Ninit條推理路徑(例如,Ninit=16)。

停止閾值s定義為:

在所有配置下,DeepConf-low均統(tǒng)一采用前η=10%的策略,而DeepConf-high則統(tǒng)一采用前η=90%的策略。

在在線生成過程中,一旦某條推理路徑的置信度低于預熱階段的數(shù)據(jù)所設(shè)定的、能夠篩選出置信度排序前η%路徑的最低門檻,生成過程就會被終止。

自適應(yīng)采樣(Adaptive Sampling)

在DeepConf中,所有方法都采用了自適應(yīng)采樣,如此就可以根據(jù)問題難度動態(tài)調(diào)整所生成推理路徑的數(shù)量。

問題難度通過已生成路徑之間的一致性程度來評估,其量化方式為多數(shù)投票權(quán)重與總投票權(quán)重的比值:

若β

由于采用的是最低分組置信度,一個足夠大的預熱集便能產(chǎn)生對停止閾值s的精確估計。

因此,任何被在線終止的路徑,其分組置信度必然低于s,也就會被離線過濾器所排除。

這樣,在線流程便能近似于離線的最低分組置信度策略,并且隨著Ninit的增加,其準確率會逼近離線策略的準確率。

圖4中闡釋了在線生成的過程。

算法2則提供了該算法的詳細實現(xiàn)。

具體過程,我們就用上圖里的這道「勾股三元組計數(shù)」問題舉個例子。

DeepConf要在生成推理的同時判斷:哪條思路靠譜、該繼續(xù);哪條思路不靠譜、該盡早停,從而少花token、又更準。

兩個階段:先定閾值,再在線篩

1. Offline Warm-up(上圖右側(cè),離線預熱)

先離線跑幾條完整的推理軌跡(Trace 1~5),給每條算一個「整體有多靠譜」的分數(shù)。

按分數(shù)做一次置信度過濾,好的軌跡在上方(綠色),差的在下方(紅色)。

據(jù)此確定一個停止閾值s(圖中綠色箭頭標注)。

簡單來說就是低于 s 的,通常是不值得繼續(xù)的推理。

這一步就像「熱身+標定」,模型把「該不該?!沟拈T檻先定好。

2. Online Generation(上圖中間,在線生成)

正式解題時,同時展開多條并行思路(多行的方塊序列)。

對每條思路,系統(tǒng)滾動地評估「這段話最近一小段的可靠度」(圖中方塊從左到右代表一步步的生成)。

左下 & 右下的小曲線各自表示模型的「把握」程度。

左下綠曲線表示模型對接下來的詞更「有把握」,示例文本是正經(jīng)的數(shù)學推理(如「勾股三元組公式…」),這類內(nèi)容通常被保留。

右下紅曲線表示模型在猶豫或「自我懷疑」,示例文本是「讓我再想想、回頭檢查一下…」,這類猶豫/兜圈子的片段常被判為低置信度,從而觸發(fā)在線早停。

先離線確定「可靠度閾值s」,再在線用s給并行思路「邊走邊檢查」。

不靠譜就當場叫停,靠譜的繼續(xù)前進。這樣就能做到既快又準了。

作者介紹

Yichao Fu

論文一作Yichao Fu是加州大學圣地亞哥分校(UC San Diego)計算機科學與工程系的博士生,師從張昊教授,也就是老朋友Hao AI Lab的負責人。

此前,他在浙江大學獲得計算機科學學士學位。

他的研究興趣主要為分布式系統(tǒng)、機器學習系統(tǒng)以及高效機器學習算法,近期專注于為LLM的推理過程設(shè)計并優(yōu)化算法與系統(tǒng)。

他參與的項目包括:Lookahead Decoding、vllm-ltr和Dynasor。

生活知識更多>>

江西五十鈴RE-MAX瑞邁上市共計推出4款車型,售價區(qū)間為8.68-10.98萬元 門檻低至7.3萬元 五菱星光730超級空間才是剛需? 新款日產(chǎn)納瓦拉汽油版正式申報,外觀很硬朗,搭載2.0T動力 本周新車公告|全新坦克400、寶駿悅也、比亞迪夏 東南亞不能丟,豐田汽車的阻擊來勢洶洶 “油電新能源汽車并行”廣州車展合資新車看點 新獅鉑拓界首發(fā)亮相,悅達起亞將攜全新陣容亮相廣州車展 比亞迪輕型純電商用車T4上市,售價9.58萬元起 馬自達首款定制純電動汽車原型曝光,計劃 2027 年推出 時間還要追溯至2022年,過去以日歐美品牌為主導的南非汽車市場,被迅速涌入的中國汽車品牌打破。以奇瑞、比亞迪、長城為代表的中國汽車軍團,在這次“搶灘”中并非使用簡單的價格戰(zhàn),而是涵蓋了產(chǎn)品布局、技術(shù)路線、渠道建設(shè)乃至本土化生產(chǎn)的全方位競爭。 中國汽車搶灘南非,全是智慧 破局者or陪跑者?歐拉5能否撼動元PLUS的地位? 搭載Momenta智駕方案的BMW iX3或于明年上市 對話長城魏建軍:汽車狂人,不推、不躲、不裝 比亞迪獨占八成的10萬級插混家轎市場,會被誰破局? 2.0T發(fā)動機/MQB Evo平臺 大眾T-Roc R預告圖發(fā)布 馳騁賽道 感受法式駕趣 神龍汽車賽道體驗日完美落幕 當顏值遇上實力:東風風行11.19星海之夜,初代國民女神懸念揭曉! 10月小型SUV銷量榜 僅兩款銷量過萬 繽越第二 梅賽德斯-奔馳廣州車展陣容曝光!網(wǎng)友:都不咋好看 領(lǐng)克Z20曜紅版官圖發(fā)布!將在廣州車展上市 大眾安徽新COO,為什么是劉展術(shù)? 智己LS9上市限時32.28萬起 全系標配800V/純電續(xù)航402km 全年銷量預計再創(chuàng)新高 中汽協(xié)建議明年繼續(xù)實施促市政策 東風奕派eπ007+上市:以硬核產(chǎn)品力加速新能源征程 歐拉5正式開啟預售 定位純電緊湊型SUV,預售價10.98萬起 智駕半壁江山,十萬銷量一騎絕塵,華為已坐上牌桌發(fā)牌 長安馬自達EZ-60:將駕駛的快樂,再次點燃 特斯拉中國銷量跌至3年來最低點 10月全尺寸SUV新能源汽車銷量排名!
亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区
狠狠久久婷婷| 亚洲欧美日韩区| 亚洲系列中文字幕| 99国产精品久久久久久久| 中文国产成人精品久久一| 国内精品久久久久影院色| 国产色爱av资源综合区| 国产一级精品aaaaa看| 欧美日韩高清在线播放| 欧美精品在线网站| 久久中文字幕一区| 欧美韩日一区二区| 欧美高清在线| 国产精品白丝av嫩草影院| 国产日韩在线播放| 亚洲国产精品va在线看黑人 | 国产精品久久久久久一区二区三区 | 欧美激情国产精品| 国产精品嫩草久久久久| 黄色小说综合网站| 夜夜爽www精品| 欧美制服第一页| 欧美精品一区在线发布| 国产精品一页| 亚洲欧洲日本mm| 亚洲伊人网站| 久久婷婷麻豆| 国产精品国产三级国产普通话99| 国产主播一区二区三区四区| 国产精品一区一区三区| 亚洲国产精品一区二区www| 亚洲一区二区三区四区五区黄 | 亚洲精选在线观看| 久久久精品久久久久| 欧美日韩亚洲在线| 国产精品国产三级国产普通话三级| 国产一级一区二区| 正在播放欧美一区| 亚洲作爱视频| 久久夜色精品国产噜噜av| 欧美视频在线一区二区三区| 在线精品观看| 午夜精品一区二区在线观看 | 欧美mv日韩mv国产网站| 欧美成人黑人xx视频免费观看 | 亚洲人成人一区二区在线观看| 在线色欧美三级视频| 亚洲欧美国产高清va在线播| 欧美精品电影在线| 樱桃成人精品视频在线播放| 亚洲在线第一页| 欧美日韩麻豆| 亚洲激情一区二区三区| 久久久噜噜噜久久久| 国产精品日日摸夜夜摸av| 日韩视频在线观看免费| 久久久久久久久蜜桃| 国产精品夜夜夜一区二区三区尤| 在线视频亚洲一区| 欧美激情导航| 亚洲国产精品一区制服丝袜| 久久久99爱| 国产日韩欧美一二三区| 亚洲综合视频1区| 欧美图区在线视频| 99精品国产福利在线观看免费| 欧美阿v一级看视频| 一区二区三区在线观看欧美| 久久精品噜噜噜成人av农村| 国产情侣一区| 欧美一二三区精品| 国产美女精品免费电影| 亚洲免费在线观看| 国产精品第三页| 亚洲线精品一区二区三区八戒| 欧美日韩精品一区二区天天拍小说 | 国产精品久久久久永久免费观看| 中文亚洲免费| 欧美揉bbbbb揉bbbbb| 一区二区三区精品视频| 欧美日韩色一区| 一区二区三区免费看| 欧美视频精品在线| 亚洲一区国产一区| 国产精品一区二区久激情瑜伽| 中文在线不卡| 欧美色图五月天| 在线一区二区三区四区五区| 欧美午夜在线观看| 在线免费日韩片| 老司机精品视频网站| 亚洲国产一成人久久精品| 欧美成人一区二区| 亚洲乱亚洲高清| 欧美日韩精品二区第二页| 在线一区二区三区做爰视频网站| 欧美特黄一级| 午夜精品久久久久久久久久久久 | 久久精品国语| 在线免费观看成人网| 亚洲一区二区三区乱码aⅴ蜜桃女| 国产精品国产福利国产秒拍| 欧美一区二区三区免费观看视频| 国产一区二区高清不卡| 久久性天堂网| 日韩一二在线观看| 国产精品美女主播在线观看纯欲| 欧美一区二区在线| 在线观看日韩| 欧美日韩精品| 午夜精品久久99蜜桃的功能介绍| 国产伦精品一区二区| 久久在线免费视频| 日韩一级在线观看| 国产伦精品一区二区三区免费| 久久久精品一区| 亚洲黄色在线观看| 国产精品v欧美精品∨日韩| 欧美在线啊v| 亚洲黄色成人网| 国产精品黄视频| 久久久久国产精品一区二区| 亚洲欧洲另类国产综合| 国产精品高潮呻吟久久av无限| 欧美一区二区性| 亚洲激情电影在线| 国产精品另类一区| 美乳少妇欧美精品| 亚洲网站视频| 在线成人激情视频| 国产精品www994| 麻豆国产va免费精品高清在线| 一区二区三区免费网站| 国产在线精品成人一区二区三区 | 在线视频成人| 国产精品免费观看视频| 亚洲欧美激情视频在线观看一区二区三区| 国产中文一区二区| 欧美日韩日韩| 久久久人成影片一区二区三区| 韩日精品视频| 欧美日韩在线视频一区| 久久精品在线播放| 一级成人国产| 在线视频观看日韩| 国产精品热久久久久夜色精品三区| 另类天堂av| 午夜精品久久久久久久| 国产免费一区二区三区香蕉精| 免费欧美日韩| 欧美一区影院| 在线视频中文亚洲| 在线观看欧美| 国产精品夜夜夜一区二区三区尤| 欧美国产先锋| 久久嫩草精品久久久久| 亚洲专区免费| 亚洲精品影院| 樱桃视频在线观看一区| 国产精品一区二区三区乱码 | 欧美午夜激情在线| 欧美成年人视频| 久久精品国产一区二区三区免费看 | 欧美午夜视频在线观看| 欧美成人官网二区| 久久精品国产免费看久久精品| 国产精品99久久久久久久久| 亚洲激情视频在线播放| 国产一区二区三区久久久久久久久 | 久久国产日韩| 亚洲免费伊人电影在线观看av| 亚洲伦理精品| 亚洲东热激情| 欧美精品在线视频| 久久精品论坛| 先锋亚洲精品| 亚洲中字在线| 亚洲少妇自拍| 99视频一区| 亚洲精品中文在线| 亚洲国产欧美日韩另类综合| 黄色精品一区| 国内视频一区| 国产日韩av在线播放| 国产精品欧美一区二区三区奶水| 欧美日韩免费观看一区三区| 欧美高清视频一区二区| 免费成人高清在线视频| 久久综合久久综合久久| 久久久免费观看视频| 久久精品一区二区三区不卡牛牛| 欧美一区二区三区的| 香蕉久久精品日日躁夜夜躁| 亚洲欧美成人综合| 亚洲欧美在线x视频| 亚洲综合色激情五月| 精品动漫3d一区二区三区| 国产日韩欧美综合| 国产色视频一区| 国产日韩欧美不卡| 国产视频在线观看一区二区| 国产欧美日韩麻豆91| 国产噜噜噜噜噜久久久久久久久| 国产精品国码视频|