亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

首頁 > 每日活動 > 每日活動 > AI答IMO難題坦承“不會”,OpenAI稱“這就是自我意識”

AI答IMO難題坦承“不會”,OpenAI稱“這就是自我意識”

發布時間:2025-08-04 18:45:37

這一次,“不會”竟成了大模型的高光時刻。

雖然在 IMO 第 6 題上得了零分,OpenAI 的金牌模型卻展現了“高智商的誠實”。

正如 OpenAI 研究員 Noam Brown 在最新訪談中所揭示的:

當 IMO 推理模型會在缺乏有效證據時表示“我不確定”,這會顯著減少隱藏錯誤。

在 AI 摘下 IMO 金牌后,OpenAI 金牌小分隊成員 Alex Wei、Sheryl Hsu 和 Noam Brown 參與了紅杉資本組織的一場對話,揭秘模型攻克精英數學難題的底層突破。

有網友幫忙總結了個太長不看版:

與過去那些“看起來完美,實則錯誤”的幻覺式答案不同,這一代大模型開始學會“承認自己不會”。

它標志著模型正在從胡編亂造的幻覺式回答,轉向更加可靠且具有“自我認意識”的全新階段。

三位成員還在這場對話中,分享了更多關于沖刺 IMO 的有趣細節。

IMO 金牌模型能承認自己不知道

盡管數學家與計算機科學家一致認可 IMO 金牌模型的價值。

但他們常常抱怨,當模型遇到知識盲區時,它總會輸出一個令人信服但錯誤的答案。

他們不得不耗費大量精力逐行驗算,才能甄別那些幻覺陷阱。

IMO 第 6 題讓大模型全軍覆沒,當然,OpenAI 也對其進行了大量計算。

有一個由 2025×2025 個單位正方形組成的網格。Matilda 希望在網格上放置一些矩形圖塊,這些圖塊的大小不同,但每個圖塊的每一條邊都位于網格線上,并且每個單位正方形最多被一個圖塊覆蓋。

網格的每一行和每一列都恰好有一個未被任何瓷磚覆蓋的單位正方形,求出 Matilda 需要放置的最少瓷磚數量。

雖然投入海量算力最終僅得到一句“我無法回答”令人有些失望,但 Alex Wei 表示:

能看到模型避免產生幻覺是很好的。

Noam Brown 也對模型的這一轉變表示贊賞,“如果它不知道,它就會承認它不知道。”

這代表模型開始具備“自我意識”。

這種“自我意識”可以幫助模型在面對困難問題時,承認自己的無能為力,而不是生成一個看似合理實則錯誤的解決方案。

有趣的是,在 Alex Wei 2024 年剛加入 OpenAI 一周時,Noam Brown 就曾問過他,團隊何時能獲得 IMO 金牌。

當時 Alex Wei 認為 2025 年不太可能實現。

但令人驚嘆的是,這個三人團隊僅用了兩月,就完成了他們一直在追求的目標 ——IMO 金牌。

Noam Brown 還表示:

OpenAI 有一個很棒的地方,就是研究人員有很大的自主權去做他們認為有影響力的研究。

Alex 還強調,他們的團隊“真正優先考慮通用技術”,而不是專門開發用于數學競賽的系統。

OpenAI IMO 金牌核心團隊

OpenAI IMO 核心團隊僅由三名研究人員構成。

Alex Wei,本碩均就讀于哈佛大學,隨后在加州大學伯克利分校獲得計算機科學博士學位。

Alex 還曾在谷歌、微軟和 Meta 實習,后于 2024 年 1 月加入 OpenAI,現任研究科學家。他曾是 FAIR 團隊成員,參與開發了首個用于外交游戲的人類級人工智能 ——CICERO。

Sheryl Hsu,畢業于斯坦福大學計算機科學專業,是斯坦福 AI 實驗室中 IRIS 實驗室的研究員,于 2025 年 3 月加入 OpenAI。

Noam Brown,本科就讀于美國羅格斯新澤西州立大學新布朗斯維克分校,隨后在卡內基?梅隆大學獲碩士和博士學位。他曾任職于 DeepMind 和 Meta,于 2023 年 6 月加入 OpenAI。

每日活動更多>>

紅旗成都車展“攻守道”:金葵花守豪華之正,天工系列攻年輕之奇 星途ET5成都全球首秀:年輕家庭智慧安全SUV新選擇 全新坦克500上市2小時大定破1.2萬臺,牽手張雨綺刷爆成都車展 2025成都車展新車:38.99萬起,2026款嵐圖夢想家公布預售價 售訂單破4.8萬臺,智己LS6這張“超級增程”牌打對了 短軸大V6,長城炮V6火炮22.98萬起開啟預售 拓豪華越野新邊界,縱橫G700成都車展全球啟動盲訂 搭載三種動力,配備側滑門,五菱星光730MPV亮相成都車展 方程豹整活了!鈦 3 官方 “換臉” 上線,無損還合規 英國被曝向蘋果索取全球iCloud數據訪問權,涉及信息郵件密碼等 美國各地推廣互聯網用戶年齡檢查 批評人士警告稱可能危及隱私和言論自由 800美元以下包裹多年免稅政策終結 周五起需繳納關稅 賽力斯:2025年上半年凈利潤大漲81% 問界汽車交付超14.7萬輛 林肯的黃昏:當美式豪華淪為“雜物堆”旁的招租廣告 全新GL8陸尊:24小時訂單破萬,MPV王者如何征服新能源時代? 華為靳玉志稱華為不走VLA更傾向于WA;特斯拉Robotaxi奧斯汀再擴超越Waymo;全新小鵬P7七分鐘大定破萬 投石問路:華為再次借賽力斯試水新領域 概念車狂飆5479公里,奔馳給了中國電動車一記“溫柔耳光” 讓雷軍直呼“有點變態”的純電耐力賽成績,奔馳是如何刷出來的? 長城Hi4——中國汽車技術的“都江堰” 33.5萬元起,全新坦克500上市:硬派車還能這樣玩? 寶馬M3電動版路試諜照再次曝光,更多信息透露 安全才是真智駕!華為乾崑智駕助力傳祺向往S9從容征服8D重慶 鴻蒙智行秋季發布會:擊穿技術壁壘,定義行業規則 2025成都汽車展會:那些缺席者與堅守者 儲物空間豐富,外觀更激進,五菱繽果S預售價6.88萬元起 華為沒造車,卻勾勒出造車邏輯的分界 韓國豪華車市場捷尼賽思獨占鰲頭,奧迪緊追不舍! 從中國到世界:比亞迪7月領跑全球多國新能源車市 本田與索尼聯合開發的車型,為何在美國加利福尼亞無法銷售?
主站蜘蛛池模板: 班玛县| 衡东县| 永州市| 淳安县| 三原县| 岳西县| 庆阳市| 青海省| 赤水市| 平江县| 三明市| 文山县| 上栗县| 舞钢市| 巴里| 韶山市| 乾安县| 宾阳县| 巴南区| 隆化县| 平阳县| 峨眉山市| 利川市| 平昌县| 巧家县| 楚雄市| 华容县| 进贤县| 睢宁县| 双城市| 乌拉特前旗| 平度市| 大同县| 霍城县| 罗定市| 静宁县| 微山县| 乐东| 崇仁县| 嘉峪关市| 南安市|