成人黄色小视频在线观看-成人黄色一级片-成人黄色一级视频-成人黄色影视-黄片毛片在线观看-黄片毛片在线看

您終于找到專注于電腦行業(yè)的管理軟件了

由于貼近電腦行業(yè) 使用起來自然得心應(yīng)手

AI 推理能力之爭:蘋果結(jié)論遭專家挑戰(zhàn)


IT之家 6 月 14 日消息,科技媒體 9to5Mac 昨日(6 月 13 日)發(fā)布博文,報道稱蘋果公司 6 月 6 日發(fā)布的 AI 研究論文《The Illusion of Thinking》引發(fā)爭議,專家質(zhì)疑評估方法。

蘋果公司在論文中指出,即便是當(dāng)前最先進(jìn)的大型推理模型(LRMs),在復(fù)雜任務(wù)中也會崩潰。不過 Open Philanthropy 的研究員 Alex Lawsen 對此提出詳細(xì)反駁,認(rèn)為蘋果的結(jié)論源于實驗設(shè)計缺陷,而非模型推理能力的根本性局限。

爭議的焦點是蘋果論文指出,即便是當(dāng)前最先進(jìn)的大型推理模型,在處理漢諾塔問題(Tower of Hanoi)等復(fù)雜任務(wù)時,也會出現(xiàn)徹底失敗的情況。

IT之家注:漢諾塔問題是一個經(jīng)典的遞歸算法問題:上帝創(chuàng)造了三根柱子,并在第一根柱子上按順序套有 N 個大小不同的圓盤(自下而上,圓盤由大到小,呈金字形)。

規(guī)定每次只能移動最頂端的一個圓盤,并且保證整個過程中大圓盤不能放在小圓盤之上。欲將所有圓盤從第一根柱子移動到第三根柱子,試給出解決方案。

Open Philanthropy 的研究員 Alex Lawsen 近日發(fā)布反駁文章《The Illusion of the Illusion of Thinking》,認(rèn)為蘋果的研究結(jié)果更多反映了實驗設(shè)計的缺陷,而非模型推理能力的真正局限。他在文章中直言,蘋果的研究混淆了輸出限制和評估設(shè)置問題,與實際推理失敗無關(guān)。

Lawsen 提出了三個核心問題,挑戰(zhàn)蘋果的結(jié)論。首先,他指出蘋果忽略了模型的 Token 預(yù)算限制。在處理 8 盤以上的河內(nèi)塔問題時,如 Anthropic 的 Claude Opus 等模型已接近輸出上限,甚至明確表示“為節(jié)省 Token 而停止”。

其次,蘋果的 River Crossing(過河)測試中包含無解謎題,例如 6 個以上角色搭配無法滿足的船只容量限制,模型因拒絕解答而被扣分

最后,蘋果的自動化評估腳本僅以完整步驟列表為標(biāo)準(zhǔn),未能區(qū)分推理失敗與輸出截斷,導(dǎo)致部分策略性輸出被誤判為失敗。Lawsen 認(rèn)為,這種僵硬的評估方式有失公允。

為支持觀點,Lawsen 重新設(shè)計了河內(nèi)塔測試,要求模型生成遞歸 Lua 函數(shù)來打印解法,而非逐一列出所有步驟。

結(jié)果令人驚訝:Claude、Gemini 和 OpenAI 的 o3 模型均能正確生成 15 盤問題的算法解法,遠(yuǎn)超蘋果報告的“零成功”復(fù)雜性界限。

Lawsen 得出結(jié)論:去除人為輸出限制后,LRMs 展現(xiàn)出處理高復(fù)雜任務(wù)的推理能力,至少在算法生成層面是如此。這表明,問題可能不在于模型本身,而在于評估方式。

來源:IT之家
電腦行業(yè)專用管理系統(tǒng):IT江湖    上一篇    下一篇

更多資源

Copyright ? 2004-2025 宇然軟件(www.yonhe.com.cn) 版權(quán)所有
粵ICP備14024714號