China Daily Homepage
中文網首頁
時政
資訊
C財經
生活
視頻
專欄
原創
觀天下
地方

登錄

注冊

移動新媒體

China Daily Homepage
中文網首頁
時政
資訊
C財經
生活
視頻
專欄
漫畫
原創
觀天下
地方

OpenAI最新模型o3展現強大推理能力

來源：科技日報

2024-12-26 07:54　

分享到

分享到微信

12月20日，美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。該公司宣稱，o3具備更先進、近似人類的推理能力，在代碼編寫、數學競賽和掌握人類博士級別的科學知識等方面，均超越了其“前輩”o1。

不過，英國《新科學家》網站在12月22日的報道中指出，盡管o3“實現了令人矚目的性能飛躍”，但仍未達到業內翹首以盼的通用AI(AGI)水平。

多方面表現出色

OpenAI公司透露，在解決更復雜的多步驟問題時，o3模型會花更多時間計算答案，然后再給出回應。這一推理能力的提升，使o3在多項測試中表現出色。

大型語言模型熱衷于在各種數學基準測試上瘋狂“刷分”，o3也不例外。在2024年美國數學邀請賽中，o3模型的準確率高達96.7%，僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中，o3也解決了25.2%的問題。盡管這一得分看似不高，但此前其他大型語言模型曾在此“集體翻車”，正確率均未超過2%。

Frontier Math測試難度極大，曾被華裔數學家、菲爾茲獎得主陶哲軒評價為“可能會難住AI好幾年”。然而，o3只需思考幾分鐘便能解答其中一道題目，而人類數學家則要花費數小時到數天。

在對科學知識的掌握方面，o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現，涵蓋化學、物理和生物學方面的專業知識)基準測試中，o3的準確率達到87.7%，超過了人類博士的70%，也比之前o1表現高近10%。

此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上，o3的準確率約為71.7%，比o1高20%以上。在Codeforces編碼競賽平臺中，o3的得分為2727，相當于榜單上第175名人類編程員的水平，而o1得分僅為1891。

在展示了o3取得的這些傲人成績后，OpenAI首席執行官奧爾特曼強調，o3的出現標志著AI進入了下一個發展階段，這些模型可處理需要大量推理的復雜任務。

與人類智能仍有差異

《新科學家》網站還報道，在被視為AGI重要衡量標準的抽象與推理語料庫-AGI(ARC-AGI)大賽中，o3模型也創下新紀錄：在低算力配置下，它以75.7%的得分登上公共排行榜前列。只因確定此項大獎得主的測試具有更嚴格的算力限制，在該算力限制下，o3的挑戰以失敗告終。

不過，在超出官方算力限制172倍的高算力下，o3采用“蠻力”取得了87.5%的成績，達到了代表人類水平的85%門檻。

對于o3的表現，谷歌前工程師、ARC-AGI主要創建者弗朗索瓦·肖萊在博客中寫道，這是AI能力的一次驚人且重要的躍升。但o3尚未實現AGI，因為其仍然無法解決ARC-AGI比賽中一些非常簡單的問題，這表明其與人類智能存在根本差異。

AGI是一個假想中的未來系統，它能夠模仿人類思維、決策，擁有自我意識，并能自主行動。然而，AGI目前主要活躍在科幻作品中，尚未走進現實。

升級迭代并非易事

o3不僅是OpenAI公司的最新力作，也是AI巨頭競逐大型語言模型的生動寫照。

兩年前，OpenAI發布了ChatGPT，由此拉開了AI軍備競賽的序幕。從GPT-3.5到更準確、更具創造性的GPT-4，再到o1，直至o3，OpenAI在不斷精進自家產品。

其他頂級AI開發商也在利用日益先進的技術，推動自家產品迭代升級。此前不久，谷歌推出了其旗艦模型“雙子座”(Gemini)的新版本，據稱其速度是上一代的兩倍，并且能夠“思考、記憶、規劃，甚至替代用戶采取行動”。元宇宙平臺公司計劃明年推出Llama 4。

然而，迭代之路并非坦途。包括OpenAI和谷歌在內的幾家領軍企業，正面臨新模型開發耗資巨大但回報遞減的困境。OpenAI的GPT-5模型開發工作進展緩慢。據悉，僅6個月的訓練，單計算成本就高達約5億美元，而性能僅比該公司現有產品略勝一籌。

◎本報記者劉霞

【編輯:史詞】

【責任編輯：張瑨瑄】

科技日報

最熱新聞

為你推薦

換一批

關于我們 | 聯系我們

首頁
時政
資訊
財經
生活
視頻
專欄
漫畫
獨家
招聘

中國日報網版權說明：凡注明來源為“中國日報網：XXX（署名）”，除與中國日報網簽署內容授權協議的網站外，其他任何網站或單位未經允許禁止轉載、使用，違者必究。如需使用，請與010-84883777聯系；凡本網注明“來源：XXX（非中國日報網）”的作品，均轉載自其它媒體，目的在于傳播更多信息，其他媒體如需轉載，請與稿件來源方聯系，如產生任何問題與本網無關。

版權保護：本網登載的內容（包括文字、圖片、多媒體資訊等）版權屬中國日報網（中報國際文化傳媒（北京）有限公司）獨家所有使用。未經中國日報網事先協議授權，禁止轉載使用。給中國日報網提意見：rx@chinadaily.com.cn

首頁
時政
資訊
財經
文化
漫畫
視頻
地方

中文 | English

国产影片AV级毛片特别刺激,精品欧美一区免费观看α√,国产精品久久久久久福利,亚洲一区在线曰日韩在线

OpenAI最新模型o3展現強大推理能力