Good Luck To You!

手机扫一扫

o1 Pro挑戰最難本科數學考試，36分鐘16秒交卷

鳳凰科技 2024-12-10 01:31:45 1

o1 Pro挑戰最難本科數學考試，人類要考6小時，AI半小時交卷！

普特南數學競賽（The Putnam exam），今年剛剛舉行，卷子新鮮出爐就被拿來測試AI了。

這個比賽有多難呢？看了一下歷年成績，只能說令人咂舌——

通常由數學專業的本科生參加，滿分120分，但平均分通常是0分或1分。

自1938年舉辦以來，截至2021年只有5人滿分。

再看一組2003年的資料，在3615名參賽學生中，有1024人（28%）得分10分或以上，42分就能進入前1%。

最終，個人得分前五名的學生獲得普特南學者稱號。而經過這種難度的“磨鍊”，普特南學者中後來誕生了3位菲爾茲獎得主以及兩位諾貝爾物理學獎得主。

總之一句話，即使對美國頂尖大學的頂尖數學學生來說，這個比賽的難度都堪稱地獄級。

所以，o1 Pro具體表現如何呢？？

o1 Pro挑戰最難本科數學考試

普特南數學競賽於每年12月的第一個週六舉行，總共上下兩場（每場3小時），每場6道題，每題10分，考查範圍覆蓋了本科數學中的高階概念，包括群論、集合論、圖論、格論和數論等。

由於剛考完，官方還未正式公佈今年的參考答案，所以下面我們先整體感受一下。

從時間來看，Pro完成12道題用時36分鐘16秒，交卷速度非常快，平均每道用時2~3分鐘。

完成的題也很複雜，隨機挑一道康康。

比如這道A6，需要考生透過序列所生成的函式，來構建矩陣，並最終計算出這個矩陣的行列式。

這是一個典型的組合數學和線性代數的交叉問題。

最終，Pro給出了一大堆讓人頭疼的數學公式進行解答。（非專業選手兩眼一黑的程度）

為了進一步瞭解Pro的答題過程，我們再挑一道網友們都在cue的題——A1。

原題及Dan Hendrycks博士輸入的提示詞如下：

大意為，確定所有正整數𝑛，使得存在正整數𝑎，𝑏和𝑐滿足下列方程。

Pro的作答過程如下，並得出答案為1：

結合網友們給出的評價，均提到Pro漏掉了n=2這種情況。

總之，從大家對Pro的打分來看，其回答質量仍有待進一步完善。

由於目前還沒有標準答案，因此AI究竟做對了多少還要等等結果。

除此之外，首位全職提示詞工程師Riley Goodside也對o1 Pro模式進行了其他諸多測試。

挑戰指令跟隨的極限

比如用它設計一個7x7的網格，網格的外圍一圈填入7個字母的單詞，這些單詞代表Fantastic Four（神奇四俠）中每個成員的暱稱。每個單詞的首尾字母需要重疊，以便可以順時針方向連續閱讀，形成閉環。

PS：Fantastic Four包括漫威中的神奇先生（Mr. Fantastic）、隱形女（Invisible Woman）、霹靂火（Human Torch）、石頭人（The Thing）。

看完這個測試，有網友藉機許願：

是否能夠根據每個玩家剩餘的棋子列表，建立一個checkmate（指另一方無法解圍的情況，也稱“將死”）的棋盤。

受此啟發，Riley Goodside轉頭就測上了。

他用Pro擺出了一個“將軍”格局——每位玩家只剩下兩個兵和一個車，棋盤上其他格子都是空的。（佈局是人為設計的）

就這，還是他一番努力嘗試後的結果。他一開始用了兩個兵、兩個象和一個車的棋局，但在多次嘗試中，Pro出現了錯誤，或者返回了不符合的棋局。

不過他也提到，在5分45秒的時間內，Pro生成了與答案大致一致的COT思維鏈解釋。

總之，要問定價200美元的Pro到底值不值？

還是參考奧特曼的回答，絕大多數人用免費版或20美元版就足夠了，Pro版只適合很小一部分人，他們想要大量使用，且願意為解決真正困難的問題付更多錢。

One More Thing

不過，如果你也心癢想要玩一玩，現在有個省錢的方法。根據網友提醒——

月底買Pro，只需按比例支付了。

具體來說，如果你之前訂閱了ChatGPT Plus，如果在訂閱接近結束時升級到Pro版，就可以在剩餘時間內按照200美元的百分比支付。

參考連結：

[1]https://x.com/DanHendrycks/status/1865858756040704335

[2]https://x.com/goodside/status/1865844652428919121

[3]https://x.com/goodside/status/1865629150104404150

[4]https://x.com/goodside/status/1865514669697323290

[5]https://x.com/goodside/status/1865090104441672183

[6]https://x.com/SmokeAwayyy/status/1865441145788199051

— 完 —

o1 pro 挑戰最難本科數學考試 36 分鐘 16秒交卷

o1 Pro挑戰最難本科數學考試，36分鐘16秒交卷

相關文章