鳳凰科技 2024-12-10 01:31:45 1
o1 Pro挑戰最難本科數學考試,人類要考6小時,AI半小時交卷!
普特南數學競賽(The Putnam exam),今年剛剛舉行,卷子新鮮出爐就被拿來測試AI了。
這個比賽有多難呢?看了一下歷年成績,只能說令人咂舌——
通常由數學專業的本科生參加,滿分120分,但平均分通常是0分或1分。
自1938年舉辦以來,截至2021年只有5人滿分。
再看一組2003年的資料,在3615名參賽學生中,有1024人(28%)得分10分或以上,42分就能進入前1%。
最終,個人得分前五名的學生獲得普特南學者稱號。而經過這種難度的“磨鍊”,普特南學者中後來誕生了3位菲爾茲獎得主以及兩位諾貝爾物理學獎得主。
總之一句話,即使對美國頂尖大學的頂尖數學學生來說,這個比賽的難度都堪稱地獄級。
所以,o1 Pro具體表現如何呢??
o1 Pro挑戰最難本科數學考試
普特南數學競賽於每年12月的第一個週六舉行,總共上下兩場(每場3小時),每場6道題,每題10分,考查範圍覆蓋了本科數學中的高階概念,包括群論、集合論、圖論、格論和數論等。
由於剛考完,官方還未正式公佈今年的參考答案,所以下面我們先整體感受一下。
從時間來看,Pro完成12道題用時36分鐘16秒,交卷速度非常快,平均每道用時2~3分鐘。
完成的題也很複雜,隨機挑一道康康。
比如這道A6,需要考生透過序列所生成的函式,來構建矩陣,並最終計算出這個矩陣的行列式。
這是一個典型的組合數學和線性代數的交叉問題。
最終,Pro給出了一大堆讓人頭疼的數學公式進行解答。(非專業選手兩眼一黑的程度)
為了進一步瞭解Pro的答題過程,我們再挑一道網友們都在cue的題——A1。
原題及Dan Hendrycks博士輸入的提示詞如下:
大意為,確定所有正整數𝑛,使得存在正整數𝑎,𝑏和𝑐滿足下列方程。
Pro的作答過程如下,並得出答案為1:
結合網友們給出的評價,均提到Pro漏掉了n=2這種情況。
總之,從大家對Pro的打分來看,其回答質量仍有待進一步完善。
由於目前還沒有標準答案,因此AI究竟做對了多少還要等等結果。
除此之外,首位全職提示詞工程師Riley Goodside也對o1 Pro模式進行了其他諸多測試。
挑戰指令跟隨的極限
比如用它設計一個7x7的網格,網格的外圍一圈填入7個字母的單詞,這些單詞代表Fantastic Four(神奇四俠)中每個成員的暱稱。每個單詞的首尾字母需要重疊,以便可以順時針方向連續閱讀,形成閉環。
PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隱形女(Invisible Woman)、霹靂火(Human Torch) 、石頭人(The Thing)。
看完這個測試,有網友藉機許願:
是否能夠根據每個玩家剩餘的棋子列表,建立一個checkmate(指另一方無法解圍的情況,也稱“將死”)的棋盤。
受此啟發,Riley Goodside轉頭就測上了。
他用Pro擺出了一個“將軍”格局——每位玩家只剩下兩個兵和一個車,棋盤上其他格子都是空的。(佈局是人為設計的)
就這,還是他一番努力嘗試後的結果。他一開始用了兩個兵、兩個象和一個車的棋局,但在多次嘗試中,Pro出現了錯誤,或者返回了不符合的棋局。
不過他也提到,在5分45秒的時間內,Pro生成了與答案大致一致的COT思維鏈解釋。
總之,要問定價200美元的Pro到底值不值?
還是參考奧特曼的回答,絕大多數人用免費版或20美元版就足夠了,Pro版只適合很小一部分人,他們想要大量使用,且願意為解決真正困難的問題付更多錢。
One More Thing
不過,如果你也心癢想要玩一玩,現在有個省錢的方法。根據網友提醒——
月底買Pro,只需按比例支付了。
具體來說,如果你之前訂閱了ChatGPT Plus,如果在訂閱接近結束時升級到Pro版,就可以在剩餘時間內按照200美元的百分比支付。
參考連結:
[1]https://x.com/DanHendrycks/status/1865858756040704335
[2]https://x.com/goodside/status/1865844652428919121
[3]https://x.com/goodside/status/1865629150104404150
[4]https://x.com/goodside/status/1865514669697323290
[5]https://x.com/goodside/status/1865090104441672183
[6]https://x.com/SmokeAwayyy/status/1865441145788199051
— 完 —