鳳凰科技 2024-12-08 01:32:32 4
OpenAI“雙12”剛進行到第二天,就把大模型圈攪得好不熱鬧!
一邊是Meta沒預告就釋出了Llama 3.3,70B版本就能實現以前405B的效能。
另一邊谷歌的Gemini也上線了新的實驗版模型,再一次登上大模型競技場榜首。
有網友感嘆,o1、Llama 3.3和新版Gemini接連發布,馬斯克的Grok3也要來,還有GPT-4.5初露端倪……這簡直是最棒的一個聖誕季。
Llama 3.3:70B實現405B效果
Llama 3.3目前只有70B一個型號。
但在指令遵循(IFEval)、數學(MATH)、推理(GPQA Diamond)等領域,水平都超過了七月份釋出的Llama 3.1 405B。
在語言(MMLU)、程式碼(HumanEval)、長文字和多語種能力上,成績也和Llama 3.1 405B比較接近。
而在工具使用(BFCL)上,和405B的差距則顯得稍大一些。
不過,Llama 3.3的使用成本要比Llama 3.1 405B低得多。
雖然Llama本身是免費的,但是各個大模型平臺的服務價格也可以作為衡量成本的一個參考。
在Meta合作的平臺當中,Llama 3.3最便宜的價格是0.1/0.4美元每百萬輸入/輸出Token。
而Llama 3.1 405B,則是1美元每百萬輸入token,是Llama 3.3的10倍,輸出token為1.8美元,是Llama 3.3的4.5倍。
Meta生成式AI團隊領導者Ahmad Al-Dahle表示,Llama 3.3能用70B實現405B的效果,主要是“運用了後訓練技術的最新進展”,並點名其中包括線上偏好最佳化(online preference optimization)。
Meta AI官方賬號也提到,Llama 3.3的進步歸功於新的對齊過程和線上強化學習技術的進步。
目前,Llama 3.3的模型權重已在官網和Hugging Face上開放下載。
Gemini迎來週歲生日
Gemini 1206上線的這天,剛好是Gemini的一週歲生日。
不過,從節奏和以日期命名的方式來看,Gemini更像是一次例行更新(上一個版本是1121)。
當然成績還是很不錯的,直接登上了lmsys大模型競技場的榜首。
而且不只是總成績奪冠,困難提示詞、程式碼、數學、創意寫作等各個單項排名也都是第一。
實際上,Gemini此前有個1114版本,也當了一週的“榜一大哥”,後來被更新的GPT-4o給比了下去。
現在的最新版本,又讓Gemini重新回到了榜單上的王座。
此外,谷歌AI Studio產品負責人(原OpenAI開發者社羣主管)Logan介紹,Gemini 1206擁有2百萬token的上下文視窗,目前可透過谷歌AI Studio和Gemini API免費使用。
谷歌首席科學家Jeff Dean表示,取得這樣的成績是對Gemini生日最好的慶祝方式。
不過也有網友給谷歌潑了盆冷水,表示o1還沒出現在這個榜單上,而且GPT-4.5就要來了,谷歌第一的位置恐怕很快又會被OpenAI奪走。
One More Thing
除了谷歌和Meta,馬斯克xAI也被盛傳即將釋出Grok 3。
有網友發現,正在測試的Grok 2 mini消失了,認為這是要發Grok 3的徵兆。
除了對Grok 3的猜測,還有一條更確定的訊息——此前要充會員才能用的Grok,現在可以免費用了。
不過免費使用者用量比較有限,每兩小時只能處理10條訊息,而圖片分析一天只能處理三張。
有意思的是,我們試了試詢問Grok自己,它也表示Grok 3計劃在這個月上線。
但抓馬的是,點進後面引用的訊息源,發現這名博主也是問Grok之後發的帖子……
那麼,在這個釋出密集的十二月,你最鐘意或者最期待哪一款產品呢?