Good Luck To You!

手机扫一扫

對話AI科學家劉威:“Ilya預訓練終結論”對中國大模型公司影響不大

鳳凰科技 2025-01-03 01:35:05 1

過去一段時間,“預訓練終結”成為了 AI 領域最熱烈的討論之一。

OpenAI的GPT系列模型此前大踏步的前進,預訓練是核心推動力。而前 OpenAI 首席科學家 Ilya Sutskever、預訓練和scaling law(規模定律)最忠實的倡導者,卻宣稱預訓練要終結了、scaling law要失效。由此,引發了大量爭議。

與之相對應的,是GPT-5被曝研發受阻,已經比預期晚了6個月。似乎印證了Ilya的判斷。

大模型公司的未來,是否因此都蒙上了陰影?在劉威看來,所謂的預訓練終結對中國的大模型公司影響不大,還不必擔心。而據他對Ilya的瞭解,Ilya的話不能只看表面意思。

劉威是前騰訊混元大模型技術負責人之一,騰訊傑出科學家,前不久剛剛低調開啟AI領域的創業征程。

他於2016年加入騰訊AI Lab,與AI Lab另外兩位負責人張潼、俞棟一起,被業內稱為“AI Lab三劍客”。在2018年,劉威入選IEEE智慧系統10大AI青年科學家;2022年,因對大規模機器學習和智慧多媒體的貢獻,獲得IEEE Fellow。

在騰訊時期,劉威的工作主要是面向騰訊產品業務的CV基礎大模型、多模態理解大模型、文生圖、文生影片大模型等。

在劉威看來, Ilya此時這樣講,可能恰恰是因為他知道OpenAI內部遇到了一些技術瓶頸。即便如此,劉威認為,行業實際上依舊在跟隨著OpenAI,它仍是引領者。

那麼,該如何理解預訓練終結的真正影響,如何正確看待OpenAI正遭遇的瓶頸、國內外大模型公司的處境,以及預判AI進化的下一階段?

針對這些問題,劉威從科學家和AI創業者的視角,和我們聊了聊。

以下是對話實錄,經編輯整理,為便於閱讀,有所刪減:

“預訓練終結對中國大模型公司影響不大”

虎嗅:llya最近表示預訓練將會終結,預訓練模型需要的海量資料即將枯竭。你如何看待他的觀點?

劉威:按照llya的說話風格,他一般不會把前面的定語、狀語說得很明白。所以,“預訓練終結”前面的定語和狀語是什麼呢?確切地說,是文字領域的大語言模型的預訓練要終結了,資料枯竭、找不到高質量的文字token了。

他的目的是想讓有識之士意識到:文字領域的預訓練確實是終結了,呼喚新的訓練正規化與新的scaling law。

虎嗅:在這個時間點,他可能看到了什麼?怎麼理解背後的邏輯?

劉威:llya這樣說,可能有3個原因。

第一,可能是OpenAI內部遇到了一些技術瓶頸。

按照華爾街日報的報道,這個技術瓶頸就是指訓練GPT-5模型(OpenAI內部代號Orion)的時候,預訓練的token不夠用了,於是加入了合成的token,結果合成的token效果不佳甚至很差,差到可能讓整個模型的訓練失敗。

OpenAI最開始投入大量的合成資料到預訓練階段,結果遇到了很大的挫折,這個挫折讓OpenAI的GPT-5研發6個月沒有大的進展。要理解其中的原因,我們得搞清楚預訓練的作用。預訓練實際上是在模擬特定domain的自然資料分佈,譬如在文字domain,捕捉與模擬自然語言的分佈是什麼。所以OpenAI會從很多高質量的網站,譬如維基百科、紐約時報等去獲取一些文字資料,這些資料都屬於人創作的、真實的語言分佈。

而合成資料和真實資料,在機率分佈上“長”得非常不一樣。舉個例子,我之前在騰訊也做過人臉影象DeepFake檢測,我們發現AI合成的假的人臉影象和真實的人臉影象在高頻段的資訊特徵完全不一樣,所以我們研發的人臉打假系統一下子就把假的人臉識別出來了。所以在預訓練階段,如果把真實token的自然分佈和合成token的“假”分佈混在一起,餵給模型訓練,便可能會讓模型訓練崩潰或者達到一個“胡言亂語”的模型結果。

第二,我猜測,o1可能在GPT-5的預訓練中起到了不小的作用,OpenAI可能用o1造了很多程式碼類、數學類、邏輯類的合成資料,訓練GPT-5去學習。然而,合成資料最大的問題是多樣性差。比如,用o1造大量的token,既然是一個模型造的,token的同質化不可避免,那便不具備多樣性。而自然界的真實資料的優點之一就是多樣性強,包羅萬千。

所以,OpenAI的科學家與工程師們可能意識到了合成資料不能用太多,即便是用了合成資料,也要設法提升多樣性,這樣訓練效果仍然可能有提升。基於這個目的,OpenAI去找高階程式設計師、非常資深的數學老師或者數學博士,來寫數學題的不同解法,以及用不同的方法做程式設計題,然後使用這些人類的真實多樣性token來訓練一個更好的token生成器模型,以提升合成資料的多樣性。

第三,以上措施帶來的模型效能提升仍然不夠顯著。從GPT-3.5到GPT-4的提升是巨大的,從o1到o3的提升也是巨大的,然而從GPT-4到GPT-5,提升不大。

所以,可能基於以上三個方面,才促使llya說出這樣的話。我們知道,GPT-3.5到GPT-4巨大的提升,正是來自於預訓練scaling law。既然預訓練scaling law到頭了,就很難大踏步地提升下一代模型的綜合效能了。

我贊同llya。在文字domain裡,預訓練確實到頭了。但這並不是指模型演算法出了問題,而是指訓練資料(token)不夠用了,跟不上model size的scaling up節奏。

虎嗅:也有很多大牛譬如Meta首席人工智慧科學家Yann LeCun,說預訓練沒有到頭。

劉威:很多時候大家是在你說你的,我說我的。Yann LeCun指的是多模態領域的scaling law沒有到頭。事實上,多模態領域的預訓練怎麼做,業界還在探索,還不完全清楚GPT-4o、Gemini-2.0是如何進行預訓練的。

在多模態領域,開源社羣的做法和閉源的做法也不一樣。GPT-4o是三個模態(文字、圖片、語音)的輸入和輸出,目前國產模型還沒有實現對標GPT-4o的三模態理解與生成效果。市面上大部分號稱有多模態能力的大模型,主要能力是多模態理解,欠缺優秀的多模態生成能力,比如優秀的語音生成能力(與 OpenAI 的高階語音模式Advanced Voice Mode相比,大多數語音生成產品在很多能力上仍顯不足,包括情緒理解、靈敏的打斷功能、豐富自然的語氣語調、多語言支援、連續對話能力等)。

無論Google還是OpenAI,他們都還沒有發表相關的論文。所以,大家不知道他們是怎麼做的。Meta雖然發表了一些多模態大模型的論文,但他們發的論文和自己開源的Llama 3模型在多模態訓練方法上又不太一樣。所以多模態領域的預訓練scaling law到底是什麼樣,大家還在探索。

虎嗅:那麼文字領域的scaling law遭遇了瓶頸,會對中國的大模型公司有什麼影響嗎?

劉威:我認為影響不大。對於中國大模型公司來說,token遠沒有到用盡的時候。因為OpenAI的技術路線很激進,它的模型引數已經很龐大。行業內有一些傳言,猜測GPT-5可能是10T以上的引數量,這是巨大的。除了OpenAI,應該沒有幾個機構在訓練10T引數量級的模型。

而我們知道GPT-4只是1.6-1.7T的引數規模。也就是說,模型引數可以擴大,算力可以增加,但是真實的token量是有上限的。人類只有一個網際網路,高質量文字token量大約不超過20T 。按照scaling law的經驗公式:GPT系列模型預訓練需要的token量與模型引數量,大約呈10倍的線性關係。那麼,GPT-5如果是10T的引數規模,我們很難收集到100T 高質量token的資料。從這個角度講,預訓練確實到頭了。

而以嚴格的標準來說,在多語種的文字domain裡,中國還沒有一家國產模型能夠達到GPT-4的水準,還有相當的提升空間,所以國產模型廠家還不用擔心scaling law到頭了。

虎嗅:還有一種說法,資料危機可能會導致發力通用大模型的公司,轉向更小、更專業的模型。

劉威:這個和預訓練的終結沒有直接關係。大家永遠可以研發小模型,在“預訓練終結”被提出之前,微軟一直在做小模型,Meta、蘋果也都在做端側模型,包括國內的面壁智慧也在做端側小模型。

虎嗅:之前傳聞有幾家國內大模型獨角獸放棄預訓練了,似乎放棄預訓練是個很負面的事情?

劉威:這應該是傳言,如果屬實,或許是被卡脖子的無奈之舉,國內缺乏最高階的GPU晶片,這當然會相當影響預訓練的質量與速度。

預訓練很重要,它的作用是先將世界知識的分佈模擬一遍,然後才有“後訓練”。預訓練確立了學習的目標,後訓練則是充實了學習的技法。先有目標,才有技法;先煉內功,再學招式。

預訓練費時費力,還不一定能訓練成功。海外很多公司,尤其是美國矽谷的很多公司,直接採用Meta開源的Llama底座模型進行微調,迅速推向市場服務使用者。從商業上來說,這無可厚非。

虎嗅:都去做預訓練,算是不明智嗎?

劉威:不僅是中國的公司在追趕OpenAI,借鑑他們的技術路線和方法,美國的公司如谷歌、Meta、Anthropic也在做同樣的事情,都在做預訓練,而谷歌在推出同型別模型產品上是追趕OpenAI最激進的一個。

虎嗅:什麼樣的公司適合去做預訓練?

劉威:無論是在中國、美國還是歐洲,有AGI信仰的公司才能堅持做預訓練。

接下來,AI如何繼續進化?

虎嗅:o3出來之後,網路口碑一般,這個您怎麼看?目前我們是否處在AI行業的某個分水嶺?

劉威:o3在推理、程式設計、數學、科學方面的能力是非常強的,我認為在後訓練scaling law的路線上,OpenAI目前還沒到達分水嶺。

如果我們探究OpenAI的全域性技術路線,它確實已經跨過了第一個分水嶺,即預訓練的scaling law。它目前正處在探索新的scaling law(後訓練或強化學習scaling law)的道路上,也已經從o1走到了o3。

虎嗅:為什麼大家追上OpenAI的速度可以這麼快,好像AI公司間的競爭壁壘沒那麼高?

劉威:這是好事。首先,沒人敢說OpenAI的技術路線是錯的,大家都在用實際行動表示跟隨,OpenAI依舊是引領者。另外,大家也不希望行業裡出現一個寡頭。業界共同推動技術進步發展,行業也更健康。

虎嗅:一些大模型獨角獸會認為世界模型是AI的下一個階段,怎麼理解世界模型?

劉威:世界模型這個詞在學術界還沒有清晰的定義。有3D重建式的世界模型,譬如李飛飛教授的World Labs正在做的;也有在影片中做一些自動理解、自動導航式的世界模型,譬如Meta的Yann LeCun團隊研發的JEPA系列模型;特斯拉和一些國內的新能源車、自動駕駛公司,也在做自動駕駛場景裡的自動規劃、自動控制的世界模型。

就像AGI在學術界已經流傳了多年,但很多學者,例如Yann LeCun就認為不應該叫AGI,應該叫human-level intelligence,是用“人類層次的智慧”來替代AGI這樣的叫法。

世界模型也是一樣,或許未來有更好的命名方式表達。

按照我的理解,如果一個AI模型學習了全世界的人類知識,那麼它就可以稱為一個基礎版的世界模型。從知識層面來看,GPT-4可算是文字知識領域的基礎世界模型。如果從功用層面來看,世界模型的定義應該不僅涵蓋人類層次的聽說讀寫能力,還包括代替人類在物理世界去執行任務。那麼,當前還沒有一個AI模型能稱為世界模型。

所以,我們應該把世界模型的研究範圍放窄一些,先解決相對容易的問題,慢慢再擴充研究範圍。我的觀點是:當我們研究世界模型的時候,要先去定義什麼是我們要研究的世界,大世界或者小世界。當確定了我們要研究的世界定義域,那麼對世界模型的研究範疇—知識層面+功用層面—實際上就會變得更清晰。

虎嗅:關於大模型的進化,您之前在訪談裡提到過,未來大模型可以透過自博弈的強化學習,來掌握自動升級的鑰匙,無需人工干預就能實現迭代,這件事目前到什麼階段了?

劉威:這是我對未來大模型技術發展的一個預測。我覺得大語言模型的升級可以從完全人工干預逐步發展到半自動,最後演化為全自動升級。

目前大模型的對齊策略主要是與人類對齊,所以有RLHF(人類反饋的強化學習)。從公開資訊源,我們發現OpenAI、Google、Meta、Anthropic正在或計劃使用AI對齊策略,如RLAIF(AI反饋的強化學習)。

具體來說,這種AI對齊策略體現在:監督微調(SFT)中使用一個大語言模型(輔助模型或者前代模型)生成prompt-response格式的語料資料,RL中使用該模型對特定prompt的多個response進行打分或者排序(稱為偏好資料)。比如,Meta開源的Llama 3的技術報告中,明確說明了它的對齊階段,或者說後訓練階段,會依賴於Llama 3的早期模型版本來生成部分SFT語料資料。

OpenAI的12天直播裡,展示了一項新技術叫RFT,也就是強化學習微調,這是非常關鍵的技術,它可以線上收集人類的少量反饋,然後讓當前的大語言模型版本模擬這些人類反饋而生成更多的反饋樣本,用人類反饋+AI反饋進行強化學習,微調當前模型版本,並可以持續迭代下去。

在對齊層面,將對齊的源頭由人類換成了AI,這就是一個進步。但是,即使採用了AI對齊策略,後訓練scaling law仍然可能有終結的一天。

因此,我一直在思考能否有比對齊驅動的強化學習更有效的學習正規化。AI如果只和人類對齊,那麼智慧水平永遠不可能超過人類,所以我建議嘗試對抗式的自博弈強化學習,即AI和AI對抗競爭學習,這樣AI的智慧水平才有可能超過人類。

對抗式自博弈RL,正是 DeepMind的AlphaZero最早提出的技術,最初有多個決策式AI模型版本,讓它們兩兩對抗PK,誰能贏,誰就survive,一系列優勝劣汰之後,得到最強的AI模型。最近,Hinton(被稱為AI教父、諾獎得主)在訪談和演講中提到,他很擔心AI越來越強之後,會彼此競爭資源;比如,有公司同時訓練了幾個大語言模型,有的大語言模型會更智慧,它可能會主動搶奪其他模型的資料資源和算力資源而變得更強。Hinton談論的這些,就是自博弈式、對抗式的強化學習。

虎嗅:聽起來有點像一個AI吞噬另一個AI。

劉威:未來可能會發生。當然,人類正在制定和完善各種制約、規範、協議等來避免AI的失控,儘早防範和杜絕AI對人類造成負面的影響。

虎嗅:目前大模型這個行業裡,最讓您興奮的是什麼呢?

劉威:最讓我興奮的是:何時能把自博弈式的對抗強化學習,用非常便宜的方式做出來。

虎嗅:已經看到有人在做了嗎?

劉威:這個還不清楚,如果是學術界的朋友,我建議他們去研究。

這裡我想舉一個例子。OpenAI在2017年發明了PPO演算法,一種線上強化學習演算法。GPT-3.5和GPT-4用的就是PPO。而在去年5月份,斯坦福大學發表了一篇論文,提出了一個新的離線強化學習演算法DPO,即直接偏好最佳化,它比PPO穩定很多、計算上輕量很多,於是業界都開始採用這個RL演算法。而且,DPO提出來之後,OpenAI也在使用,它最近釋出的強化學習微調就是採用了DPO。

學術界可以用不同於工業界的視角來研究很多技術問題,往往能提出非常巧妙的新方法。所以,對抗式自博弈的強化學習,我感覺會有計算更便宜、演算法設計更巧妙的解決辦法被研究出來。

虎嗅:那麼它會對AI行業的發展產生什麼影響?

劉威:會有新的scaling law誕生。也就是說,除了預訓練的scaling law、強化學習的scaling law還會有一次正規化遷移或升級,即自博弈強化學習scaling law。

它是對抗式的RL,不是對齊式的RL,用它驅動大模型的升級,會比對齊式RL的效率更高。

虎嗅:關於強化學習的scaling law,目前大家還沒有達成共識吧?

劉威:OpenAI或許已經探索出自己的強化學習scaling law,其他公司可能還需要先去追趕o1,趕上之後方能去探索RL scaling law。

談競爭

虎嗅:一些知名投資機構預測2025年AI應用會爆發,您怎麼看?

劉威:如果從廣義來看,從CV四小龍時期到現在的大模型六小虎時代,AI應用一直在蓬勃發展。我們每天都在和AI應用接觸,比如說刷臉。

我們目前關注的AI應用,比如紅杉美國的文章裡提的AI應用,指的是agent智慧體,它算是AI原生的應用。我認為agent是商業軟體的未來,甚至是SaaS的未來,我也預測agentic AI會在2025年爆發。

虎嗅:在您看來,國內外AI創業者做的事情有什麼不同?

劉威:據我瞭解,美國非常好的大學在非常積極、廣泛地擁抱AI,這是在學術界;在矽谷的話,有沒有AI,矽谷的創業熱潮也都沒有消退過。可能這一波生成式AI的創業浪潮比以前來的更猛烈,融資額度也比過去大,畢竟GPU算力很貴。

從追求AGI上來講,矽谷和國內的AI行業,做的事情沒什麼本質不同。國內可能會借鑑矽谷的創業課題,比如對標cursor,做一些AI程式碼生成的創業公司。

虎嗅:國內外的AI產業,面對的挑戰會有什麼不同?比如,美國的AI巨頭可能更缺能源,中國的AI獨角獸更缺資金?

劉威:很難講挑戰是什麼,只能說中美的訴求有差異。從一些公開報道來看,美國的幾家AI巨頭已經訂購了大量高階的GPU,在2025年平均一家都有幾十萬塊的英偉達B系列的卡。

在我看來,美國這些AI玩家,他們屬於激進派,他們的訴求就是看誰能先達到AGI,無論是在囤人才、算力、資金等方面,都在進行軍備競賽。比如,在公開場合,Elon Musk預測,AGI最晚在2026年就會來;而Sam Altman預測最早在2025年能來,Google的AI一號位Demis Hassabis預測AGI在2030年能來。看來大家都認為AGI會在未來幾年到來,那就看誰能率先做出來。

對於中國的AI行業來說,資金不是問題,從中央到地方,從企業到高校,對AI都很支援,而且支援的力度非常大。國內AI產業的訴求,我認為主要還是看AI能不能真的產生社會價值。

虎嗅:國內大模型公司的競爭,在創業方面有給你什麼啟發嗎?

劉威:要有自己的絕活。就像在大語言模型的賽道,不能總是跟著幾家美國AI巨頭後面去追趕。可以嘗試瞄準巨頭做的不是那麼好的賽道,在這個賽道以獨特的技術主張,找到屬於自己的scaling law。