鳳凰科技 2024-12-13 01:34:46 2
新智元報道
編輯:LRS 好睏
【新智元導讀】薛復昭博士宣佈即將加入Google DeepMind,分享了他在博士生涯中的七點心得,包括工程能力的重要性、與優秀人才合作、專注於重要論文、研究趨勢的演變、換位思考以及博士學位的價值。
就在Gemini 2.0釋出之前幾天,一位新晉華人博士宣佈加入Google DeepMind,作為高階研究科學家致力於Gemini預訓練和多模態研究。
薛復昭,博士畢業於新加坡國立大學師從尤洋教授,2021年以5.0的GPA成績碩士畢業於南洋理工大學,師從莊永聰教授和孫愛欣教授。
在新加坡國立大學攻讀博士期間,曾在Google Brain與谷歌天才科學家Yi Tay和Mostafa Dehghani一起實習,並在NVIDIA GEAR與Jim Fan和Yuke Zhu一起實習。
讀博3年的7點心得
工程能力是研究的基礎
雖然工程能力普遍很重要,但在學術界似乎特別被低估。例如,在我幾年前的經歷中,人工智慧博士招生很少進行程式設計面試。這很令人驚訝,因為實現是將人工智慧想法付諸實踐的關鍵步驟。許多人可能會廣泛討論研究概念,但無法將其轉化為實際應用。
強大的工程能力不僅能讓我們為大規模專案做出貢獻(這是在大語言模型社羣產生重要影響的常見方式),還能激發創新的研究思路。最近的進展,如Scaling Law, MoE, GQA, Flash Attention,往往源於對底層技術和社羣面臨挑戰的深入理解。
與優秀人才共事對提升研究品味極其有幫助
什麼是「研究品味」?在我看來,就是比他人更早識別出有前景的研究方向的能力。那麼...該如何做?去問他們!就像我們在大語言模型中在強化學習之前進行監督訓練一樣,我們需要指導和引導來培養自己的「研究品味」。
在我博士早期,我有幸在谷歌與Yi Tay和Mostafa Dehghani合作,這段經歷顯著塑造了我的職業軌跡。我經歷的文化衝擊令人深省。受此啟發,我主動尋求機會與其他傑出研究者合作,如Jim Fan (範麟熙)、朱玉可、Scott Reed、符堯等。
要真正理解他們的研究品味,我們需要在兩個關鍵方面達成一致:
為什麼這個問題在技術上很重要?
這個人是如何培養出這樣的技能和思維方式的?
有趣的是,具有良好研究品味的人並不總能清楚回答這些問題,尤其是第二個問題。這就是為什麼我認為與這些人密切合作能讓我們深入瞭解他們的日常習慣、決策過程和解決問題的方法,儘管你也可以透過電子郵件等方式詢問他們。
博士期間要致力於做出簡潔而有見地的45分鐘演講,而不是追求長長的發表清單
人們攻讀博士通常有兩個主要原因,即享受科研樂趣和找到好工作。對於工作面試,有一個「還可以」的發表記錄通常足以讓你透過初選。
然而,在面試過程中真正重要的遠不止論文清單和簡歷。通常會有研究演講和幾次一對一的研究面試(除了基礎知識和程式碼)。雖然聽眾規模不同,但核心目標始終相同:做出引人入勝且連貫的演講。
要在這些場合表現出色,要專注於建立一個紮實的整體演講,並定期(如每5分鐘)加入富有見地的觀察,以保持聽眾的興趣。
專注於少量重要論文並深入理解,而不是淺嘗輒止地閱讀很多文章
我通常會果斷篩選掉arXiv上99%的論文,只關注有影響力的工作、知名作者和聲譽良好的機構。
(我理解這種方法有其偏見——一些有價值的工作可能因各種原因被低估。但事實是,這種方法通常很高效。我認為最好的工作最終都會透過引用、討論或他人推薦出現在我們面前。)
雖然你可能偶爾會錯過一些被埋沒的好論文,但更重要的是不要被雜亂的論文淹沒。花太多時間在這些工作上可能會將你的研究品味拉向區域性最小值,特別是當你剛進入這個領域缺乏甄別能力時,這可能需要相當長的時間和努力來糾正。
在接觸新課題時,要按時間順序閱讀論文以研究研究趨勢的演變
例如,你可以按照這個順序來閱讀和學習MoE-LLMs。這樣,你可以更容易地識別和總結趨勢,建立連線不同工作的「思維鏈」,比如Expert-Choice MoE解決了baseline MoEs中的什麼問題。這個過程不僅加深了你的理解和推理能力,還能讓你超越領域的當前狀態進行推廣。
有了這個更廣闊的視角,你可能會發現有價值的未來研究方向。此外,人們自然傾向於更好地記住最近的資訊。作為研究者,跟上最新發展至關重要,所以這種方法與我們處理和保留資訊的方式很相符。
換位思考是提升寫作和演講的有效方法
我的寫作仍有很大提升空間。不過,我發現換位思考在以下兩種情況下特別有幫助:
寫作時設身處地為讀者著想。讀者來自不同背景,而且時間有限。考慮到這些因素來撰寫文稿很重要。關鍵是要讓你的寫作易於目標受眾理解。保持簡潔,既不要太長,也不要太淺或太深,專注於你想傳達的最重要觀點。考慮在讀者的限制條件下,什麼內容最有影響力。
閱讀時想象作者寫作時的所思所想。學術論文和演講資訊密度很高。作者通常花費大量時間精煉它們 ,但背後的原始資料或想法往往雜亂無章。在閱讀他人的作品時,不要被動接收,要思考你會如何處理原始材料。如果你能接觸到初始資料,你會講述什麼樣的故事?你會畫什麼圖來闡明觀點?與你自己平時的寫作方法相比,作者的思路的哪些部分更值得借鑑?這個練習讓你有頻繁的機會練習寫作和演講,而不是等花幾個月完成整個專案後才有機會來練習。
博士學位有幫助但不是從事大語言模型研究的必要條件
攻讀博士可以提供寶貴的學習經驗。除了科研技能,學術界擅長的一個領域是教學模組——這在工業實驗室中很少遇到。作為助教,你有機會設計講座、作業、輔導和考試。這種經驗與進行研究或指導初級研究人員不同,如果你的目標是成為教授,這是必不可少的。
然而,如果你的主要目標是直接為最先進的大語言模型做出貢獻,直接加入研究實驗室可能更有效。在工業實驗室,你可能會有:
獲取更強大的計算資源。
與實踐經驗豐富、技能出眾且自我驅動的同事合作。
參與具有重大影響力的大型專案的機會。
在我的博士期間,我在工業實驗室實習,但讀者也完全可以作為研究工程師或AI駐地研究員加入這樣的實驗室。在我看來,這些職位可以成為成為大語言模型研究者的快速通道,讓你有機會在實踐性強、影響力大的環境中學習所需的大部分技能。
值得注意的是,像Google DeepMind,OpenAI這樣的地方有許多傑出的研究人員並沒有博士學位。這突顯出雖然博士學位有益,但它並不是在大語言模型研究領域取得成功的唯一途徑。