Good Luck To You!

手机扫一扫

李飛飛謝賽寧:多模態LLM“空間大腦”覺醒,驚現世界模型雛形

鳳凰科技 2024-12-24 01:35:30 2

新智元報道

編輯:Aeneas 好睏

【新智元導讀】李飛飛、謝賽寧團隊又有重磅發現了:多模態LLM能夠記住和回憶空間,甚至內部已經形成了區域性世界模型,表現了空間意識!李飛飛興奮表示,在2025年,空間智慧的界限很可能會再次突破。

就在剛剛,李飛飛、謝賽寧等發現:多模態大語言模型居然能記住和回憶空間。

更震撼的是,MLLM的空間推理能力雖然仍是瓶頸,但這些模型中,已經出現了區域性世界模型和空間意識的跡象!

論文地址:https://arxiv.org/abs/2412.14171

共同一作:Jihan Yang,Shusheng Yang,Anjali W. Gupta,Rilyn Han

李飛飛表示,非常喜歡這項「空間思維」(Thinking in Space)的研究。空間推理對於人類智慧來說,至關重要。在2025年,空間智慧的界限很可能會再被突破。

謝賽寧也表示,大家和李飛飛進行的關於空間智慧的有趣頭腦風暴,已經發展成了NYU、耶魯和斯坦福之間的驚人合作。

他們相信,視覺空間智慧在現實世界中的應用,比以往任何時候都更近了。比如AI眼鏡,它可以向我們顯示去過的地方,還能定位、導航。

因此,這個領域實在太令人著迷了。

前不久Ilya曾說,預訓練結束了,資料如同化石燃料般難以再生,但不少研究者出來反駁說,人類只是用完了文字,海量的影片還在眼前。

此時李飛飛和謝賽寧的研究,可謂相當應景了。

更巧的是,就在不久前,謝賽寧還和LeCun等人合作完成了一項MetaMorph的工作。他們發現:LLM離理解和生成視覺內容已經不遠了。

這些測試,大模型被人類完敗

在專案主頁一開始,團隊就放出了非常有趣的人類AI大pk。

內容就是,和Gemini來比拼空間智慧能力。

- 相對方向

比如這道題是,「如果我站在冰箱旁,正對著洗衣機,那麼爐子是在左邊、右邊,還是在後面?」

備選答案是:A. 後面 B.右邊 C.左邊