李飛飛謝賽寧：多模態LLM“空間大腦”覺醒，驚現世界模型雛形

鳳凰科技 2024-12-24 01:35:30 2

新智元報道

編輯：Aeneas 好睏

【新智元導讀】李飛飛、謝賽寧團隊又有重磅發現了：多模態LLM能夠記住和回憶空間，甚至內部已經形成了區域性世界模型，表現了空間意識！李飛飛興奮表示，在2025年，空間智慧的界限很可能會再次突破。

就在剛剛，李飛飛、謝賽寧等發現：多模態大語言模型居然能記住和回憶空間。

更震撼的是，MLLM的空間推理能力雖然仍是瓶頸，但這些模型中，已經出現了區域性世界模型和空間意識的跡象！

論文地址：https://arxiv.org/abs/2412.14171

共同一作：Jihan Yang，Shusheng Yang，Anjali W. Gupta，Rilyn Han

李飛飛表示，非常喜歡這項「空間思維」（Thinking in Space）的研究。空間推理對於人類智慧來說，至關重要。在2025年，空間智慧的界限很可能會再被突破。

謝賽寧也表示，大家和李飛飛進行的關於空間智慧的有趣頭腦風暴，已經發展成了NYU、耶魯和斯坦福之間的驚人合作。

他們相信，視覺空間智慧在現實世界中的應用，比以往任何時候都更近了。比如AI眼鏡，它可以向我們顯示去過的地方，還能定位、導航。

因此，這個領域實在太令人著迷了。

前不久Ilya曾說，預訓練結束了，資料如同化石燃料般難以再生，但不少研究者出來反駁說，人類只是用完了文字，海量的影片還在眼前。

此時李飛飛和謝賽寧的研究，可謂相當應景了。

更巧的是，就在不久前，謝賽寧還和LeCun等人合作完成了一項MetaMorph的工作。他們發現：LLM離理解和生成視覺內容已經不遠了。

這些測試，大模型被人類完敗

在專案主頁一開始，團隊就放出了非常有趣的人類AI大pk。

內容就是，和Gemini來比拼空間智慧能力。

- 相對方向

比如這道題是，「如果我站在冰箱旁，正對著洗衣機，那麼爐子是在左邊、右邊，還是在後面？」

備選答案是：A. 後面 B.右邊 C.左邊

飛飛謝賽寧多模態llm 空間大腦覺醒現世模型雛形