鳳凰科技 2024-12-24 01:35:30 2
新智元報道
編輯:Aeneas 好睏
【新智元導讀】李飛飛、謝賽寧團隊又有重磅發現了:多模態LLM能夠記住和回憶空間,甚至內部已經形成了區域性世界模型,表現了空間意識!李飛飛興奮表示,在2025年,空間智慧的界限很可能會再次突破。
就在剛剛,李飛飛、謝賽寧等發現:多模態大語言模型居然能記住和回憶空間。
更震撼的是,MLLM的空間推理能力雖然仍是瓶頸,但這些模型中,已經出現了區域性世界模型和空間意識的跡象!
論文地址:https://arxiv.org/abs/2412.14171
共同一作:Jihan Yang,Shusheng Yang,Anjali W. Gupta,Rilyn Han
李飛飛表示,非常喜歡這項「空間思維」(Thinking in Space)的研究。空間推理對於人類智慧來說,至關重要。在2025年,空間智慧的界限很可能會再被突破。
謝賽寧也表示,大家和李飛飛進行的關於空間智慧的有趣頭腦風暴,已經發展成了NYU、耶魯和斯坦福之間的驚人合作。
他們相信,視覺空間智慧在現實世界中的應用,比以往任何時候都更近了。比如AI眼鏡,它可以向我們顯示去過的地方,還能定位、導航。
因此,這個領域實在太令人著迷了。
前不久Ilya曾說,預訓練結束了,資料如同化石燃料般難以再生,但不少研究者出來反駁說,人類只是用完了文字,海量的影片還在眼前。
此時李飛飛和謝賽寧的研究,可謂相當應景了。
更巧的是,就在不久前,謝賽寧還和LeCun等人合作完成了一項MetaMorph的工作。他們發現:LLM離理解和生成視覺內容已經不遠了。
這些測試,大模型被人類完敗
在專案主頁一開始,團隊就放出了非常有趣的人類AI大pk。
內容就是,和Gemini來比拼空間智慧能力。
- 相對方向
比如這道題是,「如果我站在冰箱旁,正對著洗衣機,那麼爐子是在左邊、右邊,還是在後面?」
備選答案是:A. 後面 B.右邊 C.左邊