鳳凰科技 2024-12-26 01:35:00 2
IT之家 12 月 25 日訊息,阿里通義千問 Qwen 團隊今天(12 月 25 日)釋出博文,宣佈基於 Qwen2-VL-72B 構建,推出 QVQ-72B-Preview 開源視覺推理模型,能夠像物理學大師一樣,面對複雜的物理問題,沉著冷靜地透過邏輯推理找到解決方案。
阿里通義千問團隊在 4 個資料集上評估 QVQ-72B-Preview,IT之家附上相關介紹如下:
MMMU:一個大學級別的多學科多模態評測集,旨在考察模型視覺相關的綜合理解和推理能力。
MathVista:一個數學相關的視覺推理測試集,評估拼圖測試圖形的邏輯推理、函式圖的代數推理和學術論文圖形的科學推理等能力。
MathVision:一個高質量多模態數學推理測試集,來自於真實的數學競賽,相比於 MathVista 具有更多的問題多樣性和學科廣度。
OlympiadBench:一個奧林匹克競賽級別的雙語多模態科學基準測試集,包含來自奧林匹克數學和物理競賽的 8,476 個問題,包括中國高考。每個問題都附有專家級別的註釋,詳細說明了逐步推理的過程。
測試結果顯示,QVQ-72B-Preview 在 MMMU 基準測試中取得了 70.3 的分數,顯著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三個專注於數學和科學問題的基準測試中,該模型表現出色,有效縮小了與領先的最先進的 o1 模型之間的差距。
阿里通義千問 Qwen 團隊也表示 QVQ-72B-Preview 是實驗性研究模型,專注於增強視覺推理能力。儘管它的表現超出了預期,但仍有幾個限制需要注意:
語言混合與切換:模型可能會意外地混合語言或在語言之間切換,從而影響響應的清晰度。
遞迴推理:模型可能會陷入迴圈邏輯模式,產生冗長的響應而無法得出結論。
安全和倫理考慮:模型需要增強安全措施,以確保可靠和安全的效能,使用者在部署時應保持謹慎。
效能和基準限制:儘管模型在視覺推理方面有所改善,但它無法完全替代 Qwen2-VL-72B 的能力。此外,在多步驟視覺推理過程中,模型可能會逐漸失去對影象內容的關注,導致幻覺。