鳳凰科技 2024-10-15 01:35:33 9
AI能回答問題,但能不能真正“思考”?
經常用AI搜尋產品的使用者會發現,這類產品在面對複雜問題時常常“掉鏈子”——它能模仿莎士比亞的文風,解答數學題,卻可能在解決日常生活中的難題時束手無策。
這就像一個博學卻不懂變通的書呆子,知識豐富但缺乏靈活的思維能力。顯然,僅僅把AI搜尋變成一個“會說話的搜尋引擎”是遠遠不夠的。
那麼,如何讓一個智商更高、推理能力更強、會深度思考的大模型來解決普通使用者的真實問題,而不僅僅是做奧賽題呢?
月之暗面最近給出了它們的一次嘗試:他們剛剛上新了想要挑戰複雜問題搜尋的Kimi探索版。有趣的是,Kimi探索版沒有強調追求高精尖的科研能力,而是把目光聚焦在提升日常使用場景的體驗上,試圖在普通使用者和“高階”AI之間找到一個平衡點。
據說,Kimi探索版學會了像人一樣拆解複雜問題,透過自主規劃解答思路分步執行、海量窮盡式自主搜尋、即時反思搜尋結果,最終幫助使用者找到更全、更準的答案。
具體使用效果如何,矽星人也在第一時間進行了體驗。
當大模型開始像人類一樣思考
Kimi探索版現已全量上線,使用方式很簡單,不需要切換模型,入口就在Kimi的對話方塊底部的開關裡,開啟“探索版”開關即可開始使用。
對比投資收益
最近A股的過山車行情讓股民們體驗了一把“心跳過速”的刺激——昨天還在為暴漲歡呼雀躍,今天就因暴跌捶胸頓足。我們先讓Kimi探索版來對比兩種投資方案的收益:如果我今年春節後的首個交易日開盤時買了比亞迪股票,對比一下,同期在上海黃金交易所投資黃金,截至9月最後一個交易日結束。哪個方案的收益更高?列個表格
上面的問題實際上至少包含了三個子問題,如果用傳統的方式需要進行多次手動搜尋和操作,可以看到Kimi的思維過程,透過分別查詢比亞迪股價、金價以及最後生成表格進行對比給出了答案。
麥肯錫經典面試題
既然Kimi探索版重點強調的是帶推理的搜尋能力,我們再來試試對邏輯推演要求更高的諮詢面試題。
這類題目通常需要高度結構化的思維方式,如問題分解、邏輯樹構建等。而且往往需要在給定資訊的基礎上進行實時推理和假設檢驗,傳統的LLM主要基於預訓練資料,難以像人類那樣靈活地進行即時分析。
問:如果所有鋼琴都定期調律,估算一下北京需要多少名全職的鋼琴調律師
我們可以看到,Kimi能處理包含多個變數和假設的邏輯推理問題,按照步驟逐層分析,透過費米估算(分解問題、假設合理性、結果的數量級估算)的方法進行估算,拆解的邏輯是:鋼琴數*每年調音次數*調音時長=每年總調音時長。在得出結論之後,Kimi還提供了兩個相關資訊作為補充。
在過程中,Kimi透過搜尋結合了不同來源的資料,最後進行綜合分析,類似於使用者輸入問題後的多步思考與反思過程。
上面的問題可能太常見,再來個“題庫”裡沒有的問題:如果要用風力發電完全取代中國2023年的煤電產量,需要建造多少颱風力發電機?這些風力發電機佔地面積相當於多少個上海市?
提取關鍵資訊、分步計算,清晰的推理之後,Kimi很高效的給出了答案。
用Perplexity付費的Pro模式進行對比,在經過一番計算之後,Perplexity給出了一個比較離譜的答案,檢查後發現Perplexity在估算風力發電機的數量和佔地面積的步驟出現了明顯的問題。
開個腦洞
再來問一個更開腦洞的問題:估算一下如果要用3D列印技術重建整個羅馬鬥獸場,需要多少材料?多長時間?成本大約是多少?與原始建造方法相比有什麼優勢和劣勢?
Kimi首先透過資訊檢索獲取相關資料,對問題進行了分解,比如計算3D列印羅馬鬥獸場所需的材料、時間和成本。接著,它基於這些資料進行估算和分析,逐步回答每個問題,並對比3D列印和傳統建造方法的優缺點,最終給出完整且清晰的解決方案。我們可以看到從資訊獲取、資料處理到邏輯推理和建議的完整思考過程。
看來下次腦洞不夠用的時候,可以找Kimi幫忙了。
我們繼續測試Kimi探索版在資訊收集、資料處理和複雜任務處理方面的能力極限。
首先是涉及大量資料處理的任務,問:2024年9月,哪些A股上市公司經歷過漲停,請按照時間先後順序列個表格,並分析漲停原因。
要正確回答這個股市問題,Kimi探索版需要具備實時資料訪問和處理能力、資訊整合和梳理能力,金融領域知識的理解能力。
尤其是這個問題涉及大量公司和漲停原因的資訊,我們看到了Kimi探索版的批次資訊處理與自動化能力,可以一次閱讀大量網頁,快速蒐集、篩選、整理多家公司漲停的原因,並生成系統性的報告。
面對同一個問題,Perplexity在第一步就出現了資訊不完整的問題。
再來一個涉及最新企業和地理資訊的複雜任務:2024年《財富》中國科技50強企業中,哪些公司的總部在北京?
提出問題後,Kimi快速從232個的網頁中檢索了相關資訊,包括問題中提到的2024年《財富》中國科技50強企業名單及總部資訊,接著將檢索到的各公司總部所在地進行分類整理,並直觀地呈現給使用者。
值得一提的是,Kimi在給出答案之後,還進行了“反思後的補充”,具體到這個問題中,可以看到Kimi對自己的答案進行了一次“查缺補漏”,補充了聯想和小米。
這也是Kimi探索版的一個特點,在提供答案的基礎上,KImi會進一步透過“反思後的補充”,引導使用者思考或補充額外資訊,從而得到更完整和深入的答案。但這種反思不是每一個問題都會觸發,可能是避免進行不必要的延伸。
除了金融和歷史,再來看看Kimi探索版是否能夠理解技術演進的複雜性:追溯 iPhone中使用的三大關鍵技術:電容觸控式螢幕、鋰聚合物電池和手機CPU的發展歷程。這些技術的起源可以追溯到什麼時候?分別經歷了哪些關鍵的技術突破,才最終成就了iPhone ?
Kimi探索版依舊按照邏輯清晰的步驟進行逐步拆解,包括從技術起源、關鍵突破到現代應用的全過程,提供了較為全面的提供全面的背景和推理,感覺再讓Kimi擴充套件續寫一下一篇分析類的文章就出來了。
更多花式用法
Kimi探索版除了增強了其處理複雜問題的能力,這種能力使得Kimi能夠理解使用者的問題,進行多層次的分析和推理,也讓Kimi在實際生活中有了更多的玩法。
讓Kimi幫你找電影:有一部日本動畫電影,講述了一個住在海邊小鎮的女高中生的故事。她有聽力障礙,戴助聽器。影片中有很多關於手語的鏡頭。男主角是她的同學,開始學習手語來和她交流。電影風格溫馨細膩,有不少關於青春和成長的主題。這是哪部電影?
讓Kimi幫你規劃旅遊路線:幫我查詢10月上海迪士尼各個遊樂專案在一天不同時段的平均排隊時長,列成表格。再根據這個設計一條耗費排隊時間最少的遊玩路線
讓Kimi幫你對比咖啡店買咖啡VS自己煮咖啡:假設你每天在咖啡店買一杯咖啡需要花費30元,而自己煮咖啡的成本每天為5元,但你需要先購買一臺1500元的咖啡機,每月還要花100元購買咖啡豆,自己煮咖啡每天會花費10分鐘。請計算一個月(30天)後,在咖啡店買咖啡和自己煮咖啡的總花費分別是多少?並推算出多久後自己煮咖啡的累計成本會低於每天在咖啡店買咖啡的花費?此外,如果考慮時間成本(假設你每小時的時間價值為50元),哪種方式最終更省錢?
結語
如果說長文字處理能力為Kimi提供的是更好的“記憶力”,那“推理”能力顯然是提高了Kimi的智力,Kimi透過模擬人類的推理和思考能力,對複雜問題進行拆解,從而step by step的進行解決,在執行過程中還能呼叫程式碼、搜尋等工具,最後還能像人一樣進行自我反思和修正。
顯然,這次Kimi探索版並不是要做一個o1出來,他們的底層思路可能是類似的,但落到使用者層面,Kimi探索版更多瞄準的還是它的大盤使用者:知識工作者以及大學生。透過 搜尋來解決使用者日常場景中那些曾經很難用大模型來解決的問題。
如果說o1是面向科研和高階使用者的特化模型,現在的Kimi探索版更像是一個面向更廣泛使用者的搜尋調研工具。
真正改變世界的技術創新,往往是從解決日常問題開始的。模擬人類的推理思考過程,配合海量的窮盡式搜尋和不斷反思迭代搜尋結果的特性,的確讓 Kimi 有了某種“超能力”,使用者在使用Kimi找答案的時候體驗到了一種前所未有的效率與精確性。
另外,據說“深度搜尋”只是第一步,Kimi探索版後續還會更新其他新能力。
在保持期待的同時,大家可以先把Kimi探索版用起來了。