Good Luck To You!

手机扫一扫

大模型戰爭:智慧體成關鍵,刷榜風光不在

鳳凰科技 2024-12-10 01:31:37 2

2025年被認為將是智慧體(Agent)落地元年,客戶更看重智慧體的效果,生態各方為此已在摩拳擦掌。

文|趙豔秋 周享玥‍‍‍

‍‍‍

編|牛慧‍‍‍

智慧體採購,正在成為市場熱點。

“如果說2023年專案中標主要圍繞智算中心、模型中臺建設,那麼從今年下半年起,眾多客戶的招標內容全都轉向應用,且越來越細分。” 眾數信科聯合創始人汪中告訴數智前線,智慧體開始走上臺前

智慧體已成為客戶、大模型企業以及各類服務商關注的核心故事。甚至一家企業能把智慧體做好,就能越過大廠,成功中標。

對於大模型企業而言,智慧體技術及工具鏈的支撐能力已成為基本要求。若在這方面表現欠佳,大機率難以與其他模型競爭。單純靠刷榜體現的優勢,如今已很難得到客戶認可。

不過,業界對於智慧體的定義、涵蓋的具體內容,尚未達成共識。有人認為OpenAI 推出的 GPTs 是智慧體;也有人認為,只有能呼叫工具的才算是智慧體。從形式上說,不管對話機器人還是各種形式的大模型應用,從廣義上都屬於智慧體範疇。

但有一點是業界公認的,那就是智慧體必須能切實解決業務問題,至少在降本增效方面要有 10 倍、20 倍的提升,才能獲得客戶認可。因為業界越發意識到,大模型模式更難實現商業閉環,單純的燒錢模式基本難以為繼。

而業界這種認知,不僅重構了軟體架構,甚至在促使大模型生態企業重塑了商業模式。正如王堅博士所說,AI 不應被視為工具的革命,而應被當作革命的工具

01

“客戶要求10倍~20倍效果”

“你說電商直播數字人好,那你就幫我賣東西。一單二三十元,我分你兩元。”從事生成式AI虛擬人研發的中科深智CTO宋健告訴數智前線。在電商領域,今年客戶在購買工具時變得格外謹慎,他們更傾向於按照效果付費,採用分潤或CPS(按銷售付費)模式。宋健預測,到明年,他們的直播電商數字人客戶可能 100% 都會採用這種模式。

“國內外智慧體存在很大差異。國外可能仍類似於傳統 SaaS 模式,只是利用智慧體重構了以往的軟體架構。” 宋健表示,國內的情況則更為激進一些,在一些競爭激烈的行業,比如電商領域,不僅重構了軟體架構,還重塑了商業模式

這是因為客戶關注的是智慧體能否切實解決問題。“無論是降低成本還是提高效率,綜合起來至少要有 10 倍、20 倍的提升才行。” 宋健進一步解釋道。

客戶現在對大模型技術已經祛魅了。”眾數信科汪中向數智前線坦言,這些客戶從之前單純的基礎性採購,轉變為以應用效果為導向,要求智慧體在降本、提效或拓展新業務方面創造價值。

“客戶不關心你是怎麼實現的,只要看效果。”汪中說。目前行業內的採購模式通常是,技術廠商先迅速為客戶進行一個 PoC(概念驗證)場景驗證,雖然語料範圍可能較小,互動形式也較為單一,但要證明能夠完成客戶場景中的業務邏輯,並運用客戶專屬的業務知識。之後,客戶才會啟動採購流程。當然,他們也願意為這些創新投入一定成本。

眾數信科最近做的一個PoC是氣象部門的緊急預警方案助手。廈門每年都會遭受颱風侵襲,氣象部門預測後,需要向港務局、城管等多個部門傳送應急通知。這些應急報告原來需要4個專家花費3個小時才能完成。PoC的演示效果顯示,藉助助手,只需1位專家1小時就能完成,效率大約提升了12倍。

在另一個案例中,原本無法實現的事情,現在成為了可能。在高校學生培養計劃中,存在大量評測維度。如果依靠現有的程式設計技術,針對上萬乃至數萬學生,只能進行一些通用評測,很難實現個性化定製。在這個案例中,針對課堂環節,多個智慧體協同合作,實現了創新。例如,有的智慧體負責轉錄授課語音,有的進行授課水平的分析對比;有的生成隨堂小測試卷,有的現場批改試卷;還有的針對每個學生的薄弱點,進一步推薦學習材料…… 因此,在學生評價系統中,新增了多個評測維度。

“每一步背後都有智慧體的支撐。” 汪中總結道,隨著基礎模型能力的發展,智慧體的能力和形態更為豐富,已經初步具備協同的基礎。汪中說,他們在實踐中認識到,每個智慧體都要扮演一個人類的社會角色,進行社會化分工並有產出,進而有可能形成群體智慧。智慧體不再是單一的工具,未來也不僅僅是單個超級智慧體的出現

為了達到這樣的狀態,智慧體需要具備三個主要特徵:能夠進行交流和理解;依據反饋和結果進行反思和自我規劃;與外部能力單元,如業務系統、其他智慧體、工具級應用等進行互動和協同。

在智慧體落地應用過程中,客戶從購買產品向購買服務的轉變趨勢愈發顯著。智慧體與以往資訊科技的不同之處在於,它需要持續最佳化和調整,而目前客戶完全依靠自身力量實現這一點,還存在難度。汪中發現,以規模在200萬元左右的專案為例,後續每年服務費的佔比已從傳統資訊化專案的 10%~15% 提升到 25%~30%

而在競爭更為激烈的電商領域,變化更是翻天覆地。宋健注意到,電商直播數字人的迭代速度已經以天計。一旦從銷售工具轉變為提供服務,涉及的環節會變得極為繁雜。例如,需要密切關注平臺的各種規則及其調整變化;之前那種研發、產品和業務相互分離的模式已經行不通了,現在必須協同作戰,技術人員要深入一線,每天檢視資料、分析運營情況,進行最佳化迭代;當最佳化措施不再奏效時,要果斷更換產品、調整客戶群體。“CPS 模式的優勢就在於,各方更容易達成共識。”

02

生態全都動起來了

在智慧體的落地鉅變中,雖然大廠仍是當下的主要推動者,但人們認為,由於智慧體更看重對客戶需求的響應,未來行業智慧體的產出來源主要將是兩類玩家:

一類是有AI原生能力的服務商另一類則是行業傳統資訊化服務商。智慧體的落地並非易事,核心技能有業務場景遴選、知識萃取、智慧體訓練和編排。如果不瞭解業務場景以及大模型的能力邊界,那麼在技術響應、經驗和效率上就會非常低。這需要人工智慧人士和業務人士的雙向奔赴

而大廠在這一過程中,將扮演生態鏈普及角色。百度、阿里、位元組、騰訊等大廠均推出了一站式智慧體開發平臺。他們走的是標準路線,目的是降低智慧體落地門檻、應用廣度和深度。比如,無論百度、智譜還是浪潮雲,最近釋出的新品,都在關注用智慧體接管手機等裝置的能力,實現一些擬人化操作。

大家目前都在基於自身大模型,構建整體的智慧體生態。”IDC中國高階分析師楊雯告訴數智前線,差異在於各家應用場景、資料積累不同,發力的優先場景和方向選擇也有所不同。業界觀察,這些企業在智慧體支撐策略上差異也較大:

業界反饋,百度生態佈局上覆蓋較全,有基礎模型,APP builder、Agent builder平臺,也有對應的硬體如一體機,可直接在客戶機房中部署。百度也支撐聯合方案開發,定製化產品適配。業界分析,這與李彥宏號召業界不卷模型、卷應用有關。

一些人士建議,千帆平臺可以加強除文心之外的商業化模型納管,並支援更多常見網際網路服務的外掛開發。

在智慧體方面,今年11月,百度推出工具流Agent。“Agent去年一出來特別火,但很快一盆冷水潑下來,大家發現很難用起來。我們的客戶裡,90%是RAG,10%是Agent。”千帆AppBuilder產品負責人朱廣翔告訴數智前線。因為要完成一個企業級任務,可能需要幾步甚至更多,如果每一步準確率是95%,多步驟下來,衰減將非常快。它沒辦法支撐長思考和推理。採用工作流方式,專家把流程描述好,Agent就會穩定很多,會更加落地。

阿里的通義千問模型能力在國內較強、反饋好,其開源模型在業界應用較多。阿里更多透過雲端形態支撐應用,私有化支撐較少。這可能與阿里雲的“AI驅動、公共雲優先”戰略有關。在智慧體產品方面,阿里通義實驗室新推出了自適應規劃的多模態檢索智慧體OmniSearch,能模擬人類,將複雜問題逐步拆解進行智慧檢索規劃。

位元組目前在大力推廣釦子私有化部署產品,即今年8月推出的HiAgent企業專屬AI應用創新平臺。與年初打響大模型價格戰異曲同工,這次仍透過價格戰,搶佔市場。不過,它目前還不搭配模型,即位元組豆包模型還沒有私有化;不做應用,沒有硬體,嘗試基於HiAgent平臺教會客戶去搭建Agent應用。它的打法和支撐條件還有待體系化,這與其剛剛啟動大模型私有化業務線不無關係。

騰訊在智慧體上的佈局,也和其在大模型落地上優先賦能自身產品矩陣的“全家桶”策略類似,更加關注與自身擁有龐大流量的自家產品的結合。比如今年9月,騰訊元器上線的新功能就支援公眾號運營者自主打造專屬智慧體應用,在公眾號內提供陪伴、互動、答疑、知識交流等智慧化功能,目的是提升使用者體驗和公私域運營效率。

除了大廠,“AI六小虎”的智譜AI最近不斷更新智慧體技術。智譜的優勢在於科研能力較強,一些開發者反饋,其模型的某些效能,超過了通義千問。但目前生態方面的支援還有待加強

在前不久召開的智譜Agent OpenDay上,智譜CEO張鵬表示,Agent可以看作是大模型通用作業系統的雛形,理論上,可以將其推廣到手機端、PC端、車端等各類智慧裝置上,實現基於大模型的互聯互通。

“將來的智慧體,一定是跨系統操作的,這是0跟1的區別,而不是60分和70分的區別。”一位資深行業人士觀察,跨系統、跨App的能力,目前已成為兵家必爭之地。

中國電信在今年9月開始智慧體平臺的開發,近期展出了星辰智慧體應用平臺。中國電信相關人士告訴數智前線,目前針對政企的標杆專案正在打造之中。

雖然大廠動作不斷,但業界期望他們支撐智慧體的速度要更快。“目前的速度無法跟上廣泛的客戶需求。更多業務邏輯沒有充分體現,也就是客戶專屬知識與大模型技術的結合問題,這也是業界在落地上非常關注的。這側面說明,大模型企業向客戶方向靠攏,尚需一個過程。

03

智慧體,何時爆發?

智慧體的大方向已成,但何時能夠真正爆發?

多位行業人士均向數智前線表示,這很大程度取決於模型能力的發展及市場教育程序。

“我們有一個簡單判斷,GPT5什麼時候能出來,會是一個很直觀的對標時間點。”眾數信科聯合創始人汪中說。

智譜AutoGLM 技術負責人劉瀟也告訴數智前線,去年智慧體還只能滿足使用者10%-20%的預期,使用者就不太願意買賬,今年達到了50%-60%,一些使用者開始意識到這件事情有用,而當智慧體能滿足使用者70%-80%的預期時,應用鋪開的速度將非常快。他判斷大模型能力達標大概還需半年

中科深智CTO宋健則表達了不一樣的觀點。他認為,Agent要真正爆發,必須真的滲透到行業裡頭,但To b鏈條的爆發,“明年應該還到不了特別大的規模”。

IDC中國高階分析師楊雯也告訴數智前線,於B端來說,若無法徹底解決大模型的幻覺問題,達到100%的精準度,大規模應用仍然難以實現。智慧體爆發,預計可能要1至1.5年時間

“目前而言,智慧體仍處於市場混戰階段,距離成為終極入口標準還有一定的路程。”楊雯說。

但不可否認的是,面向這一確定的方向,處在智慧體爆發前夕的玩家們,無一例外,都在透過各種工程化的能力和一系列技術,彌補模型能力不足,提前搶佔先機。

“我們測試過大量基礎模型,它們的Function Call能力在10個工具裡去選,還是比較準的,一旦超過10個,準確度就大幅衰減,但在實際的應用場景中,執行步驟大機率都超過了10個,為了更好的實現業務可控性,我們首創了基於狀態機的智慧體workflow(工作流),在保證智慧體自規劃、自治效能力不受影響的前提下,實現業務的精準可控。”汪中說。

智譜劉瀟也透露,他們正透過更好的強化學習策略,讓智慧體能夠執行更長的步驟操作。

業界目前也都在研究工作流。“正因為有了工作流,我們發現雖然只增加了一層,但是Agent的落地增長就非常快,能看到很快到兩成。”百度朱廣翔說,預測明後兩年,Agent會逐漸超過RAG應用,因為RAG場景較少,只是問答;但Agent可以實現客服、營銷、企業排程、一站式平臺,天花板更高。

有行業人士認為,智慧體的應用可以至少分為從低到高三個應用層級,目前市場上已經出現不少初級應用和中級應用,高階應用則還需進一步實現。

比如豆包、kimi、文小言等,被認為可以看作是最為初級的智慧體。它們具備簡單的語言互動和任務理解能力,聽得懂人話,能夠根據指令,去執行一些簡單的操作。“目前絕大多數的智慧體是單智慧體的初級應用,包括很多GPTs,能夠簡單的做問答等任務執行。”IDC楊雯說。

中級應用還要更深一層,展現形式已經脫離單純的Chatbot形態,不再僅僅是對話方塊模式,規劃能力和複雜度也進一步提升,使用的工具不再是聯網搜尋、天氣查詢等簡單外掛,而是需要有對應場景內的專業外掛和能力,能完成更復雜的場景任務

“比如智慧客服,就是非常典型的一個Agent應用,比以前可能會有10倍甚至20倍的一個變化,現在我們接到的很多電話,其實都是新的Agent打出來的,你跟它聊半天,可能還以為它是個真人。”宋健說,而且,與傳統客服相比,軟體設計也變得更加簡便。

“第三個級別,也是我們現在在努力去實現的。它除了更豐富的互動形態,能夠完成複雜任務,還會額外再增加兩個標籤。”汪中告訴數智前線。

其一是能夠了解場景背後的業務邏輯和知識脈絡。“它可能不再那麼通用,但它的專業性更強。而如果沒有,它還會主動去尋求這些行業知識的支撐。”

其二,從外掛和工具的使用能力上來說,它能夠讀懂現有的業務系統,將現有的業務系統作為其能力外掛來源的一部分,而不再只能使用為它定製的外掛。

汪中舉例說,他們正在與船舶貨運公司進行港務排程助手的研發試點,在他看來就是一種高階應用。

一艘船靠岸後,往往需要進行卸貨、轉運、洗艙、船員登記、物資補給等大量工作,原來這些工作主要靠人工去安排和排程,再登記進入車輛管理系統、補給管理系統等對應的若干個系統裡,給到對應的執行單位執行。而現在,客戶提出,希望用AI智慧體來幫助現場員工,在繁雜的資訊流和工作流中,由智慧體進行初步的資訊收集、分析、業務建議,成為現場員工的“數字同事”。

當然,更高階的應用,仍然有賴於模型能力和工程化能力的提升。