鳳凰科技 2024-11-07 01:35:52 6
作者 | 三北
編輯 | 漠影
AI上市公司深圳雲天勵飛,最近在算力產品及服務業務板塊完成諸多大額訂單。
首先是11月5日,雲天勵飛宣佈已完成近16億元的AI大單的交付工作,為北京德元方惠科技開發有限責任公司(簡稱“德元方惠”)提供AI訓練及推理算力服務。同時,第一批算力服務(對應合同中約60%的算力規模)的驗收相關工作已完成,上線日期為2024年10月1日。
▲雲天勵飛最新公告部分擷取
而就在不久前的9月,雲天勵飛剛中標了約1.3億元的“天府智算中心(一期)專案裝置採購及監理服務採購專案”,連下兩城。
自去年以來,大模型催生了大量訓練及推理算力需求,全球各路雲端計算大廠、伺服器廠商、AI企業以及一些跨界玩家紛紛開始進入智算行業。
作為一家做AI演算法起家的企業,雲天勵飛拿下這些專案的背後,有什麼樣的技術和商業邏輯?這又能為AI企業同行帶來什麼樣的啟示?
透過對話雲天勵飛副CFO兼資本中心總經理陳騰宇,本文對此進行了深入探討。
一、大模型狂飆500天,訓練及推理算力需求激增
自2023年大模型爆火以來,催生了大量訓練及推理算力需求。
大模型朝超大引數規模發展,OpenAI提出的百萬卡的智算叢集思路已經被驗證,推動智算中心如雨後春筍般湧現。根據工信部最新資料,截至2024年上半年,國內已經建設和正在建設的智算中心超過250個。2024年上半年智算中心招投標相關事件791起,同比增長高達407.1%。
提早預判到這樣的趨勢,雲天勵飛於2023年初涉足異構算力領域,這是國內AI企業最早佈局智算的步伐之一。陳騰宇向智東西談及當時的契機:短期來看,雲天勵飛在研發過程中有大量的技術沉澱可以支撐異構算力叢集的高效率執行,而其盈利能力亦較為可觀;另一方面,訓練背後的推理需求是更大的藍海,將給雲天勵飛自研推理晶片提供廣闊的應用場景。
籌謀一年多,時間來到2024年7月,雲天勵飛與德元方惠一舉簽下16億元的AI大單,在產業裡一戰成名。
按照合約,雲天勵飛將為後者提供智慧算力排程及AI大模型開發服務平臺配套服務,算力總規模約4000PFLOPS,用於大模型訓練及推理。
專案規模之大、業務之聚焦,很多業內人士好奇,雲天勵飛能搞定這個專案嗎?
陳騰宇告訴智東西,目前這一專案已全面完成交付,並進入除錯及驗收階段。同時,專案商業化也不成問題,根據雲天勵飛官方公告,這一專案未來三年預計每年為公司新增營收約5億元,三年累計產生利潤5.39億元。
今年9月,雲天勵飛緊接著再下一城,中標了約1.3億元的天府智算中心專案。
據悉,該專案目前也已經進入交付過程,預計進一步為雲天勵飛的業績帶來直接收益。
大專案紛紛交付,標誌著雲天勵飛異構算力業務步入正軌,成為一條新的增長曲線。
可以看到,相比國內其他AI領域同行,雲天勵飛是在該領域跑得較快的AI企業。究其原因,首先還是因為公司較快地看到並抓住了這波AI機遇。
但提早佈局AI算力的企業不在少數,為什麼雲天勵飛能夠突圍?
二、為什麼是雲天勵飛?左手演算法,右手晶片
AI算力混戰局面持續已一年多。
自去年以來,儘管雲巨頭相繼推出令人眼饞的大模型訓推“全家桶”,但實際可用的算力仍是稀缺資源,伺服器廠商、AI企業都在佈局智算,甚至跨界玩家都入局了,競爭好不激烈。
之所以能夠在群雄混戰的AI算力市場站住腳,陳騰宇認為,雲天勵飛的核心競爭力還在於技術儲備,主要體現在演算法和晶片兩大方面。
1、自研大模型經驗沉澱工具,助客戶提升算力利用效率
在演算法層面,雲天勵飛於2023年推出了自研千億級“雲天天書”大模型,並在大模型的研發過程中積累了一系列算力調優、提升模型訓練效率的技術平臺和相應工具。
這些經驗及工具都被雲天勵飛沉澱到產品和服務中,可幫助客戶提升模型訓練及算力利用效率,以更低成本訓練大模型。
具體到叢集管理方面,雲天勵飛智慧訓練平臺及算力排程平臺,能夠按任務排程到卡,並進行任務管理、任務編排、訓練告警、大模型斷點續訓。
此外,其資料管理(DataHub)支援資料視覺化、挖掘、治理等多維管理,在保證資料安全性的基礎上實現資料資產化;此外在叢集管理中的通訊最佳化、日誌叢集、監控告警等方面也積累了多個工具鏈。
具體到軟體平臺方面,雲天勵飛推出了智慧演算法標註平臺,為演算法訓練提供了可靠的底層資料支援,可支援影象和文字自動化標註,據稱相比人工標註效率提高40%左右。
除此之外,支援大模型負載均衡的部署平臺,支援在多個主流硬體平臺進行零程式碼、自動化的模型釋出的模型釋出平臺,提供完整工具和資源的模型評測平臺,全面覆蓋內容稽覈過濾的智慧內容稽覈平臺等,都可以大大提高演算法訓練效率。
2、演算法晶片化,自研大模型晶片提供高效推理服務
在晶片層面,雲天勵飛基於對AI演算法技術特點及行業場景計算需求的理解,透過自定義指令集、處理器架構及工具鏈的協同設計,實現演算法技術晶片化,構建了神經網路處理器平臺,可以支援其算力產品及服務。
同時,雲天勵飛已具備自研的推理卡,依託創新的D2D chiplet架構,可承載大模型應用落地的大規模推理計算。據悉,從2022年開始其就開始針對大模型的Transformer架構做最佳化,實現流片,可見其對市場感知的前瞻性。
儘管在軟體生態上還存在差距,但與海外高效能算力相比較,一些國產推理晶片已經在某些專項上佔據優勢。比如說雲天勵飛X6000一體機,採用Mesh互聯技術,在多卡互聯時可實現儲存共享、最大化發揮頻寬優勢,從而提升大模型推理效率,針對70B模型的推理效率已達60 Tokens/s,而針對MoE架構模型,如mistral08*7B,推理效率達到260 Tokens/s。
具體到大模型推理的實務中,很多客戶更多關注的是頻寬能不能充分利用起來這個問題。雲天勵飛在卡間互聯、堆疊式設計等多方面的研發儲備,使其能夠滿足客戶的這一核心需求。
可以看到,之所以能夠拿下近20億元大單,還因為雲天勵飛建立了雙重護城河:左手演算法,右手晶片,使其在群雄混戰的AI算力市場殺出一條血路。
三、技術立身,做最懂大模型的算力產品及服務
縱觀算力產業,動輒一個專案的金額達數億甚至數十億元,週期長、工程量大、後續運營服務需求高。
針對這樣的業務特徵,陳騰宇告訴智東西,對於大客戶來說,他們在選擇算力服務提供商時,首先還是要考慮這家公司是否靠譜。主要考察的方面除了技術儲備,還包括行業經驗、供應鏈和交付能力、運營穩定性及資金實力等一系列綜合能力。
而隨著百模大戰繼續推進,叢集運營面臨的最大挑戰還在於整體的運營能力,以及隨著市場趨勢變化,透過軟硬體協同迭代,不斷滿足客戶的新需求。
談及雲天勵飛在這些“軟實力”方面的儲備,陳騰宇談道,雲天勵飛已經搭建能力板塊較為齊全的業務團隊,包含技術研發、運營及銷售、技術運維及交付等人員,保障業務順利開展、進行。
同時,該業務板塊已有規模化落地。根據雲天勵飛官方公告,其已落地西南、華南區域三個高效能算力叢集,運營算力規模接近5000P。在拿下兩個鉅額大單前,截至2024年5月末,公司已搭建異構計算叢集算力超800P。
此外,雲天勵飛還積累了多個行業的客戶資源。透過前期業務拓展觸達、上下游生態搭建等方式,雲天勵飛積累較多具備大模型訓練及推理需求客戶,包括AI初創公司、科研院所、網際網路企業、自動駕駛企業、運營商等客戶資源。
可以看到,正是這樣的團隊儲備、落地案例及客戶資源積累,配合“演算法晶片化”戰略及技術儲備,讓雲天勵飛的異構算力業務穩步發展起來。
對於AI行業來說,雲天勵飛開闢了一條AI企業在大模型時代的新出路——不止於演算法攻關,而是將演算法與算力經驗結合佈局算力產品和服務,這對AI同行有一定的啟迪作用。
結語:順勢而為,構築AI企業新價值
回顧過去一年多,AI算力在“百模大戰”狂潮之中成為競爭焦點;站在現在看未來,行業已經歷過一波大浪淘沙,突出重圍的玩家如雲天勵飛,正真槍實劍披掛上陣,構築AI企業的新價值壁壘。
智算中心正從“建起來”走向“用起來”,也對雲天勵飛們提出了新挑戰。“我們的能力構建和商業化已經做得比較好了,下一步我們會繼續做深,繫結多個行業龍頭,儘可能地挖掘客戶需求,同時借用他們的行業經驗去迭代自己的推理算力。”陳騰宇說。