鳳凰科技 2024-12-07 01:33:46 2
隨著人工智慧的加速發展,科技巨頭之間掀起了一輪輪AI算力競賽。日前,馬斯克的xAI叢集資料曝光,其正在推出基於10萬個H100 GPU的Colossus訓練叢集。Meta也計劃購買35萬個H100 GPU,加強Llama 4 AI模型的算力。LessWrong網站對幾大AI巨頭的GPU/TPU數量進行估算,預計到2025年,微軟、谷歌、Meta、亞馬遜和xAI所擁有GPU的等效H100數量將超過1240萬塊。這表明科技巨頭間的算力“軍備競賽”仍在延續。
超1240萬塊,巨頭繼續佈局算力版圖
最近,LessWrong網站上發表了一篇部落格,根據公開資料對英偉達晶片的產量、幾大AI巨頭的GPU/TPU數量進行了估算。其中,微軟擁有75萬-90萬塊等效H100,明年預計達到250萬-310萬塊;谷歌擁有100萬-150萬塊等效H100,明年預計達到350萬-420萬塊;Meta擁有55萬-65萬塊等效H100,明年預計達到190萬-250萬塊;亞馬遜擁有25萬-40萬塊等效H100,明年預計達到130萬-160萬塊;xAI擁有10萬塊等效H100,明年預計達到55萬-100萬塊。
可以看出,幾大科技巨頭都在緊鑼密鼓地佈局自己的算力版圖,開展下一代更先進模型的訓練。馬斯克此前即透露Grok 3將在年底前亮相。他表示,在法律問題資料集上完成訓練後,下一代Grok 3將是一個強大的私人律師,能全天候提供服務。谷歌Gemini 2.0預計在本月正式上線。OpenAI更是宣佈,將開啟為期12天的“Shipmas”新功能、新產品和演示活動,將展示文字轉影片AI工具Sora、新的推理模型等。
這些先進模型的訓練和推理需要龐大的算力資源。馬斯克聲稱,其Colossus叢集是“世界上最強大的人工智慧訓練系統”。叢集配備英偉達HGX H100伺服器,每臺伺服器內含8張 H100 GPU,每個機架可容納8臺伺服器,8臺伺服器組成1個陣列,每個陣列有512個GPU,整個Colossus 叢集內有超過1500個GPU機架,支援著龐大的算力執行。
Meta也在使用超過10萬個Nvidia H100 GPU的叢集,訓練其最新Llama 4 AI模型,成為目前規模最大的AI訓練叢集之一。明年Meta可能會使用35萬個H100 GPU。至於OpenAI,其背後支持者微軟很可能是英偉達近兩年的最大客戶。據Omdia Research分析,2023年微軟和Meta是H100的最大買家,預計採購量達到15萬個。而到了2024年,微軟的AI晶片囤貨目標更是提升到了驚人的180萬塊,其中大部分來自英偉達。
英偉達繼續領先,定製晶片市場值得關注
在AI巨頭繼續大規模部署AI算力的情況下,展望2025年AI晶片市場,英偉達作為全球AI晶片市場的領導者,仍將繼續保持其強大的市場影響力和技術領先地位。2024年AI晶片市場佔有率:英偉達佔據約75%,其他定製化晶片佔10%-15%,剩餘的10%-15%由超微、英特爾等企業瓜分。另據DIGITIMES Research資料,2024年高階伺服器GPU產值預估將達到1022億美元。
從此前的產品規劃來看,英偉達的AI晶片Blackwell產品發貨將從2025財年的四季度開始,屆時將同時發貨Blackwell和Hopper兩大系列的產品。而晶片業則已開始著眼英偉達的下一代Rubin晶片。大摩分析師Charlie Chan透露,臺積電和供應鏈已在為Rubin晶片的推出做準備,推出的時間有可能從2026年上半年提前到2025年下半年。2025年下半年將進入流片階段。下一代Rubin晶片將採用3nm工藝、CPO(共同封裝光學元件)和HBM4(第六代高頻寬記憶體)等,效能將更加強大。
AMD作為英偉達的主要競爭對手之一,在AI晶片市場也表現出強勁增長勢頭。下一代 AMD Instinct MI350 系列加速器有望在2025年下半年上市。其基於 AMD CDNA 4 架構,推理效能比基於AMD CDNA 3的加速器提高35倍。
英特爾在AI晶片市場也擁有一定份額,但今年推出的Gaudi 3表現並不令人滿意,儘管Gaudi 3在效能上有所提升,可市場份額仍然較小,預計佔有率約為1%。不過,2025年英特爾寄予厚望的Intel 18A將會量產。下一代AI PC處理器Panther Lake和下一代資料中心處理器Clearwater Forest將基於Intel 18A,也在明年釋出。此外,按此前的規劃,2025年英特爾還將推出一款全新的AI加速器產品Falcon Shores。這是Gaudi系列的後續產品。2025年,英特爾能否在AI晶片市場有所表現,受到業界關注。
更令人關注的是幾大AI巨頭的定製晶片開發與應用程序。近日,亞馬遜AWS宣佈推出全新的AI定製晶片Trainium3,與上代Trainium2相比,採用3nm工藝,計算效能增加2倍,能效提升40%。該產品預計於2025年底量產。據瞭解,Adobe、AI新創公司Poolside、資料平臺服務Databricks以及晶片大廠高通都採用Trainium2訓練其AI模型。未來,AI巨頭的定製晶片將是英偉達GPU的重要競爭對手。
端側AI需求爆發,各大廠商提前卡位
2025年的另一個重要趨勢是,AI模型的邊緣和推理計算需求將迅速增長。迄今為止,大多數AI晶片活動都集中在資料中心方面,端側手機、PC的AI應用也大多是從雲端呼叫。然而,具有真正端側AI功能的裝置預計將於2025年推出,邊緣AI將變得更加普及。
在資料中心領域GPU佔據AI加速的主導地位,但邊緣側的情況將更加複雜多樣,企業需要透過靈活地配置CPU、GPU和NPU,以滿足AI加速的廣泛需求。在英特爾日前舉辦的新質生產力技術生態大會上,記者看到一款英特爾與新華三共同推出的AIGC靈犀一體機,其基於至強處理器與Gaudi2D加速卡,可以在私域靈活佈局,進行多模型的高效推理和業務場景的閉環交付,滿足邊緣側AI應用的多模融合、靈活便捷等多元需求。在AI PC方面,英特爾展示的基於XPU的AI算力最佳化案例也頗具代表性,顯示AI PC在遊戲、教育教學、工廠製造、商場支付等方面的廣泛潛力。
高通在端側AI方面的舉措同樣值得關注。在驍龍峰會期間,高通推出驍龍8至尊版移動平臺,面向終端側生成式AI,採用新一代Hexagon NPU,推理效能提升45%,能效提升45%,能夠支援更復雜的端側AI應用,互動體驗更加流暢直觀。此外,近年來高通還與騰訊混元、智譜AI等大模型廠商建立合作關係,推動端側AI應用的部署和落地。透過合作,高通為大模型在端側的執行提供算力支援,並最佳化大模型在端側的效能表現。
Arm則在終端領域引入計運算元系統(CSS)。此前,Arm已將計運算元系統引入基礎設施、汽車領域。Arm的終端CSS中囊括了最新的Armv9.2 Cortex CPU叢集和Immortalis與Mali GPU、CoreLink 互聯絡統 IP,以及基於3nm工藝生產就緒的CPU和GPU。在軟體工具方面,KleidiAI和KleidiCV庫可為端側人工智慧和計算機視覺工作負載提供支援,Arm Performance Studio可以幫助開發者簡化開發流程。
隨著端側AI成為新一代智慧手機、PC、汽車等智慧裝置發展的驅動力,有可能將形成一個超過雲端的廣大市場。