Good Luck To You!

手机扫一扫

Sora終於來了，但多模態AI呼喚實用主義

鳳凰科技 2024-12-13 01:35:07 1

Sora的現實問題

隨著ChatGPT等大語言模型的問世，人工智慧進入了一個全新的時代。在這股浪潮中，多模態AI技術成為業界競相追逐的目標，OpenAI的Sora更是將這股熱情推向高潮。

等待了299天之後，屢次跳票的Sora終於來了，OpenAI在北京時間12月10日凌晨正式釋出了全新影片生成模型Sora Turbo。

然而，從實測的效果來看，Sora的效果並沒有帶來太多驚喜，無論是在影片時長、生成效果一致性、還是指令遵循方面，都沒有明顯強於市面上的已有影片模型。

事實上，Sam Altman將Sora比作影片版GPT-1的說法其實暴露了這個專案的尷尬處境。因為GPT-1更像是一種實驗性模型，不太適合作為直接可用的生產工具，它主要被用作科研領域的參考。

在投入大量資源和時間後，Sora如果呈現的只是一個概念驗證級別的產品，如果真如GPT-1一般需要經過多次迭代以及技術突破才能達到實用水平，那麼考慮到影片生成所需的巨大算力投入和資料需求，這種戰略選擇的成本效益比恐怕令人擔憂。

一邊用誇張的宣傳和神秘感製造期待，一邊交出的卻是一個並沒有多少突破性進展的產品。特別是在2024年末這個時間點，當國內外競爭對手已經透過快速迭代實現了類似水平的效果，這種“落差”的表現略顯尷尬。

不可否認，Sora的釋出代表了多模態AI技術的重要里程碑。它展現了一個“會預測未來”的AI系統的雛形，讓人們對通用人工智慧(AGI)的到來充滿期待。只不過，這次OpenAI已經不再將Sora稱為“世界模擬器”了。

關於Sora的技術侷限性的爭論由來已久，例如，Sora在生成影片時常出現邏輯錯誤，如物體運動不符合物理規律、因果關係混亂等問題，現在的Sora Turbo顯然也沒有解決這一問題。早在年初，Meta首席科學家楊立昆就直言，Sora的生成式技術路線“註定失敗”，因為其依賴於大規模資料訓練的機率模型，無法真正理解物理世界的因果關係。此外，Sora的生成過程更多是對已有資料的擬合，而非創造新知識，這使其在模擬真實世界方面仍有很長的路要走。

夢想總歸要回到現實，除了技術成熟度，Sora在產業化方面還存在諸多挑戰：

首先，Sora的訓練和應用成本極其高昂。據Factorial Funds估算，如果Sora要大規模應用，還需要約72萬片英偉達H100 GPU的支援，這意味著216億美元的硬體投入。如此天價的算力消耗，讓Sora很難在短期內實現商業閉環。

其次，Sora在落地場景方面尚不成熟。儘管Sora已經正式釋出，但在效果上離真正的“世界模擬器”差距甚遠，現階段更像是一個玩具而無法成為一個真正實用的創意工具。可以說， Sora離真正的“iPhone時刻”還有相當長的路要走。

就像上世紀60年代的核聚變發電：展示出令人震撼的潛力，吸引了大量投資和頂尖人才，但隨著研究深入，技術難度和資源投入卻呈指數級增長。雖然每隔幾年就有突破性進展的報告，但要實現真正可控、穩定的商業應用，始終像隔著“永遠差30年”的距離。

所以，如今的Sora面臨這樣一個困境：在完美的演示影片背後，是否存在不可逾越的技術瓶頸？這種追求完美影片生成的路徑，會不會最終被證明是一個代價高昂的技術死衚衕？要將實驗室的演示轉化為真正有價值的應用，可能比我們想象的要困難得多。

對此，百度創始人李彥宏在最近接受採訪時曾表示：“如果真的能夠做到任意場景下影片生成，那可能要很長很長時間，而且成本很高。” 由此可見，百度並非不重視Sora所代表的技術方向。只是基於務實的判斷，選擇了另一條路線。

“應用驅動”成為第一性原理

與許多廠商專注於打造Sora這樣的通用文生影片模型不同，百度智慧雲的著眼點在於幫助客戶實現多模態應用的落地。正如李彥宏所言，“我們更關心怎麼幫使用者把應用跑起來”。事實上，在眾多行業客戶的實際場景裡，他們真正需要的是在自己的應用中擁有可靠的多模態能力，而不僅僅是一個裸的通用模型。百度智慧雲深諳此道，透過多年來在多模態領域的深厚積累和大量工程化實踐，以更簡單快捷、低門檻的方式賦能客戶，讓多模態應用能夠開花。這也是百度暫不直接做Sora，而是聚焦應用落地的重要原因。

不做Sora，並不意味著百度在多模態AI領域缺席。恰恰相反，百度一直在多模態領域有著長期而深厚的積累，只是選擇了一條應用驅動的路線。

隨著當前大模型效能增長遇到瓶頸，AI正在進入“冷靜期”。海外AI巨頭從追求AGI轉向務實路線，OpenAI嘗試轉向盈利性商業化運營，谷歌、微軟等紛紛聚焦商業變現和產業應用，重點發展To C業務、企業服務和開發者生態。

正如歷史上的典型的技術週期：高期望→泡沫→冷靜期→務實應用。行業需要從“技術優先”的邏輯切換到“應用優先”的軌道，透過實踐中反饋的需求和問題為技術發展指明方向。

那麼，什麼是“應用驅動”？簡而言之，就是從真實應用場景出發，梳理AI落地的關鍵問題，並聚焦資源予以解決，最終讓技術產生實際價值。這有別於動輒“顛覆性創新”、追求酷炫Demo的做法。在李彥宏看來，“我更多希望儘早接觸場景及接觸應用，看在這個過程當中，到底遇到了什麼問題，把這些問題帶回來，我們綜合一下，看大家遇到的最多的問題，就是我們優先解決的問題。”

這種理念，與當年雲端計算之於網際網路的關係有著異曲同工之妙。回溯歷史，正是得益於雲端計算平臺在基礎設施層面的支撐，網際網路企業才能將更多的精力聚焦在業務創新上，加速使用者需求與技術能力的迭代融合，最終催生出一個繁榮的應用生態。

如今，百度智慧雲正是希望在多模態AI領域扮演這樣一個“助推器”的角色。透過在算力、平臺、安全等多個維度提供支援，讓更多的企業和開發者無需在複雜的模型訓練、部署、應用開發上“翻山越嶺”，而是專注於挖掘行業需求、打造可用的智慧化應用，讓多模態AI從實驗原型逐步發展為日常工具。

站在這個思路上審視多模態AI，就不難理解百度智慧雲的戰略選擇。在多模態AI落地的過程中，有兩大關鍵挑戰亟待攻克：一是實現更自然的人機互動，二是提高模型的可控性、儘可能消除幻覺。單純的影片生成模型雖然看上去很酷，但還難以很好地解決這兩大問題。反而是在一些垂直領域，用更簡單實在的多模態技術，就能讓AI先跑起來。

比如在工業質檢領域，結合影象識別和文字描述的多模態系統已經能準確找出產品瑕疵並生成詳細的檢測報告；又如在醫療影像診斷中，將X光片、CT等影象與病歷文字結合分析的方案，已經在多家醫院實現規模化應用。這些看似日常的應用，才是AI真正創造價值的開始。

這正是百度多年來在多模態AI領域的投入方向。李彥宏強調，“外界有一種誤解就是百度不做Sora，就等於是百度不做多模態。我們非常非常看好多模態，我們也在多模態上有非常長期的多年投入，在真正有應用場景的地方，我們的多模態能力是非常強的。”

多模態AI的“地基”

多模態AI的門檻高、難度大，這是業界公認的痛點。各類模態資料的處理、模型訓練的調優、推理服務的部署，每一個環節都需要大量的專業知識和工程經驗。這無疑阻礙了多模態AI在更廣泛行業中的應用。百度智慧雲是如何支撐多模態技術大規模落地的？

在模型訓練層面，百度智慧雲的百舸計算平臺實現了主流多模態大模型的全覆蓋，除了支援MLLM、CogvIm2、Qwen2-VL等業界領先的多模態模型，還針對多模態訓練的特點提供了一系列最佳化方案。其中，“多芯混訓”可以相容英偉達、崑崙等多種晶片，充分發揮晶片的異構效能，並能在萬卡規模下將兩種晶片混合訓練下的效率折損控制在5%以內；“長上下文訓練”則突破了序列長度的瓶頸，為多模態模型拓展了更廣闊的應用空間；“大叢集高效訓練”的並行策略，進一步提高了多模態訓練的效率，使萬卡任務上的模型有效訓練時長佔比達到99.5%、端到端的效能提升30%。

在模型推理方面，百度智慧雲同樣展現了全棧式的優勢，百舸適配了各類客戶場景，既支援使用者自定義映象部署，滿足個性化需求；又能在英偉達、崑崙等異構晶片上實現推理服務，兼顧成本與效能；針對主流的文生圖、文生影片、多模態模型，還提供了一系列加速最佳化方案，透過架構分離、KV Cache、負載分配等一系列加速工作，讓長文字推理效率提升了1倍多。

作為一個全棧式開發平臺，千帆平臺提供了不同層級的開發路徑。對於普通AI應用開發者新手，千帆ModelBuilder提供開箱即用的多模態能力，涵蓋影象生成、理解、影片生成等熱門領域。使用者只需呼叫API介面，即可實現多模態互動，無需理會背後複雜的模型結構和訓練過程。除此之外，千帆AppBuilder作為企業級應用開發平臺，可以幫助客戶和開發者不斷降低應用開發門檻，提供豐富的多模態能力，包括文生圖、影象內容理解等圖片處理元件，短語音識別、短文字線上合成等語音處理元件以及數字人功能等，同時可實現多渠道對外整合分發，滿足更豐富的應用需求場景。

對於追求定製化的企業使用者，千帆提供靈活的定製化服務。使用者可利用平臺的資料處理、模型訓練、推理最佳化等工具，構建匹配自身業務場景的多模態解決方案，支援從資料處理到模型訓練的全流程開發。平臺還整合了主題模型庫，覆蓋智慧客服、數字人、知識管理等熱門領域，幫助使用者快速搭建行業性多模態應用。

具體來看，千帆平臺提供了非常全面、靈活的多模態服務方案。如果客戶需要直接使用多模態大模型，可以在千帆上一鍵呼叫包括百度文心一格、Stable Difusion、Vidu等在內的主流模型，覆蓋從文生圖、文生影片到影象理解等多個應用領域。如果客戶希望定製化訓練和微調專屬多模態大模型，搭建個性化應用，千帆平臺同樣提供強有力的算力和工具支援。

無論是複雜模型的訓練，還是大規模推理能力的實現，雲服務都在背後扮演著關鍵角色。透過提供這些基礎設施服務，百度智慧雲幫助開發者和企業更專注於應用創新，而不必過多關注底層技術細節。

除此之外，百度智慧雲還將多模態能力進一步沉澱到行業解決方案和產品中。比如在工業領域，打造了“一見”視覺大模型平臺；在智慧客服場景，提供多模態對話能力；在數字人領域，實現了文生3D影片。可以說，百度智慧雲的多模態服務已經滲透到各行各業的關鍵生產力環節，以更貼近需求的方式幫助企業提質增效。

不做Sora，是為了更多的Sora

在百度智慧雲支撐下，越來越多的創新企業與開發者已經匯聚於此，借“他山之石”，砌築自己的“高樓”。

生數科技就是其中的典型代表。這家致力於多模態大模型研發的明星企業，在百度百舸平臺的加持下，推出了國內首個純自研的影片大模型Vidu。透過百舸平臺超強的容錯能力和訓練加速能力，生數科技將Vidu訓練素材渲染加速效率提升了3倍，資料拉取效率更是提升了51倍，可以說，百度為這個“國產Sora”的誕生提供了堅實的算力保障。

類似的案例還有哇嘶嗒(VAST)，這家3D-AIGC領域的佼佼者同樣將百度智慧雲視為AI創新的“壓艙石”。其面世的3D內容創作工具“Tripo”備受全球矚目，被稱為3D領域的“GPT-4”。而這一切的背後，正是百舸平臺在算力、成本、工程化等方面的全方位賦能，幫助VAST快速構建起強大AI基礎設施，獲得成熟的AI工程化能力。

當然，多模態AI生態的觸角遠不止於內容創作領域。以光魔科技為例，這家企業就瞄準了AIGC平臺的普惠化。在百度智慧雲影片解決方案以及百舸平臺的加持下，光魔科技推出的“白日夢AI”實現了一鍵式的文生影片能力，讓每個普通使用者都能“編出”專屬影片，已經擁有大量忠實擁躉。

除了聚焦前沿技術的創業公司，百度智慧雲還在為百勝中國這樣的“傳統巨頭”提供服務。依託百度智慧雲的大模型能力和智慧客服解決方案，這家餐飲巨頭打造了特色AI客服系統。該系統能夠關聯上下文、精準識別客戶真實意圖，提供更好的售後服務支援，同時還能輔助人工客服快速總結訴求、最佳化服務流程。這為百勝中國節省了大量客服成本，同時又提升了使用者滿意度。

由此可見，百度智慧雲正以其“地基”般的算力支援、有梯度的開發平臺，為整個多模態AI生態提供源源不斷的“能量”，在未來孵化了出更多的“Vidu”、“Tripo”，乃至更多的“Sora”。

“解決問題的AI”

對比雲端計算對網際網路產業的變革，以AWS為例，它不僅改變了企業的IT基礎設施，更重要的是催生了新的商業模式和創新企業生態。進入AI時代，多模態AI代表了人工智慧從專項能力到綜合認知的重要躍升，這種突破不僅體現在技術維度的拓展，更反映在應用正規化的轉變上。

AWS的AI時代的實踐同樣提供了一個很好的觀察樣本：在傳統AI開發中，需要針對特定問題進行精心設計和訓練。但在生成式AI時代，AWS認為成功的產品化之路不應侷限於單一模型的效能競爭，而是要著眼於更廣闊的技術組合與應用場景，更多強調“降本增效”、“實用”的AI。

技術永遠只是手段而非目的本身。多模態AI正在重構傳統的價值鏈條，這個過程中的關鍵在於如何將技術創新轉化為可落地的解決方案，使不同規模、不同行業的企業都能找到適合自身的數字化轉型路徑。

特別值得關注的是，不同於過往依賴單一技術平臺的垂直整合，新一代AI基礎設施更強調開放協作。這種模式使得不同規模、不同行業的企業都能找到適合自身的數字化轉型路徑，從而讓AI成為真正能夠解決問題的AI。從這個角度來看，百度智慧雲和AWS顯然站在同一戰線上：透過構建開放、靈活的AI基礎設施，降低技術使用門檻，讓AI真正服務於產業創新。

結語

在全球AI競爭日益激烈的背景下，不同企業呈現出截然不同的技術路線和發展策略。這是無可厚非的，在這個仍處於摸索階段的賽道上，技術和商業路線的多樣化不僅有利於推動整個領域的創新突破，也能為不同場景和需求提供更豐富的解決方案。

市場研究和諮詢公司Omdia在最新發布的報告中指出，將技術轉化為可落地的解決方案同樣關鍵。百度智慧雲在多模態生成式AI技術和商業成功方面展現了領導力。Omdia預計，百度智慧雲將繼續在中國引領多模態生成式AI應用的部署和實施。

百度“應用驅動”的思路或許啟示了我們： AI技術的發展不應陷入簡單的技術競賽，而是要著眼於更加可持續的商業價值和社會價值。透過深入產業、理解需求，將創新成果轉化為切實可行的解決方案，從而推動技術與產業邁向下一個階段。

sora 終於來了多模態ai 呼喚實用主義

Sora終於來了，但多模態AI呼喚實用主義

相關文章