Good Luck To You!

手机扫一扫

叫板Sora出圈後,Luma AI如何接住潑天的流量?

鳳凰科技 2024-11-28 01:35:02 1

Luma AI在影片領域叫板OpenAI故事,好比中途改打網球的杜蘭特,打贏了網球男單大滿貫納達爾。

最近,這家成立於2021年的矽谷AI公司,在和《智慧湧現》的交流中,覆盤了影片生成模型Dream Machine AI爆火的過程。

在矽谷率先發布一款效果能對標OpenAI Sora的影片模型,對一家初創公司而言並不容易——更何況,Luma AI在影片生成領域算得上是“半路出家”:

2024年前,這還是個主攻3D生成、規模在10人左右的小公司。Luma AI資料產品負責人Barkley Dai告訴《智慧湧現》,2023年12月決定轉型做影片生成後,團隊才擴充了影片領域的人才,規模增加到了50人。

他提到,Luma AI能成為影片生成領域的螞蟻雄兵,技術實力、釋出時機和運營策略缺一不可。

人才,是這家公司認為做出影片模型最重要的資產。2023年12月,決定從3D轉型做影片生成後,Luma AI吸納了40個AI領域的人才。

而和OpenAI、Google打擂臺,Luma AI又對模型的演算法和Infra做了諸多最佳化。Barkley對《智慧湧現》表示,團隊在Sora同款DiT架構的基礎上,採用了獨家改進的架構,保證生成效果的同時,還節省了訓練和推理成本。

影片模型“Dream Machine AI”的釋出時間,2024年6月13日,踩中了影片模型賽道的空白點——這也讓Dream Machine AI具有了稀缺性,除了快手“可靈”之外,這是唯一真正對大眾開放的影片模型;

而模型的“限免”策略,又立刻吸引了大量試用者:上線4天,Dream Machine AI的使用者量就破了百萬。Barkley對《智慧湧現》透露,Dream Machine AI的投流費用是0,全靠KOL自發安利,和使用者的口碑發酵。

爆火之後,提高使用者留存,不讓輝煌曇花一現,是Luma AI如今的命題。

2024年11月26日,在影片模型釋出後近6個月,Luma AI在iOS和web端上線了Dream Machine AI創意平臺。與之配套釋出的,還有Luma AI自研的首款影象生成模型,Luma Photon。

△Dream Machine iOS介面。

Luma AI產品設計師Jiacheng Yang(楊家誠)告訴《智慧湧現》,與Midjourney、Adobe等專業設計工具不同,Dream Machine不需要使用者學習如何寫Prompt(提示詞),也不需要使用者懂設計,“我們的目標就是做一款AI小白和設計小白都能輕易上手的AI視覺工具”。

據他介紹,Dream Machine共有5個核心功能:

(1)用自然語言進行對話,實現圖片的創作生成和編輯;

(2)由AI提供創意點子,根據使用者輸入的Prompt,自動提供創意、風格選項;

(3)視覺參照,根據使用者輸入的照片,生成帶有相同主體或者風格的圖片;

(4)將AI設計的圖片轉化為影片,供使用者檢視圖片中主體在不同角度下呈現出的細節;

(5)將所有AI生成的素材釋出在面板上,並生成可供分享的連結,有助於團隊進行頭腦風暴。

△Dream Machine視覺參照功能。

為什麼選擇用影象設計平臺,去承接影片模型的使用者?“想要擴大AI視覺領域使用者的盤子,只有影片生成是不夠的。影象生成的應用場景會更廣泛,所以我們想做一個很好上手的設計平臺,使用者能夠輕易上手的同時,也能展現我們的模型能力。”Barkley提到。

行業競爭,是作為初創企業的Luma AI不得不面對的問題。他們認為,打出差異化優勢,是讓模型和產品在行業中具有辨識度和獲客的關鍵。

比如面對Midjourney等影象產品的競爭,Dream Machine把語言理解能力做到了“天花板”。以及,這也是一個最會設計字型的模型——相較於Midjourney和GPT生成的帶文字的圖片,Dream Machine圖片中文字的設計感和清晰度是最高的。

△Dream Machine在圖片中生成的配文。

和影片模型一樣,Luma AI給Dream Machine花費的投流預算,是0。在Barkley看來,燒錢營銷看的是回報率,這意味著最終還是要用產品說話。以及,“AI市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。還不如把營銷的錢,投到產品研發上”。

以下《智慧湧現》與Luma AI增長負責人Barkley Dai、Luma AI產品設計師Jiacheng Yang的交流,內容略經《智慧湧現》編輯:

燒錢營銷,AI公司還為時尚早

《智慧湧現》:2024年6月釋出影片模型Dream Machine的時候,團隊有沒有預料到會爆火?

Barkley:其實當時是遠超我們預期的,我們一度出現伺服器和GPU資源沒有辦法承受的情況。

《智慧湧現》:如果要總結爆火的經驗,你覺得是什麼?

Barkley:其實最早釋出的版本,還不是效果最好的版本。但我們決定全量免費放給所有的使用者去使用。

在當時,還沒有一個影片模型能夠做到這樣。所以短時間內吸引了很多使用者的關注。

《智慧湧現》:對於創業公司來說,做免費的決定是不是還挺不容易的?

Barkley:其實我們當時也給免費設定了一個額度,我覺得這是一個行業的standard practice(基本操作)。

只是當時的峰值對我們來說過高,大量的使用者在短時間內湧入,伺服器後臺收到了太多的request。

《智慧湧現》:公司能負擔流量帶來的推理成本嗎?

Barkley:其實我們還是在技術層面做了很多成本的最佳化,比如不斷去提升影片生成的速度,最開始我們的模型生成5秒的影片需要120秒,現在只需要20秒。

以及在保持原有生成質量的情況下,影片模型的推理還有很多最佳化的空間。所以在半年時間裡,影片模型的成本是在下降的。

所以我覺得推理成本對我們來說不是特別大的負擔,當然也是一筆開支,但未來會變低。

《智慧湧現》:你提到Dream Machine是有免費額度的,那麼使用完免費額度後的使用者付費率怎樣?

Barkley:說實話我們對付費率完全沒有任何預期。因為當時我們對Dream Machine的定位是教育使用者的產品,讓使用者知道Luma AI影片生成的潛力有多大。當時市面上還沒有一個影片模型是按照對標Sora的水平釋出的,所以我們對付費率完全沒有對標的物件。

但現在釋出的AI設計平臺,我們的定位是最終去獲客的產品。所以現在我們對它的收入和付費率有更高的期待。

《智慧湧現》:Dream Machine在營銷上投入了多少?

Barkley:0,我們在釋出的時候沒有做任何的營銷付費。

當然我們提前去聯絡了很多創作者,他們試用後都覺得很興奮,甚至大多數人之前用過Runway,還有人用過可靈。但他們用了我們的產品後,都覺得說“This is the next big thing”,在推特上自發幫我們推廣。

但我們沒有做任何的投放,因為我們還是堅信成功的因素就是產品本身。

《智慧湧現》:燒錢營銷,這一套打法在矽谷AI公司常見嗎?

Barkley:我感覺矽谷大部分還是比較產品驅動的,運營這一套主要是中國公司。

視覺領域的市場還很小,我覺得對AI公司來說,燒錢營銷還為時尚早。即便ChatGPT的使用者很多,但是像一些視覺模型,使用者還是很少數。

這個時候如果你做投流,去做跑馬圈地,留存肯定不高,還不如把這些錢投入到模型和產品的研發上,用更好的模型和產品吸引使用者的增長。

《智慧湧現》:在釋出影片模型之前,Luma AI的技術和產品還是圍繞3D生成的。團隊是什麼時候決定做影片生成模型的?

Barkley:大約在2023年12月。

《智慧湧現》:為什麼從3D轉向做影片和影象模型?

Barkley:我們原來其實也不會說自己是一個3D公司,公司的定位還是視覺領域的AI公司,我們想去理解這個世界在視覺上的構造,是如何幫助AI對世界進行理解的。

從創始團隊的研究背景來看,一開始3D是Luma AI比絕大多數公司和團隊更擅長的事。後續我們也確實做了很多3D生成上的技術突破。

但是3D可以被用於訓練的資料量級,相較於圖片和影片來說都會少很多。同時在使用場景上,目前手機和電腦還是主要的產品載體,但3D也會比影片更受到限制。

但是當我們有更多的算力、更多的人才,也有更多的能力去推進我們的願景,也就是更好地瞭解世界,我們也自然地會從3D轉向做影片。

《智慧湧現》:這會不會讓公司看起來戰略有些搖擺?

Barkley:從我作為一個內部成員的視角來看,我覺得不管是3D還是影片生成,一直都是合理的。

因為不管是3D,還是影片和圖片,都只是一種模態。如果我們最終想做到的是對這個世界的理解,那麼不管是一種模態、一種生成,還是一種創意的發揮,我覺得只要目標不變,這些媒介就只是幫我們達成目標的手段。

《智慧湧現》:從3D轉型做影片生成,期間有遇到什麼困難嗎?

Barkley:我覺得整個過程還是比較順利的,因為我們在做3D生成的時候,團隊也就在十幾人的規模,但當我們做影片生成以後,引入了很多影片領域的人才,現在團隊規模已經超過了50人。

這個過程其實是吸納了更多新成員去推進目標的實現,而不是說原來大家就在頻繁地換方向。只是原來做3D的人,現在也在逐漸開始做影片方面,比如資料等各方面的工作。

《智慧湧現》:做3D的經歷對影片生成有幫助嗎?很多反饋說Dream Machine的運動軌跡做得很好,這和3D積累下的空間理解能力有關嗎?

Barkley:我覺得可能不一定有那麼直接的關係。

但從我們釋出最早版本的影片模型開始,我們對相機的軌跡運動,包括影片裡有多少機位的變化,是十分側重的。

所以當時使用者也會普遍反饋說,Luma AI的模型雖然有時候生成結果不是那麼穩定,但是它能給到很多的機位的移動,以及複雜的人物運動軌跡。

我覺得過去在3D上的一些經驗,能夠讓我們在做視覺模型的時候,意識到提升機位的豐富度和運動軌跡的複雜度,能夠提高使用者對影片生成內容的消費意願。

不過我覺得過去的經驗,包括模型本身之間,其實沒有那麼大的關聯性和借鑑意義。

《智慧湧現》:所以技術轉型最重要還是補充新的技術人才是嗎?

Barkley:是的。

承接住模型的爆火,需要有產品

《智慧湧現》:6月份Dream Machine走紅後,你們怎麼考慮使用者留存的問題?

Barkley:我們釋出Dream Machine的時候,就知道後面一定要有產品去承接使用者持續穩定的需求。

比如你作為一個ChatGPT的長期使用者,即便後續會出來很多能力做得和GPT差不多的模型,你還是大機率會選擇使用ChatGPT。因為ChatGPT透過長期的深度學習,已經把握了使用者習慣,能夠更好地理解你的意圖。

行業裡永遠會有更好的模型出現,但產品最終是能夠讓使用者留存的點。

《智慧湧現》:團隊是從什麼時候計劃做這樣AI設計平臺的?

Barkley:這個想法其實在我們最開始做影片模型的時候就有了。所以產品的想法是去年(2023年)12月和影片模型同步推進的。

只是在產品的設計過程中,我們後來意識到,要想把整個設計流程涵蓋,也必須要做到能夠生成圖片。所以在影片模型釋出5個月以後,我們覺得圖片模型也足夠好的時候,把兩部分同時整合成一個產品。

《智慧湧現》:平臺的目標使用者是哪些人?專業設計師還是大眾?

Barkley:其實我們覺得原來的Dream Machine,更多的使用者還是偏專業的,至少是有做AI電影的經驗,或者知道怎麼用Prompt去生成更好的效果。

但其實我們更希望現在的產品,讓之前沒有用過AI甚至沒有設計經驗的人用起來。比如,如果他們在工作中需要用這樣的流程,可以非常容易地透過一輪一輪地和AI進行對話去實現。

我們在6月份釋出的影片模型Dream Machine,其實還是需要一些使用門檻的。我們在那時候就在想,希望普通人也能access這些視覺工具,就好比視覺裡的GPT。

但視覺是一個很小眾的垂類領域。我們做設計平臺的想法就是,如何去擴大這個群體。只有擴大群體,才能讓視覺領域的AI獲得更好的發展。

《智慧湧現》:非專業設計師很難把一整套設計的工作流用得很深入。我的大部分生圖需求,可能輸入一個簡單的Prompt,用GPT,或者Midjourney就能滿足。

Jiacheng:我們的想法是,把使用者能輕易感受到差別的功能做到最好,比如我們影象能力比GPT好,但是語言理解能力比Midjourney要好。

我用同一個最基礎、完全不復雜的Prompt,讓Dream Machine和Midjourney對比一下:i want to make a poster for my brother band “crazy avocado”.(我想為我兄弟的樂隊“瘋狂牛油果”做一張海報。)

△Dream Machine根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

△Midjourney根據“i want to make a poster for my brother band ‘crazy avocado’”生成的樂隊海報。

你看Midjourney生成的海報,既不Crazy,也沒有Avocado的元素,也看不出來是個樂隊的海報。

語義理解的能力其實比你想象的重要,會影響很多場景的落地。因為生成隨機的、好看的圖片,在實用場景中意義不是很大。

如果要讓Midjourney真正還原你的意圖,你需要寫很多Prompt,包括海報的設計、上面寫的文字、解釋Crazy的風格等等。學會寫Prompt,我大概花了兩三個月時間。

但我相信ChatGPT的大部分使用者是不會去學的,他們就是進來問一個問題,得到一個結論。

我們做設計產品的思路,也是一樣的。按照之前市面上的產品,如果我想要得生成還原我意圖的圖片,首先,我要花20美金買Claude或者GPT,幫我生成Prompt;其次,我要再花20美金到40美金買Midjourney,生成圖片;最後我還要花20美金的訂閱,把這些圖片變成影片。

算下來,文生影片起碼要花60-80美元。現在用Dream Machine,可能10美元就能搞定了。

《智慧湧現》:Dream Machine語言理解能力的來源,也是自研模型嗎?

Barkley:語言模型用了第三方的API,我們再去構建了一個Agent。這個Agent能夠理解使用者意圖,然後透過不同的Prompting的方式,把使用者意圖轉化為影象和視覺模型能夠理解的指令。

《智慧湧現》:Luma AI現在既有模型,又有產品,怎麼去做商業化?

Barkley:產品還是會採用訂閱的方式。模型就是提供API。

《智慧湧現》:不做定製化?

Barkley:定製化不太適合初創公司,會分散精力。

目前沒有專業視覺工具,在定義互動正規化

《智慧湧現》:一個俗套的問題,你們怎麼看待巨頭下場?按照國內的情況,位元組和快手的下場,已經給很多初創公司帶來了融資和獲客上的壓力。

Barkley:我們發現,這個問題其實是公司和股東之間的問題。只有股東才會關心:如果哪天一個巨頭把你這個事情做了,會怎麼樣?

但實際上,我們公司很多Research都有這樣的感覺:當公司達到一定規模,需要你去協調各種各樣的東西的時候,你推進的速度會變得特別慢,創新的速度也會掉下來。

雖然Luma AI的團隊在過去一年多的時間裡也擴張了很多,但還是保持著快速創新、快速迭代的節奏。

我覺得有一個類位元別好:其實你在大公司裡,真正去做影片模型和相應產品的團隊,可能也只有幾十個人。比如OpenAI看起來很大,但Sora的團隊也就這麼多。

當然說到更大的公司,比如Google,他們可能有比我們更好的distribution channel(擴散渠道),但他們同樣會受制於各種流程上,一個新產品會有商業化等很多方面的concern,推進的速度不會那麼快。

《智慧湧現》:Luma AI的迭代節奏有多快?

Barkley:整體迭代速度一直是以幾個月,甚至是1-2個月來計算的。期間會加入新的功能,底層模型的效果也在提升。

就像Dream Machine 1.0在2024年6月釋出,1.5版本是在8月釋出。1.6版本加了camera control(鏡頭控制)功能,在9月底釋出。

《智慧湧現》:一個新的設計工具型產品,怎麼去獲客?

Jiacheng:我覺得首先可以去分析ChatGPT是怎麼獲客的。你會發現,ChatGPT不光最好的程式設計師在用,你隔壁的大叔大媽也在用。

我覺得AI工具帶來的最大的變化是,由於它本身的可塑性和靈活性,它可以服務幾乎所有有視覺需求的人。

我並不覺得目前特定的視覺專業的軟體,有非常好的互動,換句話說,目前沒有專業視覺工具定義了整個行業的互動正規化。

《智慧湧現》:你怎麼定義“好的互動正規化”?

Jiacheng:比如ChatGPT就定義了整個行業ChatBot的互動正規化,像現在美國的小孩都不是說ChatGPT,他都是說你有麼有問你家的“Chat”。

這裡的“Chat”,已經成了一個像“Google一下”的行為。

我們做Dream Machine也是一樣的。誰能先把普通大眾的想象,透過一個流暢、簡單的方法,呈現出一個好看有趣,然後能分享給別人的或者有用的圖片,誰就能在這個領域有優勢。

《智慧湧現》:從立項到上線,期間你們對互動形式進行了哪些探索?

Jiacheng:我們目前來說,包括行業對我們的認知,都是一個影片模型科研公司。

但是如今的AI技術是一個非常以使用者體驗為核心的產品,技術型產品的目標和迭代過程很明顯,就是最好的使用者體驗。

我們能想到的最好的使用者體驗,就是用最自然的交流方式,把Dream Machine當成一個創意助手或者Creative Partner。你怎麼和設計師互動,就怎麼和系統互動。

有了這樣一個目標,我們就會去了解我們的圖片和影片模型,能夠提供怎樣的能力。同時也去了解整個行業處於怎樣的發展階段,第三方的語言模型能夠給我們怎樣的幫助。

期間,各種各樣的Agent軟體工具也在迭代,大家對於AI應用層的思考也有變化。所以一年以來,我們的產品就是一個持續迭代的過程,具體就是一個月根據行業變化打磨,再花一個月去修改。

這些東西總體統籌、融合起來,才有了現在這樣的效果。

Barkley:期間我們也發現,在AI影片生成領域,目前圖生影片比文生影片更加受歡迎,因為使用者在乎可控性。

所以所有能夠提升可控性的,都是使用者非常需要的功能點。

《智慧湧現》:期間行業哪些產品或者認知的動向,會對公司的產品研發節奏產生影響?

Barkley:其實我覺得過去一年時間裡,我們的產品策略沒有變太多,還是一直想做能讓所有人輕鬆使用模型的產品,不會隨著其他AI產品的釋出去做任何的策略調整。

我覺得產品團隊更關心的事一些Research上的動態和進展,比如我們想做風格轉換、風格遷移的功能,就會去查有哪些最新的學術研究和論文,甚至產品團隊會加入Research團隊的討論,去看研發功能的可行性。

《智慧湧現》:產品團隊在日常工作中是怎麼和演算法團隊交流的?

Barkley:立項的時候,我們會從使用者的角度,覺得風格借鑑這樣的功能很重要。

但是從Research的角度,其實他們不確定這個功能能不能做出來,以及能達到怎樣的效果。所以Research會先去做很多的實驗,直到他們把演算法做出來以後,我們看到這個功能的極限,再去思考怎麼把功能融入到整體產品和體驗上。

所以其實Research是一個更加不確定的過程,往往需要比較長的時間,也不知道要花多長時間訓練。

《智慧湧現》:期間也會捨棄很多暫時不夠好的功能。

Barkley:對。所以其實很多功能我們會從使用者的角度去想,有的功能Research團隊能夠在短時間內做出來,有的功能我們又繼續投入,去做更長的研判,體現在未來的產品裡。