鳳凰科技 2024-11-09 01:32:13 5
平時喜歡玩遊戲、看 3D 動畫片的朋友,肯定對“動作捕捉”這個詞不陌生。
無論是遊戲人物還是動畫片角色,他們能夠做出各種生動的表情,其實都離不開動作捕捉技術的加持。
不過,動作捕捉技術應用了這麼多年,也不是沒有缺點,比如動捕的工作流和需要的裝置非常複雜,以 200 分鐘左右的動畫來看,從演員表演到最終完成往往需要不止一個月的時間。而且動捕的裝置也非常昂貴,動輒就是幾十萬美金。
而除了動作捕捉,要想實現動畫中的表情控制,可能就只有傳統動畫師手動去肝了,這條路不用說,更加費時費力。
那麼,上面這兩種途徑之外,還有什麼方法能更高效且低成本地完成表情、動作的捕捉和控制呢?
在如今這個智慧化的時代,要回答這個問題,肯定繞不開一個詞:AI。
剛好,最近位元組跳動智慧創作團隊提出了一項 X- Portrait2 單圖影片驅動技術,就讓我們看到了新的可能。
X- Portrait2 單圖影片驅動技術,僅需要一張靜態照片和一段驅動影片即可生成高質量、電影級的影片。
該模型不僅能保留原圖的 ID,還能準確捕捉並逼真遷移從細微到誇張的表情和情緒,呈現高度真實的效果。這無疑是為創作富有表現力、逼真的角色動畫和影片片段提供了一種成本極低且高效的方法。
聽起來似乎是很不錯,那麼它的實際表現又怎麼樣呢?IT之家最近獲得了內部測試的機會,下面我們不妨先透過 X- Portrait2 的生成的影片表現來看一下。
X- Portrait2 實測:看到這逼真的效果,感覺我起猛了……
實際使用時,我們只需要給模型提供一段帶有顯著人物表情的影片,以及另一張靜態的人物照片,X- Portrait2 就可以讓照片中的人物做出和影片上人物相同的表情、動作。
比如IT之家首先想到影視經典烏蠅哥的名場面,然後讓《黑神話:悟空》裡的天命人來複刻烏蠅哥的表情(影片測試素材僅用於技術演示):
X- Portrait2 技術下天命人模仿烏蠅哥的表情整體還是比較自然的,和原影片也比較像。而且可以看到測試圖片中天命人和影片中的烏蠅哥頭部視角是有差別的,但這並沒有影響到 X- Portrait2 對錶情的復刻。
接下來IT之家想到讓遊戲《生化危機 4:重製版》中的里昂和艾什莉演繹電視劇《回家的誘惑》中的名場面,X- Portrait2 同樣生成了對應的影片,小編將結果專為 gif 格式,供大家參考:
影片測試素材僅用於技術演示
影片測試素材僅用於技術演示
由於是將真實人物的表情模擬到 3D 角色建模上,看起來難免會有一種怪怪的感覺,但能看到 X- Portrait2 已經是儘可能讓生成的影片角色表情和畫面整體看起來自然了。仔細觀察會發現生成後的影片在原來靜態圖片的基礎上加入了不少控制表情時面部陰影細節的變化,這都是為了讓最終生成的效果更加協調和真實。
接下來再測試一個例子,讓《荒野大鏢客 2:救贖》中的亞瑟・摩根做出《三國演義》電視劇裡諸葛亮罵王朗的表情:
影片測試素材僅用於技術演示
可以看到,這次生成的結果就更加逼真了,亞瑟做表情時,面部皮膚紋理、陰影細節的變化都非常真實,如果不仔細看或者不瞭解遊戲劇情,真可能會以為這就是遊戲裡原來的 CG 動畫。
前面都是用遊戲中的人物做測試,接下來IT之家使用 AI 生成的人物照片來進行測試,這樣就相當於真人照片來模仿原影片真人的表情,理論上結果應該會更加“難辨真假”。
小編首先用 AI 生成一張成年男性的照片,讓其模仿電視劇《大宅門》裡於和偉吐口水的名梗:
影片測試素材僅用於技術演示
換用 AI 生成的真人照片後,效果確實是更加逼真了,除了人物大笑時面部褶皺的陰影稍微有點過,其他看起來都很自然,如果不仔細觀察,確實很難發現這是 AI 生成的表情復刻影片。
然後小編又讓 AI 生成一張女性的照片,讓它模仿電視劇《甄嬛傳》結局裡甄嬛與皇后最後對峙裡的一個小片段:
影片測試素材僅用於技術演示
可以看到,X- Portrait2 技術讓照片中的女生對甄嬛說話時表情模仿地惟妙惟肖,可以看到電視劇裡甄嬛說這句話時的表情還是比較剋制的,面部微表情的變化也很細膩,對於復刻來說其實是比較有挑戰的。但實際呈現的結果顯然可以讓人滿意,將甄嬛此刻的威嚴很好地展現了出來。
除了這些,小編在體驗過程中還測試了一些其他的案例,比如讓《黑神話:悟空》中的二郎神說“在坐的各位都是垃圾”,這表情還是很魔性的:
影片測試素材僅用於技術演示
還有 AI 生成的男生模仿金館長的大笑,也很逼真,以後要想模仿這種一般人做不出來的大笑表情,自拍個照片就行了……
影片測試素材僅用於技術演示
總體來說,位元組跳動的 X- Portrait2 單圖影片驅動技術著實給小編帶來了一些震撼,僅從目前測試的效果來看,已經很強了,各種細微的表情都能復刻和拿捏,同時透過增加新的陰影和細節變化讓影片畫面整體達到協調自然的效果,很難想象隨著這項技術進一步成熟和進化,會達到怎樣的效果,或許以後真的會改變動捕乃至動畫、特效行業吧。
出色效果背後,這些領先性的創新值得關注
看到 X- Portrait2 技術讓人震撼的表情和動作控制能力,相信大家也會好奇位元組跳動究竟是怎麼做到的,這背後有哪些技術上的創新?
X-Portrait 2 是位元組跳動基於前一代的 X-Portrait 創新條件擴散模型研究成果上進化而來的,將人像驅動的表現力提升到了一個全新的高度。
不同於以往依賴人臉關鍵點檢測的單圖驅動方法,X-Portrait 2 構建了一個當前最先進的表情編碼器模型,透過一種創新的端到端自監督訓練框架,能夠從大量人像影片中自學習 ID 無關的運動隱式表徵。進一步將這個編碼器與強大的生成式擴散模型相結合,即可生成流暢且富有表現力的影片。
經過在大規模高質量表情影片上的訓練,X-Portrait 2 在運動表現力和 ID 保持性方面顯著優於先前技術。演算法能夠從驅動影片中提取不同顆粒度的表情特徵(如挑眉、咬唇、吐舌、皺眉),並有效遷移到擴散模型,實現精準的表情動作控制,進而能實現驅動影片中人物情感的高保真遷移。
在訓練表情編碼器時,為了讓編碼器關注驅動影片中與表情相關的資訊,X-Portrait 2 較好地實現了外觀和運動的解耦。
具體來說,透過為模型設計過濾層,編碼器能有效過濾運動表徵中的 ID 相關訊號,使得即使 ID 圖片與驅動影片中的形象和風格差異較大,模型仍可實現跨 ID、跨風格的動作遷移,涵蓋寫實人像和卡通影象。這使得 X-Portrait 2 能高度適應各種各樣的應用場景,包括現實世界中的敘事創作、角色動畫、虛擬形象以及視覺特效等。
正因如此,前面IT之家測試時即使驅動影片是真人影視劇片段,而 ID 影象是 3D 遊戲建模人物,也能很好的視線表情動作的控制。
再比如下面這幾個例子,驅動影片是真人影片,而 ID 影象有真人照片、卡通漫畫,甚至是油畫作品,X-Portrait 2 也輸出了足以亂真的結果。
影片測試素材僅用於技術演示
看到 X-Portrait 2 的表現,可能有小夥伴會想到不久前由谷歌等公司支援的人工智慧初創公司 Runway 推出的“Act-One”功能,整合在 Runway 的影片生成模型 Gen-3 Alpha 中,這個功能也和 X-Portrait 2 有類似,讓使用者可以使用手機或相機輕鬆錄製自己或他人的影片,之後利用 Act-One 功能將錄製物件的面部表情轉移到 AI 生成的角色上。
而與 Runyway Act-One 等最先進的方法相比,X-Portrait 2 更加出色,能夠如實表現快速的頭部動作、細微的表情變化以及強烈的個人情感,這些方面對於高質量的內容創作(比如動畫和電影製作)至關重要。
例如下面這組效果對比中,X-Portrait 2 相比 X-Portrait 對人物面部表情的刻畫明顯更加豐富和生動,而 Runyway Act-One 生成的人物面部缺少很多細節,看起來表情相對生硬,明顯沒有前兩者有衝擊力。
影片測試素材僅用於技術演示
再比如下面這個案例中,驅動影片中的人物動作幅度較大,而且表情比較誇張,X-Portrait 2 很好地還原了原影片的特點,X-Portrait 丟失了一些面部細節,而且頭部運動的過程有些跳脫,但整體也不錯。Runyway Act-One 這邊,則直接因為驅動影片頭部運動幅度較大而無法生成。
影片測試素材僅用於技術演示
由此可見,位元組跳動 X- Portrait2 單圖影片驅動技術在確實還是很猛的,包含很多創新點,而且無論是在動態目標捕捉能力,還是在生成結果的逼真度,協排程等方面,相比目前行業裡其他類似的 AIGC 模型和方案都有明顯的優勢。
結語
體驗並瞭解完位元組跳動的 X- Portrait2 單圖影片驅動技術,IT之家不得不感嘆 AIGC 技術進步速度之快,以及位元組跳動在 AI 模型創新方面強大的技術實力。
同時還要提醒大家,上面小編體驗的還只是 X- Portrait2 內部測試的版本,而隨著未來其模型技術的成熟完善,其應用前景無疑是不可限量的。
比如創作者們可以用它來大大加速自己的創作,過去需要投入大量人力物力的動捕裝置,可能就不需要了,拍一段影片 + 1 張照片,就能解決表情動作採集的問題,這種效率的提升簡直不敢想象。
再比如這項技術未來也可以應用到數字人、XR 等領域,讓我們的數字分身或者各種 AI 智慧體能夠更像真人,甚至能夠透過表情變化傳達情緒,和我們進行更加自然的交流,進一步打破虛擬和現實的邊界……
可以說,生成式 AI 的每一次進步,都是我們生產效率的巨大提升,更是對我們當前工作、生活和娛樂的變革。
而位元組跳動們正在透過持續創新的技術和解決方案,一步一步讓這樣的理想變成現實。
生成式 AI 的未來,真的充滿無限可能。