Good Luck To You!

手机扫一扫

國產 AI 影片神器大更新，支援 4K、60 幀，影片生成有聲時代來了 | 附體驗連結

鳳凰科技 2024-11-09 01:35:06 5

今年的 AI 影片生成領域呈現出一種如火如荼的架勢。

從最初卷生成時長到卷畫面質量，再到最近捲起 AI 特效，行業廠商們開卷的方式千奇百怪，但目標都是共通的，那就是鉚足了勁地吸納新使用者，留住舊使用者。

然而，儘管市面上許多影片模型號稱一鍵生成影片，但如「默劇」般的成品多少形如雞肋。尤其是我們對 AI 影片的刺激閾值被一再拔高，音效的缺失就像被捶打的釘子，在使用者的心裡越扎越深。

當然，廠商們不是不想徹底解決這顆釘子，只是恰好在等待一個厚積薄發的時機。

三個月前，作為國內首個面向公眾開放的影片生成產品，智譜清影上線清言 App，只需一段指令或圖片，30 秒就能生成 AI 影片。

三個月後的今天，智譜清影再次迎來了一大波重磅升級。

10s 時長、4k、60 幀超高畫質畫質，任意尺寸、更好的任務動作和物理世界模型……除了開卷這些基本功，更重要的是，智譜清影也即將在本月上線生成與畫面匹配的音效了。

附上新清影具體升級亮點：

圖生影片的質量、美學表現、運動合理性以及複雜提示詞語義理解方面能力明顯增強；

更強的人物面部表演細節、動作連貫性和物理特性模擬，提高了影片的自然度和逼真度；

支援生成 10s、4K、60 幀超高畫質影片，支援任意比例的影象生成影片；

同一指令/圖片可以一次性生成 4 個影片，與畫面匹配的音效功能將很快在本月上線公測；

並且，當人們還在為 AI 開源/閉源爭論不休時時，智譜卻是國內少有一貫支援開源的企業，而在今天，智譜也正式釋出並開源最新版本的影片模型 CogVideoX v1.5。

此次開源包括兩個模型：CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V，後續，CogVideoX v1.5 也將同步上線到清影，並與新推出的 CogSound 音效模型結合。

程式碼：https://github.com/thudm/cogvideo

模型：https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣佈，新清影即日起在智譜清言 App 上線。話不多說，直接附上體驗地址：https://chatglm.cn/video?lang=zh

4K 60 幀，新清影已經 next level 了

和藹的老人面帶微笑，面部肌肉細節清晰可見，沒有明顯的畫素化或模糊現象。

火焰老虎的形象也令人印象深刻，不僅步態擬真，眼神之中還透露出一種野性的美感，身上的火焰顏色也呈現出豐富的色彩層次和深度。

車輛急速飛馳，場景轉換沒有卡頓或延遲，即使是快速移動的物件也能保持連貫性，而在速度感和緊張氣氛的營造上也有一手。

喵星人線上化身大廚，熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧語所迷惑，上手才是檢驗實際效果的唯一標準。

我們也用圖生影片功能上手跑了一個放飛孔明燈的影片。孔明燈被釋放，緩緩升入夜空，鏡頭從下往上跟隨，天空也被染上了深邃的藍色。

又或者，我們「復活」了靜止的小黃花，微風拂來，小黃花在草地上輕輕搖曳。

不過「新清影」還是需要一定程度的抽卡，這也是目前國內外 AI 影片模型在穩定性上普遍存在的問題，在日常使用這類產品時，還需要多些耐心。

在我們的測試中，最讓我們驚喜的其實是清影的音效生成功能。

對於影片來說，音效和畫面總是相輔相成的，基於此，我們也用幾段去掉音訊的「啞劇」影片，並讓 AI 為它們生成相應的音效，建議開啟音量鍵食用。

例如《海上鋼琴師》最經典的鬥琴環節，你更喜歡這個還是原版呢？

美麗的煙花表演，它們在夜空中綻放的瞬間，搭配上 AI 音效，有沒有打動你？

雨滴的聲音各異，有的清脆，有的低沉，有的急促，有的悠長。

核爆炸的場景很大，搭配聲音卻幾乎沒有延遲，在模擬真實爆炸聲，環境噪音以及餘波等方面表現出色。

別急，仔細聽，還有阿凡達水下探險。

如果 CogVideoX 與 CogSound 強強聯合，即由清影技術負責生成畫面，而音效模型負責配音，最後生成的影片內容也更加生動、真實，甚至能夠觸動人心。

從無聲到有聲，AI 影片進入有聲電影時代

1900 年，第一部有聲電影在巴黎放映，直到十年後，這種能夠將聲音與影像同步的技術才逐漸成熟，達到了商業化的標準。

有聲電影的問世，不僅僅終結了電影自誕生之初的沉默狀態，更重要的是，它將電影從單一的純視覺藝術轉變為視聽結合的全新藝術形式。

影片上的演員開口說話，而觀眾席上也響起對有聲電影的歡呼聲。

兩者心聲交響，心音共鳴。

如今，歷史的輪迴再次上演，從年初的「啞劇」到如今的 AI 音效，如果說前者還是侷限於 0-1，那麼 AI 音效的加入，則標誌著 1-N 史詩級跨越。

基於 GLM-4V 的影片理解能力，智譜家族的新成員——音效模型 CogSound 能夠準確識別並理解影片背後的語義和情感，並在此基礎上生成與之匹配的音訊內容。

例如，爆炸、水流、樂器、動物叫聲以及交通工具聲等。

在影像敘事中，聲音的到來是一個關鍵拐點，它不僅使敘事從依賴文字構建的影片中突圍，而且在觀念和方法上都帶來了更廣闊的想象空間。

然而，影視行業對 AI 的引入無疑是充滿爭議的。

上個月，好萊塢演員的罷工風波尚未平息，而導演卡梅隆則在出席峰會時表示，AI 將會重新定義電影故事講述，幫助編劇導演探索新的故事線，以及敘述手法。

放諸到影片產業界，音效模型也有著廣泛的應用場景，比如可以生成電影中的大規模戰鬥場景和災難場景的聲音，大大縮短製作週期，降低製作成本。

只是，AI 時代下的視聽藝術究竟應該會是什麼樣？

歷史上的技術大爆發給我們提供了一些思路。如果說工業革命的機械化、流水線作業等方式，讓標準化的大規模生產成為可能，那麼隨著 AI 的到來，透過學習大量的資料和模式，能夠模仿人類的決策過程、並且根據每個使用者的具體需求和偏好定製個性化服務。

簡言之，透過降低使用門檻，AI 讓每個普通人都能手捏自己喜歡的個性化影片。

法國新浪潮的代表人物讓-呂克·戈達爾，也曾探討過電影技術變革對電影語言和藝術性的影響：

「電影不是僅僅在拍攝時使用聲音和影像，而是在觀眾心中構建某種語言。無聲電影透過視覺創造了更多的可能，而有聲電影則改變了這種創作方式。」

而追溯至今年 2 月份，人們關於 AI 影片的展望是由 OpenAI 釋出的 Sora 率先拉開，但很遺憾，直到此時此刻，該產品卻彷彿陷入「如來」的狀況，至今未見蹤影。

也正是在這個期間，我們很高興能夠看到國內廠商甚至在這一賽道交出了不錯的成績單。

不過，這或許還只是開胃小菜，智譜認為真正的智慧一定是多模態的，聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。

構建包括文字、影象和視覺等模態在內的智譜多模態大模型矩陣，能夠進一步提高大模型的應用和工具能力，也是在邁向 AI 的終極目標——AGI。

至此可以說，我們真正邁入了 AI 有聲電影時代。

國產 ai 影片神器更新支援 4k 60 幀生成有聲時代來了 | 附體連結

國產 AI 影片神器大更新，支援 4K、60 幀，影片生成有聲時代來了 | 附體驗連結

相關文章