智源推出全能視覺生成模型OmniGen：支援文生圖、影象編輯等

鳳凰科技 2024-10-30 01:33:59 7

IT之家 10 月 29 日訊息，北京智源人工智慧研究院（BAAI）推出了新的擴散模型架構 OmniGen，這是一種用於統一影象生成的多模態模型。

▲ 文字生成影象，編輯生成影象的部分元素，根據生成影象的人體姿態生成重繪影象，從另一影象中提取所需物件與新影象融合

官方表示，OmniGen 具有以下特點：

統一性：OmniGen 天然地支援各種影象生成任務，例如文生圖、影象編輯、主題驅動生成和視覺條件生成等。此外，OmniGen 可以處理經典的計算機視覺任務，將其轉換為影象生成任務。

簡單性：OmniGen 的架構高度簡化。此外，與現有模型相比，它更加使用者友好，可以透過指令完成複雜的任務，而不需要冗長的處理步驟和額外的模組 (如 ControlNet 或 IP-Adapter)，從而大大簡化了工作流程。

知識遷移：受益於統一格式的學習，OmniGen 有效地跨不同任務遷移知識，應對未見過的任務和領域，並展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在影象生成領域的潛在應用。

▲ 指代表達生成

IT之家附相關連結如下：

論文：https://arxiv.org/pdf/2409.11340

程式碼：https://github.com/VectorSpaceLab/OmniGen

演示：https://huggingface.co/spaces/Shitao/OmniGen

智源推出全能視覺生成模型 omnigen 支援文生圖影象編輯