行業(yè)新資訊

圖森未來正式發(fā)布圖生視頻大模型“Ruyi”

時間：2024-12-17 14:36:58 發(fā)布：tgy 來源：圖森未來第一對焦：圖森未來

　　【ZiDongHua之行業(yè)新資訊收錄關(guān)鍵詞：圖森未來大模型 AIGC AI】

　　圖森未來正式發(fā)布圖生視頻大模型“Ruyi”

　　2024年12月17日-圖森未來今日正式發(fā)布“Ruyi”-圖生視頻大模型，并將Ruyi-Mini-7B版本正式開源，用戶可以從huggingface上下載使用。我們希望通過開源模式，讓更多AIGC愛好者和社區(qū)成員能夠自由體驗。“Ruyi”專為在消費級顯卡（例如RTX 4090）上運行而設(shè)計,并提供詳盡的部署說明和ComfyUI工作流，以便用戶能夠快速上手。

　　Ruyi圖生視頻大模型效果展示

　　關(guān)于Ruyi

　　Ruyi是圖森未來正式發(fā)布的第一款“圖生視頻”模型。憑借在幀間一致性、動作流暢性方面的卓越表現(xiàn)，以及和諧自然的色彩呈現(xiàn)和構(gòu)圖，Ruyi大模型將為視覺敘事提供全新的可能性。同時，該模型還針對動漫和游戲場景進行深度學(xué)習(xí)，將成為ACG愛好者理想的創(chuàng)意伙伴。

　　卓越特性

　　-多分辨率、多時長生成

　　Ruyi支持最小384*384，最大1024*1024分辨率，任意長寬比，最長120幀/5秒的視頻生成。

　　-首幀、首尾幀控制生成

　　Ruyi可以支持最多5個起始幀、最多5個結(jié)束幀基礎(chǔ)上的視頻生成，通過循環(huán)疊加可以生成任意長度的視頻。

　　-運動幅度控制

　　Ruyi提供了4檔運動幅度控制，方便用戶對整體畫面的變化程度進行控制。

　　-鏡頭控制

　　Ruyi提供了上、下、左、右、靜止共5種鏡頭控制。

　　技術(shù)概覽

　　-模型架構(gòu)

　　Ruyi是一個基于DiT架構(gòu)的圖生視頻模型，它由兩部分構(gòu)成：一個Casual VAE模塊負責(zé)視頻數(shù)據(jù)的壓縮和解壓，一個Diffusion Transformer負責(zé)壓縮后的視頻生成。其中Casual VAE模塊會將空間分辨率壓縮至1/8，時間分辨率壓縮至1/4，壓縮后每個像素由16位的BF16進行表示。DiT部分使用3D full attention，在空間上使用2D RoPE進行位置編碼，時間上使用sin_cos進行位置編碼，最終的loss選用了DDPM進行訓(xùn)練。模型的總參數(shù)量約為7.1B，使用了約200M視頻片段進行訓(xùn)練。

　　-訓(xùn)練數(shù)據(jù)和方式

　　整個訓(xùn)練分為了4個階段：

　　在第一階段我們使用約200M的視頻數(shù)據(jù)+30M數(shù)據(jù)進行256分辨率的預(yù)訓(xùn)練，訓(xùn)練batch size為4096，共訓(xùn)練350k個iteration至充分收斂。

　　第二階段使用了約60M的視頻數(shù)據(jù)進行384-512分辨率的多尺度微調(diào)訓(xùn)練，訓(xùn)練batch size為1024，共訓(xùn)練了60k個iteration。

　　第三階段使用了約20M的高質(zhì)量視頻數(shù)據(jù)和8M的高質(zhì)量進行384-1024分辨率的多尺度微調(diào)，訓(xùn)練batch size根據(jù)顯存大小進行動態(tài)調(diào)整，共訓(xùn)練約10k個iteration。

　　第四階段使用了10M的精選高質(zhì)量視頻數(shù)據(jù)進行了圖生視頻的訓(xùn)練，訓(xùn)練batch size為1024，共訓(xùn)練約10k個iteration。

　　-輸入格式和生成長度/模式

　　Ruyi需要用戶提供一張作為輸入，并可以選擇輸出時長、輸出分辨率、運動幅度和鏡頭移動方向等選項，Ruyi會根據(jù)輸入的圖像輸出一個不超過5秒的視頻。

　　現(xiàn)存缺陷

　　Ruyi目前仍然存在手部畸形、多人時面部細節(jié)崩壞、不可控轉(zhuǎn)場等問題，我們正在改進這些缺點，在日后的更新中對它們進行修復(fù)。

　　下一步計劃

　　隨著AIGC領(lǐng)域競爭的日益激烈，圖森未來認為:最佳應(yīng)用場景是孵化生成式AI工具的原動力。公司致力于利用大模型降低動漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。因此，Ruyi將持續(xù)聚焦在如何真正解決行業(yè)痛點。

　　本次發(fā)布的Ruyi大模型，已經(jīng)可以實現(xiàn)輸入關(guān)鍵幀后，生成之后5秒的內(nèi)容，或輸入兩個關(guān)鍵幀，由模型生成中間的過渡內(nèi)容，降低開發(fā)周期。未來將持續(xù)深耕場景需求，在此基礎(chǔ)上實現(xiàn)直接生成CUT的突破。在下一次的發(fā)布中，我們將同時發(fā)布兩個版本，為不同需求的創(chuàng)作者提供更加靈活的選擇。

我要收藏

點個贊吧

自動對焦：大模型 AIGC AI

咨詢詳情：如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請加微信：ZiDongHuaX 。

微信聯(lián)盟：大模型微信群、AIGC微信群、AI微信群，各細分行業(yè)微信群：點擊這里進入。

鴻達安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　查看各品牌在細分領(lǐng)域的定位宣傳語