【ZiDongHua之行業(yè)新資訊收錄關(guān)鍵詞:圖森未來 大模型 AIGC AI】
 
  圖森未來正式發(fā)布圖生視頻大模型“Ruyi”
 
  2024年12月17日-圖森未來今日正式發(fā)布“Ruyi”-圖生視頻大模型,并將Ruyi-Mini-7B版本正式開源,用戶可以從huggingface上下載使用。我們希望通過開源模式,讓更多AIGC愛好者和社區(qū)成員能夠自由體驗。“Ruyi”專為在消費級顯卡(例如RTX 4090)上運行而設(shè)計,并提供詳盡的部署說明和ComfyUI工作流,以便用戶能夠快速上手。
 
 
  Ruyi圖生視頻大模型效果展示
 
  關(guān)于Ruyi
 
  Ruyi是圖森未來正式發(fā)布的第一款“圖生視頻”模型。憑借在幀間一致性、動作流暢性方面的卓越表現(xiàn),以及和諧自然的色彩呈現(xiàn)和構(gòu)圖,Ruyi大模型將為視覺敘事提供全新的可能性。同時,該模型還針對動漫和游戲場景進行深度學(xué)習(xí),將成為ACG愛好者理想的創(chuàng)意伙伴。
 
  卓越特性
 
  -多分辨率、多時長生成
 
  Ruyi支持最小384*384,最大1024*1024分辨率,任意長寬比,最長120幀/5秒的視頻生成。
 
  -首幀、首尾幀控制生成
 
  Ruyi可以支持最多5個起始幀、最多5個結(jié)束幀基礎(chǔ)上的視頻生成,通過循環(huán)疊加可以生成任意長度的視頻。
 
  -運動幅度控制
 
  Ruyi提供了4檔運動幅度控制,方便用戶對整體畫面的變化程度進行控制。
 
  -鏡頭控制
 
  Ruyi提供了上、下、左、右、靜止共5種鏡頭控制。
 
  技術(shù)概覽
 
  -模型架構(gòu)
 
  Ruyi是一個基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個Casual VAE模塊負責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個Diffusion Transformer負責(zé)壓縮后的視頻生成。其中Casual VAE模塊會將空間分辨率壓縮至1/8,時間分辨率壓縮至1/4,壓縮后每個像素由16位的BF16進行表示。DiT部分使用3D full attention,在空間上使用2D RoPE進行位置編碼,時間上使用sin_cos進行位置編碼,最終的loss選用了DDPM進行訓(xùn)練。模型的總參數(shù)量約為7.1B,使用了約200M視頻片段進行訓(xùn)練。
 
  -訓(xùn)練數(shù)據(jù)和方式
 
  整個訓(xùn)練分為了4個階段:
 
  在第一階段我們使用約200M的視頻數(shù)據(jù)+30M數(shù)據(jù)進行256分辨率的預(yù)訓(xùn)練,訓(xùn)練batch size為4096,共訓(xùn)練350k個iteration至充分收斂。
 
  第二階段使用了約60M的視頻數(shù)據(jù)進行384-512分辨率的多尺度微調(diào)訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練了60k個iteration。
 
  第三階段使用了約20M的高質(zhì)量視頻數(shù)據(jù)和8M的高質(zhì)量進行384-1024分辨率的多尺度微調(diào),訓(xùn)練batch size根據(jù)顯存大小進行動態(tài)調(diào)整,共訓(xùn)練約10k個iteration。
 
  第四階段使用了10M的精選高質(zhì)量視頻數(shù)據(jù)進行了圖生視頻的訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練約10k個iteration。
 
  -輸入格式和生成長度/模式
 
  Ruyi需要用戶提供一張作為輸入,并可以選擇輸出時長、輸出分辨率、運動幅度和鏡頭移動方向等選項,Ruyi會根據(jù)輸入的圖像輸出一個不超過5秒的視頻。
 
  現(xiàn)存缺陷
 
  Ruyi目前仍然存在手部畸形、多人時面部細節(jié)崩壞、不可控轉(zhuǎn)場等問題,我們正在改進這些缺點,在日后的更新中對它們進行修復(fù)。
 
  下一步計劃
 
  隨著AIGC領(lǐng)域競爭的日益激烈,圖森未來認為:最佳應(yīng)用場景是孵化生成式AI工具的原動力。公司致力于利用大模型降低動漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。因此,Ruyi將持續(xù)聚焦在如何真正解決行業(yè)痛點。
 
  本次發(fā)布的Ruyi大模型,已經(jīng)可以實現(xiàn)輸入關(guān)鍵幀后,生成之后5秒的內(nèi)容,或輸入兩個關(guān)鍵幀,由模型生成中間的過渡內(nèi)容,降低開發(fā)周期。未來將持續(xù)深耕場景需求,在此基礎(chǔ)上實現(xiàn)直接生成CUT的突破。在下一次的發(fā)布中,我們將同時發(fā)布兩個版本,為不同需求的創(chuàng)作者提供更加靈活的選擇。