【ZiDongHua之行業(yè)新資訊收錄關(guān)鍵詞:圖森未來(lái) 大模型 AIGC AI】
 
  圖森未來(lái)正式發(fā)布圖生視頻大模型“Ruyi”
 
  2024年12月17日-圖森未來(lái)今日正式發(fā)布“Ruyi”-圖生視頻大模型,并將Ruyi-Mini-7B版本正式開(kāi)源,用戶可以從huggingface上下載使用。我們希望通過(guò)開(kāi)源模式,讓更多AIGC愛(ài)好者和社區(qū)成員能夠自由體驗(yàn)。“Ruyi”專(zhuān)為在消費(fèi)級(jí)顯卡(例如RTX 4090)上運(yùn)行而設(shè)計(jì),并提供詳盡的部署說(shuō)明和ComfyUI工作流,以便用戶能夠快速上手。
 
 
  Ruyi圖生視頻大模型效果展示
 
  關(guān)于Ruyi
 
  Ruyi是圖森未來(lái)正式發(fā)布的第一款“圖生視頻”模型。憑借在幀間一致性、動(dòng)作流暢性方面的卓越表現(xiàn),以及和諧自然的色彩呈現(xiàn)和構(gòu)圖,Ruyi大模型將為視覺(jué)敘事提供全新的可能性。同時(shí),該模型還針對(duì)動(dòng)漫和游戲場(chǎng)景進(jìn)行深度學(xué)習(xí),將成為ACG愛(ài)好者理想的創(chuàng)意伙伴。
 
  卓越特性
 
  -多分辨率、多時(shí)長(zhǎng)生成
 
  Ruyi支持最小384*384,最大1024*1024分辨率,任意長(zhǎng)寬比,最長(zhǎng)120幀/5秒的視頻生成。
 
  -首幀、首尾幀控制生成
 
  Ruyi可以支持最多5個(gè)起始幀、最多5個(gè)結(jié)束幀基礎(chǔ)上的視頻生成,通過(guò)循環(huán)疊加可以生成任意長(zhǎng)度的視頻。
 
  -運(yùn)動(dòng)幅度控制
 
  Ruyi提供了4檔運(yùn)動(dòng)幅度控制,方便用戶對(duì)整體畫(huà)面的變化程度進(jìn)行控制。
 
  -鏡頭控制
 
  Ruyi提供了上、下、左、右、靜止共5種鏡頭控制。
 
  技術(shù)概覽
 
  -模型架構(gòu)
 
  Ruyi是一個(gè)基于DiT架構(gòu)的圖生視頻模型,它由兩部分構(gòu)成:一個(gè)Casual VAE模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè)Diffusion Transformer負(fù)責(zé)壓縮后的視頻生成。其中Casual VAE模塊會(huì)將空間分辨率壓縮至1/8,時(shí)間分辨率壓縮至1/4,壓縮后每個(gè)像素由16位的BF16進(jìn)行表示。DiT部分使用3D full attention,在空間上使用2D RoPE進(jìn)行位置編碼,時(shí)間上使用sin_cos進(jìn)行位置編碼,最終的loss選用了DDPM進(jìn)行訓(xùn)練。模型的總參數(shù)量約為7.1B,使用了約200M視頻片段進(jìn)行訓(xùn)練。
 
  -訓(xùn)練數(shù)據(jù)和方式
 
  整個(gè)訓(xùn)練分為了4個(gè)階段:
 
  在第一階段我們使用約200M的視頻數(shù)據(jù)+30M數(shù)據(jù)進(jìn)行256分辨率的預(yù)訓(xùn)練,訓(xùn)練batch size為4096,共訓(xùn)練350k個(gè)iteration至充分收斂。
 
  第二階段使用了約60M的視頻數(shù)據(jù)進(jìn)行384-512分辨率的多尺度微調(diào)訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練了60k個(gè)iteration。
 
  第三階段使用了約20M的高質(zhì)量視頻數(shù)據(jù)和8M的高質(zhì)量進(jìn)行384-1024分辨率的多尺度微調(diào),訓(xùn)練batch size根據(jù)顯存大小進(jìn)行動(dòng)態(tài)調(diào)整,共訓(xùn)練約10k個(gè)iteration。
 
  第四階段使用了10M的精選高質(zhì)量視頻數(shù)據(jù)進(jìn)行了圖生視頻的訓(xùn)練,訓(xùn)練batch size為1024,共訓(xùn)練約10k個(gè)iteration。
 
  -輸入格式和生成長(zhǎng)度/模式
 
  Ruyi需要用戶提供一張作為輸入,并可以選擇輸出時(shí)長(zhǎng)、輸出分辨率、運(yùn)動(dòng)幅度和鏡頭移動(dòng)方向等選項(xiàng),Ruyi會(huì)根據(jù)輸入的圖像輸出一個(gè)不超過(guò)5秒的視頻。
 
  現(xiàn)存缺陷
 
  Ruyi目前仍然存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場(chǎng)等問(wèn)題,我們正在改進(jìn)這些缺點(diǎn),在日后的更新中對(duì)它們進(jìn)行修復(fù)。
 
  下一步計(jì)劃
 
  隨著AIGC領(lǐng)域競(jìng)爭(zhēng)的日益激烈,圖森未來(lái)認(rèn)為:最佳應(yīng)用場(chǎng)景是孵化生成式AI工具的原動(dòng)力。公司致力于利用大模型降低動(dòng)漫和游戲內(nèi)容的開(kāi)發(fā)周期和開(kāi)發(fā)成本。因此,Ruyi將持續(xù)聚焦在如何真正解決行業(yè)痛點(diǎn)。
 
  本次發(fā)布的Ruyi大模型,已經(jīng)可以實(shí)現(xiàn)輸入關(guān)鍵幀后,生成之后5秒的內(nèi)容,或輸入兩個(gè)關(guān)鍵幀,由模型生成中間的過(guò)渡內(nèi)容,降低開(kāi)發(fā)周期。未來(lái)將持續(xù)深耕場(chǎng)景需求,在此基礎(chǔ)上實(shí)現(xiàn)直接生成CUT的突破。在下一次的發(fā)布中,我們將同時(shí)發(fā)布兩個(gè)版本,為不同需求的創(chuàng)作者提供更加靈活的選擇。