|
11月21日消息,騰訊今日,混元騰訊混元大模型團隊宣布開源最新視頻生成模型HunyuanVideo 1.5,發布費級這是全新一款基于Diffusion Transformer(DiT)架構、參數為8.3B的視頻生成生成輕量級視頻生成模型,支持生成5-10秒的模型高清視頻。 該模型已經搶先在“元寶”上線,消顯普通用戶可以直接體驗,流暢可通過兩種方式:一是運行輸入文字描述(Prompt),直接實現“文生視頻”;二是騰訊上傳圖片配合Prompt,輕松將靜態圖片轉化為動態視頻?;煸?/p> 據介紹,發布費級HunyuanVideo 1.5模型能力全面,全新支持中英文輸入的視頻生成生成文生視頻與圖生視頻。 其中,模型圖生視頻能力展現出圖像與視頻的高度一致性,生成的視頻在色調、光影、場景、主體和細節等方面都能與原圖較好匹配。 模型還具備強指令理解與遵循能力,能夠精準地實現多樣化場景,包括運鏡、流暢運動、真實的物理規律遵循、寫實人物和人物情緒表情等多種指令。
同時,HunyuanVideo 1.5支持寫實、動畫、積木等多種風格,并可在視頻中生成中英文文字,滿足多樣化內容創作需求。 在畫質方面,模型可原生生成480p和720p高清視頻,并可通過超分模型提升至1080p電影級畫質。 此前,視頻生成領域的開源SOTA旗艦模型至少有20B,需要超過50GB顯卡方可部署。 HunyuanVideo 1.5定位為“開源小鋼炮”,顯著降低了使用門檻可在14G顯存的消費級顯卡上流暢運行,真正讓每一位開發者和創作者都能“玩起來”。 HunyuanVideo1.5通過多層次的技術創新,實現了生成效果、性能與尺寸上的平衡。 HunyuanVideo 1.5創新的SSTA稀疏注意力機制(全稱Selective and Sliding Tile Attention,選擇性滑動分塊注意力)在保證高質量生成的同時顯著提升推理效率,配合多階段漸進式訓練策略,在運動連貫性、語義遵循等關鍵維度均達到商用水平。 |
