阿里开源全能视频模型！生成编辑都精通，1.3B版本消费级显卡可跑

发表评论

A+

所属分类：科技

摘要

！不卖关子了，这就是阿里最新开源的通义万相Wan2.1-VACE，号称当前业界功能最全的视频生成与编辑模型。按照万相产品负责人的说法，“所有你能想到的关于视频生成的玩法，几乎都在这里了”。还有人尝试给一…” />

TMGM平台官宣，

一水发自凹非寺

量子位 | 公众号 QbitAI

业界模块最全、消费级显卡可跑、而且还是开源的？！

不卖关子了，这就是阿里最新开源的通义万相Wan2.1-VACE，号称当前业界模块最全的视频生成与编辑模型。

有多全呢？来看官方介绍海报：

按照万相产品负责人的说法，“所有朋友们能想到的关于视频生成的玩法，几乎都在这里了”。

而且与以往不同，以上模块主打“All in one”，都能在一个模型里体验。

目前Wan2.1-VACE一共有两个版本：

展开全文

1.3B版本：消费级显卡可跑，兼容480p分辨率；
14B版本：满血版，兼容480p、720p分辨率。

1.3B版本：消费级显卡可跑，兼容480p分辨率；

14B版本：满血版，兼容480p、720p分辨率。

模型已在GitHub、Hugging Face和魔搭社区上线，动手能力强的小伙伴现在可自行本地化部署，至于其他想在产品端直接体验的朋友，可能还要等一两天。

OK，话不多说，小编直接看新模型究竟有哪些玩法。

视频生成领域的“全能选手”

经过一番梳理，Wan2.1-VACE的“进阶攻略”如下：

初阶玩法：基础的文生视频、图生视频（含首尾帧）、视频生视频等；
中阶玩法：加入编辑模块，局部抹除或替换、视频重绘、时长或背景延展等；

高阶玩法：将各种能力花式组合。

初阶玩法：基础的文生视频、图生视频（含首尾帧）、视频生视频等；

中阶玩法：加入编辑模块，局部抹除或替换、视频重绘、时长或背景延展等；

高阶玩法：将各种能力花式组合。

下面小编依次挑其中的一些亮点来看。

首先，在初级阶段，Wan2.1-VACE根据参考图生成融合视频的能力看起来相当丝滑。

比如分别上传两张娃娃和小蛇的图片：

生成的视频如下，不仅还原了文字所描述的氛围感，而且娃娃和小蛇的动作姿态都比较自然，整体构图和谐。

提示词：在一个欢乐而充满节日气氛的场景中，穿着鲜艳红色春服的小女孩正与她的可爱卡通蛇嬉戏。她的春服上绣着金色吉祥图案，散发着喜庆的气息，脸上洋溢着灿烂的笑容。蛇身呈现出亮眼的绿色，形状圆润，宽大的眼睛让它显得既友善又幽默。小女孩欢快地用手轻轻抚摸着蛇的头部，共同享受着这温馨的时刻。周围五彩斑斓的灯笼和彩带装饰着环境，阳光透过洒在她们身上，营造出 TMGM外汇开户一个充满友爱与幸福的新年氛围。

当然也有官方demo中效果更惊艳的（游戏中的角色直接照进现实）：