2025年11月1日

Wan2.2 动作同步和角色替换配置记录

By tony 默认分类评论 0

接上一篇，ComfyUI 安装已经搞定了，Wan 的基础工作流也搞定了。今天我们来搞一搞 Wan2.2 animate。

这是阿里在 2024 年 9 月 19 日推出的模型，也是玩的人最多的模型。

Wan2.2 animate 采用了统一的角色动画和替换框架，可以实现精确的动作和表情复制。

模型亮点如下：

双模式功能：单一架构同时支持动画和替换功能，可轻松实现操作切换。
先进的身体运动控制：使用空间对齐的骨骼信号进行精确的身体运动复制。
精确的动作和表情：准确再现参考视频中的动作和面部表情。
自然环境融合：将替换的角色与原始视频环境无缝融合。
流畅的长视频生成：迭代生成确保长视频中运动和视觉流畅一致。

它的主要功能是动作同步和角色替换。

这两个概念听着可能有点迷糊，我做一个简单的解释：

模式	输入	输出	主要用途
动画／动作同步（Animate）	静态角色图片 + 驱动视频（含动作／表情／镜头）	生成一个新视频：你的角色根据驱动视频里的动作／表情 “演” 出来	当你已有一个角色形象（例如你设计好的人物、游戏角色、品牌吉祥物）想让其 “表演” 某个动作／镜头逻辑时用
角色替换（Replace）	目标视频（已有演员／角色在场） + 你想替换的角色图片	输出一个新视频：场景镜头、镜头运动、环境都保留，但主体角色被你的角色替换	当你想用你设计的角色 “替代” 现有视频中的角色（换脸、换角色、换品牌代言人）时用

简单来说，比如有一个唐尼演讲的视频。

动作同步，就是可以让照片中的你学习唐尼的口型和动作。

角色替换，就是直接把视频中的人换成你，你会同步唐尼的口型和动作。

第二种会比较好玩，第一种在某些场景会比较实用。

我目前主要关注角色替换，所以这篇文章还是讲角色替换。

ComfyUI 官方内置了 Wan2.2 animate 的工作流，并且有官方教程。所以今天就是根据官方教程把官方工作流跑起来。

概念讲完了，开干。

启动软件

首先点击 run 启动软件。

打开工作流

找到并打开工作流。

下载模型

打开工作流的时候会弹出提示信息，这里显示了所有需要而没有的模型。只要点击下载按钮下载即可。

有一些模型我们已经在上一篇中下载了，这次主要用的是四个模型。下载的时候需要网络通畅，可以直接下载，也可以用迅雷等加速下载。

模型的放置路径：

ComfyUI/
├───📂 models/
│   ├───📂 diffusion_models/
│   │   ├─── Wan2_2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors
│   │   └─── wan2.2_animate_14B_bf16.safetensors
│   ├───📂 loras/
│   │   └─── lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors
│   ├───📂 text_encoders/
│   │   └─── umt5_xxl_fp8_e4m3fn_scaled.safetensors 
│   ├───📂 clip_visions/ 
│   │   └─── clip_vision_h.safetensors
│   └───📂 vae/
│       └── wan_2.1_vae.safetensors

不同模型的作用如下：

模型路径	功能作用	说明
clip_vision_h	🔍 图像特征提取模型	负责读取你输入的图像（角色图、驱动视频帧等），把视觉内容编码成向量特征，用于后续生成模型理解。是 OpenCLIP 的高精度版本（h 代表 high quality）。几乎所有 Animate 流程都需要它。
Wan2_2-Animate	🧩 核心视频生成模型	这是 Wan 2.2 Animate 的主体 Diffusion 模型，14 Billion 参数量，负责从时序潜空间生成视频帧。fp8 表示 8 bit 浮点精度，节省显存。
lightx2v	🔦 动作同步辅助	专门用于动作驱动、时序平滑、减少”抖动感”。即让角色的动作更自然连贯。I2V = Image to Video。
WanAnimate_relight_lora	💡 光照匹配	主要用于”角色替换模式”下的光照与环境匹配。让替换后的角色皮肤、盔甲、阴影与原视频环境融合自然。fp16 代表 16 bit 精度。