AI 视频工作流搭建记录

今天主要完成了本地 AI 视频生成工作流的初步稳定化,核心目标是:

Pixelle-Video → ComfyUI → 文生图 → 图生视频 → 自动生成古风儿童分镜视频。

当前硬件环境:

  • Windows

  • RTX 5060 8GB

  • ComfyUI_windows_portable

  • Pixelle-Video


一、修复 Playwright / Pixelle 问题

最开始遇到:

BrowserType.launch: Executable doesn't exist

原因是:

Pixelle 使用的 Playwright 浏览器版本与本地安装版本不一致。

最终解决方案:

  • 使用 ComfyUI portable 自带 Python 安装 playwright chromium

  • 手动复制 chromium_headless_shell-1217 → chromium_headless_shell-1208

  • 成功解决 HTML rendering failed 问题


二、修复 Pixelle JSON 解析问题

出现:

JSONDecodeError: No valid JSON found

原因:

LLM 返回:

<think>...</think>

导致 Pixelle 的 _parse_json() 无法解析。

最终:

重写 _parse_json()

  • 自动移除 <think>

  • 支持 markdown json block

  • 自动提取 {} / []

Pixelle 现在能稳定接收 LLM 返回内容。


三、确定整体 AI 视频生产逻辑

最终确定:

Pixelle
→ 自动生成分镜 Prompt
→ ComfyUI 文生图
→ Img2Img 统一风格
→ Wan I2V 图生视频
→ F5-TTS 配音
→ 剪辑合成

理解了:

真正稳定的 AI 视频生产,并不是:

一句话 → 长视频

而是:

Storyboard(分镜)
→ Image
→ Image-to-Video

四、确定风格方案

最终决定采用:

中国古风 + 儿童绘本 + 阳光活泼

固定风格前缀:

  • 儿童绘本

  • 国风

  • 水彩

  • 水墨

  • 汉服

  • 暖阳

  • 活泼小孩

并理解:

保持多镜头风格一致的关键:

  • 固定模型

  • 固定风格前缀

  • 固定负面词

  • 固定 seed 规则

  • 固定尺寸


五、理解 VAE / LoRA / Text Encoder

今天彻底理解:

VAE

负责:

latent → 真正图像

影响:

  • 色彩

  • 清晰度

  • 对比度


LoRA

本质:

模型外挂

用于:

  • 国风

  • 儿童绘本

  • 固定角色

  • 固定画风


umt5_xxl_fp8

不是聊天 LLM。

而是:

Text Encoder

负责:

Prompt → embedding

属于视频模型必要组件。


六、视频模型路线选择

最终决定:

不追求 14B 大模型。

原因:

RTX 5060 8GB 更适合:

稳定生产

而不是:

超大模型极限运行

最终采用:

Wan 2.1 VACE 1.3B

而不是:

14B fp16

七、ComfyUI Workflow 改造

理解了 workflow 的结构:

  • UNET

  • LoRA

  • CLIP

  • VAE

  • KSampler

  • WanVaceToVideo

并完成:

14B → 1.3B

低显存化改造。

修改内容:

  • 14B UNET → 1.3B

  • 14B LoRA → 1.3B LoRA

  • fp16 Text Encoder → fp8

  • 768 → 512

并生成了新的:

wan2_1_vace_1_3b_lowvram_workflow.json

八、ComfyUI 模型目录结构

最终明确:

diffusion_models → UNET
text_encoders → CLIP/T5
vae → VAE
loras → LoRA

九、最终方向

当前已经不再追求:

  • 最大模型

  • 纯文生视频

  • 超长视频

而是:

稳定、批量、可控的 AI 视频生产工作流

真正的目标是:

Pixelle
→ 自动分镜
→ 古风儿童绘本视频
→ 自动配音
→ 自动生成短视频内容