AI 视频工作流搭建记录

今天主要完成了本地 AI 视频生成工作流的初步稳定化，核心目标是：

Pixelle-Video → ComfyUI → 文生图 → 图生视频 → 自动生成古风儿童分镜视频。

当前硬件环境：

Windows
RTX 5060 8GB
ComfyUI_windows_portable
Pixelle-Video

一、修复 Playwright / Pixelle 问题

最开始遇到：

BrowserType.launch: Executable doesn't exist

原因是：

Pixelle 使用的 Playwright 浏览器版本与本地安装版本不一致。

最终解决方案：

使用 ComfyUI portable 自带 Python 安装 playwright chromium
手动复制 chromium_headless_shell-1217 → chromium_headless_shell-1208
成功解决 HTML rendering failed 问题

二、修复 Pixelle JSON 解析问题

出现：

JSONDecodeError: No valid JSON found

原因：

LLM 返回：

<think>...</think>

导致 Pixelle 的 _parse_json() 无法解析。

最终：

重写 _parse_json()：

自动移除 <think>
支持 markdown json block
自动提取 {} / []

Pixelle 现在能稳定接收 LLM 返回内容。

三、确定整体 AI 视频生产逻辑

最终确定：

Pixelle
→ 自动生成分镜 Prompt
→ ComfyUI 文生图
→ Img2Img 统一风格
→ Wan I2V 图生视频
→ F5-TTS 配音
→ 剪辑合成

理解了：

真正稳定的 AI 视频生产，并不是：

一句话 → 长视频

而是：

Storyboard（分镜）
→ Image
→ Image-to-Video

四、确定风格方案

最终决定采用：

中国古风 + 儿童绘本 + 阳光活泼

固定风格前缀：

儿童绘本
国风
水彩
水墨
汉服
暖阳
活泼小孩

并理解：

保持多镜头风格一致的关键：

固定模型
固定风格前缀
固定负面词
固定 seed 规则
固定尺寸

五、理解 VAE / LoRA / Text Encoder

今天彻底理解：

VAE

负责：

latent → 真正图像

影响：

色彩
清晰度
对比度

LoRA

本质：

模型外挂

用于：

国风
儿童绘本
固定角色
固定画风

umt5_xxl_fp8

不是聊天 LLM。

而是：

Text Encoder

负责：

Prompt → embedding

属于视频模型必要组件。

六、视频模型路线选择

最终决定：

不追求 14B 大模型。

原因：

RTX 5060 8GB 更适合：

稳定生产

而不是：

超大模型极限运行

最终采用：

Wan 2.1 VACE 1.3B

而不是：

14B fp16

七、ComfyUI Workflow 改造

理解了 workflow 的结构：

UNET
LoRA
CLIP
VAE
KSampler
WanVaceToVideo

并完成：

14B → 1.3B

低显存化改造。

修改内容：

14B UNET → 1.3B
14B LoRA → 1.3B LoRA
fp16 Text Encoder → fp8
768 → 512

并生成了新的：

wan2_1_vace_1_3b_lowvram_workflow.json

八、ComfyUI 模型目录结构

最终明确：

diffusion_models → UNET
text_encoders → CLIP/T5
vae → VAE
loras → LoRA

九、最终方向

当前已经不再追求：

最大模型
纯文生视频
超长视频

而是：

稳定、批量、可控的 AI 视频生产工作流

真正的目标是：

Pixelle
→ 自动分镜
→ 古风儿童绘本视频
→ 自动配音
→ 自动生成短视频内容

💃 Lii's Blog

Recent Writing

2026年5月15日研究笔记

Pixelle-Video

液态软件到来的时间节点推测

液态软件

液态软件对操作系统的影响

CONOCIMIENTO