AI 视频工作流搭建记录
今天主要完成了本地 AI 视频生成工作流的初步稳定化,核心目标是:
Pixelle-Video → ComfyUI → 文生图 → 图生视频 → 自动生成古风儿童分镜视频。
当前硬件环境:
-
Windows
-
RTX 5060 8GB
-
ComfyUI_windows_portable
-
Pixelle-Video
一、修复 Playwright / Pixelle 问题
最开始遇到:
BrowserType.launch: Executable doesn't exist原因是:
Pixelle 使用的 Playwright 浏览器版本与本地安装版本不一致。
最终解决方案:
-
使用 ComfyUI portable 自带 Python 安装 playwright chromium
-
手动复制 chromium_headless_shell-1217 → chromium_headless_shell-1208
-
成功解决 HTML rendering failed 问题
二、修复 Pixelle JSON 解析问题
出现:
JSONDecodeError: No valid JSON found原因:
LLM 返回:
<think>...</think>导致 Pixelle 的 _parse_json() 无法解析。
最终:
重写 _parse_json():
-
自动移除
<think> -
支持 markdown json block
-
自动提取
{}/[]
Pixelle 现在能稳定接收 LLM 返回内容。
三、确定整体 AI 视频生产逻辑
最终确定:
Pixelle
→ 自动生成分镜 Prompt
→ ComfyUI 文生图
→ Img2Img 统一风格
→ Wan I2V 图生视频
→ F5-TTS 配音
→ 剪辑合成理解了:
真正稳定的 AI 视频生产,并不是:
一句话 → 长视频而是:
Storyboard(分镜)
→ Image
→ Image-to-Video四、确定风格方案
最终决定采用:
中国古风 + 儿童绘本 + 阳光活泼固定风格前缀:
-
儿童绘本
-
国风
-
水彩
-
水墨
-
汉服
-
暖阳
-
活泼小孩
并理解:
保持多镜头风格一致的关键:
-
固定模型
-
固定风格前缀
-
固定负面词
-
固定 seed 规则
-
固定尺寸
五、理解 VAE / LoRA / Text Encoder
今天彻底理解:
VAE
负责:
latent → 真正图像影响:
-
色彩
-
清晰度
-
对比度
LoRA
本质:
模型外挂用于:
-
国风
-
儿童绘本
-
固定角色
-
固定画风
umt5_xxl_fp8
不是聊天 LLM。
而是:
Text Encoder负责:
Prompt → embedding属于视频模型必要组件。
六、视频模型路线选择
最终决定:
不追求 14B 大模型。
原因:
RTX 5060 8GB 更适合:
稳定生产而不是:
超大模型极限运行最终采用:
Wan 2.1 VACE 1.3B而不是:
14B fp16七、ComfyUI Workflow 改造
理解了 workflow 的结构:
-
UNET
-
LoRA
-
CLIP
-
VAE
-
KSampler
-
WanVaceToVideo
并完成:
14B → 1.3B低显存化改造。
修改内容:
-
14B UNET → 1.3B
-
14B LoRA → 1.3B LoRA
-
fp16 Text Encoder → fp8
-
768 → 512
并生成了新的:
wan2_1_vace_1_3b_lowvram_workflow.json八、ComfyUI 模型目录结构
最终明确:
diffusion_models → UNET
text_encoders → CLIP/T5
vae → VAE
loras → LoRA九、最终方向
当前已经不再追求:
-
最大模型
-
纯文生视频
-
超长视频
而是:
稳定、批量、可控的 AI 视频生产工作流真正的目标是:
Pixelle
→ 自动分镜
→ 古风儿童绘本视频
→ 自动配音
→ 自动生成短视频内容