FramePack：视频生成与处理模型项目

摘要

1) 一句话总结 FramePack 是一个基于下一帧预测和上下文打包技术的视频扩散模型桌面软件，能够在仅需 6GB 显存的普通笔记本 GPU 上运行 13B 模型，实现渐进式的长视频生成。

2) 关键点

核心技术：采用下一帧（或帧片段）预测架构，将输入上下文压缩为固定长度，使生成工作量不受视频总长度的影响。
极低显存要求：最低仅需 6GB 显存（支持笔记本 GPU），即可使用 13B 模型生成 1 分钟（30fps，共 1800 帧）的视频。
生成速度与反馈：在 RTX 4090 桌面显卡上，未优化速度为 2.5 秒/帧，开启 teacache 后为 1.5 秒/帧；由于采用渐进式生成，用户在完整视频生成前即可获得大量实时视觉反馈。
硬件与系统支持：支持 Windows 和 Linux 系统；需配备支持 fp16 和 bf16 的 Nvidia RTX 30XX、40XX 或 50XX 系列显卡。
便捷安装：Windows 提供一键安装包（内置 CUDA 12.6 和 PyTorch 2.6）；首次运行会自动从 HuggingFace 下载超过 30GB 的模型文件。
注意力机制兼容：默认使用 PyTorch attention，同时支持 xformers、flash-attn 和 sage-attention（官方建议先使用默认设置，因为第三方内核会轻微影响生成结果）。
版本演进：目前已发布 FramePack-F1，并正在测试包含“计划防漂移（Planned Anti-Drifting）”和“历史离散化（History Discretization）”设计的下一代版本 FramePack-P1。
开源与热度：项目基于 Python 开发，采用 Apache License 2.0 开源协议，在 GitHub 上已获得超过 1.6 万 Stars。

3) 风险/不足

虚假网站诈骗风险：官方明确声明 GitHub 仓库是唯一的官方主页，并列举了大量假冒网站（如 framepack.co、framepack.ai 等），警告用户切勿在其他网站付费或下载文件。
硬件与噪声敏感性：下一帧预测模型对噪声和硬件的微小差异非常敏感，不同设备上生成的结果可能会有轻微差异，官方建议使用前先进行基准测试（Sanity Check）。
旧硬件未测试：官方明确表示未对 GTX 10XX 和 20XX 系列显卡进行测试，可能存在兼容性或运行问题。

Lets make video diffusion practical!