摘要
1) 一句话总结 Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体和代码驱动的教学视频生成框架,通过生成可执行的 Manim 代码来制作高质量、逻辑清晰且可复现的教学视频。
2) 核心要点
- 代码驱动范式:突破传统基于像素的文生视频模型局限,将可执行代码作为统一媒介来控制视频的时间顺序和空间布局。
- 三智能体协同架构:由 Planner(负责视频分镜设计)、Coder(合成可调试的 Manim 动画代码)和 Critic(利用视觉锚点审查和优化布局)三个模块协同工作。
- 灵活的生成模式:支持通过脚本输入单一知识点生成视频,也支持读取预设主题列表进行批量并行生成。
- MMMC 基准测试:发布了首个用于代码驱动视频生成的基准测试,包含 117 个精选学习主题(灵感源自科普频道 3Blue1Brown)。
- 多维度评估系统:支持从知识传递(TeachQuiz)、美学与结构质量(AES)以及生成效率(Token 消耗与执行时间)三个维度对视频进行量化评估。
- 环境与模型依赖:需配置 Manim Community v0.19.0 环境;官方推荐使用 Claude-4-Opus 处理 Planner 和 Coder 任务,使用 Gemini-2.5-pro-preview-05-06 处理 Critic 任务。
3) 风险与不足
- 模型能力依赖:框架的最终视频生成质量高度依赖于所调用的外部大语言模型(LLM)和视觉语言模型(VLM)的能力。
- 外部 API 限制:视觉素材的获取依赖 IconFinder 平台,由于平台账户应用限制,目前只能使用 MMMC 数据集中预先收集的图标作为临时替代方案。
功能与定位
Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体(Agentic)和代码中心范式的教学视频生成框架。与传统的基于像素的文生视频模型不同,该框架通过生成可执行的 Manim 代码来制作高质量的教学视频,以确保视频内容的清晰度、连贯性和可复现性。
典型使用场景
- 教学内容创作:输入特定的知识点(如“汉诺塔问题”、“大语言模型”、“傅里叶级数”等),自动生成结构化的教学演示视频。
- 模型能力评估:利用配套的 MMMC 基准测试,评估大模型在代码驱动视频生成、知识传递和美学排版方面的能力。
核心功能
- 模块化三智能体协同:
- Planner(规划者):负责视频分镜(Storyboard)的扩展与设计。
- Coder(编码者):负责合成可调试的 Manim 动画代码。
- Critic(评估者):利用视觉锚点对视频布局进行审查和优化。
- 灵活的生成模式:
- 单点生成:支持通过脚本输入单一知识点(Query)直接生成对应视频。
- 批量/基准测试模式:支持读取预设的主题列表,批量并行生成多个教学视频。
- 多维度评估系统:提供配套脚本,支持从知识传递(TeachQuiz)、美学与结构质量(AES)以及生成效率(Token 消耗与执行时间)三个维度对视频进行评估。
特色与差异点
- 代码驱动范式:将可执行代码作为统一媒介,同时控制教学视频的时间顺序和空间布局,突破了传统视频生成模型在逻辑表达上的局限。
- MMMC 基准测试:项目发布了首个用于代码驱动视频生成的基准测试(MMMC),包含 117 个精选学习主题,灵感来源于知名科普频道 3Blue1Brown,涵盖多个学科领域。
使用方式概览
- 环境配置:安装依赖,需配置 Manim Community v0.19.0 环境。
- 配置 API 密钥:
- LLM API:用于 Planner 和 Coder 模块(官方推荐使用 Claude-4-Opus 以获得最佳代码质量)。
- VLM API:用于 Critic 模块的布局和美学优化(官方推荐使用 Gemini-2.5-pro-preview-05-06)。
- 视觉素材 API:配置 IconFinder API 以获取视频所需的图标素材。
- 运行生成脚本:
- 运行
run_agent_single.sh生成单一知识点视频。 - 运行
run_agent.sh执行完整的主题列表批量生成。
- 运行
限制与注意事项
- 框架的生成质量高度依赖于所调用的 LLM 和 VLM 的能力(如 Claude 和 Gemini)。
- 视觉素材的获取依赖外部平台(IconFinder),由于平台账户应用限制,官方目前在 MMMC 数据集中提供了预先收集的图标作为临时替代方案。
链接
- GitHub 仓库: https://github.com/showlab/Code2Video
- 论文 (arXiv): https://arxiv.org/abs/2510.01174
- 项目主页: https://showlab.github.io/Code2Video/
- MMMC 数据集: https://huggingface.co/datasets/YanzheChen/MMMC
- Manim 社区: https://www.manim.community/
- IconFinder: https://www.iconfinder.com/