Code2Video：代码驱动教学视频生成系统

摘要

1) 一句话总结 Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体和代码驱动的教学视频生成框架，通过生成可执行的 Manim 代码来制作高质量、逻辑清晰且可复现的教学视频。

2) 核心要点

代码驱动范式：突破传统基于像素的文生视频模型局限，将可执行代码作为统一媒介来控制视频的时间顺序和空间布局。
三智能体协同架构：由 Planner（负责视频分镜设计）、Coder（合成可调试的 Manim 动画代码）和 Critic（利用视觉锚点审查和优化布局）三个模块协同工作。
灵活的生成模式：支持通过脚本输入单一知识点生成视频，也支持读取预设主题列表进行批量并行生成。
MMMC 基准测试：发布了首个用于代码驱动视频生成的基准测试，包含 117 个精选学习主题（灵感源自科普频道 3Blue1Brown）。
多维度评估系统：支持从知识传递（TeachQuiz）、美学与结构质量（AES）以及生成效率（Token 消耗与执行时间）三个维度对视频进行量化评估。
环境与模型依赖：需配置 Manim Community v0.19.0 环境；官方推荐使用 Claude-4-Opus 处理 Planner 和 Coder 任务，使用 Gemini-2.5-pro-preview-05-06 处理 Critic 任务。

3) 风险与不足

模型能力依赖：框架的最终视频生成质量高度依赖于所调用的外部大语言模型（LLM）和视觉语言模型（VLM）的能力。
外部 API 限制：视觉素材的获取依赖 IconFinder 平台，由于平台账户应用限制，目前只能使用 MMMC 数据集中预先收集的图标作为临时替代方案。

Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体（Agentic）和代码中心范式的教学视频生成框架。与传统的基于像素的文生视频模型不同，该框架通过生成可执行的 Manim 代码来制作高质量的教学视频，以确保视频内容的清晰度、连贯性和可复现性。

模块化三智能体协同：
- Planner（规划者）：负责视频分镜（Storyboard）的扩展与设计。
- Coder（编码者）：负责合成可调试的 Manim 动画代码。
- Critic（评估者）：利用视觉锚点对视频布局进行审查和优化。
灵活的生成模式：
- 单点生成：支持通过脚本输入单一知识点（Query）直接生成对应视频。
- 批量/基准测试模式：支持读取预设的主题列表，批量并行生成多个教学视频。
多维度评估系统：提供配套脚本，支持从知识传递（TeachQuiz）、美学与结构质量（AES）以及生成效率（Token 消耗与执行时间）三个维度对视频进行评估。

代码驱动范式：将可执行代码作为统一媒介，同时控制教学视频的时间顺序和空间布局，突破了传统视频生成模型在逻辑表达上的局限。
MMMC 基准测试：项目发布了首个用于代码驱动视频生成的基准测试（MMMC），包含 117 个精选学习主题，灵感来源于知名科普频道 3Blue1Brown，涵盖多个学科领域。

环境配置：安装依赖，需配置 Manim Community v0.19.0 环境。
配置 API 密钥：
- LLM API：用于 Planner 和 Coder 模块（官方推荐使用 Claude-4-Opus 以获得最佳代码质量）。
- VLM API：用于 Critic 模块的布局和美学优化（官方推荐使用 Gemini-2.5-pro-preview-05-06）。
- 视觉素材 API：配置 IconFinder API 以获取视频所需的图标素材。
运行生成脚本：
- 运行 run_agent_single.sh 生成单一知识点视频。
- 运行 run_agent.sh 执行完整的主题列表批量生成。