摘要

1) 一句话总结 Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体和代码驱动的教学视频生成框架,通过生成可执行的 Manim 代码来制作高质量、逻辑清晰且可复现的教学视频。

2) 核心要点

  • 代码驱动范式:突破传统基于像素的文生视频模型局限,将可执行代码作为统一媒介来控制视频的时间顺序和空间布局。
  • 三智能体协同架构:由 Planner(负责视频分镜设计)、Coder(合成可调试的 Manim 动画代码)和 Critic(利用视觉锚点审查和优化布局)三个模块协同工作。
  • 灵活的生成模式:支持通过脚本输入单一知识点生成视频,也支持读取预设主题列表进行批量并行生成。
  • MMMC 基准测试:发布了首个用于代码驱动视频生成的基准测试,包含 117 个精选学习主题(灵感源自科普频道 3Blue1Brown)。
  • 多维度评估系统:支持从知识传递(TeachQuiz)、美学与结构质量(AES)以及生成效率(Token 消耗与执行时间)三个维度对视频进行量化评估。
  • 环境与模型依赖:需配置 Manim Community v0.19.0 环境;官方推荐使用 Claude-4-Opus 处理 Planner 和 Coder 任务,使用 Gemini-2.5-pro-preview-05-06 处理 Critic 任务。

3) 风险与不足

  • 模型能力依赖:框架的最终视频生成质量高度依赖于所调用的外部大语言模型(LLM)和视觉语言模型(VLM)的能力。
  • 外部 API 限制:视觉素材的获取依赖 IconFinder 平台,由于平台账户应用限制,目前只能使用 MMMC 数据集中预先收集的图标作为临时替代方案。

功能与定位

Code2Video 是由新加坡国立大学 Show Lab 提出的一个基于智能体(Agentic)和代码中心范式的教学视频生成框架。与传统的基于像素的文生视频模型不同,该框架通过生成可执行的 Manim 代码来制作高质量的教学视频,以确保视频内容的清晰度、连贯性和可复现性。

典型使用场景

  • 教学内容创作:输入特定的知识点(如“汉诺塔问题”、“大语言模型”、“傅里叶级数”等),自动生成结构化的教学演示视频。
  • 模型能力评估:利用配套的 MMMC 基准测试,评估大模型在代码驱动视频生成、知识传递和美学排版方面的能力。

核心功能

  • 模块化三智能体协同
    • Planner(规划者):负责视频分镜(Storyboard)的扩展与设计。
    • Coder(编码者):负责合成可调试的 Manim 动画代码。
    • Critic(评估者):利用视觉锚点对视频布局进行审查和优化。
  • 灵活的生成模式
    • 单点生成:支持通过脚本输入单一知识点(Query)直接生成对应视频。
    • 批量/基准测试模式:支持读取预设的主题列表,批量并行生成多个教学视频。
  • 多维度评估系统:提供配套脚本,支持从知识传递(TeachQuiz)、美学与结构质量(AES)以及生成效率(Token 消耗与执行时间)三个维度对视频进行评估。

特色与差异点

  • 代码驱动范式:将可执行代码作为统一媒介,同时控制教学视频的时间顺序和空间布局,突破了传统视频生成模型在逻辑表达上的局限。
  • MMMC 基准测试:项目发布了首个用于代码驱动视频生成的基准测试(MMMC),包含 117 个精选学习主题,灵感来源于知名科普频道 3Blue1Brown,涵盖多个学科领域。

使用方式概览

  1. 环境配置:安装依赖,需配置 Manim Community v0.19.0 环境。
  2. 配置 API 密钥
    • LLM API:用于 Planner 和 Coder 模块(官方推荐使用 Claude-4-Opus 以获得最佳代码质量)。
    • VLM API:用于 Critic 模块的布局和美学优化(官方推荐使用 Gemini-2.5-pro-preview-05-06)。
    • 视觉素材 API:配置 IconFinder API 以获取视频所需的图标素材。
  3. 运行生成脚本
    • 运行 run_agent_single.sh 生成单一知识点视频。
    • 运行 run_agent.sh 执行完整的主题列表批量生成。

限制与注意事项

  • 框架的生成质量高度依赖于所调用的 LLM 和 VLM 的能力(如 Claude 和 Gemini)。
  • 视觉素材的获取依赖外部平台(IconFinder),由于平台账户应用限制,官方目前在 MMMC 数据集中提供了预先收集的图标作为临时替代方案。

链接

关联主题