摘要

一句话总结 西湖大学推出多智能体绘图框架AutoFigure及其优化版AutoFigure-Edit,能够将上万字长文本自动转化为高质量且细节可编辑的SVG格式学术插图。

核心要点

  • 核心功能:支持输入上万字的论文、书籍或博客等文本材料,自动化生成逻辑准确、视觉美观的学术插图(涵盖方法图、生物/材料机制图等)。
  • 可编辑性突破:优化版AutoFigure-Edit结合SAM3(图标识别)与RMBG-2.0(去背景)技术,将生成的插图转化为可直接在PPT或浏览器中拖拽、改字、换色的SVG矢量文件。
  • 创新范式:提出“推理式渲染”(Reasoned Rendering)范式,将“逻辑布局”与“美化渲染”彻底分离,解决传统AI生图逻辑错误和文字乱码的痛点。
  • 三步生成策略
    1. 提取实体关系构建逻辑骨架(SVG/HTML代码);
    2. 通过AI Designer与AI Critic的闭环迭代不断修正布局缺陷;
    3. 渲染美化并使用“擦除-修正”策略(利用OCR识别并替换模糊字符为清晰矢量文本)。
  • 专属数据集:构建了全球首个大规模科学插图基准FigureBench,包含3,300个跨越四种科学文本的高质量文本-图片对。
  • 实验数据:在教科书类任务中逻辑与准确度胜率达97.5%;在10位论文一作的盲测中,66.7%的专家认为其生成图片已达到出版级(Camera-ready)标准。
  • 开源与应用:该工作已入选ICLR 2026,其代码、数据集、Web交互界面已全部开源,并上线了免费的在线体验网站。

正文

你是否也经历过这样的绝望:论文截稿在即,面对大段的文字抓耳挠腮,用PPT画框画到手抽筋;尝试用Nano banana等工具生个图,颜值拉满但逻辑全错,甚至还自带“克苏鲁”风格的模糊字符;好不容易调好了Prompt,结果想改一个小图标,却发现AI给的只是一张无从下手的“死图”。

这种“审美与逻辑不可兼得、生成与编辑彻底断层”的痛点,终于要被终结了。

西湖大学团队推出了全新的智能体绘图框架 AutoFigure。你可以把大段的文字材料直接塞给它,它能够一键读懂上万字的论文、书籍、博客,自动化地生成高质量的学术插图。

更重磅的是,其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越:生成的插图不再是死板的PNG图片,而是细节可编辑的SVG文件,现在你甚至可以直接在PPT里进行编辑。

目前,该工作已入选 ICLR 2026。代码、数据集、Web交互界面已全部开源,并同步上线了可一键使用的在线网站。

为什么以前的AI画不好科学插图?

在学术绘图界,一直存在两个极端:

  1. End-to-end派(如GPT-Image):审美在线,但逻辑经常出错,文字更是重灾区,充满了莫名其妙的幻觉字符。
  2. Text-to-code派(如TikZ/SVG生成):逻辑严密,但视觉效果往往缺乏现代论文的高级感,显得陈旧。

为此,AutoFigure 提出了“推理式渲染”(Reasoned Rendering)范式:将“脑子(逻辑布局)”和“手(美化渲染)”彻底分开。

模拟大牛设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统,其架构完全由AI自动生成且未经修改。具体分为三个步骤:

  • 第一步:Conceptual Grounding(构建逻辑骨架) AI读入长达万词的文字材料,自动提取实体和关系,生成一个粗糙但结构正确的布局(SVG/HTML代码)。
  • 第二步:Critique-and-Refine(Agent闭环迭代) 模拟人类设计师与甲方的反复拉锯,对图片布局进行反复修改。其中,AI Designer 负责根据反馈修改布局,AI Critic 则负责挑毛病(例如“箭头重叠”、“布局重心不稳”),直到得到满意的绘图质量。
  • 第三步:Aesthetic Rendering & “Erase-and-Correct” 在最终美化阶段,AutoFigure首先将布局渲染为一张精美的图片。为了解决AIGC生图文字变形的问题,系统引入了专门的“擦除-修正”策略:用OCR识别模糊字符并将其“抠掉”,再重新覆盖上清晰的矢量文本。

AutoFigure-Edit:把AI生成图装进PPT

在最新版本 AutoFigure-Edit 中,西湖大学团队更进一步,引入了自动抠图与重组技术:

  • 利用Meta最新的 SAM3 技术识别图中的Icon。
  • 配合 RMBG-2.0 自动去除背景。
  • 矢量重组:将这些干净的图标重新塞进生成的SVG模板中。

最终,用户得到的是一个可以在浏览器内置编辑器里直接拖拽、改字、换色的动态画布,能够完全按照个人想法对图片细节进行更改。

实验结果:66.7%专家认为达到出版级标准

为了验证效果,团队构建了全球首个大规模科学插图基准——FigureBench。该数据集规模宏大,涵盖了3,300个高质量文本-图片对,跨越论文、综述、技术博客、教科书等四种科学文本。

  • 逻辑与准确度:AutoFigure优势极大,在教科书类任务中胜率高达 97.5%。
  • 人类专家盲测:10位论文一作对生成的图片进行评审,结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了Camera-ready(出版级)标准。

系统目前已成功生成多种高质量图表,包括:各类方法图(支持从第一阶段的PNG形式转换为最终的SVG文件)、生物机制图、材料机制图、综述图以及教科书图等。

项目价值与资源

插图不仅是视觉补充,更是复杂科学概念的桥梁。AutoFigure的出现意味着:

  1. 赋能AI科学家:这是AI实现从文本到绘图的全流程自主研究的关键一步。
  2. 不只是架构图:无论是流程图、算法流程,还是复杂的教科书示意图,它都能手到擒来。

相关链接:

研发团队简介

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。张岳教授毕业于牛津大学,现任西湖大学工程学院副院长,著有剑桥大学出版社出版的《自然语言处理》一书,并曾担任EMNLP 2022等顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果还包括 Cycle Researcher、DeepReview、DeepScientist(两个月刷新三个前沿任务SoTA的人工智能科学家项目)等。实验室欢迎对自动化科学发现研究感兴趣的同学加入,有意申请长期实习、博士生、研究助理者可联系张岳教授。

关联主题