学术插图新神器：西湖大学推出万字材料秒出SVG的AutoFigure

摘要

一句话总结 西湖大学推出多智能体绘图框架AutoFigure及其优化版AutoFigure-Edit，能够将上万字长文本自动转化为高质量且细节可编辑的SVG格式学术插图。

核心要点

核心功能：支持输入上万字的论文、书籍或博客等文本材料，自动化生成逻辑准确、视觉美观的学术插图（涵盖方法图、生物/材料机制图等）。
可编辑性突破：优化版AutoFigure-Edit结合SAM3（图标识别）与RMBG-2.0（去背景）技术，将生成的插图转化为可直接在PPT或浏览器中拖拽、改字、换色的SVG矢量文件。
创新范式：提出“推理式渲染”（Reasoned Rendering）范式，将“逻辑布局”与“美化渲染”彻底分离，解决传统AI生图逻辑错误和文字乱码的痛点。
三步生成策略：
1. 提取实体关系构建逻辑骨架（SVG/HTML代码）；
2. 通过AI Designer与AI Critic的闭环迭代不断修正布局缺陷；
3. 渲染美化并使用“擦除-修正”策略（利用OCR识别并替换模糊字符为清晰矢量文本）。
专属数据集：构建了全球首个大规模科学插图基准FigureBench，包含3,300个跨越四种科学文本的高质量文本-图片对。
实验数据：在教科书类任务中逻辑与准确度胜率达97.5%；在10位论文一作的盲测中，66.7%的专家认为其生成图片已达到出版级（Camera-ready）标准。
开源与应用：该工作已入选ICLR 2026，其代码、数据集、Web交互界面已全部开源，并上线了免费的在线体验网站。

正文

你是否也经历过这样的绝望：论文截稿在即，面对大段的文字抓耳挠腮，用PPT画框画到手抽筋；尝试用Nano banana等工具生个图，颜值拉满但逻辑全错，甚至还自带“克苏鲁”风格的模糊字符；好不容易调好了Prompt，结果想改一个小图标，却发现AI给的只是一张无从下手的“死图”。

这种“审美与逻辑不可兼得、生成与编辑彻底断层”的痛点，终于要被终结了。

西湖大学团队推出了全新的智能体绘图框架 AutoFigure。你可以把大段的文字材料直接塞给它，它能够一键读懂上万字的论文、书籍、博客，自动化地生成高质量的学术插图。

更重磅的是，其优化版本 AutoFigure-Edit 实现了从“像素”到“矢量”的跨越：生成的插图不再是死板的PNG图片，而是细节可编辑的SVG文件，现在你甚至可以直接在PPT里进行编辑。

目前，该工作已入选 ICLR 2026。代码、数据集、Web交互界面已全部开源，并同步上线了可一键使用的在线网站。

为什么以前的AI画不好科学插图？

在学术绘图界，一直存在两个极端：

End-to-end派（如GPT-Image）：审美在线，但逻辑经常出错，文字更是重灾区，充满了莫名其妙的幻觉字符。
Text-to-code派（如TikZ/SVG生成）：逻辑严密，但视觉效果往往缺乏现代论文的高级感，显得陈旧。

为此，AutoFigure 提出了“推理式渲染”（Reasoned Rendering）范式：将“脑子（逻辑布局）”和“手（美化渲染）”彻底分开。

模拟大牛设计师的“三步走”策略

AutoFigure的核心是一个分工明确的多智能体协作系统，其架构完全由AI自动生成且未经修改。具体分为三个步骤：

第一步：Conceptual Grounding（构建逻辑骨架） AI读入长达万词的文字材料，自动提取实体和关系，生成一个粗糙但结构正确的布局（SVG/HTML代码）。
第二步：Critique-and-Refine（Agent闭环迭代） 模拟人类设计师与甲方的反复拉锯，对图片布局进行反复修改。其中，AI Designer 负责根据反馈修改布局，AI Critic 则负责挑毛病（例如“箭头重叠”、“布局重心不稳”），直到得到满意的绘图质量。
第三步：Aesthetic Rendering & “Erase-and-Correct” 在最终美化阶段，AutoFigure首先将布局渲染为一张精美的图片。为了解决AIGC生图文字变形的问题，系统引入了专门的“擦除-修正”策略：用OCR识别模糊字符并将其“抠掉”，再重新覆盖上清晰的矢量文本。

AutoFigure-Edit：把AI生成图装进PPT

在最新版本 AutoFigure-Edit 中，西湖大学团队更进一步，引入了自动抠图与重组技术：

利用Meta最新的 SAM3 技术识别图中的Icon。
配合 RMBG-2.0 自动去除背景。
矢量重组：将这些干净的图标重新塞进生成的SVG模板中。

最终，用户得到的是一个可以在浏览器内置编辑器里直接拖拽、改字、换色的动态画布，能够完全按照个人想法对图片细节进行更改。

实验结果：66.7%专家认为达到出版级标准

为了验证效果，团队构建了全球首个大规模科学插图基准——FigureBench。该数据集规模宏大，涵盖了3,300个高质量文本-图片对，跨越论文、综述、技术博客、教科书等四种科学文本。

逻辑与准确度：AutoFigure优势极大，在教科书类任务中胜率高达 97.5%。
人类专家盲测：10位论文一作对生成的图片进行评审，结果显示 66.7% 的专家认为AutoFigure生成的图已经达到了Camera-ready（出版级）标准。

系统目前已成功生成多种高质量图表，包括：各类方法图（支持从第一阶段的PNG形式转换为最终的SVG文件）、生物机制图、材料机制图、综述图以及教科书图等。

项目价值与资源

插图不仅是视觉补充，更是复杂科学概念的桥梁。AutoFigure的出现意味着：

赋能AI科学家：这是AI实现从文本到绘图的全流程自主研究的关键一步。
不只是架构图：无论是流程图、算法流程，还是复杂的教科书示意图，它都能手到擒来。

相关链接：

在线网站：https://deepscientist.cc （所有学者均可免费体验demo，Nature、Science等多期刊风格一键生成功能也将很快上线）
GitHub：https://github.com/ResearAI/AutoFigure-Edit
论文：https://arxiv.org/abs/2602.03828v1
HuggingFace：https://huggingface.co/datasets/WestlakeNLP/FigureBench

研发团队简介

本项目由西湖大学张岳实验室全面开源。西湖大学自然语言处理实验室（WestlakeNLP）成立于2018年9月，由张岳教授领导。张岳教授毕业于牛津大学，现任西湖大学工程学院副院长，著有剑桥大学出版社出版的《自然语言处理》一书，并曾担任EMNLP 2022等顶级NLP会议的程序委员会主席。

本项目核心团队成员包括翁诣轩、林圳、朱敏郡、谢秋婕、卢攀忠、孙启耀等人。实验室过往成果还包括 Cycle Researcher、DeepReview、DeepScientist（两个月刷新三个前沿任务SoTA的人工智能科学家项目）等。实验室欢迎对自动化科学发现研究感兴趣的同学加入，有意申请长期实习、博士生、研究助理者可联系张岳教授。

wsl-docs

探索