wsl-docs

❯

❯

AI 编程助手与Agent

❯

vision agent：Agent 框架

vision-agent：Agent 框架

2026年3月11日来源：landing-ai/vision-agent4分钟阅读

摘要

VisionAgent 是 LandingAI 提供的视觉 Agent 框架，围绕“输入提示词与图像/视频，输出可执行视觉代码”构建了规划、编码与测试迭代流程。根据仓库公开信息，该项目当前已标记为弃用状态，适合作为视觉 Agent 架构与工具编排的参考实现，不宜作为长期新项目的主线依赖。

功能与定位

vision-agent 面向视觉任务的代码生成与执行场景，核心目标是把自然语言需求转换为可运行的视觉处理代码。项目提供 VisionAgentV2、VisionAgentPlannerV2、VisionAgentCoderV2 等组件，用于完成对话、规划和代码落地。

典型使用场景

图像中的目标检测、计数与分割。
视频帧提取与目标跟踪。
通过自定义工具扩展特定视觉流程，例如模板匹配或掩码相关任务。
在本地 Web 示例中进行人类在环调试与交互。

核心功能

多智能体分工流程：对话 Agent、规划 Agent、编码 Agent 分别承担不同阶段任务。
代码与测试联动：先生成代码，再运行测试并在失败时迭代修正。
工具库可复用：内置视觉工具既可由 Agent 调用，也可在外部脚本直接调用。
支持 Human-in-the-loop：在规划过程中接受人工反馈后继续执行。

特色与差异点

以视觉任务为中心，把模型选择与代码生成合并到同一工作流。
既支持端到端 Prompt 调用，也支持按工具函数拆分使用。
提供本地示例应用，便于快速验证流程与调试交互。

使用方式概览

安装：支持 pip install vision-agent 或 uv add vision-agent。
运行前准备：需要 Python 3.9+ 环境与对应 API Key 配置。
入口方式：可直接调用 VisionAgentCoderV2 生成代码，也可运行 examples/chat 中的示例应用。
扩展方式：通过 register_tool 机制注册自定义工具并接入现有流程。

限制与注意事项

项目状态为已弃用，后续维护与演进存在不确定性。
运行流程依赖外部模型与相关 API 配置，部署与成本受上游服务影响。
Human-in-the-loop 与自定义工具流程涉及额外工程约束，需要先在 PoC 中验证稳定性后再进入生产。

链接

https://github.com/landing-ai/vision-agent
https://landing-ai.github.io/vision-agent/
https://landing.ai/blog/visionagent-an-agentic-approach-for-complex-visual-reasoning
https://va.landing.ai/home

关联主题

Agent
github
multimodal

关系图谱

摘要
功能与定位
典型使用场景
核心功能
特色与差异点
使用方式概览
限制与注意事项
链接
关联主题

Created with Quartz v4.5.2 © 2026

GitHub