摘要

1) 一句话总结 本文档总结了 Claude 多模态实战手册的核心内容,提供了一条涵盖图像输入、视觉提示、局部裁剪、文档转录、图表理解及子代理协同的完整多模态工作流落地路径。

2) 关键要点

  • 核心模块覆盖:包含视觉入门、最佳实践、裁剪工具、文本转录、图表/PPT阅读及子代理协同六个核心 Notebook。
  • 视觉输入规范化:统一了 URL、Base64 和文件路径的图像输入方式(如使用 pil_to_base64 将图像转为 RGB 模式并输出 Base64 编码)。
  • 视觉提示工程:通过任务拆解和 Few-shot(少样本)提示技术,有效提高模型识别结果的一致性。
  • 局部裁剪工具:定义了 crop_image 工具,通过 0 到 1 之间的相对坐标(x1, y1, x2, y2)划定边界框,实现“先定位目标区域,再进行高精度分析”。
  • 图文混合理解:支持将图表、PPT、表单等复杂视觉材料纳入同一处理链路进行解析。
  • 子代理协同架构:采用主模型负责全局规划、轻量级模型负责执行子任务的协同模式。
  • 典型落地场景:包括报表和看板的趋势与异常解读、票据与表单的结构化字段转录,以及结合子代理的多文档并行阅读与汇总。

正文

这组 notebook 给出了一条完整多模态落地路径:图像输入、视觉提示、局部裁剪、文档转录、图表理解,再到子代理协同。它的价值不在“能看图”,而在“如何稳定提取可用信息并接入工作流”。

能力主线

  • 视觉输入规范化:统一 URL / Base64 / 文件输入路径。
  • 视觉提示工程:通过任务拆解和 few-shot 提高识别一致性。
  • 局部裁剪工具:先定位目标区域,再做高精度分析。
  • 图文混合理解:将图表、PPT、表单纳入同一处理链路。
  • 子代理协同:主模型负责规划,轻量模型执行子任务。

示例代码

def pil_to_base64(image: PILImage.Image) -> str:
    if image.mode in ("RGBA", "P"):
        image = image.convert("RGB")
    buffer = BytesIO()
    image.save(buffer, format="PNG")
    return base64.standard_b64encode(buffer.getvalue()).decode("utf-8")
 
CROP_TOOL = {
    "name": "crop_image",
    "description": "Crop an image by specifying a bounding box.",
    "input_schema": {
        "type": "object",
        "properties": {
            "x1": {"type": "number", "minimum": 0, "maximum": 1},
            "y1": {"type": "number", "minimum": 0, "maximum": 1},
            "x2": {"type": "number", "minimum": 0, "maximum": 1},
            "y2": {"type": "number", "minimum": 0, "maximum": 1},
        },
    },
}

典型场景

  • 报表和看板解读:自动读取图表趋势和关键异常。
  • 票据与表单转录:把半结构化文档转为字段化数据。
  • 多文档研究助手:结合子代理并行阅读并汇总结论。

相关文档

关联主题