摘要

1) 一句话总结 本文档汇集了 Claude 在分类、检索增强生成（RAG）、总结和 Text-to-SQL 等核心能力上的实践指南，并详细说明了如何使用 Promptfoo 框架对这些能力进行自动化测试与评估。

2) 关键要点

核心能力覆盖：指南涵盖了五大主要场景：分类、标准 RAG、使用上下文嵌入（Contextual Embeddings）的 RAG、多源信息总结以及 Text-to-SQL。
标准化目录结构：每个能力模块都是独立的，均包含主教程笔记本（guide.ipynb）、测试数据目录（data/）和评估脚本目录（evaluation/）。
评估工具链：统一使用 Promptfoo 进行评估编排，运行前需在系统上安装 Node.js 和 npm，并通过 npx promptfoo@latest eval 执行测试。
配置文件结构：评估逻辑由 promptfooconfig.yaml 驱动，其中定义了提示词（Prompts）、模型提供商（Providers）、测试用例（Tests）和输出格式（Output）。
RAG 评估策略：RAG 的评估被拆分为两个独立部分：检索系统评估（promptfooconfig_retrieval.yaml）和端到端性能评估（promptfooconfig_end_to_end.yaml）。
总结评估指标：总结能力的评估使用了自定义指标，包括 BLEU 分数、ROUGE 分数以及基于 LLM 的评估（需额外通过 pip 安装 nltk 和 rouge-score 依赖）。
环境变量要求：运行评估前必须配置相应的 API 密钥，如 ANTHROPIC_API_KEY 和 VOYAGE_API_KEY。
结果可视化：评估完成后，除了输出 CSV/JSON 等格式文件外，还可以通过运行 npx promptfoo@latest view 在 Web UI 中查看结果。

3) 风险与缺口

API 速率限制风险：运行完整的评估套件可能需要高于正常的 API 速率限制（Rate limits），官方建议考虑仅运行测试的子集。
测试通过率预期：并非所有测试都能开箱即用地通过，评估用例被故意设计得具有一定挑战性。
Python 环境冲突：Promptfoo 默认在 shell 中运行 Python，如果系统找不到 Python 二进制文件会报错（“python: command not found”），需通过设置 PROMPTFOO_PYTHON 环境变量来手动指定可执行文件路径。

正文

来源文档：`capabilities/README.md`

Claude 能力 (Capabilities)

欢迎来到 Claude Cookbooks 的能力（Capabilities）部分！本目录包含了一系列指南，展示了 Claude 擅长的特定能力。每篇指南都对某项特定能力进行了深入探索，讨论了潜在的用例、优化结果的提示词工程（prompt engineering）技术，以及评估 Claude 性能的方法。

指南

使用 Claude 进行分类 (Classification with Claude)（./classification/guide.ipynb）：探索 Claude 如何彻底改变分类任务，特别是在具有复杂业务规则和有限训练数据的场景中。本指南将带您了解数据准备、结合检索增强生成（RAG）的提示词工程、测试和评估。
使用 Claude 进行检索增强生成 (Retrieval Augmented Generation with Claude)（./retrieval_augmented_generation/guide.ipynb）：了解如何使用 RAG 利用特定领域的知识来增强 Claude 的能力。本指南演示了如何从头开始构建 RAG 系统、优化其性能并创建评估套件。您将学习摘要索引和重排（re-ranking）等技术如何显著提高问答任务中的精确度、召回率和整体准确性。
使用上下文嵌入的检索增强生成 (Retrieval Augmented Generation with Contextual Embeddings)（./contextual-embeddings/guide.ipynb）：了解如何使用一项新技术来提高 RAG 系统的性能。在传统的 RAG 中，文档通常被分割成较小的分块（chunks）以便于高效检索。虽然这种方法适用于许多应用，但当单个分块缺乏足够的上下文时，就会导致问题。上下文嵌入（Contextual Embeddings）通过在嵌入之前为每个分块添加相关的上下文来解决这个问题。您将学习如何将上下文嵌入与语义搜索、BM25 搜索和重排结合使用以提高性能。
使用 Claude 进行总结 (Summarization with Claude)（./summarization/guide.ipynb）：探索 Claude 从多个来源总结和综合信息的能力。本指南涵盖了各种总结技术，包括多样本（multi-shot）、基于领域和分块的方法，以及处理长篇内容和多文档的策略。我们还探讨了如何评估总结，这可能是艺术、主观性和正确方法之间的平衡！
使用 Claude 进行 Text-to-SQL (Text-to-SQL with Claude)（./text_to_sql/guide.ipynb）：本指南介绍了如何使用提示词技术、自我改进和 RAG 从自然语言生成复杂的 SQL 查询。我们还将探索如何评估和提高生成的 SQL 查询的准确性，包括测试语法、数据正确性、行数等方面的评估。

开始使用

要开始使用这些指南，只需导航到所需指南的目录并按照 guide.ipynb 文件中提供的说明进行操作。每篇指南都是独立的，并包含重现示例和实验所需的所有代码、数据和评估脚本。

来源文档：`capabilities/classification/README.md`

使用 Claude 进行分类

了解如何使用 Claude 执行分类任务，特别是在具有复杂业务规则和有限训练数据的场景中。