wsl-docs

❯

❯

evals

2026年3月11日3分钟阅读

定义

用于聚合评估与 Evals 相关文档。Evals 是对人工智能模型（尤其是大语言模型）与 Agent 系统的能力、安全性、准确性及特定任务表现进行系统性测试与量化评估的框架与方法论。

核心内涵

基准测试：通过标准化的数据集和任务集，对模型在常识推理、代码生成、数学计算等维度的基础能力进行横向对比。
自动化评估：利用脚本或辅助模型（LLM-as-a-Judge）对目标模型的输出进行批量化、自动化的打分与验证，提升评估效率。
多维度指标：涵盖准确率、召回率、相关性、连贯性以及安全性（如防范有害内容生成）等复合评价体系。
持续监测：在模型微调或系统迭代过程中，作为质量保障的核心环节，防止模型能力出现灾难性遗忘或退化。

实践要点

数据集构建：确保评估数据的多样性、无偏性与时效性，防范模型在训练阶段“刷榜”导致评估失效。
评估标准对齐：在引入自动化评估时，需定期引入人工抽检（Human-in-the-loop），确保机器打分与人类偏好保持一致。
流水线集成：将 Evals 深度整合到持续集成与部署流程中，设定明确的通过阈值，拦截不达标的模型版本。
边界测试：针对对抗性输入、极端场景及长尾问题设计专门的测试用例，探测模型的鲁棒性与安全底线。
可复现性控制：记录并固定关键评估环境参数（如算力、时限、并发与依赖版本），避免把基础设施波动误判为模型能力变化。

相关词条

benchmark
llm
llmops
CI

关联主题

AI
benchmark
llm
llmops
CI
observability
security
Agent
alignment

关系图谱

定义
核心内涵
实践要点
相关词条
关联主题

反向链接

AI
Agent
CI
OpenAI
Spec驱动开发
alignment
benchmark
bug-fix
decision-making
llm
llmops
observability
paper
prompt
RAG
slideredit
vibe-coding
ACE-Step 1.5 终极指南
AI辅助如何影响编程技能的形成
Anthropic 的模型弃用与保留承诺
Anthropic 经济指数：理解 AI 使用的新基石
Bloom：自动化评估 AI 行为的开源框架
Building Effective Agents 常见工作流最小实现
Claude Agent Workflow Notebook 实战
Claude Capabilities Notebook 实战补充
Claude Capabilities 指南与 Promptfoo 评测实践
Claude Cookbooks 项目总览与能力地图
Claude Misc Cookbook 评测与结构化输出
Claude Skills Notebook 实战进阶
Claude 工程专题 Notebook Extended Thinking Finetuning 与可观测性
Claude 开发平台发布说明：API 与 SDK 更新总览
Contextual Retrieval：上下文检索方法
Cookbook Notebook 审核规范与评分清单
Persona vectors：语言模型角色特征的监测与控制
Petri：加速 AI 安全研究的开源审计工具
Project Fetch：Claude 能否训练机器狗
Project Vend 第一阶段：Claude 经营小商店实验
Project Vend 第二阶段：让 Claude 经营自动售货店的扩展实验
下一代宪法式分类器：更高效地防御通用越狱
为网络防御者构建 AI 系统
从奖励劫持到蓄意破坏：对齐失效的自然涌现
估算 Claude 对话带来的 AI 生产力收益
保护用户的身心健康
大型语言模型中内省能力的迹象
实践中测量 AI 智能体的自主性
少量样本投毒对大语言模型的影响
应对ASL-4级AI风险：三种安全用例框架构想
揭秘 AI 智能体评估 Evals
智能体对齐失效：大语言模型如何演变为内部威胁
构建高效智能体：Building Effective Agents
现实世界 AI 使用中的失权模式
衡量 AI 智能体在实践中的自主性
评估与缓解大语言模型发现零日漏洞的风险
量化智能体编程评估中的基础设施噪音
长上下文提示实践
解锁大型语言模型在机器翻译中的推理能力
我们正在让大语言模型决定录用谁，但方法全错了
OpenClaw x EvoMap：CritPt 评测报告解读
在大语言模型时代评估最难的计算机科学问题
开放式游戏催生具备通用能力的AI智能体
Google DeepMind 升级 Game Arena：用狼人杀与德州扑克推进 AI 基准测试
Google：用游戏推进 AI 基准测试
Speech-to-Retrieval：语音检索新方法
将医疗AI推向真实世界：启动全国性虚拟护理随机对照研究
教会AI看地图
超越一对一：构建、模拟与测试动态人机群体对话
迈向智能体系统扩展的科学：智能体系统何时且为何有效
鸟类数据训练的AI如何揭开水下世界的神秘面纱
Alyah：评估阿拉伯语大语言模型阿联酋方言能力的基准测试
IBM与加州大学伯克利分校：使用IT-Bench和MAST诊断企业级智能体失败原因
RTEB：检索评测新标准
实践中的 OpenEnv：在真实环境中评估工具调用智能体
文本到图像模型的训练设计：来自消融实验的经验教训
社区评估：打破黑盒排行榜，将评估权交还社区
解锁 GPT-OSS 的智能体强化学习训练：一次实践回顾
让 Claude 编写 CUDA 内核并指导开源模型
跨越“数据短缺”壁垒：合成画像加速日本AI开发
使用 AI 生成 MVP 对软件架构意味着什么
Anthropic 如何评估其计算机操作模型
Deep Agents 的上下文管理
LangChain 2026年1月产品动态与社区通讯
LangSmith 正式上线 Google Cloud Marketplace
monday Service 与 LangSmith：从零开始构建代码优先的评估策略
智能体可观测性：驱动智能体评估的核心动力
深度智能体（Deep Agents）的上下文管理
论智能体框架与智能体可观测性
通过脚手架工程提升深度智能体性能
GPT-5.2 Pro 深度解析：我已经离不开它了
GPT-5.2 评测：令人惊艳，但速度太慢
我的 GPT-5 评测 —— Vibe Coding 进阶为真正的软件
我的 GPT-5.3-Codex 评测：完全自主已经到来
我的 Gemini 3 评测
有大事正在发生
使用 LLM 作为 RAG 评审器
GPT-5.2-Codex：最先进的智能体编程模型系统卡解析
GPT-OSS-Safeguard 技术报告
Harness Engineering：Agent 优先时代的 Codex 协作
Harness engineering：在代理优先的世界里运用 Codex
OpenAI GPT-4.5 系统卡与安全评估概览
OpenAI Operator 系统卡：计算机使用代理的安全与风险评估
OpenAI o3-mini 系统卡报告
OpenAI 发布 GPT-5.1-Codex-Max 系统卡
OpenAI 的人工智能对齐研究方法
介绍 GPT-5.3-Codex：迄今最强大的智能体编程模型
前沿AI风险与防范准备
我们的 First Proof 提交
推出 EVMbench：评估 AI 智能体在区块链安全中的能力
深入解析 GPT-5 系统卡片：全新模型架构与核心能力
用 Evals 系统化测试 Agent Skills
评估 ChatGPT 中的公平性
走进 OpenAI 的自研数据智能体
Spaghetti Bench：评估 AI 智能体修复并发漏洞的能力
8500亿美元！OpenAI刷新AI公司估值纪录，领先第二名2.2倍
AI时代的数学研究之未来
SWE-bench 2026年2月排行榜更新与模型表现
AI项目评估的提前规划
AlpamayoR1：用于自动驾驶的大型因果推理模型
AlpamayoR1：用于自动驾驶的大型因果推理模型
帝国时代2大语言模型基准测试：评估LLM的建造顺序生成能力
2026 编程巨变：Anthropic 报告揭示 Agent 编程八大趋势
59% 用户投票选了更便宜的那个：Sonnet 4.6 全面解读
7B 小模型：如何用 8000 个示例，“炼”出会自我反思的 AI？
AI 会取代你的工作吗？Anthropic 用 200 万对话告诉你答案
AI 知道自己答案错了吗？
Anthropic CEO Dario Amodei 访谈：我们正在接近指数的终点
Anthropic 在和客户合作的过程中总结的的企业落地 AI 最佳实践以及常见错误
Booking.com 在 AI 落地方面的探索
Claude Code 之父 Boris 的 9 条实战技巧：原来高手的配置这么“朴实无华”
Codex system prompt （2025-09-16）
Coding Agent 的舒适区
Google DeepMind 最新的 FunSearch
Jeff Dean 深度访谈：一页纸备忘录促成 Gemini 的诞生，Google AI 的反击与 10,000 Token 的未来
LinkedIn 团队构建生成式 AI 产品的经验教训
OpenAI 连续 12 天 AI 发布会：第九天 —— Dev Day
OpenAI 连续 12 天 AI 发布会：第二天完整视频（中英文双语字幕）
OpenAI 连续 12 天 AI 发布会：第十二天 —— 最新一代推理模型 o3 和 o3-mini 发布介绍
Redis 之父 Salvatore Sanfilippo 的年终 AI 反思
Why do so many people struggle with prompt engineering despite using templates and AI assistance?
xAI 全员大会实录：递归自我改进、5000 万视频/天、月球上的质量驱动器
【访谈对话】造过 Codex 的人，为什么每天用 Claude Code
一些“小模型”的使用案例
一文看懂“提示词” vs “提示词工程” vs “上下文工程”
为什么我用了那么多提示词模板甚至用了 AI 帮忙还是写不好提示词？
从 Shopify 构建 Agent 的经验中可以学到的
Reborn from Failure: A Real-World Retrospective on Landing a Frontend AI Agent
你是否听说过 MLOps 或者 LLMOps 呢？
在 o1 发布后，回顾当年 Jim Fan 对 Q*的预测，他对了吗？
在DevOps过程中，我们是否可以使用AI去把整个流程串起来？
基于大语言模型的 Vibe Coding 综述
大语言模型高考数学拿高分靠强化学习，那文科考高分得靠什么？
当每个人都能指挥一支 AI 大军，什么能力最重要？
当翻译层消失，还剩下什么？
快不等于好：Anthropic 和 OpenAI 的快速模式藏着什么
How I Used Codex to "Recover" Lost Source Code in 5 Days
推理规模扩展定律（inference scaling law）会成为大力出奇迹的新方向吗？它能带我们走进 AGI 吗？
新论文：《WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models》
栏目对话和访谈：Sebastian Raschka 和 Nathan Lambert 在 Lex Fridman 播客深度解读 AI 现状：中美竞争、模型对比、规模定律、AGI 时间线。
用提示词可以把20 美金的o1 变成200 美金的 “o1 pro”吗？
硅谷惊变：12万张H100的挽歌
问：研发团队要怎么衡量ai coding带来的价值呢？
面试官问：Function Call 的训练数据怎么构建？
型月大世界评测：互动叙事思考总结
神经符号 AI 圆桌：从“彼此听不懂”到共同基准与共享资源
Script is All You Need：用于长时程对话到电影级视频生成的智能体框架
神经网络速览与语言模型推理：从 Transformer 到提示方法
Code2Video：代码驱动教学视频生成系统
Google ADK：Agent 开发工具包与多语言部署支持
Headroom：LLM 应用的上下文优化层
LangWatch：AI Agent 测试与 LLMOps 可观测性工具
Langfuse：开源LLM工程工具，提供应用可观测性、提示词管理、评估、数据集与演练能力
Mastra：工具链用于 AI 应用与智能体工程
phoenix：AI Observability & Evaluation 应用平台
tensorzero：an open-source stack for industrial-grade LLM applications
Bagel：统一多模态生成模型
Cosmos：GitHub仓库集合用于NVIDIA模型与推理基础设施
DeepSeek-R1：开源推理模型系列
HRM：Hierarchical Reasoning Model Official Release
Janus：DeepSeek 多模态生成模型项目
Lumine：3D 开放世界通用智能体研究展示站
Open-R1：Hugging Face 的推理模型开放复现项目
Qwen2.5-VL：Qwen3-VL is the multimodal large language model series developed by Qwen team
R1-V：Witness the aha moment of VLM 模型项目
Terminal-Bench：终端智能体评测基准与论文关联
open-infra-index：Production-tested AI infrastructure tools for efficient AGI development and
openpi：开源项目，面向模型训练与推理基础设施
oumi：Easily fine-tune, evaluate and deploy gpt-oss, Qwen3, DeepSeek-R1
AgentNeo：Agent 可观测与评测框架
LLM Council：多模型协作评审与主席汇总应用
adk-python：Python SDK，用于构建、评估与部署 AI Agent
opik：开源 AI 观测评估工具，用于追踪与监控 LLM 应用、RAG 系统及 Agent 工作流
Hugging Face Agents Course：智能体开发课程
LLM Course：大语言模型学习课程与实战资料
aie-book：WIP] Resources for AI engineers
awesome-generative-ai-guide：极受欢迎的生成式 AI 综合资源库，汇集了前沿研究论文、面试指南、学习路线图以及超过 90 门免费课程
easy-dataset：专为大语言模型（LLM）微调、RAG 和性能评估设计的强大开源工具，能够将多种格式的非结构化文档转化为高质量的结构化数据集
RagaAI-Catalyst：Agent AI 可观测性监控与评估 Python SDK
nanochat：开源 LLM 训练工具，支持单节点 GPU 低成本训练 GPT-2 级模型
open_deep_research：开源工具用于工程协作与效率提升
parlant：Python 开源 LLM 智能体开发工具，支持行为准则与上下文匹配引擎

Created with Quartz v4.5.2 © 2026

GitHub