wsl-docs

❯

❯

benchmark

2026年3月11日2分钟阅读

定义

用于聚合评测基准相关文档。

核心内涵

评测基准是衡量系统、模型或算法性能的标准化工具和数据集。在 AI 与大模型领域，评测基准提供了量化评估能力边界、对比不同技术方案优劣的客观标尺，涵盖了准确性、推理能力、代码生成质量、工具调用成功率等多个维度。

实践要点

引入或构建评测基准时，需明确评测目标与实际应用场景的契合度。
避免单一指标的片面优化，应关注模型在多维度测试集上的综合表现。
在智能体工程中，动态的、基于执行结果的评测比静态数据集评测更具参考价值。
报告基准结果时需披露关键运行条件（如硬件规格、并发限制、执行时段）与重复实验方式，避免把基础设施噪音误判为能力差异。

相关词条

evals
observability
llm
AI
Agent

关联主题

evals
observability
llm
AI
Agent

关系图谱

定义
核心内涵
实践要点
相关词条
关联主题

反向链接

00-元语：关系图谱入口
evals
paper
wasm
苹果研发端侧AI智能体：可自动与App交互的 Ferret-UI Lite
Anthropic 教育报告：AI 熟练度指数
Anthropic 经济指数：理解 AI 使用的新基石
Bloom：自动化评估 AI 行为的开源框架
Claude Capabilities Notebook 实战补充
Claude Capabilities 指南与 Promptfoo 评测实践
Claude 在医疗保健与生命科学领域的全新升级
Claude 模型总览：从旧链接迁移后的当前能力基线
Project Vend 第一阶段：Claude 经营小商店实验
Project Vend 第二阶段：让 Claude 经营自动售货店的扩展实验
下一代宪法式分类器：更高效地防御通用越狱
为网络防御者构建 AI 系统
人设选择模型 (The persona selection model)
估算 Claude 对话带来的 AI 生产力收益
使用并行 Claude 智能体团队构建 C 编译器
全新推出 Claude Sonnet 4.6
印度国家简报：Anthropic 经济指数
推出 Claude Opus 4.6：全面升级的最智能模型
揭秘 AI 智能体评估 Evals
衡量 AI 智能体在实践中的自主性
量化智能体编程评估中的基础设施噪音
长上下文提示实践
Taalas 是如何将大语言模型“印”在芯片上的？
OpenAI 绕过英伟达：在“餐盘大小”的芯片上推出超快编程模型
Tiny Aya：在规模与多语言深度之间架起桥梁
解锁大型语言模型在机器翻译中的推理能力
释放AI潜能：探索Aya多语言大模型系列
OpenClaw x EvoMap：CritPt 评测报告解读
在大语言模型时代评估最难的计算机科学问题
AlphaGenome：更好理解基因组的AI新工具
D4RT：教人工智能在四维空间中观察世界
DeepMind 与 Blizzard 将《星际争霸II》开放为 AI 研究环境
使用 Gemini Deep Think 加速数学与科学发现
开放式游戏催生具备通用能力的AI智能体
长程记忆新模型与数据集
ATLAS：多语言模型的实用缩放定律
Gemini 3 Deep Think：推动科学、研究与工程的进步
Google DeepMind 升级 Game Arena：用狼人杀与德州扑克推进 AI 基准测试
Google：用游戏推进 AI 基准测试
Speech-to-Retrieval：语音检索新方法
Titans 与 MIRAS：让 AI 具备长期记忆
序列注意力机制：在不牺牲准确率的前提下让AI模型更精简、更快速
教会AI看地图
迈向智能体系统扩展的科学：智能体系统何时且为何有效
鸟类数据训练的AI如何揭开水下世界的神秘面纱
Alyah：评估阿拉伯语大语言模型阿联酋方言能力的基准测试
H公司发布全新Holo2模型：在UI定位领域取得领先地位
IBM与加州大学伯克利分校：使用IT-Bench和MAST诊断企业级智能体失败原因
RTEB：检索评测新标准
Transformers 中的混合专家模型：原理与工程实现
借助 Codex 和 Claude 为所有人打造自定义 CUDA 内核
实践中的 OpenEnv：在真实环境中评估工具调用智能体
文本到图像模型的训练设计：来自消融实验的经验教训
社区评估：打破黑盒排行榜，将评估权交还社区
解锁 GPT-OSS 的智能体强化学习训练：一次实践回顾
让 Claude 编写 CUDA 内核并指导开源模型
Pandas 3.0 重磅发布：核心逻辑重构与关键特性解析
代码界新王登基！Gemini 3.1 Pro 血洗 Claude 与 GPT，12 项基准测试第一！
字节豆包 2.0 重磅发布：成本暴降，全面迈向 Agent 化时代
Anthropic 如何评估其计算机操作模型
SGLang Diffusion：加速视频与图像生成
Deep Agents 的上下文管理
深度智能体（Deep Agents）的上下文管理
通过脚手架工程提升深度智能体性能
GPT-5.2 评测：令人惊艳，但速度太慢
我的 GPT-5 评测 —— Vibe Coding 进阶为真正的软件
我的 GPT-5.1 Pro 评测
我的 Gemini 3 评测
Mistral AI 平台服务 La Plateforme 开启抢先体验
Mistral 发布 Voxtral Transcribe 2：新一代极速语音转录模型
NVIDIA Blackwell Ultra：为代理型 AI 带来 50 倍性能提升与 35 倍成本降低
NVIDIA DGX Spark 助力全球高等教育领域的重大科研项目
加速科学发展：重启美国《国家量子倡议》的蓝图
调查报告：AI推动电信业变革，网络自动化成为投资回报增长引擎
顶级推理提供商借助 NVIDIA Blackwell 和开源模型将 AI 成本降低高达 10 倍
介绍 GPT-5.3-Codex：迄今最强大的智能体编程模型
扩展社会科学研究：将定性数据转化为定量分析的新工具
推出 EVMbench：评估 AI 智能体在区块链安全中的能力
推出 GPT-5.3-Codex-Spark：专为实时编程打造的超快模型
用 Evals 系统化测试 Agent Skills
Spaghetti Bench：评估 AI 智能体修复并发漏洞的能力
24人初创团队硬刚英伟达：新芯片HC1推理速度达每秒17000个Token
千问3.5霸榜全球开源大模型前四，10分钟通过中级程序员5小时编程
学术插图新神器：西湖大学推出万字材料秒出SVG的AutoFigure
谷歌突发Gemini 3.1 Pro：首次采用「.1」版本号，推理性能翻倍
AI时代的数学研究之未来
Claude Sonnet 4.6 发布：性能比肩 Opus 4.5 与 SVG 绘图测试
GPT-5.3-Codex-Spark 处理速度显著提升
SWE-bench 2026年2月排行榜更新与模型表现
Taalas 推出定制硬件：以每秒 1.7 万 Token 运行 Llama 3.1 8B
谷歌发布 Gemini 3.1 Pro：极具竞争力的定价与出色的 SVG 生成能力
多语言 MCP 服务器性能基准测试
一致性扩散语言模型：推理速度提升高达14倍且不牺牲质量
AlpamayoR1：用于自动驾驶的大型因果推理模型
现代大语言模型中最奇怪的瓶颈及TiDAR的破局之道
帝国时代2大语言模型基准测试：评估LLM的建造顺序生成能力
保姆级教程：超前体验 Gemini3 和 Nano Banana Pro
59% 用户投票选了更便宜的那个：Sonnet 4.6 全面解读
7B 小模型：如何用 8000 个示例，“炼”出会自我反思的 AI？
Ilya：扩展时代已经结束了，研究的时代已经开始
Jeff Dean 深度访谈：一页纸备忘录促成 Gemini 的诞生，Google AI 的反击与 10,000 Token 的未来
OpenAI 连续 12 天 AI 发布会：第一天完整视频（中英文双语字幕）
OpenAI 连续 12 天 AI 发布会：第九天 —— Dev Day
OpenAI 连续 12 天 AI 发布会：第二天完整视频（中英文双语字幕）
OpenAI 连续 12 天 AI 发布会：第十二天 —— 最新一代推理模型 o3 和 o3-mini 发布介绍
Redis 之父 Salvatore Sanfilippo 的年终 AI 反思
“2025年 AI coding 将如何演进”播客文稿
大语言模型高考数学拿高分靠强化学习，那文科考高分得靠什么？
快不等于好：Anthropic 和 OpenAI 的快速模式藏着什么
我们真的变成巫师了：OpenAI API 负责人谈 AI 如何重塑软件工程
推理规模扩展定律（inference scaling law）会成为大力出奇迹的新方向吗？它能带我们走进 AGI 吗？
栏目对话和访谈：Sebastian Raschka 和 Nathan Lambert 在 Lex Fridman 播客深度解读 AI 现状：中美竞争、模型对比、规模定律、AGI 时间线。
深度之赌：从卧室到上帝机器
硅谷惊变：12万张H100的挽歌
问：研发团队要怎么衡量ai coding带来的价值呢？
产品游戏化设计理论基础（下）
告别静态权重：谷歌提出 Nested Learning，让大模型拥有“海马体”
开源 TTS 王座易主：OpenAudio-S1 登顶 TTS-Arena2 榜首
神经符号 AI 圆桌：从“彼此听不懂”到共同基准与共享资源
神经网络速览与语言模型推理：从 Transformer 到提示方法
Code2Video：代码驱动教学视频生成系统
Headroom：LLM 应用的上下文优化层
Langfuse：开源LLM工程工具，提供应用可观测性、提示词管理、评估、数据集与演练能力
Wolfcha：Wolfcha 定位为“AI 原生的狼人杀推理游戏项目”，重点不是传统多人社交组局
pocketpal-ai：模型项目
3FS：DeepSeek 开源的一款基于 C++ 的高性能分布式文件系统，专为 AI 训练与推理工作负载设计
BitNet：1-bit 大语言模型推理引擎，支持 CPU 与 GPU 快速无损推理
DeepSeek-Coder：代码大模型项目
DeepSeek-OCR：基于 MIT 协议开源的视觉-文本压缩与光学字符识别模型，旨在从以大语言模型（LLM）为中心的视角探索视觉编码器的作用与边界
DeepSeek-R1：开源推理模型系列
DeepSeek-V3：开源 MoE 大模型
FlashMLA：DeepSeek 开源的基于 C++ 的高效多头潜在注意力（MLA）算子库
HRM：Hierarchical Reasoning Model Official Release
Hunyuan3D-2：基于大规模扩散模型的高分辨率、带纹理 3D 资产生成系统，采用形状生成与纹理合成两阶段解耦的架构
NitroGen：通用游戏智能体基础模型
OmniParser：通用界面解析与元素识别模型
Open-R1：Hugging Face 的推理模型开放复现项目
R1-V：Witness the aha moment of VLM 模型项目
Terminal-Bench：终端智能体评测基准与论文关联
Ultralytics：计算机视觉模型工具库，覆盖 YOLOv3 至 YOLO26 系列
burn：Burn is a next generation tens 模型项目
exo：AI 推理基础设施与多设备协同运行大模型
ktransformers：异构LLM推理与微调优化工具
nanoVLM：The simplest, fastest reposito 模型项目
olmocr：AllenAI 开源 OCR 模型项目
pytorch-image-models：The largest collection of PyTo 模型项目
sglang：推理服务系统用于大语言模型与多模态模型高性能部署
triton：Development repository f 模型项目
vLLM：高吞吐低延迟 LLM 推理与服务引擎
verl：开源大语言模型强化学习训练系统
vggt：荣获 CVPR 2025 最佳论文奖的前馈神经网络
Antigma：自主编程智能体与自组织智能基础设施
OWL：开源项目多智能体协作与任务自动化
OpenHands：开源软件开发 agent 工具套件
cua：Open-source infrastructure for Computer-Use Agents, Sandboxes, SDKs
Hugging Face Agents Course：智能体开发课程
LeetCUDA：LeetCUDA Modern CUDA Learn No 知识库
ScholKG：计算机科学知识图谱 CS-KG
ninehills/blog 技术 issue 提及文档索引
AutoGPT：Python Agent 开发工具集与自动化工作流构建
Ghostty：GPU 加速终端模拟器
browser：使用 Zig 编写、专为 AI 和自动化设计的开源无头浏览器，具有极低的资源占用和极快的执行速度
nanochat：开源 LLM 训练工具，支持单节点 GPU 低成本训练 GPT-2 级模型
open_deep_research：开源工具用于工程协作与效率提升
ruff：由 Rust 编写的极速 Python 代码检查（Linter）和格式化工具
rustfs：基于 Rust 构建的高性能、兼容 S3 的开源分布式对象存储系统，采用商业友好的 Apache 2.0 许可
ty：由 Astral 团队开发的一款使用 Rust 编写的极速 Python 类型检查器和语言服务器
uv：Rust 编写的极速 Python 包与项目管理工具
shannon：Fully autonomous AI hacker to find actual exploits in your web apps

Created with Quartz v4.5.2 © 2026

GitHub