Promptfoo - 质量审阅报告

**审阅日期：** 2026-04-17
**审阅范围：** 01-discovery.md、02-analysis.md、03-tutorial.md
**质量评分：** B 级

Promptfoo - 质量审阅报告

审阅日期： 2026-04-17 审阅范围： 01-discovery.md、02-analysis.md、03-tutorial.md 质量评分： B 级

审阅清单结果

1. 事实准确性 — 通过（修复 2 个 P1 问题）

检查内容与验证方式： - GitHub 数据（Stars 20,209、Forks 1,749、Open Issues 302、License MIT、Created 2023-04-28、Pushed 2026-04-17）：01-discovery.md 和 02-analysis.md 均与 GitHub API（curl -s https://api.github.com/repos/promptfoo/promptfoo）数据一致 ✅ - 创建者信息（typpo/Ian Webster、mldangelo/Michael D'Angelo、266 位贡献者）：与 GitHub README 和贡献者 API 一致 ✅ - 竞品数据（DeepEval 14,840 Stars、Langfuse 25,074 Stars、RAGAS 13,436 Stars）：通过 GitHub API 直接验证一致 ✅ - 技术栈信息（TypeScript 100%）：与 GitHub 页面语言统计一致 ✅ - 版本号（v0.121.5，2026-04-14 发布）：与 GitHub Releases 和 npm registry 一致 ✅ - 红队测试三组件架构（Plugins + Strategies + Targets）：与 Promptfoo 官方文档 /docs/red-team/architecture/ 一致 ✅ - 评估矩阵概念（Prompts × Tests × Providers）：与官方 Getting Started 文档一致 ✅ - 50+ 提供商支持：与官方文档 /docs/providers/ 一致 ✅ - npm 每周下载量 158,166：与 npmjs.com 页面一致 ✅ - OpenAI 收购信息：与 GitHub README 和 npm 页面更新说明一致 ✅

发现： 1. 01-discovery.md 第 7 行标注 npm 包当前版本为 v0.121.3，但 npm registry 实际最新版本为 v0.121.5（与 GitHub Releases 同步）。已修正。标记为 P1 已修复。 2. 01-discovery.md 第 11 行标注贡献者为"260+"，实际为 266 位（GitHub API contributors 分页 last page=266）。已修正为精确值。标记为 P1 已修复。

2. 代码可运行性 — 通过

检查内容： - 01-discovery.md：无代码示例 ✅ - 02-analysis.md： - YAML 配置示例（5 个关键概念）：语法正确，字段名与 Promptfoo 官方文档一致 ✅ - Provider 配置示例：openai:gpt-4o、anthropic:claude-sonnet-4-20250514 等格式与官方文档一致 ✅ - 红队测试配置示例：plugins、strategies、targets 字段结构与官方文档一致 ✅ - 03-tutorial.md： - 环境搭建代码（bash）：npm install -g promptfoo、brew install promptfoo、pip install promptfoo 命令与官方 README 一致 ✅ - YAML 配置示例（入门篇 3 节 + 进阶篇 2 节 + 高级篇 1 节 + 实战项目）：语法正确，字段名与官方文档一致 ✅ - JavaScript 自定义 Provider 代码：导出 callApi 函数的格式与官方 Node.js Package 文档一致 ✅ - GitHub Actions YAML 配置：语法正确，使用标准的 GitHub Actions 格式 ✅

发现： 教程中部分 YAML 示例（如红队测试配置）基于 Promptfoo v0.121.x 文档编写，红队功能仍处于快速迭代中，部分字段可能在后续版本中变更。教程中已在多个位置标注"基于 Promptfoo 官方文档 v0.121.x"。标记为 P2 保留。

3. 完整性 — 通过

检查内容： - 01-discovery.md：基本信息（8 项全部覆盖）✅、一句话定位 ✅、5 条核心特性 ✅、社区生态（7 项指标）✅、技术栈定位（5 个维度）✅、关键链接（3 类：官方/教程/社区）✅、6 条信息来源 ✅ - 02-analysis.md：技术背景与动机 ✅、核心原理（3 设计哲学 + 核心机制 + 数据流图）✅、架构设计（整体 4 层架构 + 6 核心模块 + 5 扩展机制）✅、5 个关键概念详解（含代码示例）✅、同类技术横向对比（4 个技术：Promptfoo + DeepEval + Langfuse + RAGAS，覆盖 14 个维度）✅、适用场景（5 最佳 + 3 不适用）✅、优缺点（5 优势 + 4 劣势 + 3 风险）✅、生态评估（4 项）✅、生产就绪度（5 项）✅、学习曲线 ✅、总结与建议（含评分 8.5/10）✅ - 03-tutorial.md：环境搭建 ✅、入门篇 3 节（基本概念 + 多模型对比 + 断言类型）✅、进阶篇 2 节（红队测试 + CI/CD 集成）✅、高级篇 3 节（自定义扩展 + 性能优化 + 最佳实践）✅、实战项目 ✅、常见问题（10 条错误 + 3 条调试技巧）✅、学习路线（10 步阅读顺序 + 3 资源）✅ - 横向对比：包含 4 个技术（Promptfoo + DeepEval + Langfuse + RAGAS），满足"至少 3 个竞品"要求 ✅

4. 逻辑递进 — 通过

检查内容： - 教程章节顺序：基本概念（1.1 "理解 LLM 评估的基本概念"）→ 多模型对比（1.2 "在 1.1 基础上扩展评估矩阵"）→ 断言类型（1.3 "深入评分机制"）→ 红队测试（2.1 "从质量评估延伸到安全测试"）→ CI/CD（2.2 "自动化运行"）→ 自定义扩展（3.1 "扩展内置能力"）→ 性能优化（3.2 "大规模场景优化"）→ 实战项目 ✅ - 每个知识点建立在前一个之上 ✅ - 1.1 理解评估矩阵 → 1.2 扩展矩阵维度（多模型） - 1.3 理解断言 → 2.1 从输出质量延伸到安全测试 - 2.2 CI/CD 集成 → 3.1 自定义扩展 CI 场景 - 实战项目综合运用 5 个知识点（评估配置、多模型对比、断言系统、红队测试、CI/CD 集成），满足最低 3 个要求 ✅ - 每节配有练习题 ✅

5. 术语一致性 — 通过

检查内容： - "Promptfoo"三份文档统一使用 ✅ - "评估矩阵（Evaluation Matrix）"三份文档统一使用 ✅ - "红队测试（Red Teaming）"三份文档统一使用 ✅ - "断言（Assertion）"三份文档统一使用 ✅ - "提供商（Provider）"三份文档统一使用 ✅ - "LLM-as-judge"三份文档统一使用 ✅ - "提示注入（Prompt Injection）"三份文档统一使用 ✅ - "越狱（Jailbreak）"三份文档统一使用 ✅ - 首次出现非中文术语附英文原文 ✅ - 代码中 YAML 字段名与文字描述一致 ✅

6. 时效性 — 通过

检查内容： - 01-discovery.md 信息获取日期：2026-04-17 ✅ - 02-analysis.md 信息获取日期：2026-04-17 ✅ - 03-tutorial.md：基于 Promptfoo v0.121.5 和官方文档编写 ✅ - 竞品数据标注获取时间（DeepEval 2026-04-17、Langfuse 2026-04-17、RAGAS 2026-04-17）✅ - OpenAI 收购事件（2026 年 3 月）在三份文档中均有提及 ✅ - 版本号 v0.121.5 与 GitHub Releases 和 npm registry 一致 ✅ - 所有 GitHub Stars 数据标注了精确获取日期 ✅

7. 来源可溯 — 通过

检查内容： - 01-discovery.md：6 条来源（GitHub API、GitHub README、Promptfoo 官网、Promptfoo 文档、npm、GitHub Releases）✅ - 02-analysis.md：12 条来源（GitHub API ×4、GitHub README、Promptfoo 官网、文档 ×4、npm、npmjs.com）✅ - 03-tutorial.md：代码示例标注"基于 Promptfoo 官方文档 v0.121.x" ✅ - 独立来源域名：api.github.com、github.com、promptfoo.dev、npmjs.com、pypi.org、registry.npmjs.org — 6 个独立来源域名 ✅ - 关键数据点标注来源 ✅ - 不确信的结论标注置信度（02-analysis.md 生产就绪度评估覆盖高/中两个级别）✅

问题列表

#	级别	所在文件	问题描述	状态
1	P1	01-discovery.md:7	npm 包版本号标注为 v0.121.3，但 npm registry 实际最新版本为 v0.121.5，与 GitHub Releases 一致	已修复
2	P1	01-discovery.md:11	贡献者数量标注为"260+"，实际 GitHub API 分页统计为精确值 266	已修复
3	P2	03-tutorial.md 多处	红队测试配置示例基于 v0.121.x，该功能快速迭代中，部分字段可能在未来版本中变更	保留

修正说明

问题 #1（P1 - 已修复）

所在文件： 01-discovery.md:7
问题描述： 当前版本行标注"v0.121.5（2026-04-14 发布）；npm 包当前发布版本 v0.121.3"，但 npm registry（curl -s https://registry.npmjs.org/promptfoo/latest）显示最新版本为 0.121.5，与 GitHub Releases 一致。v0.121.3 是 2026-03-24 发布的旧版本。
修正内容： 修改为"v0.121.5（2026-04-14 发布，npm 和 GitHub Releases 同步）"。同时更新关键链接中 npm 包描述和来源列表中的版本号。
修正依据： npm registry API（registry.npmjs.org/promptfoo/latest）返回 "version": "0.121.5"。

问题 #2（P1 - 已修复）

所在文件： 01-discovery.md:11
问题描述： 贡献者数量标注为"260+"，这是一个不精确的估算值。通过 GitHub API contributors 端点分页检查（per_page=1，Link header 中 last page=266），精确值为 266 位。
修正内容： 修改为"266 位贡献者参与（截至 2026-04-17，GitHub API 分页统计）"。
修正依据： GitHub API https://api.github.com/repos/promptfoo/promptfoo/contributors?per_page=1 响应头 Link: ...page=266>; rel="last" 表明共 266 页（即 266 位贡献者）。

问题 #3（P2 - 保留）

所在文件： 03-tutorial.md 多处
问题描述： 红队测试配置示例（plugins、strategies、numTests 等字段）基于 Promptfoo v0.121.x 官方文档编写。红队测试功能处于快速迭代阶段（从 2024 年 Q2 引入到 2025 年发布下一代 Agent），部分配置字段可能在后续版本中变更。
保留理由： 教程中已在多处标注"基于 Promptfoo 官方文档 v0.121.x"，YAML 字段名称与当前版本文档一致。读者在使用时需注意版本差异。

质量评分：B 级

评级依据： 发现 0 个 P0 问题、2 个 P1 问题（均已修复）、1 个 P2 问题（保留）。修复后无 P0/P1 问题，满足 B 级要求。

三份文档数据经 6 个独立来源域名（api.github.com、github.com、promptfoo.dev、npmjs.com、pypi.org、registry.npmjs.org）交叉验证。核心技术描述（评估矩阵、断言引擎、红队三组件架构、提供商抽象层、缓存机制）与 Promptfoo 官方文档高度一致。02-analysis.md 的置信度标注规范，覆盖了高/中两个级别。竞品对比使用可验证的 GitHub API 数据（DeepEval 14,840 Stars、Langfuse 25,074 Stars、RAGAS 13,436 Stars），均为 2026-04-17 当天获取。

教程从"理解 LLM 评估基本概念"到"构建多模型客服机器人评估套件"的递进逻辑清晰，实战项目综合运用 5 个知识点（评估配置、多模型对比、断言系统、红队测试、CI/CD 集成），超过最低 3 个的要求。代码示例覆盖 YAML（Promptfoo 配置、GitHub Actions）、JavaScript（自定义 Provider）、Python（自定义评分函数）和 Bash（CLI 命令）四种类型，语法正确，字段名与官方文档一致。