Promptfoo - 质量审阅报告

Promptfoo - 质量审阅报告

审阅日期: 2026-04-17 审阅范围: 01-discovery.md、02-analysis.md、03-tutorial.md 质量评分: B 级


审阅清单结果

1. 事实准确性 — 通过(修复 2 个 P1 问题)

检查内容与验证方式: - GitHub 数据(Stars 20,209、Forks 1,749、Open Issues 302、License MIT、Created 2023-04-28、Pushed 2026-04-17):01-discovery.md 和 02-analysis.md 均与 GitHub API(curl -s https://api.github.com/repos/promptfoo/promptfoo)数据一致 ✅ - 创建者信息(typpo/Ian Webster、mldangelo/Michael D'Angelo、266 位贡献者):与 GitHub README 和贡献者 API 一致 ✅ - 竞品数据(DeepEval 14,840 Stars、Langfuse 25,074 Stars、RAGAS 13,436 Stars):通过 GitHub API 直接验证一致 ✅ - 技术栈信息(TypeScript 100%):与 GitHub 页面语言统计一致 ✅ - 版本号(v0.121.5,2026-04-14 发布):与 GitHub Releases 和 npm registry 一致 ✅ - 红队测试三组件架构(Plugins + Strategies + Targets):与 Promptfoo 官方文档 /docs/red-team/architecture/ 一致 ✅ - 评估矩阵概念(Prompts × Tests × Providers):与官方 Getting Started 文档一致 ✅ - 50+ 提供商支持:与官方文档 /docs/providers/ 一致 ✅ - npm 每周下载量 158,166:与 npmjs.com 页面一致 ✅ - OpenAI 收购信息:与 GitHub README 和 npm 页面更新说明一致 ✅

发现: 1. 01-discovery.md 第 7 行标注 npm 包当前版本为 v0.121.3,但 npm registry 实际最新版本为 v0.121.5(与 GitHub Releases 同步)。已修正。标记为 P1 已修复。 2. 01-discovery.md 第 11 行标注贡献者为"260+",实际为 266 位(GitHub API contributors 分页 last page=266)。已修正为精确值。标记为 P1 已修复。

2. 代码可运行性 — 通过

检查内容: - 01-discovery.md:无代码示例 ✅ - 02-analysis.md: - YAML 配置示例(5 个关键概念):语法正确,字段名与 Promptfoo 官方文档一致 ✅ - Provider 配置示例:openai:gpt-4oanthropic:claude-sonnet-4-20250514 等格式与官方文档一致 ✅ - 红队测试配置示例:pluginsstrategiestargets 字段结构与官方文档一致 ✅ - 03-tutorial.md: - 环境搭建代码(bash):npm install -g promptfoobrew install promptfoopip install promptfoo 命令与官方 README 一致 ✅ - YAML 配置示例(入门篇 3 节 + 进阶篇 2 节 + 高级篇 1 节 + 实战项目):语法正确,字段名与官方文档一致 ✅ - JavaScript 自定义 Provider 代码:导出 callApi 函数的格式与官方 Node.js Package 文档一致 ✅ - GitHub Actions YAML 配置:语法正确,使用标准的 GitHub Actions 格式 ✅

发现: 教程中部分 YAML 示例(如红队测试配置)基于 Promptfoo v0.121.x 文档编写,红队功能仍处于快速迭代中,部分字段可能在后续版本中变更。教程中已在多个位置标注"基于 Promptfoo 官方文档 v0.121.x"。标记为 P2 保留。

3. 完整性 — 通过

检查内容: - 01-discovery.md:基本信息(8 项全部覆盖)✅、一句话定位 ✅、5 条核心特性 ✅、社区生态(7 项指标)✅、技术栈定位(5 个维度)✅、关键链接(3 类:官方/教程/社区)✅、6 条信息来源 ✅ - 02-analysis.md:技术背景与动机 ✅、核心原理(3 设计哲学 + 核心机制 + 数据流图)✅、架构设计(整体 4 层架构 + 6 核心模块 + 5 扩展机制)✅、5 个关键概念详解(含代码示例)✅、同类技术横向对比(4 个技术:Promptfoo + DeepEval + Langfuse + RAGAS,覆盖 14 个维度)✅、适用场景(5 最佳 + 3 不适用)✅、优缺点(5 优势 + 4 劣势 + 3 风险)✅、生态评估(4 项)✅、生产就绪度(5 项)✅、学习曲线 ✅、总结与建议(含评分 8.5/10)✅ - 03-tutorial.md:环境搭建 ✅、入门篇 3 节(基本概念 + 多模型对比 + 断言类型)✅、进阶篇 2 节(红队测试 + CI/CD 集成)✅、高级篇 3 节(自定义扩展 + 性能优化 + 最佳实践)✅、实战项目 ✅、常见问题(10 条错误 + 3 条调试技巧)✅、学习路线(10 步阅读顺序 + 3 资源)✅ - 横向对比:包含 4 个技术(Promptfoo + DeepEval + Langfuse + RAGAS),满足"至少 3 个竞品"要求 ✅

4. 逻辑递进 — 通过

检查内容: - 教程章节顺序:基本概念(1.1 "理解 LLM 评估的基本概念")→ 多模型对比(1.2 "在 1.1 基础上扩展评估矩阵")→ 断言类型(1.3 "深入评分机制")→ 红队测试(2.1 "从质量评估延伸到安全测试")→ CI/CD(2.2 "自动化运行")→ 自定义扩展(3.1 "扩展内置能力")→ 性能优化(3.2 "大规模场景优化")→ 实战项目 ✅ - 每个知识点建立在前一个之上 ✅ - 1.1 理解评估矩阵 → 1.2 扩展矩阵维度(多模型) - 1.3 理解断言 → 2.1 从输出质量延伸到安全测试 - 2.2 CI/CD 集成 → 3.1 自定义扩展 CI 场景 - 实战项目综合运用 5 个知识点(评估配置、多模型对比、断言系统、红队测试、CI/CD 集成),满足最低 3 个要求 ✅ - 每节配有练习题 ✅

5. 术语一致性 — 通过

检查内容: - "Promptfoo"三份文档统一使用 ✅ - "评估矩阵(Evaluation Matrix)"三份文档统一使用 ✅ - "红队测试(Red Teaming)"三份文档统一使用 ✅ - "断言(Assertion)"三份文档统一使用 ✅ - "提供商(Provider)"三份文档统一使用 ✅ - "LLM-as-judge"三份文档统一使用 ✅ - "提示注入(Prompt Injection)"三份文档统一使用 ✅ - "越狱(Jailbreak)"三份文档统一使用 ✅ - 首次出现非中文术语附英文原文 ✅ - 代码中 YAML 字段名与文字描述一致 ✅

6. 时效性 — 通过

检查内容: - 01-discovery.md 信息获取日期:2026-04-17 ✅ - 02-analysis.md 信息获取日期:2026-04-17 ✅ - 03-tutorial.md:基于 Promptfoo v0.121.5 和官方文档编写 ✅ - 竞品数据标注获取时间(DeepEval 2026-04-17、Langfuse 2026-04-17、RAGAS 2026-04-17)✅ - OpenAI 收购事件(2026 年 3 月)在三份文档中均有提及 ✅ - 版本号 v0.121.5 与 GitHub Releases 和 npm registry 一致 ✅ - 所有 GitHub Stars 数据标注了精确获取日期 ✅

7. 来源可溯 — 通过

检查内容: - 01-discovery.md:6 条来源(GitHub API、GitHub README、Promptfoo 官网、Promptfoo 文档、npm、GitHub Releases)✅ - 02-analysis.md:12 条来源(GitHub API ×4、GitHub README、Promptfoo 官网、文档 ×4、npm、npmjs.com)✅ - 03-tutorial.md:代码示例标注"基于 Promptfoo 官方文档 v0.121.x" ✅ - 独立来源域名:api.github.com、github.com、promptfoo.dev、npmjs.com、pypi.org、registry.npmjs.org — 6 个独立来源域名 ✅ - 关键数据点标注来源 ✅ - 不确信的结论标注置信度(02-analysis.md 生产就绪度评估覆盖高/中两个级别)✅


问题列表

# 级别 所在文件 问题描述 状态
1 P1 01-discovery.md:7 npm 包版本号标注为 v0.121.3,但 npm registry 实际最新版本为 v0.121.5,与 GitHub Releases 一致 已修复
2 P1 01-discovery.md:11 贡献者数量标注为"260+",实际 GitHub API 分页统计为精确值 266 已修复
3 P2 03-tutorial.md 多处 红队测试配置示例基于 v0.121.x,该功能快速迭代中,部分字段可能在未来版本中变更 保留

修正说明

问题 #1(P1 - 已修复)

  • 所在文件: 01-discovery.md:7
  • 问题描述: 当前版本行标注"v0.121.5(2026-04-14 发布);npm 包当前发布版本 v0.121.3",但 npm registry(curl -s https://registry.npmjs.org/promptfoo/latest)显示最新版本为 0.121.5,与 GitHub Releases 一致。v0.121.3 是 2026-03-24 发布的旧版本。
  • 修正内容: 修改为"v0.121.5(2026-04-14 发布,npm 和 GitHub Releases 同步)"。同时更新关键链接中 npm 包描述和来源列表中的版本号。
  • 修正依据: npm registry API(registry.npmjs.org/promptfoo/latest)返回 "version": "0.121.5"

问题 #2(P1 - 已修复)

  • 所在文件: 01-discovery.md:11
  • 问题描述: 贡献者数量标注为"260+",这是一个不精确的估算值。通过 GitHub API contributors 端点分页检查(per_page=1Link header 中 last page=266),精确值为 266 位。
  • 修正内容: 修改为"266 位贡献者参与(截至 2026-04-17,GitHub API 分页统计)"。
  • 修正依据: GitHub API https://api.github.com/repos/promptfoo/promptfoo/contributors?per_page=1 响应头 Link: ...page=266>; rel="last" 表明共 266 页(即 266 位贡献者)。

问题 #3(P2 - 保留)

  • 所在文件: 03-tutorial.md 多处
  • 问题描述: 红队测试配置示例(pluginsstrategiesnumTests 等字段)基于 Promptfoo v0.121.x 官方文档编写。红队测试功能处于快速迭代阶段(从 2024 年 Q2 引入到 2025 年发布下一代 Agent),部分配置字段可能在后续版本中变更。
  • 保留理由: 教程中已在多处标注"基于 Promptfoo 官方文档 v0.121.x",YAML 字段名称与当前版本文档一致。读者在使用时需注意版本差异。

质量评分:B 级

评级依据: 发现 0 个 P0 问题、2 个 P1 问题(均已修复)、1 个 P2 问题(保留)。修复后无 P0/P1 问题,满足 B 级要求。

三份文档数据经 6 个独立来源域名(api.github.com、github.com、promptfoo.dev、npmjs.com、pypi.org、registry.npmjs.org)交叉验证。核心技术描述(评估矩阵、断言引擎、红队三组件架构、提供商抽象层、缓存机制)与 Promptfoo 官方文档高度一致。02-analysis.md 的置信度标注规范,覆盖了高/中两个级别。竞品对比使用可验证的 GitHub API 数据(DeepEval 14,840 Stars、Langfuse 25,074 Stars、RAGAS 13,436 Stars),均为 2026-04-17 当天获取。

教程从"理解 LLM 评估基本概念"到"构建多模型客服机器人评估套件"的递进逻辑清晰,实战项目综合运用 5 个知识点(评估配置、多模型对比、断言系统、红队测试、CI/CD 集成),超过最低 3 个的要求。代码示例覆盖 YAML(Promptfoo 配置、GitHub Actions)、JavaScript(自定义 Provider)、Python(自定义评分函数)和 Bash(CLI 命令)四种类型,语法正确,字段名与官方文档一致。