Appearance
🧪 开源选型|Agent 评测地图:Ragas、DeepEval、Promptfoo 与自建评测
📌 评测是 Agent 质量保障的唯一手段。没有评测的 Agent = 信仰驱动开发。
01|评测工具对比
| Ragas | DeepEval | Promptfoo | 自建 | |
|---|---|---|---|---|
| 适合 | RAG评测 | Agent评测 | Prompt对比 | 定制化 |
| 开源 | ✅ | ✅ | ✅ | — |
| LLM-as-Judge | ✅ | ✅ | ✅ | 你自己写 |
| 评测集管理 | ⚠️ | ✅ | ✅ | 你自己管 |
| CI集成 | ⚠️ | ✅ | ✅ | 你自己接 |
02|推荐路径
- RAG 阶段:用 Ragas 跑 faithfulness + answer_relevancy(30 分钟上手)
- Agent 阶段:用 DeepEval 做自定义指标(支持评估 Agent 的工具选择)
- Prompt 迭代:用 Promptfoo 做 A/B 对比(每次改 Prompt → 自动跑评测 → 对比基线)
- 生产阶段:自建评测 pipeline(定制化需求 Ragas/DeepEval/Promptfoo 都不满足时)
💡 "先 Ragas → 到瓶颈换 DeepEval → 还不够就自建。不要一上来就自建评测系统。"
🍋 本文为 AI Agent 学习路线 · 开源选型。© 2026 AI小柠檬。