🧪 开源选型｜Agent 评测地图：Ragas、DeepEval、Promptfoo 与自建评测

📌 评测是 Agent 质量保障的唯一手段。没有评测的 Agent = 信仰驱动开发。

01｜评测工具对比

	Ragas	DeepEval	Promptfoo	自建
适合	RAG评测	Agent评测	Prompt对比	定制化
开源	✅	✅	✅	—
LLM-as-Judge	✅	✅	✅	你自己写
评测集管理	⚠️	✅	✅	你自己管
CI集成	⚠️	✅	✅	你自己接

02｜推荐路径

RAG 阶段：用 Ragas 跑 faithfulness + answer_relevancy（30 分钟上手）
Agent 阶段：用 DeepEval 做自定义指标（支持评估 Agent 的工具选择）
Prompt 迭代：用 Promptfoo 做 A/B 对比（每次改 Prompt → 自动跑评测 → 对比基线）
生产阶段：自建评测 pipeline（定制化需求 Ragas/DeepEval/Promptfoo 都不满足时）

💡 "先 Ragas → 到瓶颈换 DeepEval → 还不够就自建。不要一上来就自建评测系统。"

🍋 本文为 AI Agent 学习路线 · 开源选型。© 2026 AI小柠檬。