Skip to content

🧪 开源选型|Agent 评测地图:Ragas、DeepEval、Promptfoo 与自建评测

📌 评测是 Agent 质量保障的唯一手段。没有评测的 Agent = 信仰驱动开发。

01|评测工具对比

RagasDeepEvalPromptfoo自建
适合RAG评测Agent评测Prompt对比定制化
开源
LLM-as-Judge你自己写
评测集管理⚠️你自己管
CI集成⚠️你自己接

02|推荐路径

  1. RAG 阶段:用 Ragas 跑 faithfulness + answer_relevancy(30 分钟上手)
  2. Agent 阶段:用 DeepEval 做自定义指标(支持评估 Agent 的工具选择)
  3. Prompt 迭代:用 Promptfoo 做 A/B 对比(每次改 Prompt → 自动跑评测 → 对比基线)
  4. 生产阶段:自建评测 pipeline(定制化需求 Ragas/DeepEval/Promptfoo 都不满足时)

💡 "先 Ragas → 到瓶颈换 DeepEval → 还不够就自建。不要一上来就自建评测系统。"

🍋 本文为 AI Agent 学习路线 · 开源选型。© 2026 AI小柠檬。

© 2026 🍋AI小柠檬 · 内容原创,转载请注明出处