📦 企业 Agent 落地完整 SOP：从需求访谈到上线验收

📌 这篇不是给技术爱好者看的——是给真的接到了企业 Agent 项目、或者公司内部要推动 Agent 落地的人看的。写它的人接过、交付过、也踩过坑。

目标读者：接单开发者、企业内部推动 Agent 的工程师、想卖 Agent 项目的人。

01｜需求访谈：第一个小时决定项目生死

需求访谈问题清单

核心原则：客户说的"需求"通常不是真正的需求。他们说的是解决方案（"我要一个智能客服"），你要挖的是问题（"为什么现在的客服不行？"）。

□ Q1: 现在谁在做这件事？怎么做的？每天花多少时间？
     （目的：量化当前的人力成本和效率基线）

□ Q2: 过去 6 个月，这件事出过什么错？最大的事故是什么？
     （目的：找到业务的容错边界）

□ Q3: 这个问题如果不解决，会有什么后果？
     （目的：判断这个项目到底重不重要。回答"也没什么" = 项目可以不做）

□ Q4: 谁是最终使用这个 Agent 的人？他们一天会用它多少次？
     （目的：确定用户画像和使用频率）

□ Q5: 你的数据在哪里？什么格式？有多大？
     （目的：提前暴露数据问题。80% 的 Agent 项目死在"数据没准备好"）

□ Q6: 如果 Agent 答错了，会发生什么？
     （目的：确定容错成本——决定安全设计的级别）

□ Q7: 你期望的效果是什么？怎么算成功？
     （目的：提前对齐验收标准。如果客户说不出，你就定标准）

判断客户到底需不需要 Agent

不是所有问题都需要 Agent。问这三个问题判断：

1. 这个问题需要"理解语义"还是只需要"匹配规则"？
   规则匹配 → 用传统规则引擎（更便宜、更可靠）
   需要理解语义 → 考虑 Agent

2. 这个问题需要"多步推理"还是只需要"单次回答"？
   单次回答 → 用 RAG（更简单、更可控）
   多步推理 → 考虑 Agent

3. 这个问题容错成本高吗？
   非常高（医疗、法律、金融核心交易）→ Agent 只做辅助，人做决策
   较低（内部FAQ、内容辅助）→ Agent 可以直接回答

02｜报价怎么拆：让客户看得懂

项目报价拆解表

不要报一个总价——拆开，让客户理解每一部分是什么。

阶段	交付物	工期	报价占比	客户需要做什么
POC 验证	最小可行版本（50 case 评测集 + 基础架构）	2-3 周	20%	提供数据 + 安排 2-3 次需求对齐会
MVP 开发	完整功能 + 评测体系 + Dashboard	4-6 周	50%	安排试用 + 收集反馈
上线部署	生产环境部署 + 灰度发布 + 运维 Runbook	2 周	20%	安排上线窗口 + 通知用户
维护期	3 个月维护（bugfix + Prompt 优化 + 月度报告）	3 个月	10%	持续提供反馈

定价区间参考（2026 年国内市场经验值）：

项目复杂度	POC 价格	全项目价格	适合场景
简单 RAG（单数据源）	¥8K-15K	¥30K-60K	内部知识库
中等 Agent（多工具）	¥15K-30K	¥60K-150K	客服、数据分析
复杂 Multi-Agent	¥30K-60K	¥150K-350K	全栈客服系统、企业级 Agent

03｜技术方案模板

每个企业 Agent 项目必须包含的技术方案章节：

markdown

## 1. 系统架构
[图例建议：系统架构图——用户→路由→Agent→工具/RAG→LLM→输出]

## 2. 技术栈
- LLM: GPT-4o / Claude Sonnet / DeepSeek-V3（说明选型理由）
- 框架: LangGraph / CrewAI / AutoGen（说明选型理由）
- 向量库: Milvus / Qdrant / Pinecone
- 可观测: Langfuse / Custom Logger
- 部署: Docker / K8s / Serverless

## 3. 数据源梳理
- 数据源 1: [名称] · [格式] · [大小] · [更新频率]
- 数据源 2: ...

## 4. 安全设计
- 工具权限分级（L0-L3）
- HITL 机制
- Prompt Injection 防护
- 数据脱敏

## 5. 评测方案
- 评测集规模: 200+ case
- 评测方式: LLM-as-Judge + 人工抽样
- 通过标准: 输出层平均分 ≥ 4.0

## 6. 上线计划
- 灰度阶段: 内部 50 人 → 10% → 50% → 100%
- 监控指标: P95 延迟 / 错误率 / 费用 / 用户满意度
- 回滚方案

04｜POC 怎么做：用最小的代价验证最大的风险

POC 目标不是"跑通"——是"找到项目中最大的风险并验证它"

POC 验收表：

□ 1. 数据能接入吗？
     数据格式是否兼容？是否需要大量清洗？数据量是否足够？

□ 2. 核心场景能跑通吗？
     选 3-5 个最核心的场景，人工评判 Agent 的回答质量

□ 3. 延迟能接受吗？
     用户能接受 5 秒等待吗？如果 P95 > 10s，需要优化什么？

□ 4. 准确率有底线吗？
     POC 阶段允许 70% 的准确率——这是正常的

□ 5. 客户方的数据/IT 配合度够吗？
     如果客户说要 2 周才能提供数据——这 POC 已经失败了（不是技术问题）

05｜验收指标怎么定

指标	测量方式	合格线	优秀线
自动解决率	Agent 完整处理 / 总对话数	≥ 60%	≥ 80%
用户满意度	每次对话后评星（1-5）	≥ 3.8	≥ 4.3
P95 延迟	Server 端计时	≤ 8s	≤ 4s
事实准确率	人工抽样 50 条打分	≥ 85%	≥ 95%
转人工率	Agent 主动转人工 / 总对话数	≤ 30%	≤ 15%

06｜上线前 CheckList

□ 1. 评测集通过率 ≥ 90%
□ 2. 三层预算控制就绪（日/时/单次）
□ 3. 三层日志 + Dashboard + 告警 就绪
□ 4. 工具权限分级 + HITL 就绪
□ 5. 降级策略已测试（关掉一个 API，Agent 正确降级）
□ 6. 灰度发布就绪（1% → 10% → 50% → 100%）
□ 7. 回滚方案就绪（一键切回旧版）
□ 8. 安全审查通过
□ 9. On-call 排班 + Runbook 就绪
□ 10. 客户验收通过

07｜后续运维和复盘

月度运维报告模板：

markdown

## 本月 Agent 运行报告

### 使用数据
- 总对话数: X
- 日均对话数: Y
- 自动解决率: Z%

### 质量数据
- 平均用户满意度: X/5
- 事实准确率（人工抽样）: Y%
- LLM-as-Judge 平均分: Z

### 成本数据
- 本月总费用: $X
- 平均每次对话费用: $Y
- 主要成本构成: LLM 调用 70% / 向量库 20% / 其他 10%

### 问题与改进
- 本月发现的问题: ...
- 已修复: ...
- 下月计划: ...

08｜风险提示

⚠️ 接企业 Agent 项目的 5 个真实风险：

数据风险：客户说"我们有数据"，其实是一堆没整理过的散文件。合同里写明"数据交付时间"和"数据质量的最低标准"，否则项目可能延期 2-3 倍
期望风险：客户以为 Agent 是"魔法"——什么都懂、什么都能做。第一周就明确说清楚 Agent 的能力边界和容错率
范围蔓延：客户在 POC 之后开始加"顺便也做一个 XX 功能吧"。合同里明确 POC 之后新需求要重新报价
维护成本被低估：Agent 不是"上线就完了"——Prompt 要持续调、评测集要持续扩充、模型版本变更要做回归测试。维护期至少 3 个月，报价里必须包含
AI 依赖风险：你的 Agent 依赖 OpenAI / Anthropic 的 API——如果它们宕机或涨价，你的项目会受影响。合同里声明"第三方服务风险不在承包范围内"

🍋 本文为 AI Agent 学习路线 · 企业落地 SOP。© 2026 AI小柠檬。

📦 企业 Agent 落地完整 SOP：从需求访谈到上线验收 ​

01｜需求访谈：第一个小时决定项目生死 ​

需求访谈问题清单 ​

判断客户到底需不需要 Agent ​

02｜报价怎么拆：让客户看得懂 ​

项目报价拆解表 ​

03｜技术方案模板 ​

04｜POC 怎么做：用最小的代价验证最大的风险 ​

POC 目标不是"跑通"——是"找到项目中最大的风险并验证它" ​

05｜验收指标怎么定 ​

06｜上线前 CheckList ​

07｜后续运维和复盘 ​

08｜风险提示 ​