Daily Study
更新: 3/17/2026 字数: 0 字 时长: 0 分钟
Daily Plan
#todo
- [ ]
RAG评估
博客:RAG 模型效果评估 工具:
- vibrantlabsai/ragas: Supercharge Your LLM Application Evaluations 🚀
- comet-ml/opik: Debug, evaluate, and monitor your LLM applications, RAG systems, and agentic workflows with comprehensive tracing, automated evaluations, and production-ready dashboards.
针对RAG的评估首先要构建测试集,通常包括四个部分,通过人工制作、日志收集和大模型生成三种方式:
- 用户的问题;
- 系统针对问题检索到的内容;
- 系统生成的最终回答;
- 参考正确答案
评估方式
- 人工评估:靠人来打分。细节但是耗时与主观
- 规则评估:用固定规则量化分数。例如 BLEU、ROUGE、F1 等传统指标,或者是“检索到的内容是否包含参考答案中的关键词”“生成回答的长度是否在合理范围”等具体规则。优点是客观、高效,缺点是灵活性差 —— 现实中的问题往往复杂,规则很难覆盖所有情况。
- 大模型评估:主流方式。加入一个大模型作为裁判,虽然本身存在不稳定,但是多数情况是可靠的
评估指标
指标本质上是衡量“数据集四要素”(问题, 检索内容,生成回答,参考答案)之间的关系,主要分为
- 正确性(Answer Correctness):看 “生成答案” 和 “参考答案” 有多像(内容是否准确,是否覆盖关键信息);
- 答案相关性(Answer Relevance):看 “生成答案” 和 “用户问题” 的匹配度(有没有答非所问,是不是围绕问题展开);
- 检索召回率(Retrieval Recall):看 “检索内容” 是否包含 “参考答案” 的关键信息(有没有漏掉重要内容)。
在RAGS中,分为检索层评估和生成层评估:如果检索指标差,就去优化检索策略(如向量数据库、检索算法);如果生成指标低,就去调 prompt 或换生成模型。
自动化评估流程
为了实现持续集成,我搭建了一套基于 Ragas 的自动化测试流水线:
- 构建测试集:50 个
{Query, Ground_Truth_Answer, Ground_Truth_Contexts} 样本。 - 运行测试:每次修改 RAG 的参数(如 Chunk Size, Top-K, Prompt)后,自动跑一遍测试集。
- 打分:调用 GPT API(或本地强大的 Teacher Model)计算上述指标的平均分。
- 决策:只有当 Hit Rate > 90% 且 Faithfulness > 0.95 时,新版本的 RAG 系统才允许上线。
线上实战评估
除了离线评测,上线后的反馈更为关键:
用户反馈 :在运营人员的 Web 界面增加 👍 / 👎 按钮。如果被点踩,这条数据会自动进入 Bad Case 库,用于后续的 Prompt 优化或知识库补充。
采纳率:统计运营人员直接采纳 Agent 研判结论的比例。在我的项目中,这个指标最终达到了 90%。
