Daily Study

更新: 3/17/2026 字数: 0 字时长: 0 分钟

Daily Plan

#todo

针对RAG的评估首先要构建测试集，通常包括四个部分，通过人工制作、日志收集和大模型生成三种方式：

人工评估：靠人来打分。细节但是耗时与主观
规则评估：用固定规则量化分数。例如 BLEU、ROUGE、F1 等传统指标，或者是“检索到的内容是否包含参考答案中的关键词”“生成回答的长度是否在合理范围”等具体规则。优点是客观、高效，缺点是灵活性差 —— 现实中的问题往往复杂，规则很难覆盖所有情况。
大模型评估：主流方式。加入一个大模型作为裁判，虽然本身存在不稳定，但是多数情况是可靠的

指标本质上是衡量“数据集四要素”（问题，检索内容，生成回答，参考答案）之间的关系，主要分为

在RAGS中，分为检索层评估和生成层评估：如果检索指标差，就去优化检索策略（如向量数据库、检索算法）；如果生成指标低，就去调 prompt 或换生成模型。

为了实现持续集成，我搭建了一套基于 Ragas 的自动化测试流水线：

除了离线评测，上线后的反馈更为关键：

用户反馈：在运营人员的 Web 界面增加 👍 / 👎 按钮。如果被点踩，这条数据会自动进入 Bad Case 库，用于后续的 Prompt 优化或知识库补充。

采纳率：统计运营人员直接采纳 Agent 研判结论的比例。在我的项目中，这个指标最终达到了 90%。