Skip to content

Daily Study

更新: 3/17/2026 字数: 0 字 时长: 0 分钟

Daily Plan

#todo

  • [ ]

RAG评估

博客:RAG 模型效果评估 工具:

针对RAG的评估首先要构建测试集,通常包括四个部分,通过人工制作、日志收集和大模型生成三种方式:

  • 用户的问题;
  • 系统针对问题检索到的内容;
  • 系统生成的最终回答;
  • 参考正确答案

评估方式

  • 人工评估:靠人来打分。细节但是耗时与主观
  • 规则评估:用固定规则量化分数。例如 BLEU、ROUGE、F1 等传统指标,或者是“检索到的内容是否包含参考答案中的关键词”“生成回答的长度是否在合理范围”等具体规则。优点是客观、高效,缺点是灵活性差 —— 现实中的问题往往复杂,规则很难覆盖所有情况。
  • 大模型评估:主流方式。加入一个大模型作为裁判,虽然本身存在不稳定,但是多数情况是可靠的

评估指标

指标本质上是衡量“数据集四要素”(问题, 检索内容,生成回答,参考答案)之间的关系,主要分为

  • 正确性(Answer Correctness):看 “生成答案” 和 “参考答案” 有多像(内容是否准确,是否覆盖关键信息);
  • 答案相关性(Answer Relevance):看 “生成答案” 和 “用户问题” 的匹配度(有没有答非所问,是不是围绕问题展开);
  • 检索召回率(Retrieval Recall):看 “检索内容” 是否包含 “参考答案” 的关键信息(有没有漏掉重要内容)。

在RAGS中,分为检索层评估和生成层评估:如果检索指标差,就去优化检索策略(如向量数据库、检索算法);如果生成指标低,就去调 prompt 或换生成模型。

自动化评估流程

为了实现持续集成,我搭建了一套基于 Ragas 的自动化测试流水线:

  • 构建测试集:50 个 {Query, Ground_Truth_Answer, Ground_Truth_Contexts} 样本。
  • 运行测试:每次修改 RAG 的参数(如 Chunk Size, Top-K, Prompt)后,自动跑一遍测试集。
  • 打分:调用 GPT API(或本地强大的 Teacher Model)计算上述指标的平均分。
  • 决策:只有当 Hit Rate > 90% 且 Faithfulness > 0.95 时,新版本的 RAG 系统才允许上线。

线上实战评估

除了离线评测,上线后的反馈更为关键:

用户反馈 :在运营人员的 Web 界面增加 👍 / 👎 按钮。如果被点踩,这条数据会自动进入 Bad Case 库,用于后续的 Prompt 优化或知识库补充。

采纳率:统计运营人员直接采纳 Agent 研判结论的比例。在我的项目中,这个指标最终达到了 90%。

菜就多练

本站访客数 人次 本站总访问量