Daily Study

更新: 6/10/2025 字数: 0 字时长: 0 分钟

Daily Plan

#todo

写博客
看完 Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities ✅ 2025-06-10

大模型内容安全平台

百度

链接：大模型内容安全平台-百度智能云

功能：

多模态内容审核
Prompt审核服务
多语种安全：针对英文等多语种输入内容，通过安全算子和名单服务可有效识别内容中存在的各类风险。
多轮改写服务：针对多轮对话中的指代不明、主语缺失等问题，进行对话内容改写，补全本次对话信息。
红线知识库服务
安全大模型代答：针对不良价值观、涉黄、一般涉政、攻击涉政、违法犯罪等提问，通过安全大模型提供合法合规的回答。
回复干预：提供可应对突发安全事件的多种干预能力，如语义干预、文本干预、关键词干预等诸多服务能力。
信任域RAG：构建覆盖政府网站/官媒/百科知识的信任域检索库，按官方口径准确回答涉政/热点舆情等安全范畴问题，避免大模型因幻觉引起的风险内容生成。
内生安全增强：支持通过“大模型安全评测+安全对齐+安全防护+安全知识增强”提供服务闭环，完成内生安全增强。

阿里

链接：什么是AI安全护栏_内容安全(Content Moderation)-阿里云帮助中心

AI安全护栏包括两大功能：

风险检测能力，主要从AI输入和输出的三个方面进行检测
- 内容合规检测：对生成式AI输入输出的文本内容进行多维度合规审查，覆盖涉政敏感、色情低俗、偏见歧视、不良价值观等风险类别，确保AI生成内容符合法律法规与平台规范。适用场景：对话机器人、AI教育、智能客服、AIGC创作平台等场景。
- 敏感内容检测：深度检测AI交互过程中可能泄露的隐私数据与敏感信息，支持涉及个人隐私、企业隐私等敏感内容的识别，防范训练数据泄露与对话信息外溢风险。适用场景：AI医疗、AI金融服务、企业知识库问答等场景。
- 提示词攻击检测：专业防御针对生成式AI的注入式攻击，精准识别越狱指令、角色扮演诱导、系统指令篡改等对抗性攻击行为，构建AI系统的“免疫防线”。适用场景：AI Agent的指令交互安全防护、开放域对话系统的对抗攻击防御、第三方插件调用的权限管控等场景。
自定义防护配置，支持在防护配置中更改精细化的风险检测项
- 自定义检测项：对内容合规检测中的精细化标签进行配置。
- 自定义风险阈值：对精细化标签的命中阈值进行配置，在模型输出的0-100置信分中，支持最小配置步长1。
- 自定义过渡词：对需要检测和拦截的敏感词（如竞争对手名字等）进行配置，支持增、删、改等词库管理操作

Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities

整体框架如图： Enigma是在SWE-Agent的基础上构建，主要的Contributions包括三个方面：

提出了一个包含incorporates Interactive-Agent Tools(IATs)的LM Agent，使得大模型能够使用可交互的程序例如GDB
一个新的针对CTF的 development set，用于LM Agents 训练
一个包含390个 Challenges 的CTF Benchmark，还发现了一种称为 soliloquizing 的现象

Daily Study ​

Daily Plan ​

大模型内容安全平台 ​

百度 ​

阿里 ​

Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities ​

Daily Study

Daily Plan

大模型内容安全平台

百度

阿里

Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities