Daily Study

更新: 7/15/2025 字数: 0 字时长: 0 分钟

Daily Plan

#todo

写博客
[ ]

Claude Code

版本回退 https://linux.do/t/topic/761817

代理式威胁情报：利用LLM驱动的爬虫实现主动威胁发现的框架

更新: 7/15/2025 字数: 0 字时长: 0 分钟

第一部分：代理式爬虫的黎明：一个新的技术前沿

网络威胁情报的实践正处于一场由大型语言模型（LLM）驱动的深刻变革的风口浪尖。传统的自动化数据收集方法，尽管在过去几十年中为安全团队提供了服务，但其固有的局限性在面对当今日益动态化和复杂化的数字威胁环境时已愈发明显。一个全新的技术范式——代理式爬虫（Agentic Crawlers）——正在兴起，它不仅承诺提高数据收集的效率，更旨在从根本上重塑我们发现、理解和应对网络威胁的方式。本部分将深入探讨这一技术前沿，剖析其从传统网络抓取到“代理式深度研究”的演进路径，解构其核心技术组件，并全面审视当前可用的开源项目与框架。

1.1 从网络抓取到代理式深度研究：一场范式转移

为了充分理解代理式爬虫带来的革命性影响，我们必须首先审视其前身——传统网络抓取技术的局限性。

1.1.1 传统爬虫的局限性

传统的网络爬虫在很大程度上依赖于脆弱且僵化的规则。它们通过预定义的CSS选择器（CSS selectors）和XPath查询来定位和提取网页上的数据 1。这种方法的致命弱点在于其对网站结构的强依赖性。任何微小的网站布局调整，例如类名的更改或DOM结构的微调，都可能导致整个抓取脚本失效，需要耗费大量的人力进行维护。

此外，这些爬虫缺乏对内容上下文的理解。它们只能机械地提取数据，而无法辨别信息的真实含义或其相关性。这导致了巨大的效率低下，尤其是在为大型语言模型预训练收集数据时。研究表明，由于数据质量低下，从网络上抓取的原始数据中，超过90%的部分最终在预训练阶段被丢弃 2。对于网络威胁情报（CTI）领域而言，这意味着大量的噪声数据淹没了真正有价值的信号，分析师需要花费宝贵的时间进行筛选和甄别。

1.1.2 LLM驱动的抓取技术的兴起

大型语言模型的出现为网络抓取带来了第一次重大飞跃。与依赖固定规则的传统方法不同，LLM能够理解自然语言和HTML的上下文结构 4。这使得它们可以直接根据自然语言描述的需求，从非结构化的文本中提取信息，而无需预先编写复杂的选择器规则。

这种方法的关注点从“如何”获取数据（即编写精确的抓取规则）转变为“需要什么”数据（即向LLM描述所需信息的特征）1。例如，分析师不再需要为提取特定论坛帖子中的恶意软件名称而编写复杂的XPath，而是可以直接指示LLM：“从这段文本中提取所有提及的恶意软件家族名称”。这种转变极大地提高了抓取任务的鲁棒性和开发效率。

1.1.3 代理式深度研究的出现

然而，仅仅利用LLM进行数据提取只是冰山一角。真正的范式转移体现在“代理式深度研究”（Agentic Deep Research）这一新概念的出现 5。这一范式将LLM从一个被动的文本处理器提升为一个主动的、具有认知能力的“代理”（Agent）。

这些代理系统不仅仅是检索信息，它们将自主推理、迭代式信息检索和信息综合能力紧密地集成到一个动态的反馈循环中 5。当面对一个复杂、多方面的情报需求时——例如“追踪一个新兴勒索软件团伙的最新活动、技术演变和目标行业”——传统搜索引擎会返回一系列零散的链接，需要分析师手动筛选和整合。而一个代理式系统则能够自主地将这个宏大目标分解为一系列子任务，例如：

搜索最新的安全博客和新闻报道以获取该团伙的公开信息。
监控特定的暗网论坛和Telegram频道，寻找该团伙成员的讨论或泄露的数据。
在代码托管平台（如GitHub）上搜索与该团伙使用的工具或恶意代码相关的代码片段。
综合所有来源的信息，生成一份包含其最新TTPs（战术、技术和程序）、IOCs（失陷指标）和潜在受害者画像的结构化报告。

这种处理复杂查询的能力，超越了传统信息检索方法的极限 5。

1.1.4 代理式系统的核心能力

代理式系统的强大能力源于其两个相辅相成的核心特征 8：

深度思考与任务分解：代理能够利用其先进的语言理解能力，对复杂的情报需求进行深入分析，识别出关键信息、隐含意图和上下文关系。通过类似“思维链”（Chain-of-Thought）的技术，代理可以进行深度思考，并将一个宏大的任务分解为多个可执行的、逻辑上连续的子任务 8。
环境交互与信息整合：代理不仅仅是思考，它还能行动。通过调用外部工具，代理能够与各种数字环境进行交互，例如浏览网页、操作应用程序、查询API等 8。它能够主动地从多个来源收集信息，然后进行过滤、去重、总结和综合，最终向用户呈现一份清晰、简洁、经过处理的报告，而非未经加工的原始数据流。

这种从被动抓取到主动探索和理解的转变，是代理式系统为威胁情报领域带来的根本性变革。然而，这种能力的普及也带来了新的战略考量。开源代理框架的激增，如WebRover 9 和

AutoGen 10，极大地降低了构建复杂网络代理的门槛。这种技术的民主化意味着，不仅防御方可以利用这些强大工具，攻击方同样可以。网络安全攻防正迅速演变为一场以日益普及的AI工具为武器的“军备竞赛” 11。因此，对于一个组织而言，战略优势不再仅仅来自于拥有一个AI爬虫，而更多地取决于指导该代理的情报策略的质量、代理自身基础设施的安全性以及行动反馈循环的速度。

1.2 AI驱动的代理式爬虫剖析

要构建一个有效的代理式威胁情报系统，必须理解其内部构造。一个典型的代理式爬虫由多个协同工作的核心组件构成，它们共同赋予了代理思考、记忆、行动和理解的能力。

1.2.1 LLM核心（“大脑”）

大型语言模型是代理系统的“大脑”或中央处理器，负责所有高级认知功能，包括推理、规划、决策和自然语言交互 8。模型的选择对代理的能力有决定性影响。组织可以选择功能强大但可能存在数据隐私和成本顾虑的专有闭源模型（如OpenAI的GPT-4系列、Anthropic的Claude系列），也可以选择更具灵活性和可控性的开源模型（如Meta的Llama系列、Mistral AI的模型）。

近年来，“自带LLM”（Bring Your Own LLM, BYOLLM）的理念日益受到重视 13。通过在本地或私有云环境中部署模型，组织可以对敏感的情报数据保持完全控制，避免将其发送给第三方API提供商，从而显著增强安全性和合规性。

1.2.2 状态管理（“记忆”）

对于需要执行多步骤、长周期任务的威胁情报代理而言，拥有“记忆”至关重要。状态管理组件负责跟踪代理的当前状态、历史操作、已收集的信息以及未来的计划。没有有效的状态管理，代理很容易在复杂的任务中“迷失方向”或重复无效的工作。

诸如LangGraph这样的框架为此提供了解决方案 9。LangGraph允许将代理的工作流程构建为一种状态图（state graph），其中每个节点代表一个操作或决策点。这使得代理能够维护上下文，管理复杂的导航流程，并根据过去的行为和结果来决定下一步的行动，从而实现真正意义上的长期、连贯的任务执行。

1.2.3 浏览器自动化（“双手”）

如果说LLM是代理的大脑，那么浏览器自动化工具就是其“双手”，负责在网络世界中执行物理操作。Playwright 9 和Selenium等工具为代理提供了可靠的Web交互能力。在LLM的指导下，这些工具可以模拟人类用户的行为，包括导航到指定URL、点击按钮、填写表单、滚动页面、处理登录过程以及从页面中提取原始HTML内容 14。

代理式交互的出现，从根本上重新定义了自动化情报收集的范围。“爬虫”这一比喻已显过时。传统抓取（即便是LLM增强的抓取）主要关注从给定页面提取数据。而代理式系统能够执行登录、导航菜单、甚至解决简单的验证码等操作 15。它们不再仅仅是“读者”，而是“用户”。这意味着自动化收集的信息空间从可公开索引的“明网”扩展到了需要交互才能访问的“灰网”——例如需要登录的论坛、交互式数据仪表盘和私密社群。CTI项目现在可以自动化执行以前必须手动进行且风险极高的任务，例如“监控特定威胁组织私密Discord频道中的某个特定渠道”。这不仅是速度上的量变，更是能力上的质变。

1.2.4 内容处理（“理解”）

代理通过浏览器自动化工具获取的是原始、非结构化的数据（如HTML、PDF文本）。内容处理组件负责将这些原始数据转化为LLM可以理解和利用的知识。这一过程的核心是检索增强生成（Retrieval-Augmented Generation, RAG）管道 5。

RAG的工作流程通常包括 16：

内容提取：从原始文件中提取纯文本内容。
文本分块（Chunking）：将长文本分割成较小的、语义完整的块，以适应LLM的上下文窗口限制。
向量化（Embedding）：使用一个嵌入模型将每个文本块转换为高维向量。
存入向量数据库：将文本块及其对应的向量存储在专门的向量数据库（如Pinecone、ChromaDB）中，以便进行高效的相似性搜索。

当代理需要回答一个问题或综合信息时，它会首先将查询向量化，然后在向量数据库中检索最相关的文本块。这些检索到的文本块会作为上下文信息，与原始查询一起提供给LLM核心。这个过程将LLM的内部知识与外部的、实时的、特定的数据源“接地”，从而极大地减少了“幻觉”（即生成不准确或虚构信息）的风险，并确保其输出是基于现实世界的情报 5。

1.2.5 工具使用（“工具带”）

一个强大的代理不仅能浏览网页，还能使用各种外部工具和API来增强其能力 8。这就像一个拥有多功能“工具带”的特工。这些工具可以包括：

搜索API：如SerpAPI或Exa.ai，用于执行高效的网络搜索，作为信息收集的起点 17。
专业数据源API：如VirusTotal、Shodan等，用于查询特定IOC（如IP地址、文件哈希）的信誉和关联信息。
内部知识库：查询组织内部的事件响应报告、历史案例库等。
其他代理：一个“协调员”代理可以调用另一个“专家”代理来完成特定的子任务 10。

工具的设计和描述至关重要。每个工具都需要有一个清晰、准确、无歧义的描述，以便LLM核心能够理解其功能，并在合适的时机选择正确的工具来使用 18。设计不良的工具描述会严重误导代理，导致任务失败。

1.3 现代工具箱：项目与框架概览

代理式爬虫的生态系统正在经历一场“寒武纪大爆发”，大量开源项目和框架的涌现为开发者提供了丰富的选择。为了在这个复杂的生态中进行导航，我们可以将这些工具进行分类 17。

1.3.1 工具分类法

自主代理框架（Autonomous Agent Frameworks）：这类框架旨在构建能够自主设定目标、制定计划并执行复杂任务的通用代理。它们通常提供了一整套用于任务管理、记忆和工具使用的组件。例如：AutoGPT、AgentVerse、SuperAGI 10。
多代理系统（Multi-Agent Systems）：这类框架专注于协调多个专门化的代理协同工作，以解决单个代理难以处理的复杂问题。它们的核心是代理间的通信和任务分配机制。例如：MetaGPT、AutoGen 10。
Web自动化与抓取库（Web Automation & Scraping Libraries）：这类工具更专注于利用LLM进行智能化的数据提取和Web自动化，通常提供更简洁的API。例如：ScrapeGraphAI、LLM Scraper、LaVague 1。
浏览器内代理与扩展（Browser-Specific Agents & Extensions）：这类工具通常以浏览器扩展的形式存在，直接在用户的浏览器环境中运行，以自动化日常任务。例如：AgentGPT、Harpa.ai 15。

1.3.2 开源项目深度剖析：WebRover

为了更具体地理解一个完整的代理式系统，我们可以深入分析WebRover项目 9。WebRover是一个开源的AI代理，旨在通过与Web元素的交互来解释用户输入并执行任务。其2.0版本引入了复杂的研究工作流，使其特别适合于情报搜集类任务。

WebRover的架构体现了前述的多个核心组件：

多代理设计：它包含三个专门的代理，系统会根据任务的复杂性动态选择：
- 任务代理（Task Agent）：专注于执行基于Web的多步骤自动化工作流。
- 研究代理（Research Agent）：专注于信息搜集，具备智能内容处理和来源验证能力。
- 深度研究代理（Deep Research Agent）：一个更高级的研究代理，能够通过系统性的主题探索，生成带有正确引用的学术质量报告。
技术栈：
- 状态管理：使用LangGraph来维护代理状态，处理复杂的导航流和决策 9。
- 浏览器自动化：使用Playwright进行可靠的Web交互和内容提取 9。
- 内容处理：集成了RAG管道和向量存储，用于高效的信息存储、检索和组织 9。
- AI决策：集成了多种LLM（如GPT-4、Claude），并具备上下文感知导航和自我审查机制 9。
全栈实现：WebRover是一个完整的全栈应用，其后端使用Python和FastAPI构建，前端则采用Next.js和TypeScript，为用户提供了一个现代化的实时聊天界面来与代理进行交互 20。

1.3.3 面向AI的专用爬虫

除了通用的代理框架，还出现了一类专门为AI系统“喂料”而设计的爬虫。Craw4LLM项目就是一个典型代表 2。传统的爬虫（如Common Crawl）通常基于网页的图连接性指标（如PageRank）来确定抓取优先级，这导致大量对LLM预训练无用的低质量页面被抓取。

Craw4LLM提出了一种根本性的改变：它不再关注网页的连接性，而是根据网页内容对LLM预训练的“影响力”来设定抓取优先级。在每次抓取迭代中，所有新发现的URL都会通过一个“预训练影响力评分器”进行打分，得分最高的URL将被优先抓取。这种方法使得爬虫能够智能地探索Web图中对AI模型最有价值的部分，从而以更低的成本（仅抓取21%的URL）获得与传统方法相当甚至更好的高质量预训练数据 2。在威胁情报的背景下，这一理念可以被借鉴，通过训练一个“情报价值评分器”，让代理式爬虫优先访问那些历史上曾产出高价值情报的来源（如特定的黑客论坛、安全研究员的博客等），从而实现更高效的情报收集。

下表对几个代表性的开源LLM代理框架进行了比较，为技术领导者在选择基础框架时提供决策支持。

表1：开源LLM代理框架对比分析

框架名称	核心概念	架构类型	关键技术	主要用例	对CTI的适用性
WebRover 9	一个自主AI代理，通过与Web元素交互来执行研究和自动化任务。	多代理	LangGraph, Playwright, RAG, FastAPI	深度研究、任务自动化	高：其深度研究代理的设计非常适合复杂的情报搜集和分析任务。全栈实现提供了一个完整的操作平台。
AutoGen 10	一个支持开发使用多个可对话代理的LLM应用的框架。	多代理	LLM对话、工具使用	协同任务解决、数据分析	高：非常适合构建一个由“协调员”、“采集员”和“分析员”等多个专业代理组成的CTI“融合单元”。
ScrapeGraphAI 1	一个基于AI的Python抓取库，允许用户通过自然语言提示来定义抓取模式。	单代理	LLM, RAG, Network Graphs	智能Web抓取、数据提取	中：适用于快速、灵活地从非结构化来源（如博客文章）中提取IOCs和TTPs。但缺乏复杂任务规划和状态管理能力。
Craw4AI 17	一个开源的、对LLM友好的Web爬虫和抓取器。	单代理/爬虫	传统爬虫技术 + AI	大规模数据采集、LLM数据预处理	中：其核心理念（基于价值的抓取）对CTI非常有启发。可作为大规模、广谱情报源监控的基础层，但本身不是一个完整的代理系统。

第二部分：将AI代理融入威胁情报生命周期

拥有了强大的代理式爬虫技术只是第一步，真正的挑战在于如何将其有效地融入现有、成熟的网络威胁情报（CTI）工作流程中。本部分旨在搭建一座桥梁，将第一部分介绍的新兴技术与CTI的战略应用相结合，系统性地论证代理式爬虫不仅是一个新工具，更是对整个CTI学科的颠覆性力量。我们将逐一审视传统CTI生命周期的各个阶段，并阐明AI代理如何对其进行自动化、整合和加速，最终将其从一个线性的、手动的流程转变为一个动态的、持续的智能循环。

2.1 用AI重塑CTI生命周期

2.1.1 传统CTI生命周期

业界公认的CTI生命周期是一个迭代的过程，通常包含六个核心阶段 21：

需求与指导（Requirements/Direction）：与利益相关者合作，确定情报目标和需要保护的资产，定义优先情报需求（PIRs）。
收集（Collection）：根据确定的需求，从各种来源（如内部日志、商业威胁情报源、开源情报OSINT）搜集原始数据。
处理（Processing）：将收集到的原始数据进行格式转换、解密、分类和组织，使其变为可供分析的格式。
分析（Analysis）：由人类分析师审查处理后的数据，识别模式、关联信息，评估威胁，并形成初步的判断和洞见。
分发（Dissemination）：将分析后的情报产品以适当的形式（如报告、警报、简报）分发给相应的利益相关者。
反馈（Feedback）：收集利益相关者对情报产品的反馈，用于评估情报的有效性并指导下一轮生命周期的需求。

这个传统模型虽然行之有效，但其主要痛点在于高度依赖人工，尤其是在收集、处理和初步分析阶段，这些阶段耗时耗力，且流程往往是线性的，存在明显的时间延迟。

2.1.2 AI加速的生命周期

AI代理的介入，有望打破传统生命周期的线性束缚，将其转变为一个高度自动化、近乎实时的动态闭环 7。其核心思想是为生命周期的每个阶段都配备相应的“AI专家”，这些代理协同工作，将人类分析师从繁重的重复性劳动中解放出来。

一个AI加速的生命周期可能呈现如下景象：一个“规划代理”接收来自人类的高级指令，并将其分解为具体的收集任务；多个“收集代理”分头行动，从不同领域抓取数据；一个“分析代理”实时地对流入的数据进行处理、结构化和关联分析；最后，一个“报告代理”根据分析结果，为不同的受众自动生成定制化的情报产品。整个过程由人类进行监督、验证和提供反馈，而这些反馈又被用于持续优化AI代理的行为。

下表清晰地展示了AI代理能力如何映射到CTI生命周期的各个阶段，并阐明了其带来的变革和商业价值。对于希望通过投资新技术来提升现有流程效率的CISO或CTI总监而言，这张“前后对比图”直观地展示了投资回报。它将抽象的技术特性（如“自主任务分解”）转化为具体的运营收益（如“减少情报响应时间”），为战略决策提供了坚实依据。

表2：AI代理能力与CTI生命周期的映射

CTI生命周期阶段	传统活动与挑战	AI代理赋能的活动	关键技术/概念	产生的商业价值
1. 需求与指导	手动定义PIRs；需求传达存在延迟和歧义。	将自然语言PIRs直接作为代理任务输入；代理自主规划执行方案。	自然语言理解 (NLU), 任务分解	需求响应更敏捷；减少沟通成本；确保情报收集紧扣业务目标。
2. 收集	依赖静态的、预付费的商业情报源；手动监控开源信息，覆盖面有限，时效性差。	动态、自适应的情报收集；基于情报价值智能选择和优先排序信源；7x24小时持续监控。	代理式交互, Craw4LLM理念, Web自动化	极大拓宽情报来源；发现“未知”的威胁；获取更及时的早期预警。
3. 处理	手动从报告、文章中复制粘贴IOCs；数据格式不统一，需要大量手动清洗和转换。	自动从非结构化文本（PDF, HTML）中提取并结构化数据（如JSON）。	LLM内容提取, RAG管道	分析师生产力提升 >80%；数据标准化，便于后续机器分析。
4. 分析	分析师花费大量时间阅读报告，手动关联IOCs和TTPs；知识和经验难以传承。	自动提取IOCs和TTPs；自动进行上下文丰富（如查询VirusTotal）；自动关联威胁活动，构建攻击模型（如Diamond Model）。	IOC/TTP提取, 知识图谱, Diamond Model	将“洞察时间”从数天缩短至数分钟；解放分析师，使其专注于高级研判。
5. 分发	手动撰写报告，耗时且格式单一；情报共享依赖邮件或手动上传。	自动生成面向不同受众（技术、管理层）的定制化报告；自动生成机器可读格式（STIX/TAXII）的情报。	自然语言生成 (NLG), STIX/TAXII	情报分发近乎实时；确保决策者在第一时间获得可操作的情报。
6. 反馈	反馈周期长，通常以周会或邮件形式进行；反馈难以直接用于改进流程。	通过人机交互界面（HITL）进行实时反馈；分析师的每次纠正都可作为高质量训练数据，用于微调模型。	人在环路 (HITL), 持续学习	构建自优化情报系统；情报能力随时间推移持续增强，更适应组织特定环境。

2.2 AI增强的收集：自动化搜寻原始情报

在AI驱动的CTI生命周期中，收集阶段的变革最为彻底。它从一个被动的、接收式的活动，转变为一个主动的、探索式的过程。

传统的情报收集中，组织主要依赖于订阅的商业威胁情报源、加入信息共享与分析中心（ISACs）以及分析内部网络日志 21。这种模式的缺点是，情报来源相对固定，且往往是被动接收，对于新兴的、尚未被广泛报道的威胁反应迟缓。

AI代理则可以实现动态和自适应的收集。核心变革在于PIRs的自动化执行。分析师不再需要手动去搜索满足某个PIR（例如，“哪些威胁行为体正在积极开发针对CVE-2025-12345的漏洞利用？”）的信息，而是可以将这个PIR直接作为自然语言指令输入给一个或一组代理 25。代理接收到指令后，能够自主规划并执行一个多源收集策略：它可能会首先使用搜索API来查找相关的公开报告，然后转向监控特定的安全社区和社交媒体平台，最后深入到暗网论坛或代码库中寻找更隐秘的线索。

此外，代理能够实现智能化的信源选择。一个成熟的代理系统不会盲目地抓取所有信息，而是可以被训练成一个“经验丰富”的情报官，知道针对不同类型的情报需求应该去哪里寻找答案 18。借鉴Craw4LLM的思想 2，系统可以记录哪些信源在历史上提供了高价值的情报，并赋予它们更高的抓取优先级。这种

自适应的爬取策略使得情报收集工作更具针对性，效率也更高。

2.3 智能处理与分析：从原始数据到可操作洞见

如果说AI增强的收集阶段是“广撒网”，那么智能处理与分析阶段就是“精挑鱼”。这两个阶段在AI代理的驱动下紧密耦合，几乎可以瞬时完成。

2.3.1 自动化数据结构化

威胁情报往往以非结构化或半结构化的形式存在，如PDF研究报告、HTML格式的博客文章、纯文本的论坛帖子等。在传统流程中，分析师需要手动阅读这些材料，并将关键信息（如IOCs、受害者信息、攻击者TTPs）复制粘贴到表格或内部系统中。这是一个极其繁琐且容易出错的过程，也是“处理”阶段（Processing）的主要瓶颈 21。

LLM在处理这类任务上具有天然优势。通过精心设计的提示（prompt），LLM可以被指示阅读一段非结构化文本，并按照预定义的JSON格式将其中的关键信息提取出来 4。这不仅实现了处理阶段的自动化，还保证了所有情报数据的一致性和标准化，为后续的机器分析奠定了基础。

2.3.2 自动提取与丰富IOCs和TTPs

自动化数据结构化的下一步是提取最具价值的情报元素：IOCs和TTPs。利用NLP和LLM技术，代理可以自动从文本中识别和抽取出IP地址、域名、文件哈希等IOCs，以及描述攻击者行为的TTPs 26。这是AI代理为CTI团队提供的核心价值之一，它将分析师从无尽的报告阅读中解放出来。

更进一步，代理可以实现上下文的自动丰富。当一个IOC（例如一个IP地址）被提取出来后，代理可以自动调用一系列外部工具（如VirusTotal API、WHOIS查询、地理位置API等）来查询该IOC的附加信息，然后将这些信息综合起来，形成一个更完整的画像，例如：“IP地址185.123.45.67，关联到俄罗斯APT28组织的基础设施，曾用于鱼叉式钓鱼攻击” 26。

2.3.3 威胁关联与建模

当大量经过处理和丰富的情报被收集后，代理可以进行更高级的分析——威胁关联与建模。它可以自动将提取出的TTPs与业界公认的知识框架（如MITRE ATT&CK）进行映射 28，从而让分析师能够在一个标准化的语境下理解攻击者的行为。

一个更高级的分析代理甚至可以尝试根据从多个来源（如一篇博客、一个论坛帖子和一个恶意软件分析报告）综合的信息，自动构建一个描述入侵事件的钻石模型（Diamond Model） 28。该模型通过四个核心顶点——

攻击者（Adversary）、能力（Capability）、基础设施（Infrastructure）和受害者（Victim）——来描述一次攻击事件的全貌。通过自动化这一建模过程，代理能够帮助分析师快速理清复杂攻击事件中各个元素之间的关系。

这种深度的自动化从根本上改变了人类分析师的角色。过去，分析师的大部分时间都耗费在数据处理上。现在，这些重复性劳动被AI代理接管。分析师的价值不再是阅读50份报告以找到5个IOC，而是转向更高层次的认知任务：定义正确的PIRs来指导代理的行动 25；对代理提交的最关键或最模糊的发现进行验证和最终裁决 5；以及通过反馈循环不断“训练”AI，使其变得更聪明、更高效。分析师的角色从一个“数据工人”转变为一个管理着一支AI情报团队的“情报战略家”和“AI教练”。

第三部分：主动狩猎：在野外部署AI代理

在明确了如何将AI代理融入战略性的情报生命周期之后，接下来的重点是战术执行。本部分将提供详细的指导，说明如何在不同且充满挑战的数字环境中部署这些代理式爬虫，以便在威胁完全显现之前主动地发现它们。这标志着威胁情报从一种被动的、响应式的活动，转变为一种主动的、持续的狩猎实践。

3.1 跨威胁地貌的战略部署

为了实现全面的威胁覆盖，情报收集工作必须在多个关键的“狩猎场”同时展开。每个狩猎场都有其独特的特征、挑战和情报价值。我们将重点关注三个主要领域：

表层网络与社交媒体（Surface and Social Web）：包括新闻网站、安全研究博客、Twitter（现为X）、Mastodon、Telegram等公开平台。这是获取早期预警和公开披露信息的关键场所。
暗网（Dark Web）：通过Tor等匿名网络访问的论坛、市场和聊天室。这是获取关于漏洞利用、数据泄露和网络犯罪服务的“地下”情报的核心来源。
代码仓库（Code Repositories）：如GitHub、GitLab等平台。这是发现泄露的凭证、潜在的软件供应链漏洞和恶意代码的重要阵地。

3.2 在表层网络与社交媒体上狩猎：连接碎片化的信息点

表层网络是信息传播速度最快的地方，因此也是获取早期预警信号的最佳场所。AI代理在此处的首要任务是进行持续监控和信息关联。

3.2.1 监控早期预警信号

代理可以被配置为7x24小时不间断地监控一系列指定的信源，包括主流安全媒体、顶级安全公司的研究博客、以及在安全社区中有影响力的研究人员的社交媒体账户 34。当这些来源发布关于新发现的漏洞、新的攻击技术或重大数据泄露事件的初步信息时，代理能够立即捕捉到这些信号。

3.2.2 关联CVE与漏洞利用讨论

这里的核心任务是关联分析。当一个新的高危通用漏洞披露（CVE）被发布时，一个专门的“漏洞代理”可以被激活。它的任务是：

从NVD、MITRE等官方来源获取该CVE的详细信息（如受影响的产品、CVSS评分等）。
同时，在各大社交平台、安全论坛和代码仓库中，持续搜索与该CVE相关的关键词，如“PoC”（概念验证）、“exploit”（漏洞利用）、“weaponized”（武器化）、“RCE”（远程代码执行）等 34。

当代理发现关于该CVE的漏洞利用代码或讨论开始增多时，它会生成一个高优先级警报。这种自动化的关联分析能够为防御方提供一个宝贵的预警窗口，表明该漏洞被大规模利用的风险正在急剧上升，从而帮助他们更科学地确定补丁修复的优先级。

3.2.3 AI驱动的社交媒体情报（SOCMINT）

除了技术情报，代理还可以利用NLP技术进行更广泛的社交媒体情报（SOCMINT）分析 21。通过对特定群体（如已知的黑客组织或激进主义团体）的公开频道进行情感和行为分析，代理可以识别出正在策划的攻击、正在出售的被盗数据或正在招募成员等活动迹象 36。

3.3 导航阴影地带：爬取暗网

暗网是获取高价值、独家情报的富矿，但也是最具挑战性的狩猎场。其独特的环境给传统爬虫带来了巨大障碍。

3.3.1 独特的挑战

匿名性与访问性：暗网站点通常通过Tor网络访问，需要专门的配置才能连接。站点地址（.onion地址）通常很长且无规律，并且可能频繁更换 36。
内容混淆与语言障碍：为了逃避侦测，暗网用户经常使用俚语、暗语、缩写和故意拼错的词汇。此外，许多论坛使用非英语语言 37。
操作安全（OpSec）：直接访问暗网可能会暴露组织的IP地址或意图，带来安全风险。

3.3.2 AI驱动的解决方案

AI代理为克服这些挑战提供了新的途径：

自主导航与身份管理：代理可以被编程来处理Tor网络的连接复杂性，管理用于访问不同论坛的虚拟身份（包括用户名、密码和用户代理），并自主学习和导航那些没有标准站点地图的论坛结构。
高级NLP用于威胁分析：LLM的强大语言能力在这里得到充分体现。它们可以被微调（fine-tuned）来理解和解码犯罪分子的行话和暗语。通过实体识别技术，代理可以自动从帖子中提取出威胁行为体的别名、加密货币钱包地址、电子邮件等关键实体 36。情感分析则可以帮助判断发帖者的意图，例如区分是在吹嘘、提问还是真实地在出售商品。
市场监控：一个专门的代理可以被部署来持续爬取暗网市场，寻找与本组织相关的特定商品，例如：被盗的员工凭证、公司内网的访问权限、针对公司使用的软件的零日漏洞等 37。正如一些分析师指出的，这类情报的
时效性至关重要。几天前的旧数据很可能已经失效或被广泛传播，变成了无用的“垃圾组合列表”（combo list garbage）39。AI代理的持续监控能力确保了情报的新鲜度。

3.4 保护供应链：扫描代码仓库

软件供应链已成为网络攻击的重要途径。开发者在不经意间将敏感信息提交到公共代码仓库，为攻击者打开了方便之门。

3.4.1 泄露密钥的威胁

将硬编码的凭证（如API密钥、数据库密码、身份验证令牌）提交到公共的GitHub仓库是一个普遍且极其危险的做法 40。传统的、基于正则表达式（regex）的扫描工具虽然能发现一些格式明显的密钥，但误报率高，且难以理解代码的上下文。

3.4.2 LLM驱动的密钥扫描

LLM为此提供了更智能的解决方案。由于LLM能够理解代码的上下文，它可以更准确地判断一个字符串是否真的是一个有效的、正在被使用的凭证，从而大大降低误报率 41。一个名为“硬编码凭证揭示器”（Hard-coded Credential Revealer, HCR）的实验性研究表明，通过向LLM提供包含密钥的代码片段（并隐去密钥本身），可以诱导LLM“补全”出真实的密钥，这证明了LLM在其训练数据中“记忆”了这些泄露的凭证 41。一个防御性的代理可以利用类似的技术，更主动地扫描与本组织相关的代码库，寻找潜在的凭证泄露。

3.4.3 检测恶意代码模式

一个更隐蔽的威胁是“恶意代码建议”（Malicious Code Suggestion）42。攻击者可以创建一个包含后门代码的流行开源库的副本，并将其发布到公共仓库。当开发者使用由LLM驱动的编程助手（如GitHub Copilot）时，这些助手可能会学习到这些恶意代码模式，并将其作为“有用的代码片段”推荐给开发者，从而在不知不觉中将漏洞引入到新的软件项目中。一个专门的“代码情报代理”可以被训练来识别这些已知的恶意代码模式或其它可疑的代码结构（例如，一个库突然引入了网络连接或文件系统操作的功能）。

3.4.4 提示注入与数据泄露风险

当使用AI代理扫描私有代码库时，也引入了新的攻击面。攻击者可以通过在代码库中植入一个精心构造的文件（例如一个README.md文件），对代理进行提示注入（Prompt Injection）。这个恶意提示可能会欺骗代理，使其在扫描代码时执行非预期的操作，例如将私有代码或其中包含的凭证通过网络请求泄露出去 43。

AI代理的部署，将威胁狩猎从一种被动的、由假设驱动的活动，转变为一种主动的、持续的监控能力。传统的威胁狩猎通常是基于活动（campaign-based）的：分析师首先形成一个假设（例如，“我认为威胁行为体X正在使用技术Y攻击我们”），然后去寻找支持该假设的证据 44。而一个AI代理可以被赋予一个持久的、高层次的目标：“持续监控数字生态系统，寻找任何针对本组织品牌、资产或技术栈的威胁。” 代理会自主地将这个宏大目标分解为数百个并发的“微型狩猎”任务：监控特定的CVE、追踪暗网论坛中对公司名称的提及、扫描GitHub中与公司域名相关的密钥泄露等等。这使得威胁发现从周期性的人工活动，转变为全天候的、自动化的、全面的覆盖，组织因此获得了一个不知疲倦的数字“哨兵”。

然而，这种能力的实现也催生了一个全新的、至关重要的领域：“代理式操作安全（Agentic OpSec）”。当代理需要深入敌后（如暗网）进行情报收集时，它们本身就成为了需要保护的资产。这些代理拥有身份、凭证和数字足迹 36。它们的行为必须经过精心设计，以避免被对手追踪到其背后操作的组织。代理的网络流量需要通过代理服务器和匿名网络（如Tor）进行路由 4。它们的执行环境需要在沙箱中运行，以防止自身被渗透。它们在论坛上的“角色”和凭证需要被安全地管理。一个成熟的AI-CTI项目甚至需要编程让代理能够识别和标记潜在的、由对手精心设计的虚假信息活动。这不再是传统CTI的范畴，而是一个全新的、融合了情报、反情报和技术安全的交叉学科。

第四部分：从检测到防御：将AI驱动的情报操作化

发现威胁只是情报工作的开始，其最终目的是指导和加强防御。如果情报无法转化为具体的保护性行动，那么它就失去了价值。本部分将聚焦于构建一个端到端的系统和工作流程，详细说明如何设计AI组件的架构，如何有效地分发情报，以及如何触发响应动作，从而将原始的发现转化为坚实的防御措施。

4.1 设计一个多代理CTI系统架构

对于像威胁情报这样复杂、动态且多方面的任务，试图用一个单一的、庞大的“全能”代理来解决所有问题是低效且不切实际的。实践证明，一个由多个专门化代理组成的团队，其鲁棒性、可扩展性和效率都远超单个代理 10。

4.1.1 多代理系统的优势

采用多代理系统（Multi-Agent System, MAS）的架构，可以将一个庞大而复杂的CTI任务分解为多个更小、更易于管理和优化的子任务。每个代理都可以被训练和优化，以成为其特定领域的“专家”，从而提高整个系统的工作质量和效率。

4.1.2 建议架构：“代理式融合单元”

我们提出一个名为“代理式融合单元”（Agentic Fusion Cell）的多代理系统架构。这个架构模仿了现实世界中情报机构的组织结构，由一个核心协调员和多个领域专家组成。

协调员代理（Orchestrator Agent / “首席分析师”）
这个代理是整个系统的“大脑”和指挥中心。它从人类分析师那里接收高层次的优先情报需求（PIRs）。其核心职责不是亲自执行任务，而是进行任务的分解、规划和委派 18。例如，当收到“评估新型勒索软件‘Phoenix’对本公司金融部门的威胁”这一PIR时，协调员代理会将其分解为如下子任务，并分配给相应的专家代理：
- “任务1：收集所有关于‘Phoenix’勒索软件的公开技术报告和博客文章。” -> 分配给SurfaceWebAgent。
- “任务2：在已知的俄语和英语黑客论坛上监控任何关于‘Phoenix’的讨论、销售或泄露。” -> 分配给DarkWebAgent。
- “任务3：搜索GitHub上是否存在与‘Phoenix’相关的解密器、利用代码或TTPs分析。” -> 分配给CodeIntelAgent。
- “任务4：识别‘Phoenix’利用的已知CVE，并与本公司金融部门的资产漏洞扫描结果进行比对。” -> 分配给VulnerabilityAgent。
成功的关键在于教会协调员如何进行有效的管理。其系统提示（system prompt）必须包含清晰的委派原则：如何定义子任务的目标、如何划定任务边界以避免工作重叠、如何规定统一的输出格式以便于后续综合，以及如何根据查询的复杂性来分配合理的计算资源 18。
专家采集代理（Specialist Collector Agents）
这是一组专注于在特定领域进行数据采集的“一线情报员”。每个代理都针对其狩猎场进行了优化：
- SurfaceWebAgent：精通使用搜索引擎API，监控新闻RSS源和社交媒体流。
- DarkWebAgent：配置了Tor连接，管理着多个论坛身份，并接受过暗网行话的微调训练。
- CodeIntelAgent：熟悉代码结构，能够高效地使用API扫描GitHub和GitLab，并集成了密钥和恶意代码模式的检测逻辑。
- VulnerabilityAgent：定期同步NVD、Exploit-DB等漏洞数据库，能够快速查询和关联CVE信息。
分析与综合代理（Analysis & Synthesis Agent / “融合分析师”）
这个代理是情报处理的中心。它从所有的采集代理那里接收结构化的数据流。其核心任务是关联与融合。例如，它可能会发现DarkWebAgent报告的某个论坛帖子中讨论的攻击技术，恰好与VulnerabilityAgent发现的公司内部一个未修复的漏洞相对应。它负责将这些孤立的数据点连接起来，进行上下文丰富，并最终构建一个全面的情报图景，例如生成一个完整的钻石模型（Diamond Model）30。
人在环路（Human-in-the-Loop, HITL）交互界面
必须强调，这个系统的任何输出都不应被视为绝对的真理。所有经过分析和综合的情报，尤其是在触发高风险响应之前，都必须提交给人类分析师进行最终的验证和确认 5。为此，需要设计一个专门的人机交互界面。这个界面应该：
- 可视化情报：以图表、时间线或关系图的形式清晰地展示情报发现。
- 解释AI的推理过程：展示情报结论是基于哪些原始数据得出的，让分析师可以追溯和审查。
- 提供便捷的交互：允许分析师通过简单的点击就能确认、修正或否决AI的判断，并添加自己的评论和分析 33。

4.2 警报与分发框架

情报的价值在于其可操作性，而可操作性的前提是情报能够及时、准确地送达给需要它的人。一个有效的警报与分发框架是连接情报生产和消费的关键桥梁。

4.2.1 为利益相关者定制情报

不同的利益相关者需要不同粒度和格式的情报 21。一个原始的、充满技术术语的IOC列表对CISO的战略决策毫无帮助，而一份高度概括的战略简报对SOC一线分析师的日常工作也用处不大。因此，系统必须能够将核心情报产品进行“再加工”，以适应不同受众的需求。

4.2.2 自动化报告生成

LLM的自然语言生成（NLG）能力使其非常适合自动化报告撰写这一任务 27。分析与综合代理在形成核心情报判断后，可以调用NLG功能，自动生成多种格式的报告：

技术警报（面向SOC/IR团队）：生成机器可读的高保真IOCs，并以STIX/TAXII等标准格式直接推送到SIEM、SOAR或威胁情报平台（TIP）中，用于自动化的检测和阻断 28。
战术报告（面向威胁狩猎团队）：生成关于特定威胁行为体最新TTPs、攻击工具和潜在攻击向量的详细摘要，为主动狩猎提供弹药。
战略简报（面向管理层）：生成关于新兴威胁趋势、本组织面临的风险敞口以及潜在业务影响的高层次摘要，支持风险管理和战略决策。

4.2.3 实时警报

对于那些需要立即采取行动的紧急、高危情报（例如，系统确认公司生产环境的数据库管理员凭证已在暗网出售），系统必须具备绕过常规报告流程的实时警报机制。这可以通过直接调用PagerDuty、Slack或Microsoft Teams的API，向事件响应团队发送高优先级警报来实现。

4.3 制定响应预案

将情报转化为行动，是CTI生命周期的闭环。响应预案（Playbook）定义了在收到特定类型情报后应采取的具体步骤。

4.3.1 触发自动化响应

对于那些置信度极高且风险可控的情报，可以触发完全自动化的响应流程。这通常通过与SOAR（安全编排、自动化与响应）平台集成来实现。

示例：DarkWebAgent发现一个IP地址被用作C2服务器，Analysis Agent通过多个信源交叉验证后确认其为恶意。系统自动触发SOAR预案，将该IP地址添加到公司所有防火墙和网络代理的黑名单中。

4.3.2 半自动化与人驱动的响应

对于更复杂的威胁，AI的产出应作为人类响应的起点，而非终点。AI负责准备好所有的“战场情报”，由人类指挥官做出最终决策和行动。

示例：系统识别出一个针对本公司员工的新型钓鱼攻击活动。它不会自动去隔离邮箱或删除邮件，而是会立即在事件响应平台（如Jira或ServiceNow）中创建一个高优先级工单。工单中会自动填充所有相关信息：钓鱼邮件的模板、主题、发件人特征，恶意链接或附件的IOCs，以及初步的分析和归属判断。SOC分析师接到工单后，可以立即开始进行深入调查、遏制和根除，无需再从头开始收集信息。

4.3.3 提供主动防御建议

除了对已发现威胁的响应，系统还可以基于预测性分析，生成主动的防御建议。

示例：系统通过持续监控发现，针对本公司正在使用的某品牌VPN设备的漏洞利用讨论正显著增加。系统可以自动生成一条建议：“检测到针对XX品牌VPN的威胁热度上升。建议：1. 立即将所有VPN服务器的补丁级别提升至最新。2. 审查过去7天的VPN访问日志，寻找源自异常地理位置或时间的登录行为。3. 对拥有VPN访问权限的特权账户启用强制性多因素认证。”

通过这种方式，AI驱动的情报系统不仅是一个被动的警报器，更是一个主动的、智能的防御顾问，帮助组织在攻击发生前就加固防线。

第五部分：驾驭风险：AI在CTI中的安全与治理

部署一个如此强大的AI系统，在带来巨大收益的同时，也引入了全新的、复杂的风险。忽视这些风险可能会导致情报失准、系统被滥用，甚至使AI系统本身成为一个新的、关键的攻击面。本部分将对这些风险进行冷静的评估，并提供一个清晰的框架，用于负责任地、安全地部署和运营AI驱动的威胁情报能力。这不仅是技术问题，更是关乎治理、流程和文化的战略挑战。

5.1 双刃剑：安全领域中LLM的固有风险

在将LLM应用于关键的CTI任务之前，必须深刻理解其固有的脆弱性。这些风险不同于传统的软件漏洞，它们源于模型本身的工作原理。

幻觉（Hallucinations）
这是LLM最广为人知的风险之一。模型在缺乏确切知识或被误导时，可能会“编造”听起来合理但实际上完全错误的信息 46。在CTI的背景下，一次幻觉可能导致灾难性后果：模型可能会生成一个虚假的IOC，导致SOC团队浪费大量时间去追查一个不存在的威胁；或者错误地将一个攻击归因于某个APT组织，从而误导战略决策。
数据投毒（Data Poisoning）
这是一个更为阴险的威胁。由于AI代理需要从广泛的外部来源（如博客、论坛、代码库）学习和收集信息，攻击者可以通过污染这些数据源来操纵模型的行为 47。例如，一个精通此道的攻击者可以创建一系列看起来很专业的虚假安全博客，发布带有误导性IOCs的分析报告。如果AI代理采信了这些“有毒”数据，它可能会学会忽略真正的威胁指标，或者将良性活动标记为恶意，从而为攻击者创造可利用的盲区。
提示注入（Prompt Injection）
这种攻击利用了LLM处理输入的方式。攻击者可以在代理将要读取的内容（例如，一个论坛帖子或一个代码文件的注释）中嵌入隐藏的、恶意的指令 48。当代理处理这段内容时，这些恶意指令可能会覆盖其原始任务，诱使其执行非预期的操作，例如：泄露其之前收集到的敏感情报、绕过内容过滤器、或攻击其他系统。
敏感信息泄露（Sensitive Information Disclosure）
LLM在其庞大的训练数据中可能“记住”了某些敏感信息。在没有严格防护的情况下，模型可能会在响应中无意间泄露这些信息 50。对于一个CTI系统而言，风险更在于其在运行过程中接触到的敏感数据。如果一个代理被授权访问公司的私有代码库或内部事件报告，那么它就有可能在后续的交互中泄露这些机密信息。
模型窃取（Model Theft）
一个经过精心微调、专门用于威胁情报分析的LLM本身就是一项极其宝贵的知识产权和战略资产。攻击者可能会试图窃取这个模型，不仅可以获得其背后的情报能力，还可以通过逆向工程来分析其弱点，从而更好地规避其检测 20。

5.2 构建一个有弹性的AI-CTI项目：缓解框架

应对上述风险需要一个多层次的、纵深防御的缓解策略，涵盖技术、流程和治理等多个方面。

数据治理与净化
这是第一道防线。必须将所有输入和输出都视为不可信的。
- 输入净化：实施严格的输入验证和过滤机制，剥离潜在的提示注入攻击代码。为采集代理建立一个“可信来源白名单”，并对来自新来源或不可信来源的情报自动降低其置信度等级 20。
- 输出净化：在将模型的任何输出呈现给用户或发送给其他系统之前，必须通过一个净化层，以检测和删除任何潜在的敏感信息、个人身份信息（PII）或可能有害的内容 20。
安全的模型部署
强烈建议采用“自带LLM”（BYOLLM）的策略 13。通过使用如Ollama等工具在本地（On-premise）或在受信任的私有云环境中部署开源模型，组织可以对模型和数据拥有完全的控制权，从根本上避免了将高度敏感的情报查询和数据发送给第三方商业API提供商的风险。
严格的访问控制与环境安全
- 访问控制：实施严格的、基于角色的访问控制（RBAC），明确规定谁可以与代理交互、谁可以修改其配置、谁可以访问其收集的数据 52。
- 沙箱化执行：在隔离的、容器化的沙箱环境中运行AI代理。即使代理本身被攻击者通过提示注入等方式攻陷，损害也能被限制在沙箱内部，无法扩散到组织的核心网络。
- 控制出站流量：对代理执行环境的出站网络流量进行严格监控和控制。默认情况下应阻止所有非必要的出站连接，只允许代理通过预先批准的、安全的通道（如代理服务器）访问外部资源，以防止数据被非法泄露 52。
人在环路与缓解过度依赖
技术无法完全取代人类的判断力。必须设计一个强制性的人在环路（HITL）工作流，要求所有关键的、高风险的决策和行动都必须经过人类分析师的审查和批准 20。然而，一个更深层次的、非技术性的威胁是人类团队的
过度依赖（Overreliance）。当AI系统在95%的情况下都表现出色时，分析师会自然而然地产生信任，并可能在没有进行足够严格审查的情况下就批准其建议。这种“自动化偏见”是极其危险的。一个聪明的攻击者可以利用这一点，发动一次缓慢的、低调的攻击，他们不需要在技术上攻破模型，只需要引入一个微妙的错误或虚假信息，让过度依赖的分析师团队接受即可。因此，缓解过度依赖不仅需要技术上的HITL界面，更需要文化和流程上的建设：进行持续的培训，强调批判性思维；强制执行验证流程，要求分析师记录其验证步骤；甚至在UI设计上主动对抗自动化偏见，例如突出显示AI的不确定性或要求用户为批准关键操作提供理由。
持续监控与红队演练
将AI-CTI系统视为一个关键的生产应用，对其进行持续的安全监控。记录所有代理的活动、查询和输出，并使用异常检测算法来发现潜在的滥用或危害迹象。此外，应组建一个专门的“AI红队”，其任务就是模拟攻击者，主动地、持续地尝试攻击本方的AI代理系统（例如，尝试各种提示注入、数据投毒技术），以便在真正的攻击者利用它们之前，主动发现并修复这些漏洞 20。

下表作为一个实用的风险登记和行动计划，将抽象的AI风险转化为具体的CTI场景，并提供了可操作的缓解措施，帮助安全领导者将理论上的担忧转化为可管理的控制措施。

表3：CTI背景下的LLM安全风险与缓解策略

风险类别	描述	具体CTI场景示例	技术缓解策略	流程/治理缓解策略
幻觉	模型生成不准确或虚构的信息。	代理生成了一个不存在的恶意软件哈希，导致SOC团队浪费数小时进行无效的威胁狩猎。	1. 使用RAG架构，将模型响应“接地”到具体的、可验证的信源。2. 对模型的输出进行交叉验证（如查询多个外部信源）。3. 在UI中明确标示情报的来源和置信度。	1. 强制要求分析师在采取行动前，必须验证关键IOC的原始来源。2. 建立“双人复核”制度，用于处理高影响力的情报。
数据投毒	训练或输入数据被恶意污染，导致模型行为被操纵。	攻击者创建虚假安全博客，发布带有误导性IOCs的报告，“训练”代理忽略一个真实的攻击活动。	1. 建立可信数据源的白名单和评级系统。2. 对收集到的情报进行异常检测，标记与已知模式显著偏离的数据点。3. 定期重新评估和审计数据源的质量。	1. 制定严格的数据源引入流程，新来源需经审查。2. 在分析师培训中加入识别虚假信息和对抗性宣传的课程。
提示注入	攻击者通过精心构造的输入来控制模型的行为。	代理在扫描一个公共论坛时，读取了一个包含恶意提示的帖子，该提示诱使代理将其收集到的内部漏洞信息发送到攻击者控制的URL。	1. 对所有外部输入进行严格的净化和转义。2. 在沙箱环境中运行代理，并严格限制其网络出站权限。3. 使用多个模型或技术来检测和过滤潜在的恶意提示。	1. 最小权限原则：仅授予代理完成其任务所必需的最低权限。2. 建立清晰的事件响应预案，用于处理代理行为异常的情况。
过度依赖	人类用户无条件信任模型的输出，导致错误被放大。	分析师习惯于AI的高准确率，在疲劳状态下，未经验证就批准了AI基于一条被投毒信息生成的“封禁某业务IP”的建议，导致业务中断。	1. 在UI设计中，对需要人工干预的决策点设置“摩擦力”，如要求用户填写批准理由。2. 记录所有人工批准的操作，用于事后审计。	1. 实施强制性的、定期的“批判性思维”和“反自动化偏见”培训。2. 建立不指责的文化，鼓励分析师报告和质疑AI的可疑输出。

5.3 未来轨迹：网络攻防与监管中的AI

AI在网络安全领域的应用正沿着一条不可逆转的道路前进，这将深刻地影响未来的攻防格局和监管环境。

不断升级的AI军备竞赛
防御方在利用AI的同时，必须清醒地认识到，攻击方也在做同样的事情，甚至可能更快 11。攻击者将利用AI来生成更具欺骗性的钓鱼邮件、编写能够规避检测的多态性恶意软件、以及更快地发现和利用零日漏洞。未来的网络空间对抗，将在很大程度上是AI系统与AI系统之间的对抗 56。防御的成功将取决于其AI系统的学习速度、适应能力和弹性。
新兴的监管格局
各国政府和国际组织已经意识到了AI带来的系统性风险，并开始着手建立监管框架。美国的CISA、NIST，以及欧盟等机构，都在积极制定关于安全AI系统开发、部署和运营的指南和法规 57。这些法规普遍强调“设计安全”（Secure by Design）的原则，要求在AI产品的整个生命周期中都必须嵌入安全考量 58。这意味着，未来的AI-CTI项目不仅要追求功能上的强大，还必须满足日益严格的合规要求。

这种监管的推动力，将迫使传统上分离的领域走向融合。过去，应用安全（AppSec）团队关心代码漏洞，而机器学习运维（MLOps）团队关心模型性能。但AI带来的新风险（如提示注入、数据投毒）是两者的混合体。因此，一个名为“AI安全态势管理”（AI Security Posture Management, AI-SPM）的新兴学科正在形成。构建AI-CTI系统的团队将不能再仅仅由数据科学家组成，而必须是一个包含安全工程师、MLOps专家和合规专家的跨职能团队。

结论与战略建议

本报告系统性地探讨了由大型语言模型驱动的代理式爬虫技术，及其在重塑网络威胁情报领域的巨大潜力。我们从技术范式的演变出发，剖析了代理式系统的核心组件，并将其与传统的CTI生命周期进行对标，展示了其在自动化、效率和深度方面的革命性优势。同时，我们也深入分析了在真实世界中部署这些代理进行主动威胁狩猎的具体战术，以及构建一个可操作的、端到端的智能融合系统的架构蓝图。

然而，强大的能力总是伴随着重大的责任。我们必须清醒地认识到，这项技术是一把双刃剑，其固有的风险（如幻觉、数据投毒、提示注入和过度依赖）要求我们建立一个全面而稳健的安全与治理框架。

最终，我们可以得出以下核心结论和战略建议：

采纳AI是战略必然：在网络攻防日益演变为AI对抗的背景下，被动地依赖传统情报手段将使组织处于严重的劣势。投资和部署AI驱动的威胁情报能力，不再是一个可选项，而是一个关乎生存和竞争力的战略必然。
从“工具”思维转向“团队”思维：成功的关键不在于购买或构建一个“最好的”AI工具，而在于构建和管理一个高效的“人机团队”。人类分析师的角色必须从数据处理者转变为AI战略家、教练和最终的决策者。组织应大力投资于分析师的再培训，使其掌握指导、验证和优化AI代理的新技能。
安全必须“左移”并贯穿始终：AI-CTI系统的安全不能是事后的附加品。必须从项目立项之初就将安全和治理融入其中。这包括采用“自带LLM”的部署模式以确保数据主权，在隔离的沙箱环境中运行代理，建立严格的数据治理和净化流程，以及通过持续的红队演练来主动发现和弥补安全漏洞。
建立“零信任”的验证文化：尽管AI系统将日益强大，但“无条件信任”是通往灾难的捷径。组织必须在技术流程和团队文化中根植一种健康的怀疑主义。所有关键情报都应经过交叉验证，所有高风险行动都必须得到人类的明确批准。必须通过制度和培训，积极对抗“自动化偏见”和“过度依赖”的认知陷阱。
为未来的监管做好准备：全球范围内的AI监管浪潮已经到来。组织在构建其AI-CTI能力时，必须密切关注新兴的法律和合规要求，确保其系统在设计、开发和运营的各个环节都符合“设计安全”和负责任AI的原则。

总之，代理式威胁情报的时代已经开启。那些能够不仅掌握这项技术，更能驾驭其复杂性、管理其风险，并将其无缝地融入一个以人类智慧为核心的情报流程中的组织，将在未来变幻莫测的网络安全战场上获得决定性的优势。

Daily Study ​

Daily Plan ​

Claude Code ​

代理式威胁情报：利用LLM驱动的爬虫实现主动威胁发现的框架 ​

第一部分：代理式爬虫的黎明：一个新的技术前沿 ​

1.1 从网络抓取到代理式深度研究：一场范式转移 ​

1.1.1 传统爬虫的局限性 ​

1.1.2 LLM驱动的抓取技术的兴起 ​

1.1.3 代理式深度研究的出现 ​

1.1.4 代理式系统的核心能力 ​

1.2 AI驱动的代理式爬虫剖析 ​

1.2.1 LLM核心（“大脑”） ​

1.2.2 状态管理（“记忆”） ​

1.2.3 浏览器自动化（“双手”） ​

1.2.4 内容处理（“理解”） ​

1.2.5 工具使用（“工具带”） ​

1.3 现代工具箱：项目与框架概览 ​

1.3.1 工具分类法 ​

1.3.2 开源项目深度剖析：WebRover ​

1.3.3 面向AI的专用爬虫 ​

第二部分：将AI代理融入威胁情报生命周期 ​

2.1 用AI重塑CTI生命周期 ​

2.1.1 传统CTI生命周期 ​

2.1.2 AI加速的生命周期 ​

2.2 AI增强的收集：自动化搜寻原始情报 ​

2.3 智能处理与分析：从原始数据到可操作洞见 ​

2.3.1 自动化数据结构化 ​

2.3.2 自动提取与丰富IOCs和TTPs ​

2.3.3 威胁关联与建模 ​

第三部分：主动狩猎：在野外部署AI代理 ​

3.1 跨威胁地貌的战略部署 ​

3.2 在表层网络与社交媒体上狩猎：连接碎片化的信息点 ​

3.2.1 监控早期预警信号 ​

3.2.2 关联CVE与漏洞利用讨论 ​

3.2.3 AI驱动的社交媒体情报（SOCMINT） ​

3.3 导航阴影地带：爬取暗网 ​

3.3.1 独特的挑战 ​

3.3.2 AI驱动的解决方案 ​

3.4 保护供应链：扫描代码仓库 ​

3.4.1 泄露密钥的威胁 ​

3.4.2 LLM驱动的密钥扫描 ​

3.4.3 检测恶意代码模式 ​

3.4.4 提示注入与数据泄露风险 ​

第四部分：从检测到防御：将AI驱动的情报操作化 ​

4.1 设计一个多代理CTI系统架构 ​

4.1.1 多代理系统的优势 ​

4.1.2 建议架构：“代理式融合单元” ​

4.2 警报与分发框架 ​

4.2.1 为利益相关者定制情报 ​

4.2.2 自动化报告生成 ​

4.2.3 实时警报 ​

4.3 制定响应预案 ​

4.3.1 触发自动化响应 ​

4.3.2 半自动化与人驱动的响应 ​

4.3.3 提供主动防御建议 ​

第五部分：驾驭风险：AI在CTI中的安全与治理 ​

5.1 双刃剑：安全领域中LLM的固有风险 ​

5.2 构建一个有弹性的AI-CTI项目：缓解框架 ​

5.3 未来轨迹：网络攻防与监管中的AI ​

结论与战略建议 ​