Daily Study

更新: 6/10/2025 字数: 0 字时长: 0 分钟

Daily Plan

#todo

写博客
对比PentestGPT和D-Cipher ✅ 2025-06-08

D-CIPHER

论文链接：2502.10931

代码链接：NYU-LLM-CTF/nyuctf_agents: The D-CIPHER and NYU CTF baseline LLM Agents built for NYU CTF Bench

ATT&CK知识链：一文说清楚MITRE ATT&CK威胁框架-先知社区

创新点：

规划者-执行者系统，由规划者代理生成计划并管理整体问题的解决，以及多个执行者代理专注于各自分配的任务。
自动提示器代理，它能根据最初的探索动态生成提示，以解决挑战。

Benchmark：

NYU CTF Bench，同时还将该Bench映射到ATT&CK techniques上进行评估
Cybench
HackTheBox

涉及到的LLM模型：

Claude 3.5 Sonnet (claude 3-5-sonnet-20241022)
GPT 4 Turbo (gpt-4-turbo-2024-04 09)
GPT 4o (gpt-4o-2024-11-20)
LLaMa 3.1 405B (meta llama/Meta-Llama-3.1-405B-Instruct-Turbo)
Gemini 1.5 Flash (gemini-1.5-flash)

实验配置：每次运行D-CIPHER执行一个CTF任务

a total cost limit of $3
a temperature of 1.0 for each LLM
5 max rounds for the Auto-prompter
30 max rounds for the Planner
100 max rounds for each Executor
each Executor’s conversation history is truncated to last 5 actions and observations

实验1：对比了如下框架在三个Benchmark上的Performance，结果如图：

NYU CTF baseline：NYU之前提出的基础框架
EniGMA
D-CIPHER
D-CIPHER w/o auto-prompter：去掉auto-promper部分，这里相当于Ablation Study
D-CIPHER w/o planner：去掉planner部分

实验2：针对D-CIPHER中的Planner和Executor，其中Planner使用最新模型，Executor使用较弱的模型，结论是Planner和Executor任务都很复杂，需要更强的模型。

实验3：针对大模型设置不同的Temperature，分为1.0和0.95，结论是较高的温度可提供创造和生成能力，有助于解决问题

实验4：为了与EnIGMA对比，使用ENIGMA论文中的测试模型Claude 3.5Sonnet (claude-3-5-sonnet-20240620)，进行对比实验，结论是D-CIPHER 的性能优于 EnIGMA，但成本却几乎是 EnIGMA 的 2 倍。这一方面证明了多代理系统的优势，另一方面也强调了LLM 能力的重要性。

实验5：针对D-CIPHER在NYU CTF Bench上退出原因的探究，分为了如下5种情况：

Solved
Giveup：the Planner gives up
Max cost：the cost budget is exceeded
Max rounds：the Planner conversation rounds are exhausted
Error 结论表明：Claude3.5主要是由于cost限制，说明它尽可能的执行任务直到超额，而GPT4和CPT4o的分布类似，说明他们俩的模型能力接近。后面的Discussion部分还对失败原因进行了讨论。主要包括：
Auto-prompter fails to generate prompt：直到达到auto-prompter的最大轮数，也没有成功生产 Prompt，这种情况就只能使用 hard-coded prompt template
Agent produces no action：尽管在告诉LLM可以调用Delegate自动执行的前提下，LLM还是认为应该由人类去执行，从而生成语法错误的指令
Hallucinates CTF information：幻觉
Confusion with interactive tools：主要是执行指令时，得通过shell，没有交互界面导致
Calling non-existent functions:

实验6：针对D-CIPHER在NYU CTF Bench上，所有Agents的执行会话轮数分布的实验，结论表明：

只解决了较容易的挑战，在较长的挑战上失败
足够早的找到正确路径，挑战才能够得到解决
Claude3.5 比 GPT 运行的轮数普遍更多

实验7：首先人工标注了200多个CTF任务对应的MITRE ATT&CK 技术矩阵，然后针对 3 种实验框架解决的 CTF 任务时使用到的 ATT&CK技术进行统计。结论中 Sonnet w/o autoprompt 竟然表现的更好，后面的Discussion部分就具体针对带autoprompt表现差的几个CTF题进行具体的讨论和分析原因。

PentestGPT

HackTheBox Scenarios | GreyDGL/PentestGPT | DeepWiki

Daily Study ​

Daily Plan ​

D-CIPHER ​

PentestGPT ​

Daily Study

Daily Plan

D-CIPHER

PentestGPT