核心发现
方法论
本文采用真实攻击工具在Windows端同步采集系统、网络和浏览器日志,构建了包含70个攻击会话和800个正常会话的多源日志数据集。每个会话持续20分钟,涵盖12个ATT&CK战术和53个技术,标注恶意事件的ATT&CK技术ID。利用LoRA对Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini三款小型语言模型进行微调,分别在块分类和ATT&CK技术识别任务上进行评估。实验显示微调显著提升模型性能,块分类准确率从8%提升至90-97%,技术识别的精确匹配最高达42%。
关键结果
- 数据集包含870个会话,约2.3百万事件,覆盖12个ATT&CK战术和53个技术,全部由真实攻击工具生成,确保真实性和多样性。
- 微调后模型在块分类任务中准确率从8%跃升至90%-97%,验证数据中模型表现优异,具备实际应用潜力。
- ATT&CK技术识别仍具挑战,最高精确匹配率为42%,但部分匹配得分较高,表明模型已捕获大部分推理逻辑。
研究意义
该研究填补了公开数据集缺乏多源、多技术细粒度ATT&CK标签的空白,为多源攻击检测模型的训练和评估提供了基础。通过真实攻击工具生成数据,增强了模型的实用性和泛化能力,有助于提升网络安全防御的自动化水平,推动深度学习在多源日志分析中的应用。该数据集和评估框架为未来多源、多任务的攻防研究奠定了基础,具有重要的学术和工业价值。
技术贡献
本研究的核心技术贡献在于:1)首次构建了同时包含系统、网络和浏览器三源的多源日志数据集,并在每条事件上标注ATT&CK技术ID,覆盖广泛战术和技术;2)采用真实攻击工具模拟多阶段攻击,确保数据真实性;3)引入LoRA微调技术,有效适应大规模预训练模型,显著提升模型在多源攻击检测中的性能。此方法结合了多源信息融合与高效微调,为复杂场景下的攻防模型提供了新思路。
新颖性
本研究的创新点在于:首次实现了多源日志的同步采集与ATT&CK级别的细粒度标注,弥补了现有公开数据集的不足。同时,结合真实攻击工具和LoRA微调技术,验证了模型在复杂多源环境中的学习能力。这在多源、多任务安全检测领域尚属首次,为后续研究提供了宝贵的数据资源和技术方案。
局限性
- 数据集规模虽大,但仍局限于Windows端,未来应扩展到其他操作系统和设备类型以增强泛化能力。
- 攻击场景虽多样,但仍受控于模拟环境,实际复杂环境中的表现仍需验证。
- ATT&CK标签的细粒度标注依赖于攻击工具的可追溯性,可能存在漏标或误标的风险。
未来方向
未来应扩大数据集规模,涵盖更多操作系统和设备,提升多源数据的多样性。探索更深层次的模型微调技术,如Prompt Tuning,提升技术识别的准确率。结合主动学习和半监督学习方法,减少标注成本,增强模型的自适应能力。此外,研究多源信息融合的深度学习架构,提升跨源关联能力,为实际攻防场景提供更强的技术支撑。
AI 总览摘要
在现代网络环境中,复杂的多阶段攻击不断演变,跨越系统、网络和浏览器多个层面,给安全防御带来巨大挑战。传统的检测方法多依赖单一源或简单规则,难以捕获攻击的全貌。为应对这一难题,本文提出了一套完整的多源日志采集与标注体系,构建了包含870个会话、约2.3百万事件的高质量数据集,涵盖真实攻击工具模拟的多阶段攻击场景。该数据集同步采集系统、网络和浏览器日志,利用ATT&CK框架对恶意事件进行细粒度标注,为多源攻击检测提供了丰富的训练和评估资源。
通过在此基础上,作者采用LoRA微调技术对三款小型语言模型(Qwen2.5-1.5B、Llama-3.2-3B、Phi-4-Mini)进行优化,显著提升了模型在块分类和ATT&CK技术识别任务中的性能。实验结果显示,微调后模型在块分类任务中的准确率从约8%跃升至90%以上,技术识别的精确匹配率最高达42%。这些成果证明了数据集的高质量和模型微调的有效性,为未来多源、多任务的安全检测提供了有力的技术基础。
该研究的意义在于:一方面,填补了公开多源日志数据集缺乏ATT&CK细粒度标签的空白,推动了多源攻防模型的研究;另一方面,结合真实攻击工具和高效微调技术,增强了模型在实际环境中的应用潜力。未来工作将致力于扩展数据集规模,提升模型泛化能力,探索更深层次的多源信息融合架构,推动网络安全自动化检测迈向更高水平。这一系列创新为网络安全领域的深度学习应用提供了宝贵的资源和思路,有望显著提升网络防御的智能化水平。
深度分析
研究背景
随着信息技术的快速发展,网络攻击手段不断演变,从早期的单一攻击向多阶段、多源协同攻击转变。传统的安全检测方法多依赖签名或规则,难以应对复杂多变的威胁。近年来,研究者开始关注多源日志数据的整合与分析,试图通过融合系统、网络和浏览器的日志信息,实现对攻击行为的全景感知。早期的数据集如KDD Cup 1999、NSL-KDD主要关注网络流量,缺乏主机和浏览器信息。CICIDS和UNSW-NB15虽涵盖网络流量,但未涉及主机和浏览器端的细粒度数据。近年来,诸如ATLAS和ATLASv2开始尝试整合多源数据,但仍缺乏ATT&CK标签的细粒度标注,限制了模型的学习能力。现有的多源数据集大多由模拟攻击生成,缺乏真实攻击工具的支持,影响模型的实用性和泛化能力。综上,构建一个真实、多源、细粒度标注的攻击数据集,成为当前网络安全研究的迫切需求。
核心问题
多源日志的同步采集与细粒度标注一直是网络安全中的难点。现有数据集多为单一源或缺乏攻击标签,难以支持跨源关联分析。多阶段攻击的复杂性要求模型同时理解系统、网络和浏览器的行为,但缺乏高质量的训练数据。此外,真实攻击工具的使用增加了数据的真实性,但也带来了数据采集和标注的技术难题。如何在保证数据真实性的基础上,系统性地标注每个事件的ATT&CK技术,成为核心难题。这不仅关系到模型的学习效果,也影响到实际应用中的检测准确率。解决这一问题,需在数据采集、同步、标注和模型训练等环节进行创新,确保数据的完整性和标注的准确性。
核心创新
本研究的创新点主要包括:1)同步采集系统、网络和浏览器日志,确保多源数据的时间一致性,解决多源数据整合难题;2)采用真实攻击工具模拟多阶段攻击,确保数据的真实性和复杂性,为模型提供真实场景训练基础;3)基于ATT&CK框架,为每个恶意事件标注细粒度技术ID,实现攻击行为的精细化识别;4)引入LoRA微调技术,有效适应大规模预训练模型,提升多源攻击检测的性能。这些创新结合了多源信息融合、真实攻击模拟和高效微调,为多源、多任务的攻防模型提供了新思路。
方法详解
- �� 数据采集:在Windows端同步采集系统、网络和浏览器日志,采用Sysmon、tshark和Activity Watch,确保多源数据的时间同步。• 攻击模拟:利用真实攻击工具(如Revenge-RAT、Process Hacker、rclone等)设计多场景攻击,包括初始访问、权限提升、横向移动、数据窃取和勒索等,确保攻击行为的真实性和多样性。• 标注流程:根据攻击日志追踪,手动标注每个事件对应的ATT&CK技术ID,构建细粒度标签体系。• 特征工程:将连续事件划分为包含7个事件的块(chunk),每块附带会话ID、块索引和事件数,作为模型输入。• 微调模型:采用LoRA技术对Qwen2.5-1.5B、Llama-3.2-3B和Phi-4-Mini进行微调,调整参数以适应安全任务。• 评估指标:在块分类和ATT&CK技术识别任务中,使用准确率、精确率、召回率、F1-score等十项指标进行性能评估。
实验设计
实验设计包括:在真实攻击环境中采集870个会话,分为70个攻击会话和800个正常会话,确保数据多样性和真实性。采用真实攻击工具模拟多阶段攻击,涵盖12个ATT&CK战术和53个技术。模型训练采用随机划分的训练集、验证集和测试集,利用LoRA微调技术优化模型参数。对比基线模型(未微调)和微调模型在块分类和技术识别两个任务上的性能,重点关注准确率和精确匹配率。通过多轮实验验证微调效果,分析不同模型在不同攻击场景中的表现差异,并进行消融实验,评估每个技术环节的贡献。
结果分析
微调后,三款模型在块分类任务中的准确率从约8%提升至90%-97%,验证了数据集的高质量和模型的学习能力。在ATT&CK技术识别方面,最高精确匹配率达42%,部分匹配得分较高,表明模型已掌握大部分推理逻辑。不同模型在不同任务中的表现略有差异,说明模型结构和微调策略影响检测效果。消融实验显示,真实攻击工具的引入显著提升模型的泛化能力,数据标注的细粒度增强了模型的识别能力。这些结果充分验证了数据集的实用性和微调技术的有效性,为未来多源安全检测提供了技术基础。
应用场景
该数据集和模型微调技术可直接应用于企业安全运营中心(SOC),提升多源攻击检测的自动化水平。模型可用于实时监控系统、网络和浏览器日志,自动识别潜在威胁,辅助安全分析。未来还可结合主动学习和半监督学习,降低标注成本,增强模型适应性。长远来看,推动多源数据融合架构的发展,实现跨源、多任务的攻防智能系统,提升整体网络安全防御能力。这对于应对日益复杂的网络威胁、实现安全自动化具有重要意义。
局限与展望
目前数据集规模有限,主要集中在Windows端,未来需扩展到多平台、多设备环境以增强泛化能力。攻击场景虽丰富,但仍为模拟环境,实际复杂环境中模型表现尚需验证。ATT&CK标签的标注依赖攻击工具的追溯性,可能存在漏标或误标风险。此外,模型微调虽提升性能,但在极端或未知攻击场景下的鲁棒性仍需验证。未来应结合多源信息融合的深度学习架构,提升模型的抗干扰能力和泛化能力。
通俗解读 非专业人士也能看懂
想象你在一家大型工厂工作,工厂里有很多不同的部门:生产线、仓库、办公室。每个部门都在记录自己的活动,比如生产的产品、仓库的库存、员工的电脑操作。工厂管理者希望通过这些记录,及时发现任何异常,比如有人偷偷拿走东西或生产线出了问题。传统方法可能只看某一部分,比如只关注仓库的库存,但这样很容易漏掉一些线索。
现在,假设工厂引入了一套智能系统,可以同时查看所有部门的记录,并且每次发现异常时,都能告诉管理者具体是哪一步出了问题,比如“有人在仓库偷偷拿东西”或“生产线突然停工”。这就像本文中的多源日志系统,收集了系统、网络和浏览器的行为数据,帮助检测多阶段攻击。通过结合这些信息,管理者可以更快、更准确地识别潜在威胁,保护工厂的安全。这个过程就像把不同的线索拼成一幅完整的画面,让安全变得更智能、更高效。
简单解释 像给14岁少年讲一样
你知道学校里每个学生的表现都在老师的记录里吗?老师会记下你上课的表现、借书的情况、参加的活动。假如有人在偷偷做坏事,比如在考试作弊、偷带东西,老师如果只看其中一项,比如只看考试成绩,可能会漏掉一些线索。可是,如果老师同时查看你在课堂上的表现、借书记录和课外活动,就能更全面地了解你的行为。
这就像研究人员收集电脑系统、网络和浏览器的日志信息,试图找出那些偷偷做坏事的黑客。每个日志就像老师的不同记录,只有结合起来,才能发现隐藏的攻击行为。通过这种多源、多角度的观察,安全人员可以更快地识别出潜在的威胁,就像老师能更好地了解学生的行为一样。这种方法让网络安全变得更聪明、更全面,也更可靠。
术语表
ATT&CK框架 (ATT&CK Framework)
由MITRE开发的一个公开知识库,描述攻击者的战术和技术,用于安全分析和检测。
本文利用ATT&CK框架对恶意事件进行细粒度标注。
LoRA (Low-Rank Adaptation)
一种微调预训练模型的方法,通过冻结原模型参数,只训练少量适配层,提升效率。
本文采用LoRA对小型语言模型进行微调以增强攻击检测能力。
多源日志 (Multi-Source Log)
同时记录系统、网络和浏览器行为的日志,用于全面分析攻击行为。
本文构建的核心数据集即为多源日志。
块 (Chunk)
由7个时间戳事件组成的结构化数据单元,作为模型输入。
模型通过分析块中的事件序列识别攻击行为。
ATT&CK战术 (ATT&CK Tactics)
攻击者实现目标的策略类别,如初始访问、权限提升等。
标签中的每个事件都对应一个ATT&CK战术。
ATT&CK技术 (ATT&CK Techniques)
实现战术的具体方法,如钓鱼、DLL注入等。
事件被标注为具体的ATT&CK技术ID。
真实攻击工具 (Real Attack Tools)
实际使用的恶意软件和脚本,而非模拟或合成的攻击。
确保数据的真实性和攻击场景的复杂性。
微调 (Fine-Tuning)
在预训练模型基础上,使用特定任务数据进行参数调整的过程。
提升模型在安全检测任务中的表现。
模型性能指标 (Model Performance Metrics)
衡量模型准确率、召回率、F1-score等性能的指标。
用于评估微调模型的检测能力。
多阶段攻击 (Multi-Stage Attack)
攻击过程包含多个连续步骤,涉及不同技术和战术。
数据集模拟了真实复杂的攻击流程。
开放问题 这项研究留下的未解疑问
- 1 虽然本研究构建了丰富的多源日志数据集,但其规模和场景仍有限,未来应扩展到更多操作系统、设备类型和攻击场景,以提升模型的泛化能力。此外,如何在保持数据真实性的同时,减少标注成本、实现自动化标注,也是未来亟需解决的问题。当前模型在极端或未知攻击场景下的鲁棒性仍待验证,未来应结合主动学习和半监督学习技术,提升模型的适应性和自我优化能力。此外,深度融合多源信息的模型架构仍需创新,以实现更高效的跨源关联和推理能力。
应用场景
近期应用
企业安全监控
企业可以利用该数据集训练模型,实时监控系统、网络和浏览器日志,自动识别潜在威胁,提升安全响应速度。
安全运营中心(SOC)辅助决策
结合微调模型,SOC分析师可以更快地筛查海量日志,准确定位攻击行为,减轻工作负担。
威胁情报分析
安全团队可以利用模型识别攻击技术,为威胁情报提供细粒度的技术细节支持,提升威胁追踪能力。
远期愿景
智能化攻防系统
未来可发展为全自动、多源、多任务的攻防一体化平台,实现全天候自主检测和响应。
跨平台多源融合架构
推动多源数据的深度融合,支持多操作系统、多设备环境,构建更全面的安全防护体系。
原文摘要
Multi-stage cyberattacks span system, network, and browser logs. Detecting them requires correlating events across all three sources. Machine learning methods can learn these cross-source patterns, but they need labeled multi-source data. Existing public datasets fall short. Network-only datasets such as CICIDS and UNSW-NB15 miss host and browser activity. Host-focused datasets such as LMDG and CICAPT-IIoT lack browser telemetry. ATLAS includes all three sources but labels events only as malicious or benign, without MITRE Adversarial Tactics, Techniques, and Common Knowledge (ATT&CK) technique granularity. No public dataset combines all three sources with per-entry ATT&CK technique labels. We close the gap by building a multi-source log dataset of 870 sessions (70 attack, 800 benign) and approximately 2.3 million events. We captured system, network, and browser activity simultaneously on Windows endpoints. We labeled malicious events with ATT&CK technique IDs, covering 12 tactics and 53 techniques. We generated all attack data using real tools, including Remote Access Trojan (RAT), Command and Control (C2) tunnels, and cloud exfiltration. To demonstrate learnability, we fine-tuned three Small Language Models (SLMs) (Qwen2.5-1.5B, Llama-3.2-3B, Phi-4-Mini) using Low-Rank Adaptation (LoRA). We compared each against its base variant across ten metrics on two tasks: chunk classification and ATT&CK technique identification. Fine-tuning improved every model on every metric. Chunk classification accuracy rose from approximately 8% in the base variants to between 90% and 97% after fine-tuning. Technique identification remained challenging, with the best exact-match accuracy at 42%, although high partial-match scores show the models captured most of the underlying reasoning.