
CyberLLaMA:用于网络安全命名实体识别的微调大型语言模型
下图是文章的摘要。
针对网络安全的命名实体识别(NER)在应对日益复杂的网络威胁和不断演变的网络安全挑战中至关重要。虽然深度学习方法构成了现代NER任务的基础,但由于最新的网络安全数据集可用性有限以及网络安全术语的独特特性(行话、缩写和快速演变的词汇),它们在解决网络安全特定NER任务方面仍有所不足。为了填补这一空白,我们(i)汇编了一个包含42404篇文章的语料库,并手动标注了4788个独特的安全术语,(ii)提出了CyberLLaMA——一个框架,用于微调LLaMA-3.2-3B模型,并堆叠双向LSTM加上条件随机场层以保持标签一致性。在保留的测试集上,CyberLLaMA达到了98.88%的F1分数,超越了RoBERTa、SCBERT和GPT-NER。结果表明,作为网络安全NER任务的有效解决方案,CyberLLaMA通过增强文本中网络安全信息的提取,为网络安全专业人士和普通公众提供了实际价值。
介绍了网络安全相关文本的数据集构造过程。
从大量的文本中,根据主题建模方法,筛选出与信息安全相关的文章。
最初,基于早期研究[62],进行了一项用户研究,来自IT和非IT背景的人员在选定的文本中对安全相关术语进行注释。根据前述研究[62],通过使用潜在狄利克雷分配(LDA)[63]的主题建模[63]方法选择代表性文本。LDA是在Python中使用gensim库[64]实现的,LDA模型估计了文档间主题的分布,并使用一致性度量确保得到的主题对人类可解释。在尝试了不同数量的主题后,我们确定十个主题达到了最高的一致性。这些主题从政府/公司报告到网络攻击和恶意软件,涵盖了数据集的全部范围,从中我们随机选择每个主题20篇文章,最终得到了一组包含200篇代表性文章的集合供参与者手动注释。通过这一过程,构建了一个初步的候选语料库。与此同时,我们采用了一种自动术语识别方法[65]来处理网络安全文章的数据集,通过比较特定领域语料库中的词频与通用语料库中的词频来量化术语的重要性,从而构建另一个候选的特定安全语料库。
从上表的实验可以看出,gpt-4o的效果最差,这是因为没有微调gpt-4o,导致实体边界预测不准。CyberLLaMA模型的基座是 LLama,使用了更强大的基座,模型效果显然应该就更好。
下面是消融实验。
这篇论文给我的启发是:这篇文章与BERT-lstm-crf系列的文章很相似,把基座模型从BERT换成了Llama。LLama的参数量很大,语意理解能力更强。
本文转载自AI悠闲区,作者:AI悠闲区
