CASIE: Extracting Cybersecurity Event Information from Text阅读总结

Purpose

本文提出了CASIE系统,该系统从文本中提取有关网络安全数据的知识图谱中。

B 通过从新闻文章中提取网络安全事件,能够帮助我们了解当前的趋势和抽取网络安全事件和生活中的事件不同之处有两点:一是需要的专业领域知识不同;二是网络安全事件的复杂性更高,一个网络攻击事件可以包含带有多个动作的攻击模式,尝试或完成。每提及此类行动都可视为是单独的网络安全事件描述,从而增加了网络安全事件参考的可能选择。

术语解释

术语Event nugget是能够清楚表达事件的单词或短语。

Event argument是事件参与者或属性值,可以是事件中涉及的可标注实体(如个人或组织),也可以是指定重要信息的属性(如时间或数量)。

Role 是nugget和argument间的语义关系,每个事件类型都指定它可以拥有的角色,以及对填充这些角色参数的约束。

Realis指定事件是否发生。

标注者间信度(inter-annotator agreement)用来衡量任务中人类评分者意见一致的指标。使用 Cohen’s Kappa score ,0.81~0.99为接近完美的表现。另外还构造了标签混淆矩阵(包括5种事件类型和20个事件参数),发现最不容易混淆的标签是CVE、时间和金钱。最容易混淆的标签如表所示。

Methods

网络安全事件抽取

表中定义了可以填充每个事件类型的基本角色和参数。我们进一步将这两种事件类型细分为五个事件子类型。
CASIE: Extracting Cybersecurity Event Information from Text阅读总结
a. Attack.Databreach数据外联,破坏系统并删除数据。
b. Attack.Phishing钓鱼,模仿另一个实体,试图让受害者访问恶意链接等。
c. Attack.Ransom勒索,侵入系统加密数据,并索要赎金。
d. Discover.Vulnerability安全专家或公司发现漏洞
e. Patch.Vulnerability软件公司通过发布更新来解决已有漏洞。
CASIE: Extracting Cybersecurity Event Information from Text阅读总结

系统设计和架构

CASIE包括6个步骤:事件线索检测、事件参数检测、事件参数和角色链接、事件可能性识别、事件关联、CASIE: Extracting Cybersecurity Event Information from Text阅读总结
a. 事件线索、参数检测
使用混合双向LSTM,使用不同的语言启发特征和输入句子中的每个单词的连续嵌入词,使用BIO标记每个token。
事件线索特征:使用Core NLP对原始文本令牌化、词性还原、词性标注及NER,之后删除停用词。使用额外的知识库DEpedia和Wikidata寻找其他的命名实体。参数特征与其相似。
词嵌入:使用Transfer-Word2vec、Domain-Word2vec、Cyber-Word2vec和Pre-built BERT,对上下文无关的使用前两种。
CASIE: Extracting Cybersecurity Event Information from Text阅读总结将每个语言特征的嵌入层连接起来形成嵌入层。当使用BERT嵌入时,增加额外两个双向LSTM层。

b. 事件参数和角色链接
角色将被分配给一个事件参数。例如,如果在Phishing事件中提到一个Person,他的角色可能是Attacker、Victim或Trusted-Entity。CASIE: Extracting Cybersecurity Event Information from Text阅读总结词嵌入层通过两个全连接层,然后与其他嵌入层连接。输出层的节点数量为每个事件的角色数量,而不是系统中的角色总数。

c. 事件可能性识别
当发现事件线索时,可能性的特征向量是事件线索及其上下文的词向量,实验发现使用7个单词的上下文窗口可以获得最佳表现。所有的停用词都包含在识别组件中(may/can/not/no)等。
CASIE: Extracting Cybersecurity Event Information from Text阅读总结首先将事件分为Generic和非Generic,若是非Generic,进一步分类为Actual和Other。

Results

1. 作者定义并指定了5个网络安全事件和它们的语义角色,以及20种可供角色填充的参数。 2. 展示了一个新颖的、有挑战性的新闻专线语料库,在其中注释了网络安全事件。 3. 提出CASIE系统,该网络安全事件抽取系统将现代深度学习与语义特征相结合,提供了一套完整的信息抽取模型和工具,基于背景知识图谱产生网络安全特征。

Conclusions

定义了一个网络安全事件抽取任务,定义了5种事件类型、语义角色、能够填充角色的参数类型。重点在事件检测系统:检测事件线索和参数,预测事件可能性,将事件参数和事件线索与角色联系起来。开发CASIE并评估其性能,证明了使用神经网络和词嵌入特征能够精确抽取网络安全事件的信息。

Comments

目前正在进行的是事件参数检测,未来开发用于将参数链接到Wikidata实体,并计算事件之间关联和序列关系的组件,将支持其他事件类型,将事件、参数、角色对齐与映射到统一网络安全本体,并将提取的信息导出为集成的事件图。

版权声明:玥玥 发表于 2021-03-27 2:12:20。
转载请注明:CASIE: Extracting Cybersecurity Event Information from Text阅读总结 | 女黑客导航