2023100054068基于机器学习的WAF拦截页面识别的方法,装置及相关组件-豆柴文库

您所在位置：网站首页 / 2023100054068基于机器学习的WAF拦截页面识别的方法,装置及相关组件.pdf / 文档详情

免费试读已结束，剩余 11 页请下载文档后查看

10 金币

下载文档

/ 16

下载提示

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

文本预览

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115695054B
(45)授权公告日2023.03.21
(21)申请号202310005406.8G06F18/2411(2023.01)
(22)申请日2023.01.04G06N20/00(2019.01)
(65)同一申请的已公布的文献号(56)对比文件
申请公布号CN115695054ACN111600919A,2020.08.28
CN114553523A,2022.05.27
(43)申请公布日2023.02.03CN107404473A,2017.11.28
(73)专利权人北京知其安科技有限公司CN107948127A,2018.04.20
地址102200北京市昌平区回龙观东大街CN114124448A,2022.03.01
318号院1号楼5层511(昌平示范园)US2021258791A1,2021.08.19
(72)发明人聂君罗成宫华孟繁强WO2021139641A1,2021.07.15
张游知张践鳌姚逸吴佳波KhamdamovRustamKhamdamovich等.Web
陈瑜石天浩applicationfirewallmethodfordetecting
networkattacks.2021,全文.
(51)Int.Cl.贾晨.基于半监督学习的Web安全事件检测
H04L9/40(2022.01)模型.2019,第41-44页.
G06F40/279(2020.01)
G06F18/23213(2023.01)审查员陈文静
G06F18/214(2023.01)权利要求书3页说明书10页附图2页
(54)发明名称
基于机器学习的WAF拦截页面识别的方法、
装置及相关组件
(57)摘要
本发明公开了一种基于机器学习的WAF拦截
页面识别的方法、装置及相关组件，涉及网络安
全的领域。该方法包括获取目标攻击响应数据
集；对目标攻击响应数据集中所有的样本攻击响
应数据进行标签分类，得到不同类别的样本攻击
响应数据，并将不同类别的样本攻击响应数据分
别组成对应的类别组合，其中一个类别组合由标
签为已拦截的目标样本攻击响应数据组成；对已
拦截的目标样本攻击响应数据进行特征提取，得
到多个特征向量；利用所有特征向量对预搭建的
WAF拦截页面识别模型进行训练，构建得到WAF拦
截页面识别模型；接收目标攻击响应数据，利用
WAF拦截页面识别模型对目标攻击响应数据进行
分类，输出分类结果。该方法可以有效提高WAF拦
截判断的精准度。
CN115695054B
CN115695054B权利要求书1/3页

1.一种基于机器学习的WAF拦截页面识别的方法，其特征在于，包括：
获取目标攻击响应数据集；
对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类，得到不同类别
的样本攻击响应数据，并将不同类别的样本攻击响应数据分别组成对应的类别组合，其中
一个所述类别组合由标签为已拦截的目标样本攻击响应数据组成；
对所述已拦截的目标样本攻击响应数据进行特征提取，得到多个特征向量；
利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练，构建得到WAF拦截页面
识别模型；
接收目标攻击响应数据，利用所述WAF拦截页面识别模型对所述目标攻击响应数据进
行分类，输出分类结果；
所述对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类，得到不同
类别的样本攻击响应数据，包括：
获取所述目标攻击响应数据集中所有的样本攻击响应数据中的三元组信息，其中，所
述三元组信息包括Status_code信息、Headers信息、Body信息；
对所述Headers信息按照键的字母序进行排序和进行关键字过滤，构建得到三元组信
息；
基于预设的标签分类规则和三元组信息，对所有的样本攻击响应数据进行标签分类，
得到已拦截的目标样本攻击响应数据；
其中，所述利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练，构建得到
WAF拦截页面识别模型，包括：
获取并初始化所有所述类别组合，随机选择每个类别组合的k个初始聚类中心，初始迭
代次数为0；
分别计算类别组合中的每个样本到k个初始聚类中心的距离，并将对应的样本分类到
与其距离最小的初始聚类中心所对应的类别组合中；其中，针对每一样本攻击响应数据的
三元组信息，计算距离的方式包括：针对Status_code信息计算是否相等，相等则确定距离
为1，否则距离为0；针对Headers信息计算文本相似度，并将计算结果作为距离；针对Body信
息计算文本特征向量的距离；
根据类别组合的重新划分，重新计算每个类别组合的聚类中心；
判断当前迭代次数是否大于最大迭代次数，若不是，则当前迭代次数加一，并重复计算
每个类别组合的聚类中