金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210505924.1 (22)申请日 2022.05.10 (71)申请人 成都信息工程大学 地址 610225 四川省成 都市西南 航空港经 济开发区学府路一段24 号 (72)发明人 安俊秀 马振明 靳宇倡  (74)专利代理 机构 北京元本知识产权代理事务 所(普通合伙) 11308 专利代理师 曹广生 (51)Int.Cl. G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06K 9/62(2022.01) (54)发明名称 基于密度峰值的数据聚类方法、 装置、 介质 (57)摘要 本发明公开了一种基于密度峰值的数据聚 类方法、 装置、 介质, 利用直接下级描述各个数据 点的相对密度, 其中数据点是数据集中的图片或 者词语特征, 设计结合相对密度和绝对密度的混 合密度值识别聚类中心, 并通过相似性可达定义 有效下级, 进行非中心点的主要分配, 并结合不 同簇的k层上级分布, 确定剩余点的标签, 以此可 以有效将数据集中相同类别的数据点聚集在一 个类别下, 高效准确地完成了对数据集的分类 。 权利要求书3页 说明书14页 附图13页 CN 115205566 A 2022.10.18 CN 115205566 A 1.一种基于密度峰值的数据聚类方法, 其特 征在于, 所述方法包括: 获取数据集, 所述数据集是文本集或图像集, 当所述数据集是文本集 时, 提取所述文本 集中的词语特征, 将词语特征作为数据点, 当所述数据集是图像集时, 将所述图像集中的图 片作为数据点, 计算每 个数据点的绝对密度; 通过每个数据点的绝对密度排序得到数据点的上下级关系, 并利用数据点的直接下级 数目作为数据点的相对密度; 根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心; 根据聚类中心的有效下级关系和k层上级对各个数据点进行分配: 通过如下公式利用有效下级关系对各个数据点逐步分配: 其中, L(xi)表示作为聚类中心的数据点xi的标签, Ll(xj)表示数据点xj的直接下级集 合, DR(xj)表示数据点xj的相似性可达点的集合, 在 DR(xj)中, 数据点xi和xj之间的距离小 于 截断距离dc, 且MCDNN(x)i和MCDNN(xj)之间重合点集 数目大于MCD, 即数据点xi和xj之间具有 相似性, 数据点xj是数据点xi相似性可达的数据点, 在DR(xj)中的任意一点xk满足xk∈ MCDNN(xk+1), 并且number(MCDNN(xk)∩MCDNN(xk+1))≥MCD; MCD表示数据集中距离数据点xi 的距离小于截断距离dc的数据点个数, MCDNN(xk+1)表示数据点xk+1的最大截断近邻, 所述最 大截断近邻是距离数据点xk+1最近的二倍MCD个数据点, number(MCDNN(xk)∩MCDNN(xk+1)) ≥MCD表示MCDNN(xk)和MCDNN(xk+1)之间的重合点集数目大于MCD, 即DR(xj)中的任意一点与 其临近的数据点具有相似性; 在存在未分配的数据点的情况下, 计算所述未分配的数据点到不同簇之间的平均距 离, 并分配至最近的簇, 所述簇为 根据聚类中心的标签分配在对应标签下的数据点的集 合。 2.根据权利要求1所述的方法, 其特征在于, 通过如下公式计算得到每个数据点的绝对 密度: 其中, ρi表示绝对密度, dc是截断距离由用户输入或者根据数据集分布按照1% ‑2%进 行调整设定, sign(dij‑dc)是指示函数, 如果dij‑dc≤0, 则sign(dij‑dc)=1; 否则sign(dij‑ dc)=0。 3.根据权利要求1所述的方法, 其特征在于, 所述根据数据点的相对密度和绝对密度从 所有数据点中选出若干数据点作为聚类中心, 包括: 通过如下公式计算数据点的相对密度和绝对密度: 其中, 当xi是xj的直接下级时, ζ(xi,xj)取值为1, 否则, 取值为0; ρr(i), ρm(i)分别表示xi 的相对密度和混合密度, max()表示 最大值函数。 4.根据权利要求3所述的方法, 其特征在于, 所述根据数据点的相对密度和绝对密度从权 利 要 求 书 1/3 页 2 CN 115205566 A 2所有数据点中选出若干数据点作为聚类中心, 包括: 通过如下公式衡量数据点成为聚类中心的可能性: 其中, Si表示数据点 为聚类中心的可能性, ρm表示混合密度值, max()表示 最大值函数; 选取c个可能性 最高的点作为聚类中心。 5.根据权利要求1所述的方法, 其特征在于, 所述在存在未分配的数据点的情况下, 通 过如下方法计算所述未分配的数据点到不同簇之间的平均距离: 根据所述未分配的数据点到每个簇的k层上级的距离, 得到所述未分配的数据点到不 同簇之间的平均距离, 其中, 所述k层上级是在同一个簇中, 比其相对密度高的数据点中距 离最近的k个数据点。 6.根据权利要求5所述的方法, 其特征在于, 所述存在未分配的数据点的情况下, 计算 所述未分配的数据点到不同簇之间的平均距离, 并分配至最近的簇, 具体包括: 根据如下公式计算得到未分配的数据点与k层上级所有距离之和: 其中, xb是未分配的数据点, BC是属于第c个簇的k层上级的集合, ||xb‑xi||2表示数据点 xb和数据点xi之间的欧氏距离, SB(xb,Bc)表示xb与不同簇的k层上级距离之和; 根据如下公式对所述未分配的数据点进行分配: 其中, C是已知簇的数目。 7.一种基于密度峰值的数据聚类装置, 其特征在于, 所述装置包括处理器, 所述处理器 被配置为: 获取数据集, 所述数据集是文本集或图像集, 当所述数据集是文本集 时, 提取所述文本 集中的词语特征, 将词语特征作为数据点, 当所述数据集是图像集时, 将所述图像集中的图 片作为数据点, 计算每 个数据点的绝对密度; 通过每个数据点的绝对密度排序得到数据点的高密度最近邻, 利用数据点的直接下级 数目作为数据点的相对密度值; 根据数据点的相对密度和绝对密度从所有数据点中选出若干数据点作为聚类中心; 根据聚类中心的有效下级关系和k层上级对各个数据点进行分配: 通过如下公式利用有效下级关系对各个数据点逐步分配: 其中, L(xi)表示作为聚类中心的数据点xi的标签, Ll(xj)表示数据点xj的直接下级集 合, DR(xj)表示数据点xj的相似性可达点的集合, 在 DR(xj)中, 数据点xi和xj之间的距离小 于 截断距离dc, 且MCDNN(x)i和MCDNN(xj)之间重合点集 数目大于MCD, 即数据点xi和xj之间具有 相似性, 数据点xj是数据点xi相似性可达的数据点, 在DR(xj)中的任意一点xk满足xk∈ MCDNN(xk+1), 并且number(MCDNN(xk)∩MCDNN(xk+1))≥MCD; MCD表示数据集中距离数据点xi权 利 要 求 书 2/3 页 3 CN 115205566 A 3

PDF文档 专利 基于密度峰值的数据聚类方法、装置、介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于密度峰值的数据聚类方法、装置、介质 第 1 页 专利 基于密度峰值的数据聚类方法、装置、介质 第 2 页 专利 基于密度峰值的数据聚类方法、装置、介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。