专利 聚类处理方法和装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111253253.6 (22)申请日 2021.10.27 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人庞博　凌芳觉　纪忠光　 (74)专利代理机构济南信达专利事务所有限公司 37100 代理人李世喆 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/901(2019.01) G06F 16/906(2019.01) G06N 20/00(2019.01) (54)发明名称聚类处理方法和装置 (57)摘要本说明书实施例提供了一种聚类处理的方法和装置。根据该实施例的技术方案，首先获取利用被分析主体的相关数据构建的网络图，网络图包括节点和边，节点包括被分析主体，边指示节点之间的相关性；然后利用网络图中已标注类别标签的第一节点集合训练聚类模型；再从网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点， n为1以上的正整数；获取对n个节点标注的类别标签后，将 n个节点加入第一节点集合，转至执行利用网络图中已标注类别标签的第一节点集合训练聚类模型，直至满足预设的训练结束条件；最后利用训练得到的聚类模型对网络图中的待聚类节点进行聚类处理，待聚类节点为第二节点集合中的部分或全部节点。权利要求书2页说明书9页附图2页 CN 113988175 A 2022.01.28 CN 113988175 A 1.聚类处理的方法，包括：获取利用被分析主体的相关数据构建的网络图，所述网络图包括节点和边，所述节点包括被分析主体，所述边指示节点之间的相关性；利用所述网络图中已标注类别标签的第一节点集合训练聚类模型；从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点，所述 n为1以上的正整数；获取对所述n个节点标注的类别标签后，将所述n个节点加入所述第一节点集合，转至执行所述利用所述网络图中已标注类别标签的第一节点集合训练聚类模型，直至满足预设的训练结束条件；利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理，所述待聚类节点为第二节点集合中的部分或全部节点。 2.根据权利要求1所述的方法，其中，利用所述网络图中已标注类别标签的第一节点集合训练聚类模型包括：在每一轮迭代中，利用聚类模型获取所述第一节点集合中节点的概率密度向量，所述概率密度向量包括节点属于各类别的概率；利用所述第一节点集合中节点的概率密度向量计算损失函数；利用所述损失函数更新所述聚类模型的模型参数，直至满足预设的训练停止条件。 3.根据权利要求1所述的方法，其中，从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点包括：利用所述聚类模型当前所采用的概率函数，确定所述第二节点集合中各节点的概率密度向量，所述概率密度向量包括节点属于各类别的概率；利用所述第二节点集合中各节点的概率密度向量分别计算所述第二节点集合中各节点对应的损失函数；选择对应损失函数满足预设要求的n个节点。 4.根据权利要求2所述的方法，其中，所述训练停止条件包括：损失函数的值小于或等于预设阈值，或者，本次训练的迭代次数达到预设的第一次数阈值；所述训练结束条件包括：所述聚类模型的效果收敛，或者，训练的总迭代次数达到预设的第二次数阈值；所述第一次数阈值小于所述第二次数阈值。 5.根据权利要求1所述的方法，其中，获取对所述 n个节点标注的类别标签包括：将所述n个节点的信息提供给标注人员，获取标注人员对所述n个节点标注的类别标签；或者，利用预设的标注策略，对所述 n个节点标注类别标签。 6.根据权利要求1所述的方法，其中，所述利用训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理包括：利用训练得到的聚类模型确定所述待聚类节点的概率密度向量，所述概率密度向量包括待聚类节点属于各类别的概率；按照所述概率密度向量中概率最大的类别对所述待聚类节点标注类别标签。 7.根据权利要求1至6中任一项所述的方法，其中，所述被分析主体包括消费者的消费权　利　要　求　书 1/2 页 2 CN 113988175 A 2数据，所述类别标签包括消费群体类别；或者，所述被分析主体包括用户的网络行为数据，所述类别标签包括风险类别。 8.聚类处理的装置，包括：图获取单元，被配置为获取利用被分析主体的相关数据构建的网络图，所述网络图包括节点和边，所述节点包括被分析主体，所述边指示节点之间的相关性；模型训练单元，被配置为利用所述网络图中已标注类别标签的第一节点集合训练聚类模型；训练判断单元，被配置为所述模型训练单元训练得到聚类模型后，判断是否满足预设的训练结束条件；节点选择单元，被配置为在所述训练判断单元的判断结果为否时，从所述网络图中未标注类别标签的第二节点集合中确定对应损失函数满足预设要求的n个节点，所述n为1以上的正整数；标签获取单元，被配置为获取对所述n个节点标注的类别标签后，将所述n个节点加入所述第一节点集合，并触发所述模型训练单元训练聚类模型；聚类处理单元，被配置为在所述训练判断单元的判断结果为是时，利用所述模型训练单元训练得到的聚类模型对所述网络图中的待聚类节点进行聚类处理，所述待聚类节点为第二节点集合中的部分或全部节点。 9.根据权利要求8所述的装置，其中，所述模型训练单元，具体被配置为在每一轮迭代中，利用聚类模型获取所述第一节点集合中节点的概率密度向量，所述概率密度向量包括节点属于各类别的概率；利用所述第一节点集合中节点的概率密度向量计算损失函数；利用所述损失函数更新所述聚类模型的模型参数，直至满足预设的训练停止条件。 10.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 113988175 A 3

专利 聚类处理方法和装置

专利聚类处理方法和装置