专利基于改进的CCA混合采样组合预测模型的数据分析方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111312044.4 (22)申请日 2021.11.08 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人蒋溢　伍书平　熊安萍　 (74)专利代理机构重庆辉腾律师事务所 5 0215 代理人王海军 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) (54)发明名称基于改进的CCA混合采样组合预测模型的数据分析方法 (57)摘要本发明属于大数据分析与处理领域，具体涉及一种基于改进的CCA混合采样组合预测模型的数据分析方法，该方法包括：实时获取客户的数据信息，对获取的数据信息进行预处理；将预处理后的数据信息输入到改进的CCA混合采样组预测模型中，预测该客户是否存在流失风险，不存在流失风险，则保存该客户信息，存在流失风险，则根据客户信息制定挽留策略；本发明基于构造性覆盖算法CCA按照数据真实分布情况划分最佳少数类覆盖、多数类覆盖，能学习到真实的数据全局分布情况。权利要求书3页说明书8页附图2页 CN 113987952 A 2022.01.28 CN 113987952 A 1.一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，包括：实时获取客户的数据信息，对获取的数据信息进行预处理；将预处理后的数据信息输入到改进的CCA混合采样组预测模型中，预测该客户是否存在流失风险，不存在流失风险，则保存该客户信息，存在流失风险，则根据客户信息制定挽留策略；对改进的C CA混合采样组预测模型进行训练的过程包括： S1：获取客户数据集，并对客户数据集进行预处理，得到子集； S2：采用构造性覆盖算法CCA对子集中的数据进行处理，得到少数类覆盖样本集和多数类覆盖样本集； S3：采用单样本覆盖策略对少数类覆盖样本集中样本进行筛选，得到第一关键覆盖样本，采用样本密度阈值策略对少数类覆盖样本集中的样本进行筛选，得到第二关键覆盖样本； S4：采用SMOTE算法分别对第一关键覆盖样本和第二关键覆盖样本进行处理，得到第一少数类样本子集和第二少数类样本子集； S5：计算多数类覆盖样本集中每个覆盖的采样数，根据每个覆盖的采样数采用样本多样性策略和样本密度峰值策略对多数类覆盖样本集中的样本进行筛选，得到第一多数类样本子集和第二多数类样本子集； S6：将少数样本子集和多数类样本子集进行组合，得到四组平衡样本集； S7：将四组平衡样本集中的数据分别输入到逻辑回归模型中，采用网格搜索法调参，当模型的auc取得最大值时，完成模型训练； S8：将预测样本带入训练好的四个模型得到四组预测结果，将四组预测结果求并集，得到最终预测结果。 2.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，对客户数据集进行预处理的过程包括：采用均值填充和3δ原则方法对获取的客户数据集中的数据进行清洗；采用one ‑hot编码和Z ‑score方法分别对清洗后的离散型变量和连续型变量进行数据转换处理；根据转换后的数据构建用户数据特征；采用Lasso回归方法对构建的数据特征进行提取，得到流失数据特征，将流失数据特征作为子集。 3.根据权利要求2所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，采用one ‑hot编码和Z ‑score方法分别对清洗后的离散型变量和连续型变量进行数据转换处理的过程包括：对于离散型变量，确定每一个变量的可能值；根据可能值采用one ‑hot编码方法对每个特征进行编码处理，得到二元特征，得到的所有二元特征两两互斥；对于连续型变量，为解决特征间量纲不同问题，使用Z ‑score方法将不同量级的特征数据转化为统一量度的Z‑score分值，处理后的特征数据均值为0，方差为1。 4.根据权利要求2所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，采用Lasso回归方法对构建的数据特征进行提取的过程包括：将数据(Xi,yi),i ＝1,2,…,N输入到回归系数方程中，得到回归系数值，不断调整回归系数方程中的参数t的值，得到多组回归系数值βj(t)(j＝1,2, …,p)；绘制回归系数值随参数t值的变化趋势，取趋势变得稳定时t值对应的βj(t)值，根据选取的回归系数值建立到Lasso回归方程，采用 Lasso回归方程提取流失数据特征；其中Xi表示第i个样本点的特征向量， yi表示第i个样本权　利　要　求　书 1/3 页 2 CN 113987952 A 2点的流失类别， N表示样本点总数， t 表示一个范围为[0,1]的随机参数， p表示特征维数。 5.根据权利要求4所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，建立的Las so回归方程为： ylasso＝β0+β1x1+β2x2+…+βkxk 其中， βk表示筛选出的第k个回归系数， xk表示样本的第k维特征向量。 6.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，采用构造性覆盖算法CCA对子集中的数据进行处理的过程包括：将n维样本空间X映射到n+1维的球形空间中，从而将原空间上的样本映射到超球面上；随机选择一个尚未被覆盖的样本点xi作为覆盖中心，以此中心计算异类样本的最近距离d1，计算同类样本的最远距离d2，根据最近距离d1和最远距离d2计算覆盖半径θi＝(d1+d2)/2；根据覆盖中心 xi和覆盖半径θi构建一个覆盖，该覆盖内包含所有距离覆盖中心距离小于覆盖半径的同类样本；移除所构建覆盖中的所有样本，重复此构建覆盖过程直到所有样本被覆盖；将同类别的覆盖集合得到少数类覆盖样本集和多数类样本覆盖集。 7.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，采用单样本覆盖策略和样本密度阈值策略分别对少数类覆盖样本集中样本进行筛选的过程包括：采用单样本覆盖策略对少数类覆盖样本集中样本进行筛选的过程包括：挑选出少数类样本覆盖中的单个样本覆盖，计算单样本覆盖密度均值，将单样本覆盖密度小于单样本覆盖密度均值的覆盖剔除；将剔除后的单个样本覆盖与非单样本覆盖进行集合，得到第一关键覆盖样本；采用样本密度阈值策略对少数类覆盖样本集中样本进行筛选的过程包括：设置覆盖内样本密度阈值D；计算少数类覆盖样本集中覆盖内的样本密度；若覆盖内的样本密度小于特定阈值D，则将覆盖内样本作为第二关键覆盖样本。 8.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，其特征在于，采用SMOTE算法分别对第一关键覆盖样本和第二关键覆盖样本进行处理的过程包括：对于关键覆盖样本中的每一个样本a，计算其到关键覆盖样本中所有样本的欧式距离，得到其k近邻；根据采样比例确定采样倍率P，对于每一个样本x从其k近邻中随机选择若干样本；对于每一个随机选出的近邻样本b，根据c＝a+rand(0,1)*|a ‑b|分别计算其构建的新样本。 9.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，采用样本多样性策略和样本密度峰值策略对多数类覆盖样本集中的样本进行筛选的过程包括：计算每个覆盖的采样后挑选的样本数Nsam_i；基于样本多样性计算覆盖内每个样本权重；基于样本密度峰值计算覆盖内每个样本权重；按照权重递减拟合覆盖中样本权重的分布曲线，找到趋于稳定时的权重，并记录大于此权重的样本数量Numl，如果Numl大于 Nsam_l，则挑选覆盖中心样本以及权重排名前Nsam_l个样本作为第一多数类样本子集，反之则直接挑选前Nsam_l个权重大的样本作为第二多数类样本子集。 10.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法，确定模型的auc值的过程包括：模型的auc得分为r oc曲线下面积， r oc曲线依据混淆矩阵定义，其x轴为假阳性率FPR，即在所有实际为未流失的样本中被错误判断为流失的样本比权　利　要　求　书 2/3 页 3 CN 113987952 A 3

专利 基于改进的CCA混合采样组合预测模型的数据分析方法

专利基于改进的CCA混合采样组合预测模型的数据分析方法