(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111312044.4
(22)申请日 2021.11.08
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 蒋溢 伍书平 熊安萍
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
代理人 王海军
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
(54)发明名称
基于改进的CCA混合采样组合预测模型的数
据分析方法
(57)摘要
本发明属于大数据分析与处理领域, 具体涉
及一种基于改进的CCA混合采样组合预测模型的
数据分析方法, 该方法包括: 实时获取客户的数
据信息, 对获取的数据信息进行预处理; 将预处
理后的数据信息输入到改进的CCA混合采样组预
测模型中, 预测该客户是否存在流失风险, 不存
在流失风险, 则保存该客户信息, 存在流失风险,
则根据客户信息制定挽留策略; 本发 明基于构造
性覆盖算法CCA按照数据真实分布情况划分最佳
少数类覆盖、 多数类覆盖, 能学习到真实的数据
全局分布情况。
权利要求书3页 说明书8页 附图2页
CN 113987952 A
2022.01.28
CN 113987952 A
1.一种基于改进的CCA混合采样组合预测模型的数据分析方法, 其特征在于, 包括: 实
时获取客户的数据信息, 对获取 的数据信息进行预处理; 将预处理后的数据信息输入到改
进的CCA混合采样组预测模型中, 预测该客户是否存在流失风险, 不存在流失风险, 则保存
该客户信息, 存在流失风险, 则根据客户信息制定挽留策略;
对改进的C CA混合采样组预测模型进行训练的过程包括:
S1: 获取客户数据集, 并对客户数据集进行 预处理, 得到子集;
S2: 采用构造性覆盖算法CCA对子集中的数据进行处理, 得到少数类覆盖样本集和多数
类覆盖样本集;
S3: 采用单样本覆盖策略对少数类覆盖样本集中样本进行筛选, 得到第一关键覆盖样
本, 采用样本密度阈值策略对少数类覆盖样本集中的样本进行筛选, 得到第二关键覆盖样
本;
S4: 采用SMOTE算法分别对第一关键覆盖样本和第二关键覆盖样本进行处理, 得到第一
少数类样本 子集和第二少数类样本 子集;
S5: 计算多数类覆盖样本集中每个覆盖的采样数, 根据每个覆盖的采样数采用样本多
样性策略和样本密度峰值策略对多数类覆盖样本集中的样本进行筛选, 得到第一多数类样
本子集和第二多数类样本 子集;
S6: 将少数样本 子集和多数类样本 子集进行组合, 得到四组平衡样本集;
S7: 将四组平衡样本集中的数据分别输入到逻辑 回归模型中, 采用网格搜索法调参, 当
模型的auc取 得最大值时, 完成模型训练;
S8: 将预测 样本带入训练好的四个模型得到四组预测结果, 将四组预测结果求并集, 得
到最终预测结果。
2.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 对客户数据集进行预处理的过程包括: 采用均值填充和3δ原则方法对获取 的
客户数据集中的数据进行清洗; 采用one ‑hot编码和Z ‑score方法分别对清洗后的离散型变
量和连续型变量进 行数据转换 处理; 根据转换后的数据构建用户数据特征; 采用Lasso回归
方法对构建的数据特 征进行提取, 得到流失数据特 征, 将流失数据特 征作为子集。
3.根据权利要求2所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 采用one ‑hot编码和Z ‑score方法分别对清洗后的离散型变量和连续型变量进
行数据转换处 理的过程包括:
对于离散型变量, 确定每一个变量的可 能值; 根据可能值采用one ‑hot编码方法对每个
特征进行编码处 理, 得到二元 特征, 得到的所有二元 特征两两互斥;
对于连续型变量, 为解决特征间量纲不同问题, 使用Z ‑score方法将不同量级的特征数
据转化为统一量度的Z‑score分值, 处 理后的特 征数据均值 为0, 方差为1。
4.根据权利要求2所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 采用Lasso回归方 法对构建的数据特征进行提取的过程包括: 将数据(Xi,yi),i
=1,2,…,N输入到回归系数方程中, 得到回归系数值, 不断调整回归系数方程中的参数t的
值, 得到多组回归系 数值βj(t)(j=1,2, …,p); 绘制回归系 数值随参数t值的变化趋势, 取
趋势变得稳定时t值对应的βj(t)值, 根据选取的回归系数值建立到Lasso回归方程, 采用
Lasso回归方程提取流失数据特征; 其中Xi表示第i个样本点的特征向量, yi表示第i个样本权 利 要 求 书 1/3 页
2
CN 113987952 A
2点的流失类别, N表示样本点总数, t 表示一个范围为[0,1]的随机参数, p表示特 征维数。
5.根据权利要求4所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 建立的Las so回归方程 为:
ylasso=β0+β1x1+β2x2+…+βkxk
其中, βk表示筛选出的第k个回归系数, xk表示样本的第k维特 征向量。
6.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 采用构造性覆盖算法CCA对子集中的数据进行处理的过程包括: 将n维样本空
间X映射到n+1维的球形空间中, 从而将原空间上的样本映射到超球面上; 随机选择一个尚
未被覆盖的样本点xi作为覆盖中心, 以此中心计算异类样本的最近距离d1, 计算同类样本
的最远距离d2, 根据最近距离d1和最远距离d2计算覆盖半径θi=(d1+d2)/2; 根据覆盖中心
xi和覆盖半径θi构建一个覆盖, 该覆盖内包含所有距离覆盖中心距离小于覆盖半径的同类
样本; 移除所构建覆盖中的所有样本, 重复此构建覆盖过程直到所有样本被覆盖; 将同类别
的覆盖集 合得到少数类覆盖样本集和多数类样本覆盖集。
7.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 采用单样本覆盖策略和样本密度阈值策略分别对少数类覆盖样本集中样本进
行筛选的过程包括:
采用单样本覆盖策略对少数类覆盖样本集中样本进行筛选的过程包括: 挑选出少数类
样本覆盖中的单个样本覆盖, 计算单样本覆盖密度均值, 将单样本覆盖密度小于单样本覆
盖密度均值的覆盖剔除; 将剔除后的单个样本覆盖与非单样本覆盖进行集合, 得到第一关
键覆盖样本;
采用样本密度阈值策略对少数类覆盖样本集中样本进行筛选的过程包括: 设置覆盖 内
样本密度阈值D; 计算少数类覆盖样本集中覆盖内的样本密度; 若覆盖内的样本密度小于特
定阈值D, 则将覆盖内样本作为第二关键覆盖样本 。
8.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
其特征在于, 采用SMOTE算法分别对第一关键覆盖样本和第二关键覆盖样本进行处理的过
程包括: 对于 关键覆盖样本中的每一个样本a, 计算其到 关键覆盖样 本中所有样本的欧式距
离, 得到其k近邻; 根据采样比例确定采样倍率P, 对于每一个样 本x从其k近邻中随机选择若
干样本; 对于每一个随机选出的近邻样 本b, 根据c=a+rand(0,1)*|a ‑b|分别计算其构建的
新样本。
9.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方法,
采用样本多样性策略和样本密度峰值策略对多数类覆盖样本集中的样本进行筛选的过程
包括: 计算每个覆盖的采样后挑选的样本数Nsam_i; 基于样本多样性计算覆盖 内每个样本权
重; 基于样本密度峰值计算覆盖 内每个样本权重; 按照权重递减拟合覆盖
中样本权重的
分布曲线, 找到趋于稳定时的权重, 并记录大于此权重的样本数量Numl, 如果Numl大于
Nsam_l, 则挑选覆盖中心样本以及权重排名前Nsam_l个样本作为第一多数类样本子集, 反之则
直接挑选前Nsam_l个权重大的样本作为第二多数类样本 子集。
10.根据权利要求1所述的一种基于改进的CCA混合采样组合预测模型的数据分析方
法, 确定模 型的auc值的过程包括: 模 型的auc得分为r oc曲线下面积, r oc曲线依据混淆矩阵
定义, 其x轴为假阳性率FPR, 即在所有实际为未流失的样本中被错误判断为流失的样本比权 利 要 求 书 2/3 页
3
CN 113987952 A
3
专利 基于改进的CCA混合采样组合预测模型的数据分析方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:16:36上传分享