当前热词解释
机器学习基本术语
数据集:
样例:
特征:
特征值属性值:(某特征的具体值)
缺失数据:补全或删除
标签:
总的数据量有100W。
训练数据
取出90w 作为训练数据
80w是训练集,用于真正的模型计算(学习)。è 得到结论(判断逻辑/模型)
10w是验证集,用于验证计算出的模型。 è 验证结论(模型)--》yes/no
测试数据
剩余的10W是测试集,用于测试计算出的模型(套用前面的结论/模型)。 è测试前面的结论(模型)
模型训练的三步: 1: 模型训练 2:模型验证 3:模型测试
举例说明:
好比就是推导出一个数据公式a*a+b*b=c*c(勾股定理), 验证这个公式对不对,再测试这个公式 ,这个例子可以不
机器学习的整体流程
机器学习算法分类
监督学习:是指每个进入算法的训练数据样本都有对应的期望值也就是目标值
无监督学习:是指每个进入算法的训练数据样本没有对应的期望值。
半监督学习:对样本的部分打标来进行机器学习
增强学习(强化学习):一种比较复杂的机器学习种类,强调的是系统与外界不断地交互,获得外界的反馈,然后决定自身的行为。
阿尔法Go 下象棋。
机器学习在大数据项目中的位置
用户价值模型-RFM
XXX网店,6-18期间得活动到底发给谁????
例如有50w历史用户,如何对用户分群???
使用RFM模型对用户分群
RFM是
Rencency(最近一次消费)---- 最后一次得消费得时间
Frequency(消费频率) ---- 消费次数(半年内/一年内/所有)
Monetary(消费金额) ---- 消费金额(半年内/一年内/所有)
R(日期) F(次数) M(人民币)
张三 2020-06-15 100 56550
李四 2020-03-19 30 55660
以上数据量纲(相当于单位)不相同,无法直接进行计算。
需要将去转换为相同量纲得数据,才能计算
R(日期)
今日日期2020年06月19日
认为设立一个规则
1-5à5分 6-10à4分 11-20à3分 21-30à2分 31+à1分【业务部门确定】
张三 4 à 5分(2020-06-15)
李四 90 à 1分(2020-03-19)
F(次数)
≥200=5分,150-199=4分,100-149=3分,50-99=2分,1-49=1分【业务部门确定】
张三 3分(100)
李四 1分(30)
M(人民币)
≥20w=5分,10-19w=4分,5-9w=3分,1-4w=2分,<1w=1分 【业务部门确定】
张三 3分(56550)
李四 3分(55660)
-----------------------------------------------
张三 5分 3分 3分 1 高价值
李四 1分 1分 3分 0 低价值
王五 4分 4分 3分 1 高价值
-----------------------------------------------
数据归一化:
将不同量纲得数据整理成相同量纲得数据
如何进行分类??
1、求和 ??
2、放入空间??
3、使用机器学习算法(K-Means聚类)
超高 高 中高 中 中低 低 超低(id , rule)
计算流程
第一步:计算每个用户的最后一次消费时间,一定时间段内(半年/一年/所有)的消费数量,消费金额
第二步:数据归一化,将不同量纲(单位)的数据处理成相同量纲的数据
第三步:使用机器学习算法K-Means进行聚类(分类)
第四步:根据标签系统,进行标签匹配,打标签。