慕课总结

1、保持推荐的多样性和聚焦性平衡。

2、推荐系统的未来方向:共享经济,共享单车的投放地点时间推荐。新零售:超市里每人都有自己的行走路线,都能看到自己个性化的广告。矿产勘探领域内,有运用推荐系统,可以写第一个工作经验。

3、Hive和Hbase的区别:Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,并且运行MapReduce任务,他批量处理任务,有延时性,多用于离线数据处理,运行不需要开启Zookeeper。Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库,数据其实是存放在HDFS中的,适用于实时数据处理,其运行必须要开启Zookeeper,非MapReduce任务。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。

4、为什么离线推荐趋向于用spark来代替mapreduce?

​ spark基于内存,mapreduce基于磁盘,速度不同

5、HDFS中数据不可变,只能追加,不能修改。Hbase表面上可以修改

6、R=召回率=查全率= 真正例/(真正例+假反例)

P=精度=真正例/(真正例+假正例)

准确率=(真正例+真反例)/所有样本

7、奥卡姆剃刀原理:尽量选择简单的模型开始尝试,简单的不行再用复杂的

8、集成方法:训练多个分类器、综合多个分类器的结果,作出预测

9、0.5<AUC<1,越大越好,说明预测越准确。详见5.06。

10、新用户冷启动问题:基于流行度推荐、人口统计学数据推荐、注册时让用户选择感兴趣标签。

11、物品冷启动:打标签

12、系统冷启动:a微信用qq的数据,b手机型号数据的采集,c向友商购买用户数据。

13、损失函数(Loss Function )是定义在单个样本上的,算的是一个样本的误差。

代价函数(Cost Function )是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。

目标函数(Object Function)定义为:最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。

14、解决过拟合问题:

1)减少变量的个数:舍弃一些变量,保留更为重要的变量。但是,如果每个特征变量都对预测产生影响。当舍弃一部分变量时,也就舍弃了一些信息。所以,希望保留所有的变量。

2)正则化:保留所有的变量,将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏,使每一个变量都对预测产生一点影响。[外链图片转存失败(img-qDbYMUSt-1563454181031)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.04.36.png)]

[外链图片转存失败(img-1tGxX8eM-1563454181032)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.05.19.png)]

15、偏差、方差、误差、噪声

偏差:预测值和真实值之间差距的值大小。

方差:预测值与真实值之间差距的波动程度。方差度量了同样大小训练集变动导致的性能变化。

噪声:无法通过算法解决的误差,数据本身的问题。噪声涉及问题本身的难度。

误差:口语中代表偏差和方差之和。

16、如何评价模型?

欠拟合:对训练集:偏差较大

​ 对交叉验证集:偏差较大

过拟合:对训练集:偏差很小

​ 对交叉验证集:偏差较大、方差较大

训练集和验证集误差相近:欠拟合,偏差问题。

验证集误差远大于训练集:过拟合,方差问题。

17、如何调优模型:

高方差问题:获得更多的训练集、减少特征的数量、增加正则化程度

高偏差问题:增加特征数量、增加多项式特征、减小正则化程度

18、算法与这些一样重要:数据的获取、误差分析、如何设定特征变量等。

19、如何理解随机森林里的随机:

a、数据随机。如果数据够大,可以直接把数据切分成n份,来随机训练模型。如果数据量不支持,可以采用BootStrap采样(重采样)方式随机数据:1、k折交叉验证。2、随机拿一个样本,然后放回,再随机拿,一共随机拿m个,这m个里可能重复,因为有放回。

b、决策树随机。如果每个样本的特征维度为M,随机地从M个特征中选取m(经验:logM=m)个特征子集,每次树分裂时,从这m个特征中选择最优的。

20、随机森林绝大部分是决策树组成的,也可由SVM、逻辑回归等组成,而决策树绝大部分都是由CART算法的。

21、adaboost:https://blog.csdn.net/fuqiuai/article/details/79482487

22、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值