慕课总结

最新推荐文章于 2019-11-19 15:27:49 发布

三环茅草屋

最新推荐文章于 2019-11-19 15:27:49 发布

阅读量280

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44070747/article/details/90339993

版权

1、保持推荐的多样性和聚焦性平衡。

2、推荐系统的未来方向：共享经济，共享单车的投放地点时间推荐。新零售：超市里每人都有自己的行走路线，都能看到自己个性化的广告。矿产勘探领域内，有运用推荐系统，可以写第一个工作经验。

3、Hive和Hbase的区别：Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎，并且运行MapReduce任务，他批量处理任务，有延时性，多用于离线数据处理，运行不需要开启Zookeeper。Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库，数据其实是存放在HDFS中的，适用于实时数据处理，其运行必须要开启Zookeeper，非MapReduce任务。当然，这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到Hbase，设置再从Hbase写回Hive。

4、为什么离线推荐趋向于用spark来代替mapreduce？

spark基于内存，mapreduce基于磁盘，速度不同

5、HDFS中数据不可变，只能追加，不能修改。Hbase表面上可以修改

6、R=召回率=查全率= 真正例/（真正例+假反例）

P=精度=真正例/（真正例+假正例）

准确率=（真正例+真反例）/所有样本

7、奥卡姆剃刀原理：尽量选择简单的模型开始尝试，简单的不行再用复杂的

8、集成方法：训练多个分类器、综合多个分类器的结果，作出预测

9、0.5<AUC<1,越大越好，说明预测越准确。详见5.06。

10、新用户冷启动问题：基于流行度推荐、人口统计学数据推荐、注册时让用户选择感兴趣标签。

11、物品冷启动：打标签

12、系统冷启动：a微信用qq的数据，b手机型号数据的采集，c向友商购买用户数据。

13、损失函数（Loss Function ）是定义在单个样本上的，算的是一个样本的误差。

代价函数（Cost Function ）是定义在整个训练集上的，是所有样本误差的平均，也就是损失函数的平均。

目标函数（Object Function）定义为：最终需要优化的函数。等于经验风险+结构风险（也就是Cost Function + 正则化项）。

14、解决过拟合问题：

1）减少变量的个数：舍弃一些变量，保留更为重要的变量。但是，如果每个特征变量都对预测产生影响。当舍弃一部分变量时，也就舍弃了一些信息。所以，希望保留所有的变量。

2）正则化：保留所有的变量，将一些不重要的特征的权值置为0或权值变小使得特征的参数矩阵变得稀疏，使每一个变量都对预测产生一点影响。[外链图片转存失败(img-qDbYMUSt-1563454181031)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.04.36.png)]

[外链图片转存失败(img-1tGxX8eM-1563454181032)(/Volumes/茅草屋/网络下载的编程资料/屏幕快照 2019-05-05 下午1.05.19.png)]

15、偏差、方差、误差、噪声

偏差：预测值和真实值之间差距的值大小。

方差：预测值与真实值之间差距的波动程度。方差度量了同样大小训练集变动导致的性能变化。

噪声：无法通过算法解决的误差，数据本身的问题。噪声涉及问题本身的难度。

误差：口语中代表偏差和方差之和。

16、如何评价模型？

欠拟合：对训练集：偏差较大

对交叉验证集：偏差较大

过拟合：对训练集：偏差很小

对交叉验证集：偏差较大、方差较大

训练集和验证集误差相近：欠拟合，偏差问题。

验证集误差远大于训练集：过拟合，方差问题。

17、如何调优模型：

高方差问题：获得更多的训练集、减少特征的数量、增加正则化程度

高偏差问题：增加特征数量、增加多项式特征、减小正则化程度

18、算法与这些一样重要：数据的获取、误差分析、如何设定特征变量等。

19、如何理解随机森林里的随机：

a、数据随机。如果数据够大，可以直接把数据切分成n份，来随机训练模型。如果数据量不支持，可以采用BootStrap采样（重采样）方式随机数据：1、k折交叉验证。2、随机拿一个样本，然后放回，再随机拿，一共随机拿m个，这m个里可能重复，因为有放回。

b、决策树随机。如果每个样本的特征维度为M，随机地从M个特征中选取m（经验：logM=m）个特征子集，每次树分裂时，从这m个特征中选择最优的。

20、随机森林绝大部分是决策树组成的，也可由SVM、逻辑回归等组成，而决策树绝大部分都是由CART算法的。

21、adaboost：https://blog.csdn.net/fuqiuai/article/details/79482487

22、

三环茅草屋

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。