机器学习与数据挖掘
大三下专业选修课
CSU迦叶
Writing code isn't really coding; debugging is.
展开
-
python自定义交叉熵损失,再和pytorch api对比
交叉熵本质上是两个概率分布之间差异的度量原创 2024-04-23 12:03:16 · 682 阅读 · 0 评论 -
线性回归实验之成人死亡率预测
使用随机森林进行线性回归,使用网格搜索/随即搜索+交叉验证寻找最优参数原创 2022-10-10 15:07:32 · 3362 阅读 · 4 评论 -
(已解决)sklearn.exceptions.NotFittedError: This RandomForestRegressor instance is not fitted yet.
返回的是没有fit的线性模型原创 2022-10-10 08:59:00 · 4257 阅读 · 0 评论 -
通过 Keras 构建深度学习模型的步骤
原创 2021-07-10 19:59:05 · 250 阅读 · 0 评论 -
集成学习知识点汇总
为啥叫集成学习结合多个学习器来完成学习任务。俗话说就是,团结力量大。个体学习器可以相同可以不同。如果相同叫同质集成,如果不尽相同叫异质集成。个体学习器最好满足:好而不同。所谓好(准确性),就是个体学习器不能太坏,也就是至少泛化性能不能弱于随机猜测的机器,所谓不同(多样性),要求学习器间具有差异。集成学习算法分类序列化方法:学习器间存在强依赖关系,必须串行生成。并行化方法:学习器间不存在强依赖关系,可以并行生成。序列化方法代表-AdaBoostBoosting是一族可将..原创 2021-04-29 20:40:53 · 277 阅读 · 0 评论 -
数据预处理知识点汇总
(一) 数据清理a) 缺失值填充i. 忽略元组ii. 手工填写iii. 自动填充使用属性均值推理出最可能的值,如贝叶斯公式或决策树b) 去除离群点i. 聚类ii. LOFiii. 回归函数拟合数据c) 噪音(包括错误和离群)处理i. 分箱光滑d) 纠正不一致数据(二) 数据集成a) 模式集成b) 冲突数据值的检测和解决c) 冗余数据处理(三) 相关分析a) 皮尔逊相关系数b) 协方差c) 卡方值(四) 数据变换a) 规范化i. 最小-最大规范化ii. z原创 2021-04-29 19:38:56 · 317 阅读 · 0 评论 -
信息检索时多义词、近义词对查准率、查全率的影响
首先我们知道查全率公式R=TP/(TP+FN)查准率公式P=TP/(TP+FP)多义词的存在会使得FP(错的被捧上来)上升,因而查准率下降近义词的存在会使得FN(实际算法识别不出来近义词,而近义词应该被分为一类,对的被误杀)上升,因而查全率下降...原创 2021-04-27 22:02:52 · 868 阅读 · 0 评论 -
邻域数、直接密度可达、密度可达、密度相连的概念
M是从P直接密度可达,Q是从M直接密度可达Q是从P密度可达(反之不是),S是从O密度可达,R是从O密度可达S和R密度相连summary:直接密度可达:一个半径内密度可达:两个半径内密度相连:四个半径内...原创 2021-04-22 21:09:12 · 9747 阅读 · 0 评论 -
机器学习中的三对性能度量参数
文章目录分类结果混淆矩阵错误率和精度错误率:分类错误的样本数占样本总数的比例精度:分类正确的样本数占样本总数的比例关系:两者之和为1查准率P和查全率R通俗解释:信息检索场景下,我们经常会关心“检索出的信息中有多大比例是用户感兴趣的”以及“用户感兴趣的信息有多少被查出来了”,“查准率P”和“查全率R”是适用于此类需求的性能度量。关系:两者是一对矛盾的度量。除非极简单的任务,一般两者不会双高。相关图:P-R曲线(查准率-查全率曲线)真正例率TPR和假正例率FPR相关图:ROC曲线原创 2020-10-21 15:59:57 · 431 阅读 · 0 评论 -
神经网络基础知识梳理
神经网络是什么说明:我们在机器学习中谈论的神经网络是指“神经网络学习”,即机器学习与神经网络这两个学科领域的交叉部分。生物学意义上神经网络的最基本成分是神经元,计算机科学中的神经网络的最基本成分是神经元模型。最广泛的一种定义是:神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。这里的简单单元,指的就是神经元模型。对于后半句话,其实我们可以不考虑神经网络是否真的模拟了生物神经网络,只需将1个神经网络视为包含了许多参数原创 2020-09-25 11:19:49 · 877 阅读 · 0 评论 -
FP Growth算法简介+实例
算法背景:找出关联规则的一种方法是,先找出所有频繁项集,即满足support>=minsup的项集,然后再从频繁项集中选出置信度满足要求的,最后得到强关联规则。问题是,找出所有频繁项集的过程,计算量是极大的。解决这一问题的思路之一是减少候选集。从这一思路出发,有两种较为成熟的解决方案。其中之一是Apriori算法,另一个则是FP Growth算法,也叫做FP Tree算法。也就是说,FP Growth算法是一个挖掘频繁项集的算法。参考文档:添加链接描述...原创 2021-03-16 10:44:44 · 8893 阅读 · 0 评论