数据挖掘
小海绵先生
这个作者很懒,什么都没留下…
展开
-
进化计算:大道至简,万物之本
进化计算优化问题1.全局优化2.局部最优化问题通过并行搜索解决3.多点优化遗传算法1.编码①格雷码②二进制编码2.选择3.杂交①一点杂交②多点杂交4.变异遗传程序设计1.GA2.GP可进化硬件...原创 2021-12-16 13:24:01 · 370 阅读 · 0 评论 -
集成学习:兼听则明,偏听则暗
集成学习:兼听则明,偏听则暗原创 2021-12-02 13:02:34 · 269 阅读 · 0 评论 -
推荐算法:察言观色,投其所好
推荐算法1.隐含语义分析1)近义词的存在会导致信息检索时召回率降低。2)多义词的存在会导致信息检索时准确率降低。3)TF-IDF:量化关联度①TF(Term Frequency):搜索词在本文档中越频繁越好。②IDF:(Inverse Document Frequency):搜索词在别的文档里越少越好。③TF-IDF:同时结合两个参数,可以实现两个目标。④一个查询词和文档的相关性强说明:在该文档中频繁出现;其它文档中极少出现。4)在向量空间模型中,两篇文档接近等价于夹角余弦值接近于1 。原创 2021-11-25 12:42:42 · 723 阅读 · 0 评论 -
关联规则:营销购物,自有乾坤
关联规则1.项集与规则1)向上销售:指向客户销售某一种特定产品或服务的升级品、附加品,或者其他用以加强其原有功能或用途的产品或服务。2)交叉销售:发现现有客户的多种需求,并通过满足其需求而实现销售多种相关的服务或产品的营销方式。2.支持度与置信度1)一条有价值的关联规则必须满足:①支持度高:足够频繁;②置信度高:足够有说服力;③前件和后件交集为空。2)关联规则X->Y的支持度等同于{X, Y}的支持度。3)关联规则X->Y的置信度等价于条件概率P(Y|X)的值。3.Apri原创 2021-11-18 08:29:38 · 867 阅读 · 0 评论 -
聚类分析:物以类聚,人以群分
聚类分析无监督学习1)聚类中的簇与分类中的类的关系不能混为一谈,也不能理解成包含关系,二者不相同但是在实际中有一定联系。2)一个好的聚类算法应当具备:①能够处理非球形的数据分布;②能够处理噪点和离群点;③对样本输入序列不敏感;④对海量数据的可扩展性。3)数据预处理可能对聚类分析造成的影响:①可能改变数据点之间的位置关系;②可能改变簇的个数;③可能产生不确定影响。K-Means1)通过考虑数据点间的连通性来衡量聚类的质量。2)Silhouette图表可以体现出簇的紧凑性。3)K原创 2021-11-03 22:02:13 · 2281 阅读 · 0 评论 -
支持向量机
支持向量机一、最大间隔1.margin的含义为决定分类面可以平移的范围。2.线性SVM和一般分类器的主要区别是:线性SVM能够确保间隔最大化。3.margin越大,测试的容错率越高。4.支持向量指的是决定分类面可以平移的范围的数据点。二、线性SVM1.SVM中用到的乘法为向量内积。2.soft margin的主要用途是解决不完全线性可分问题。三、数学家的把戏1.线性不可分支持向量机Non-linear SVM在SVM当中进行空间映射的主要目的:提高原始问题的可分性 。2.对于SVM原创 2021-10-28 00:09:19 · 1366 阅读 · 0 评论 -
神经网络概述
神经网络注释:在感知机的判决函数中需要添加w0用来控制判决平面到原点的距离。公式为:Sigmod函数表达式:函数图像:学习率参数过大可能会出现收敛振荡,学习率过小可能会陷入局部最优解。...原创 2021-10-20 17:08:32 · 109 阅读 · 0 评论 -
从贝叶斯到决策树
从贝叶斯到决策树注释:1)2)3)决策树的优点:符合人的决策习惯;可解释性好;可以提取规则。4)剪枝的原因:解决过学习的问题。如何剪枝:从叶子节点开始。5)校验集的作用:用于控制对模型的剪枝操作。...原创 2021-10-07 18:19:56 · 139 阅读 · 0 评论 -
数据预处理
注释:1.离群点与异常点是有区别的。离群点仅仅是指该点的值偏离正常值;而异常点是指该点是存在异常的。2.依靠相对距离判断一个点是否为离群点。3.对于标准型数据,不同的编码方式将会影响问题的复杂度。4.对于不平衡数据,不能只关注准确率。可以采用G-mean或F-measure来对结果进行评估。...原创 2021-09-29 16:41:47 · 179 阅读 · 0 评论 -
数据挖掘:走进数据科学
走进数据科学注释:聚类与分类的区别:分类是通过人为添加的标签来把样本进行一个分类;而聚类不使用人为添加的标签,而是通过样本自身的默写特点来进行一个分类。线性回归:线性回归指的是参数与变量之间的关系是线性的,并非只能表示线性关系。ROC曲线:越接近1越理想。避免过度学习。...原创 2021-09-18 16:44:19 · 148 阅读 · 0 评论