机器学习
文章平均质量分 85
什么都干的派森
满招损 谦受益
展开
-
Kmeans特征降维方法
用到的数据集:各国发展水平统计信息↓字段解释:country : 国名child_mort : 每1000个婴儿的5年死亡率exports : 人均商品和服务出口,以人均国内生产总值的百分比给出health : 人均卫生支出总额,以人均国内生产总值的百分比给出imports : 人均商品和服务进口,以人均国内生产总值的百分比给出Income : 人均净收入Inflation : 国内生产总值年增长率的测算(通货膨胀率)原创 2023-11-06 15:11:17 · 292 阅读 · 17 评论 -
Kmeans算法的K值选择技巧【Elbow Method + Silhouette Score Method】
具体来说,Silhouette Score 是一种衡量聚类结果质量的指标,它结合了聚类内部的紧密度和不同簇之间的分离度。这是一种绘制k值范围的平方和的方法。如果此图看起来像一只手臂,则k是选择的类似肘部的值。这是一种根据数据点与彼此相似的其他数据点的聚类程度来评估聚类质量的方法。使用距离公式计算该分数,并且选择具有最高分数的k值用于建模。该值的范围在 -1 到 1 之间,越接近 1 表示数据点聚类得越好,越接近 -1 则表示聚类结果较差。1.紧密度:数据点到同簇其他点的平均距离。上图的最佳值为2,3,4。原创 2023-10-28 17:21:52 · 2553 阅读 · 12 评论 -
Kmeans算法实现目标客户聚类分析【2维特征】
Kmeans是聚类算法中较为简单的一种,简单但实用,有如下优势和缺点:优势算法简单,便于使用(算法仅需要考虑一个分类数量K即可)适合常规数据集(最好是线性可分的数据集)适合不适合缺点K值难以确定(因为是无监督训练,没有标签,所以难以确定最终要聚成几个类,不过还是有一个方法可以尽可能的确定大致的聚类数量,就是通过k值增加时,所有数据点跟其质心的距离平方总和的变化趋势来确定——后续代码中有详细讲解。同时聚类的最终结果还需要人为给出合理的解释,如果解释不通,那这个聚类结果多半没有什么意义)原创 2023-10-25 00:24:23 · 364 阅读 · 13 评论 -
KNN实现鸢尾花分类
常规训练的话需要自己去试那个K的值,一般试个 3、5、7、9 就行网格搜索训练可以让机器自己去试这个K的值,训练结束后使用最好的模型预测即可N折交叉验证训练会让训练量提升N倍,但是会最大化的利用已有数据进行训练和验证,一般来说折数多一些训练结果会变好,但也不宜过多,该方法常用在数据量较少或者获取训练数据成本较高的情况。原创 2023-10-16 09:03:40 · 249 阅读 · 5 评论 -
归一化与标准化的区别与实现方法
而不是归一化去解决问题(ps:要把训练集和测试集分开后再分别标准化,否则会将测试集的信息引入到训练集中从而影响训练结果)在需要进行特征缩放的数据集上。原创 2023-10-11 18:19:15 · 317 阅读 · 8 评论 -
随机森林的相关理论知识
随机森林是由多个决策树组成的bagging算法,bagging是集成学习的一种,集成学习是有监督学习的一种。原创 2023-07-31 17:30:25 · 842 阅读 · 20 评论 -
sklearn房价预测(随机森林)
任务目标:根据统计在csv中的房屋属性相关数据,预测房屋最终成交价格数据集:《住宅属性数据集》,自取数据集字段解释:这个文件中有字段详细说明↓。原创 2023-07-07 16:42:09 · 1335 阅读 · 44 评论