ML
yanzi-000
这个作者很懒,什么都没留下…
展开
-
常用聚类算法
在直观印象中,说起聚类算法,首先想到的k-means. k-means作为经典的聚类算法,应用范围很广,但是在运行前要指定聚类的数量n,这个值对于最终的计算结果有很大的影响.而现在也没有通用的方法来得到这个值. 本文介绍了包括k-means在内的多种聚类算法,可以在实际中灵活使用.原创 2020-06-22 15:33:21 · 815 阅读 · 0 评论 -
kaggle之EDA,特征工程
kaggle https://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboard kaggle经验分享 链接 1 ata Exploration,EDA(Exploratory Data Analysis) 通常我们会用 pandas 来载入数据,并做一些简单的可视化来理解数据。 Visualization,...原创 2019-07-01 16:12:45 · 2182 阅读 · 0 评论 -
ML
1 K-means 聚类算法,原始数据不带标签,属于无监督算法的范围 初始有一团数据,选择2个点作为其质心,计算每个数据点到各个质心的距离,选择距离最近的质心作为数据点的标签,由于有2个质心,现在数据被分为2个部分了,分别计算2个部分的数据得到新的质心; 重复这个过程,直到质心位置不变或者变化范围很小。 难点在于质心数量的选择,和计算距离的方式选择。 2 决策树 2.1 基本概念 1 信息熵 信...原创 2019-07-01 16:13:34 · 289 阅读 · 0 评论 -
xgboost
2015年Kaggle竞赛中,29支挑战成功队伍,有17支使用XGBoost。第二流行的方式是深度神经网络,有11支队伍使用。 scalability,可伸缩性,可在单机运行,也可在分布式系统和内存限制的系统运行。 创新点: • We design and build a highly scalable end-to-end tree boosting system. • We propose a...原创 2019-07-01 16:14:05 · 113 阅读 · 0 评论