数据挖掘
杨柳岸晓风
这个作者很懒,什么都没留下…
展开
-
ID3决策树算法(python实现)
ID3决策树是以信息增益作为决策标准的一种贪心决策树算法原创 2017-05-05 11:29:40 · 1317 阅读 · 1 评论 -
sklearn学习笔记之Kmeans聚类
先讲KMeans的构造函数:使用前需要导入import sklearn.cluster import KMeansKMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verb原创 2017-05-16 14:28:00 · 1769 阅读 · 0 评论 -
C4.5决策树算法(Python实现)
C4.5算法使用信息增益率来代替ID3的信息增益进行特征的选择,克服了信息增益选择特征时偏向于特征值个数较多的不足。原创 2017-05-06 17:12:19 · 11097 阅读 · 6 评论 -
基本聚类算法
KMeans :初始随机设置K(k代表要凝聚的簇的个数)个质心,遍历每一个数据点,将其划分归于距它最近的质心,遍历完成之后,重新计算每个簇的质心,直至前后两次簇的质心变化不大。优点: K均值简单有效,适合大多数数据类型,可多次运行。缺点: 并不适合所有数据类型,不能处理非球形簇。K均值仅限于具有中心(质心)概念的数据。凝聚层次聚类: 合并两个最接近的簇,更新邻接矩阵,以反映原创 2017-06-04 19:31:54 · 509 阅读 · 0 评论 -
Kaggle: Titanic
所需数据下载地址:https://www.kaggle.com/c/titanic/data# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklearn import preprocessing原创 2017-05-19 20:06:45 · 406 阅读 · 0 评论 -
决策树算法伪代码
决策树算法伪代码原创 2017-06-02 22:25:59 · 9014 阅读 · 0 评论