数据挖掘与机器学习
zzzzzzzz56
这个作者很懒,什么都没留下…
展开
-
利用HR数据进行数据描述统计和可视化
《数据分析与挖掘建模实战》利用HR.csv数据进行实际操作一、描述统计import pandas as pd #引入pandas模块df=pd.read_csv("HR.csv") #导入HR.csv数据df.mean() #求均值df["satisfaction_level"].mean() #求其中一个变量的均值df.median() #求中位数df.qu...原创 2019-03-18 18:53:58 · 1906 阅读 · 3 评论 -
半监督—标签传播算法
半监督学习:样本集部分有标注,部分无标注(常远大于有标注样本)标签传播算法(LabelPropagation):物以类聚的思想,把没有标注的样本和有标注的样本进行比较,相似度高的标为同标注,会优先标注离有标注近的无标注样本,然后再进行传播。要求未标注样本的标注值是-1。以Iris数据集(山鸢花)为例import numpy as npfrom sklearn import data...原创 2019-04-14 11:54:14 · 1551 阅读 · 0 评论 -
聚类——K-means、DBSCAN、层次聚类
k-means:首先确定聚类的个数,再根据均值不断调整直至收敛DBSCAN:基于密度的DBSCAN切割算法,密度相连对象的最大集合层次聚类:图分裂:从顶至下import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_circles,make_blobs,make_moon...原创 2019-04-13 19:43:53 · 639 阅读 · 0 评论 -
回归
回归:线性回归、岭回归、Lasso回归、Logistic回归(常用作分类器)回归树与提升树Gradient Boosting Decision Tree(GBDT)import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklea...原创 2019-04-12 17:57:33 · 178 阅读 · 0 评论 -
分类——KNN、朴素贝叶斯、决策树、SVM、集成
import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...原创 2019-04-12 11:14:08 · 1867 阅读 · 0 评论 -
分类——KNN(K-Nearest Neighbors)
import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...原创 2019-03-29 18:19:27 · 208 阅读 · 0 评论 -
机器学习与建模、划分数据集
学习:通过接收到的数据,归纳提取相同和不同。机器学习:让计算机以数据为基础,进行归纳与总结。模型:数据解释现象的系统。训练集:用来训练与拟合模型验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测测试集:模型泛化能力的考量泛化:对未知数据的预测能力一般情况下:训练集:测试集:验证集=6:2:2,或者,训练集:测试集=8:2K-fold交叉验证:将数据集...原创 2019-03-28 18:49:26 · 877 阅读 · 0 评论 -
数据特征预处理
一、特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程包括:特征使用(数据选择,可用性)、特征获取(特征来源,特征存储)、特征处理(数据清洗,特征预处理)、特征监控(现有特征、新特征)二、数据清洗样本采集(抽样):样本要具有代表性,样本比例要平衡以及不平衡时应如何处理,考虑全量数据异常值(空值)处理:1.识别异常值...原创 2019-03-28 17:23:48 · 449 阅读 · 0 评论 -
多因子探索分析
1.数据的正态检验,卡方检验,独立样本的t检验,方差检验import numpy as npimport scipy.stats as ss#生成一个标准正态分布,20个数norm_dist=ss.norm.rvs(size=20)norm_dist#检验是否是正态分布,p值大于0.05不拒绝原假设,服从正态分布ss.normaltest(norm_dist)#卡方检验,15 ...原创 2019-03-25 19:10:33 · 501 阅读 · 0 评论 -
模型评估
在sklearn.metrics中一、分类模型评估1.二分类:混淆矩阵TP(True Positive):实际是正类,识别为正类FN(False Negative):实际是正类,识别为负类(漏)FP(False Positive):实际是负类,识别为正类(错)TN(True Negative):实际是负类,识别为负类正确率Accuracy Rate:(TP+TN)/...原创 2019-04-14 21:43:11 · 271 阅读 · 0 评论