数据挖掘
淮南草
这个作者很懒,什么都没留下…
展开
-
使用级联预测模型
转自https://www.missshi.cn/api/view/blog/5a06a441e519f50d0400035ekaggle入门竞赛之泰坦尼克事故存活预测(xgboost方法)第三方库引入首先,我们来看下用xgboost解决这个问题需要引入哪些第三方库吧:# Load in our librariesimport pandas as pdimport numpy...原创 2018-08-09 16:49:58 · 2888 阅读 · 0 评论 -
数据挖掘之鸢尾花数据集分析
因为手上没有iris.data数据,只能通过在sklearn中加载原始数据,并将其转换为Dataframe格式主要内容:数据分布的可视化(特征之间分布、特征内部、分类精度、热力图)算法:决策树 随机森林import pandas as pdfrom sklearn.datasets import load_irisimport numpy as np# iris_data =...原创 2018-08-08 22:19:04 · 20751 阅读 · 1 评论 -
混淆矩阵 正确率 召回率 ROC曲线
混淆矩阵: 预测结果 真实结果 +1 -1 +1 TP FN -1 FP TN TP:真阳 ...原创 2018-08-28 11:36:27 · 663 阅读 · 0 评论 -
数据清洗 总结:
数据清洗过程可能用到的一些方法记录: # 数据挖掘的主要流程import pandas as pd#******************** 构造数据集*******************#df = pd.read_csv('data.csv')#构造新的Dataframekd = pd.DataFrame({'matchup':df.matchup,'opponent':df....原创 2018-08-28 15:48:12 · 1803 阅读 · 0 评论 -
建模与分析
利用不同机器学习方法对数据建模# 模型选择# 交叉验证#基于随机森林的交叉验证from sklearn.ensemble import RandomForestClassifierfrom sklearn.cross_validation import KFoldfrom sklearn.metrics import confusion_matrix,log_los...原创 2018-08-28 15:51:29 · 880 阅读 · 0 评论 -
学习python处理时间序列数据
datetime模块 字符串和datetime转换 pandas数据处理操作 时间周期计算时间数据重采样升采样滑动窗口时序模型:ARIMAAR(Autoregressive)模型:自回归模型 描述的是值之间的关系MA(Moving average) 模型:滑动平均 描述的是误差之间的关系平稳性...原创 2018-12-24 21:33:19 · 924 阅读 · 0 评论 -
提高pandas查询速率
# import pandas as pdimport ray.dataframe as pd原创 2019-01-05 22:20:22 · 739 阅读 · 1 评论 -
提取时域特征的库
https://github.com/blue-yonder/tsfresh原创 2019-02-25 20:18:24 · 1309 阅读 · 0 评论 -
数据分析- 单因子探索分析与可视化
集中趋势:均值、中位数、众数、分位数离中趋势:标准差、方差数据分布:偏态系数和峰态系数偏态系数:指数据平均值偏离状态的一种衡量 ( 貌似可以衡量 中位数和均值的关系)峰态系数:指数据分布集中强度的衡量正态分布与三大分布卡方分布 T分布 F分布抽样理论异常值对比分析...原创 2019-03-09 18:33:16 · 454 阅读 · 0 评论 -
数据挖掘之坦坦尼克号获救情况分析
主要内容: 缺失值的填充 特征中的字符串映射为int或float操作 特征构造 对特征的重要性进行分析以及可视化操作算法:线性回归 逻辑回归 随机森林 集成方法分类#分析泰坦尼克号获救情况import pandastitanic = pandas.read_csv('./titantic_data/trai...原创 2018-08-08 15:48:00 · 622 阅读 · 0 评论 -
使用级联预测模型 完整代码
import pandas as pdimport numpy as npimport reimport sklearnimport seaborn as snsimport matplotlib.pyplot as pltimport xgboost as xgbimport plotly.offline as pypy.init_notebook_mode(connected...原创 2018-08-09 16:51:11 · 2110 阅读 · 0 评论 -
美国劳工部官方统计数据 员工离职案例分析
通过对数据的分析 预判员工离职的可能性首先去分析是否存在不干净数据,import pandas as pdimport numpy as npdf = pd.read_csv('HR_comma_sep.csv')# print(df.isnull().any()) #判断是否有null值# print(np.count_nonzero(df != df)) #判断nan数量...原创 2018-08-09 17:31:39 · 2173 阅读 · 0 评论 -
利用tensorflow构建CNN识别Minist手写数字集
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.cm as cmimport tensorflow as tfLEARNING_RATE = 1e-4 # 学习率TRAINING_ITERATIONS = 2500 #迭代次数DROP_OUT = 0....原创 2018-08-09 23:22:53 · 963 阅读 · 0 评论 -
通过鸢尾花数据集演示PCA操作
主要内容:通过构造协方差矩阵,计算保持原有数据95%特征信息所需要的特征数 ,通过PCA降维构造新的数据集#通过鸢尾花数据集演示PCA操作import pandas as pdfrom sklearn.datasets import load_irisimport numpy as npiris = load_iris()X, y = iris.data, iris.target...原创 2018-08-10 09:00:38 · 2231 阅读 · 0 评论 -
#文本预测股票 涨还是降 二分类
主要内容: 通过CountVectorizer构建词向量 LogisticRegression构建分类模型 通过对特征的分析,重构特征向量 通过两个单词作为最小单元 构建向量 通过逻辑回归预测#文本预测股票 涨还是降 二分类import pandas as pdfrom sklearn.feature_extraction.text...原创 2018-08-10 10:49:32 · 820 阅读 · 0 评论 -
分析信用借贷问题
主要内容:数据的多方位清洗 建立分类模型 分类精度以及回召率其中数据的清洗主要包括:1:查看数据的基本信息 样本数 特征数 2:去除个人认为无影响特征、某列缺失过半特征、一行元素全部相同的样本、类别不明确的行(本例中是表示是否借款不明确)3:去除只有一个特征属性的特征、或者 一个特征+nan 的特征4:查看空值(null)的数量 删除空值较多的列5:如果发现某些特征存在...原创 2018-08-10 19:40:37 · 379 阅读 · 0 评论 -
数据挖掘之科比投球案例分析
为了弥补在特征工程中的不足,学习一下如何从数据获取以后进行数据处理分析,以下为数据处理学习内容:在学习过程中遇到问题:原因1:后来发现是学习视频中介绍导包的文件不对,下面这两个都是KFold交叉验证的包,但是用法不同原因2:某些特征中存在字符串 没法将其转换为float或int计算,如上面错误中的’IND‘ 就是其中一个特征中的值,在后面的交叉验证前进行了 相关特征剔除,保证了...原创 2018-08-07 19:14:04 · 2975 阅读 · 0 评论 -
数据挖掘之用户欺诈案例分析
分析方法:查看样本样式 样本数值特征之间的量级差距查看样本0 1分布情况--》 可能需要进行对多样本降采样 ; 可能需要对少样本 造样本(SMOT算法)通过分析混淆矩阵 根据目标需求(需要准确率高点 还是回召率高点)找到最佳参数本文的例程因为缺少csv文件和 KFold交叉验证没有解决 所以无法运行'''Created on @author: hcl'''#分...原创 2018-08-08 08:47:01 · 2620 阅读 · 0 评论