数据分析
文章平均质量分 59
一道微光
Young
展开
-
数据挖掘的个人导包规范--围绕sklearn
文章目录系统基础预处理模型评估寻优系统import osfrom time import timeimport gc # garbage collector?基础import pandas as pdimport numpy as npfrom numpy import loadtxt预处理from sklearn.preprocessing import OneHotEncoderfrom collections import Counterfrom sklearn.util原创 2021-07-23 11:58:11 · 57 阅读 · 0 评论 -
探索性数据分析:统计量表+一图多变量可视化
探索性数据分析导入常用包统计量表可视化导入常用包import osimport numpy as npimport pandas as pdfrom scipy import statsimport matplotlib.pyplot as plt统计量表主要通过计算基本统计量表,检查变量的取值范围、中位数统计量计数最小值最大值平均值中位数标准差偏度峰度x13220.820-1.50y35440.820-1.50原创 2021-07-23 11:54:57 · 586 阅读 · 0 评论 -
数据挖掘基本流程 CRISP-DM --项目实战总结 可操作性强
CRISP-DM数据挖掘基本流程数据挖掘的基本流程图CRISP-DMCRISP-DM的实现方法商业理解数据理解数据准备建立模型模型评估结果部署文件夹的内部框架数据挖掘的基本流程图在实际的数据挖掘过程中,基本会经历一下的这些流程(主要参考CRISP-DM的流程,下文有详述。)。其中包含两个小循环和一个大循环。第一个小循环是商业理解和数据理解之间的指标的反复构建和优化。第二个小循环是数据准备和建立模型,主要涉及到对数据的各种变换:清洗、特征筛选、特征生成、数据集成等。一个大循环是指,在结果部署之前原创 2021-07-23 11:23:17 · 3182 阅读 · 0 评论 -
数据分析的描述性的基本统计量python实现
对各个特征计算其基本统计量,以下给出了一个简单的计算程序。分别求解了最小值、最大值、中位数、平均值、标准差、偏度、峰度、缺失值个数。并可以导出到excel中。import osimport numpy as npimport pandas as pdfrom scipy import statsimport matplotlib.pyplot as pltdef basic_desc(data): '''计算某一列的基本统计量:最小值、最大值、中位数、平均值、标准差、偏度、峰度原创 2021-07-09 09:41:18 · 838 阅读 · 0 评论 -
与<博><客><园>的梦幻联动
与<博><客><园>的梦幻联动我的地址:https://home.cnblogs.com/u/2431745/原创 2021-06-16 16:29:05 · 55 阅读 · 0 评论 -
描述性统计分析和可视化方法汇总(力求精简)
文章目录一、为什么要描述和可视化1. 统计研究的过程2.描述性统计分析的作用二、如何描述和可视化1. 数据类型是基础2. 单变量分布分析3. 两变量相关性分析4. 多变量交叉相关分析之前学过spss的探索性数据分析,在此分享以下之前学过的方法,重在精简,打开数据描述的思路,若有不清楚的地方,可以在留言区探讨。一、为什么要描述和可视化1. 统计研究的过程2.描述性统计分析的作用描述性统计分析属于整数数据这个环节,它的作用主要有以下几点:描述某变量的分布信息就是它长什么样子、高矮胖瘦,值大的多原创 2021-04-21 16:47:53 · 4109 阅读 · 0 评论 -
python数据可视化的画布、类型、坐标系等参数配置
文章目录python数据可视化作图的步骤1. 导入模块2. 数据3. 画布(pl与plt操作类似)画布个数:figure(n,figsize=(16,16))画布分区:画布切换4. 绘图类型设置坐标系python数据可视化(例子可以看pandas学习笔记)作图的步骤1. 导入模块import numpy as npimport matplotlib.pyplot as plt import pylab as pl2. 数据* 自变量、因变量,多个因变量3. 画布(pl与plt操作原创 2021-04-08 20:57:34 · 642 阅读 · 0 评论 -
利用python进行数据分析的常用方法
文章目录利用python进行数据分析的常用方法一、回归分析:二、聚类分析:(无监督)三、分类方法:(有监督)表格汇总:常用的sklearn包利用python进行数据分析的常用方法详细代码可参照上一篇文章:https://blog.csdn.net/weixin_43899514/article/details/110671882一、回归分析:类型:线性回归、岭回归、Lasso回归分析步骤导入模块类实例化有时需要传入参数,初始化实例模型拟合.fit模型预测.predi原创 2021-04-08 20:49:01 · 338 阅读 · 0 评论 -
数据预处理:数据的正态化和标准变换
一、正态数据正态数据的分布是一个钟型分布,数据点的分布是中间高两边低的,例如一个学校里学生的身高。特别高和特别低的都少,高度居中的人较多。如下图(其中x轴为数据的取值,y轴为对应取值的频率)二、数据需要正态化的原因很多统计学的理论,如线性回归、假设检验和参数估计等,很多地方需要数据的分布为正态。而现实中的数据不一定服从正态或者是标准正态,因此需要对数据进行正态化,才可以使用已有的一些模型。有时候,模型的表现不好,可能跟数据的预处理有很大的关系。三、两个指标判断是否是正态数据一般有两个指标,样本均原创 2021-03-25 20:45:06 · 20396 阅读 · 1 评论 -
pandas 的简单使用
pandas一、创建数据1. 手动创建df = pd.DataFrame({字典})key是标签,value是列表2. 创建随机DataFramedf =pd.DataFrame(np.random.randn(4,5),index=list(‘1234’),columns=list(‘ABCDE’))3. 读取文件创建表格型数据read_csv\read_table导入数据的其他函数read_excel\read_sql\read_json\read_html\read_h原创 2021-04-08 16:52:16 · 72 阅读 · 0 评论 -
pandas的简单使用
一、创建:array、arange、linspace、zeros、zeros_like、ones、eye二、状态:shape、size、dtype、ndim、itemsize、data三、索引1.切片索引,连续性选择,与list相似,只不过换成了多维切片可以对切片索引 直接赋值2. bool值索引,跳跃式选择(pandas也类似)为True时被抽取,或不为零时因此可以在数组中写判断语句!!!四、伪随机数1. 支持的分布:二项、几何、超几何、泊松均匀、正态、指数、逻原创 2021-04-08 16:43:11 · 71 阅读 · 0 评论 -
数据从哪儿来?一些实用的网址
数据获取的思路从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来)数据获取渠道一、官方网站1 )国家统计局http://www.stats.gov.cn/最权威最全面最实惠(免费只需注册)就国内来说:涵盖了各个产业行业、各个省、各个时间段的原创 2021-03-26 19:27:22 · 2658 阅读 · 0 评论