python学习笔记
文章平均质量分 85
南有妖尾
除了学编程,不想做别的~
个人简书:https://www.jianshu.com/u/ef62a0160ac2
展开
-
数据预处理_数据相关性分析
相关性分析1、相关性分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度2、相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系3、为了更准确描述变量之间的相关程度,通过计数相关系数来表示,在二元变量的相关分析中用相关系数®表示,而常用的有Pearson相关系数(皮尔逊相关系数) 和Spearman秩相关系数(斯皮尔曼相关系数)相关系数取值范围:-...原创 2020-04-13 15:54:48 · 10493 阅读 · 1 评论 -
数据预处理_标准化和分类数据转换
数据说明本次演练的数据集为某企业业务部门的客户数据,将对该数据集进行数据预处理等操作。从返回信息可知,数据结构为(1000,5),1000条数据,5个字段,分别是:用户ID(USER_ID)平均用户订单数量(AVG_ORDERS)平均订单价值(AVG_MONEY)是否活跃(IS_ACTIVE)性别(SEX),0(未知),1(男),2(女)通过以上数据说明,可以发现有...原创 2020-04-12 18:47:01 · 1929 阅读 · 0 评论 -
数据预处理_异常值处理
异常值1.异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析2.异常值的处理,先是辨别出哪些是异常值,再根据实际情况选择如何处理异常值。伪异常,比如由于特定业务运营而产生的;真异常,并非业务运营而产生的,是客观反映数据本身存在异常的分布。3.异常值分析3σ原则箱型图4.异常值的处理方法剔除异常值视为缺...原创 2020-04-12 18:45:53 · 7790 阅读 · 3 评论 -
数据预处理_缺失值处理
缺失值处理数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著缺失值处理丢弃 → 删除插补 → 均值、中位数、众数插补 / 临近值插补 / 插值法不处理# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShe...原创 2020-04-12 18:43:10 · 1819 阅读 · 0 评论 -
数据可视化_seaborn分布数据可视化
seaborn整体风格设置sns.set() → 整体设置seaborn的主题,调色板,颜色代码等多个样式# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' #默认为'last'# 导入相关库imp...原创 2020-04-12 17:06:51 · 783 阅读 · 0 评论 -
数据获取_数据库数据的读取
读取MySQL数据库MySQL数据库是开源的关系型数据库,可以通过python与其进行连接。首先需要安装第三方库pymysql → pip install pymysql并且电脑上已经安装好该数据库# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node...原创 2020-04-12 14:24:27 · 2544 阅读 · 0 评论 -
数据获取_json文件读取和存储
什么是JSON文件?JSON数据是一种轻量级得数据交换格式,因起简洁和清晰得层次结构使JSON成为理想的数据交换语言。import pandas as pdimport numpy as npimport osos.chdir(r'E:\python_learn\train') # 相对路径json文件读取 → pd.read_jsonread_json读取json文件后,返回...原创 2020-04-12 14:20:30 · 708 阅读 · 0 评论 -
数据获取_文本数据获取和存储
读取txt文件 → pd.read_tableread_table,读取通用分隔符分隔得文件到数据框,返回DataFrame# 设置cell多行输出from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' #默认为'last'# ...原创 2020-04-12 14:16:35 · 308 阅读 · 0 评论