python
文章平均质量分 70
wymmyg
这个作者很懒,什么都没留下…
展开
-
利用箱线图侦查连续型数据的异常值
import pandas as pdcatering_sale = r'E:\Python数据分析与挖掘实战\chapter3\demo\data\catering_sale.xls'data = pd.read_excel(catering_sale,index_col = u'日期')data.head()数据示例:画箱线图前准备import matplotlib.pyplot as plt%matplotlib inline #在线显示plt.rcParams['font.原创 2020-10-14 18:04:54 · 403 阅读 · 0 评论 -
Python数据可视化之——matplotlib库
图表的基本组成元素:画布,坐标系,坐标轴,坐标标题,图标标题,数据表,网格线,图例,误差线。1.建立画布#先安装并导入需要的模块import matpoltlib.pyplot as plt#让图表直接在jupyter中展示出来%matlotlib inline#解决中文乱码的问题plt.rcParams["font.sans-serif"] = 'SimHei'#解决正负号无法正常显示的问题plt.rcParams['axes.unicode_minus'] = False#默认设置下原创 2020-10-14 15:25:43 · 414 阅读 · 0 评论 -
Python数据分组、数据透视
1.1分组键是列名#按照一列就行分组df.groupby("name").count() #只有对数据就行分类汇总计算之后才会展示出来,否则返回的知识一个dateframegroupby对象df.groupby("age").sum()#按照多列进行分组df.groupby(["name","age"]).count() #分组后对所有可计算列进行分类汇总df.groupby(["name","age"]).sum()df.groupby("客户分类")["用户ID"].count(原创 2020-10-14 15:27:50 · 434 阅读 · 0 评论 -
Python的datetime日期函数
1.1 返回当前时刻的日期和时间from datetime import datetimedatetime.now() #返回当前时刻的年月日时分秒1.2 分别返回当前时刻的年、月、日datetime.now().yeardatetime.now().monthdatetime.now().day1.3 返回当前时刻的周数datetime.now.weekday()+1 ...原创 2020-10-14 15:25:10 · 4550 阅读 · 0 评论 -
Python关于map、apply、applymap函数
1.map函数把一个函数功能,应用到另一个序列的每一个数据上例一:r = np.arrange(10)rdef f(x): if x%2 = 0: return x/2 else: return x*2list(map(f,r))r.map(f)例二:def f(x): if x <90: return "不及格" elif x <120: ...原创 2020-10-14 15:28:12 · 379 阅读 · 0 评论 -
Python行列增加、删除
1.1删除列df.drop(["age","time"],axis = 1) #指定列名df.drop(columns = ["age","time"]) #axis为1时,表示列,为0,表示行df.drop(df.columns[[4,5]],axis = 1) #指定列位置1.2删除行df.drop(["1","2"],axis = 0) #传入行索引名称...原创 2020-10-14 15:28:23 · 330 阅读 · 0 评论 -
Python数值基础操作
1.1按照某一列就行排序df.sort_values(by = ["age"],ascending = False)#ascending默认为True升序排序,False降序排序1.2当排序一列中 有缺失值时,设定缺失值位置df.sort_values(by = ["age"],na_position = "first")#na_position默认为"last"排在最后,"first...原创 2020-10-14 15:28:41 · 132 阅读 · 0 评论 -
Python数值替换+基础运算
1.1一对一df["age"].replace(33,24) #将age一列中所有33替换成24df.replace(np.NaN,o)df.fillna(0) #与上一行功能相同1.2多对一df.replace([1,2,3],56)1.3多对多df.replace({1:23,3:45,2:24})...原创 2020-10-14 15:28:00 · 1870 阅读 · 0 评论 -
Python普通索引,位置索引,切片索引
1.普通索引,直接传入列名#列的普通索引df["age"]df[["name","age"]]#行的普通索引,利用loc传入行索引的名称df.loc["1"] #选择索引名为1的行df.loc["1","2"] #选择索引名为1和2的两行df.loc[["1","2"],["name","age"]] #行列同时选择2.位置索引,利用iloc传入行或者列的位置df....原创 2020-10-14 15:28:53 · 1355 阅读 · 0 评论 -
Python索引设置
在Python中如果没有原始索引,会默认从0开始的自然数作为索引。1.1给df表传入索引。#传入列宿索引df.columns = ["name","age","grade","height","time"]#传入行索引df.inex = [1,2,3,4,5,6]#传入的行列索引必须与行列数相同,否则报错1.2df中重置行索引df.set_index("age")#讲age列当...原创 2020-10-14 15:29:04 · 2840 阅读 · 0 评论 -
Python查看数据基础信息、缺失值和重复值处理
1.1预览数据前几行df.head() #默认为前5行,也可以自行设置df.head(10)1.2查看数据表大小df.shape1.3获取数据类型df.info()1.4查看数据分布情况df.describe()'''count:计数mean:平均值std:标准差minmax25%50%75%'''2.1查找缺失值df.info()df.isnu...原创 2020-10-14 15:29:21 · 3812 阅读 · 0 评论 -
Python本地数据读取与保存
4.1原创 2020-05-04 15:49:11 · 1797 阅读 · 0 评论 -
python的多表拼接
#导入需要的库pandas、os、glob,没有需要安装import pandas as pd import os,glob#设置读取路径path = r'filepath'#利用正则表达式寻找需要读取的文件路径名file = glob.glob(os.path.join(path,"*.csv")print(file)#d1 = []for f in file: d1...原创 2020-10-14 15:26:50 · 2183 阅读 · 0 评论 -
anaconda基础
一.利用Python进行数据分析入门anaconda常用快捷键esc 退出编辑enter进入编辑状态shift +enter运行本单元,跳入下一个单元,但是下一单元不是可运行状态alt + enter 运行奔单元,跳入下一单元,并且下一单元是可编辑状态Ctrl+enter仅运行本单元格,并不跳转下一单元Markdown和code转化,先进入不可编辑状态esc+m Markdown...原创 2020-10-14 15:29:58 · 244 阅读 · 0 评论