![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
Ryan_yan1
这个作者很懒,什么都没留下…
展开
-
pandas常用操作总结
pandas常用操作总结常用操作pandas常用操作总结pandas读取csv,txt,excel,mysqlpandas存入excel,mysqlpandas数据结构常用操作pandas增加数据列pandas统计结果和排序pandas缺失值和缺失日期处理pandas两个表对应关系Merge合并pandas两个字段相同的表合并concatpandas拆分合并excelpandas读取csv,txt,excel,mysql详细文章import pandas as pdfpath = './datas原创 2020-07-19 15:49:48 · 313 阅读 · 0 评论 -
pandas画图分析网站原始访问日志
pandas画图分析网站原始访问日志实现步骤:1、读取数据、清理、格式化2、统计爬虫spider的访问比例,输出柱状图3、统计http状态码的访问占比,输出饼图4、统计按小时、按天的PV/UV流量趋势,输出折线图import pandas as pdimport numpy as npimport os# 让输出不会被截断pd.set_option('display.max_colwidth', -1)from pyecharts import options as optsfr原创 2020-07-18 22:20:24 · 354 阅读 · 0 评论 -
pandas结合Sklearn实现泰坦尼克存活率预测
pandas结合Sklearn实现泰坦尼克存活率预测实例目标:实现泰坦尼克存活预测处理步骤:1、输入数据:使用Pandas读取训练数据(历史数据,特点是已经知道了这个人最后有没有活下来)2、训练模型:使用Sklearn训练模型3、使用模型:对于一个新的不知道存活的人,预估他存活的概率import pandas as pdfrom sklearn.linear_model import LogisticRegressiondf_train = pd.read_csv("./pandas/an原创 2020-07-18 21:15:07 · 277 阅读 · 0 评论 -
pandas结合Pyecharts绘制交互性折线图
pandas结合Pyecharts绘制交互性折线图Pandas是Python用于数据分析领域的超级牛的库Echarts是百度开源的非常好用强大的可视化图表库,Pyecharts是它的Python库版本import pandas as pdfrom pyecharts.charts import Linefrom pyecharts import options as opts# 读取百度股票,并设置时间列为索引,类型为日期格式df = pd.read_excel("./pandas/ant-原创 2020-07-18 20:51:00 · 1480 阅读 · 0 评论 -
pandas实现Excel的vlookup,在指定列后面输出
pandas实现Excel的vlookup,在指定列后面输出1.有两个excel,他们有相同的一个列;2.按照这个列合并成一个大的excel,即vlookup功能,只需要第二个excel的少量的列,比如从40个列中挑选2个列新增的来自第二个excel的列需要放到第一个excel指定的列后面;3.将结果输出到一个新的excel;import pandas as pd# 学生成绩表df_grade = pd.read_excel("./pandas/ant-learn-pandas/cours原创 2020-07-18 20:18:32 · 950 阅读 · 0 评论 -
pandas处理日期数据,日期查询日期缺失处理
Pandas怎样快捷方便的处理日期数据Pandas日期处理的作用:将2018-01-01、1/1/2018等多种日期格式映射成统一的格式对象,在该对象上提供强大的功能支持几个概念:pd.to_datetime:pandas的一个函数,能将字符串、列表、series变成日期形式Timestamp:pandas表示日期的对象形式DatetimeIndex:pandas表示日期的对象列表形式其中:DatetimeIndex是Timestamp的列表形式pd.to_datetime对单个日期字符串处原创 2020-07-16 22:37:50 · 4292 阅读 · 0 评论 -
pandas分组后应用apply函数
pandas分组后应用apply函数知识:Pandas的GroupBy遵从split、apply、combine模这里的split指的是pandas的groupby,我们自己实现apply函数,apply返回的结果由pandas进行combine得到结果GroupBy.apply(function)function的第一个参数是dataframefunction的返回结果,可是dataframe、series、单个值,甚至和输入dataframe完全没关系怎样对数值列按分组的归一化?将不同范原创 2020-07-15 21:48:08 · 1709 阅读 · 0 评论 -
pandas的数据转换函数map、apply、applymap
Pandas的数据转换函数map、apply、applymap数据转换函数对比:map、apply、applymap:map:只用于Series,实现每个值->值的映射;apply:用于Series实现每个值的处理,用于Dataframe实现某个轴的Series的处理;applymap:只能用于DataFrame,用于处理该DataFrame的每个元素;import pandas as pdstocks = pd.read_excel('./pandas/ant-learn-pandas原创 2020-07-15 21:01:51 · 681 阅读 · 0 评论 -
pandas的分层索引MultiIndex
import pandas as pdstocks = pd.read_excel('./pandas/ant-learn-pandas/datas/stocks/互联网公司股票.xlsx')print(stocks.head())''' 日期 公司 收盘 开盘 高 低 交易量 涨跌幅0 2019-10-03 BIDU 104.32 102.35 104.73 101.15 2.24 0.021原创 2020-07-13 22:34:44 · 271 阅读 · 0 评论 -
pandas实现groupby分组统计
Pandas怎样实现groupby分组统计类似SQL:select city,max(temperature) from city_weather group by city;groupby:先对数据分组,然后在每个分组上应用聚合函数、转换函数import pandas as pdimport numpy as npdf = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],原创 2020-07-13 21:11:44 · 3865 阅读 · 0 评论 -
使用pandas拆分合并excel文件
import pandas as pdimport osdf_source = pd.read_excel( "./pandas/ant-learn-pandas/course_datas/c15_excel_split_merge/crazyant_blog_articles_source.xlsx")print(df_source.head(5))# 创建文件夹if not os.path.exists("splits_dir"): os.mkdir("splits_di原创 2020-07-13 20:40:16 · 876 阅读 · 0 评论 -
pandas实现数据的合并concat
使用场景:批量合并相同格式的Excel、给DataFrame添加行、给DataFrame添加列一句话说明concat语法:使用某种合并方式(inner/outer)沿着某个轴向(axis=0/1)把多个Pandas对象(DataFrame/Series)合并成一个。concat语法:pandas.concat(objs, axis=0, join='outer', ignore_index=False)objs:一个列表,内容可以是DataFrame或者Series,可以混合axis:默原创 2020-07-11 22:30:59 · 404 阅读 · 0 评论 -
pandas实现DataFrame的Merge合并
pandas实现DataFrame的Merge合并Pandas的Merge,相当于Sql的Join,将不同的表按key关联到一个表merge的语法:pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('x', 'y'), copy=True, indicator=False, validate=原创 2020-07-11 21:54:38 · 872 阅读 · 0 评论 -
pandas的索引 index的用途
pandas的索引index的用途把数据存储于普通的column列也能用于数据查询,那使用index有什么好处?index的用途总结:更方便的数据查询;使用index可以获得性能提升;自动的数据对齐功能;更多更强大的数据结构支持;import pandas as pddf = pd.read_csv("D:/python基础课程/pandas/ant-learn-pandas/datas/ml-latest-small/ratings.csv", encoding="utf8",原创 2020-07-11 20:55:52 · 1416 阅读 · 0 评论 -
pandas的axis参数理解
pandas的axis参数怎么理解?axis=0或者"index":如果是单行操作,就指的是某一行如果是聚合操作,指的是跨行cross rowsaxis=1或者"columns":如果是单列操作,就指的是某一列如果是聚合操作,指的是跨列cross columns按哪个axis,就是这个axis要动起来(类似被for遍历),其它的axis保持不动import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(12).res原创 2020-07-11 20:18:20 · 509 阅读 · 1 评论 -
pandas字符串处理
Pandas字符串处理前面我们已经使用了字符串的处理函数:df[“bWendu”].str.replace(“℃”, “”).astype(‘int32’)Pandas的字符串处理:使用方法:先获取Series的str属性,然后在属性上调用函数;只能在字符串列上使用,不能数字列上使用;Dataframe上没有str属性和处理方法Series.str并不是Python原生字符串,而是自己的一套方法,不过大部分和原生str很相似;Series.str字符串方法列表参考文档:https://pa原创 2020-07-11 18:15:45 · 173 阅读 · 0 评论 -
pandas的SettingWithCopyWarning报警原因
报错原因发出警告的代码 df[condition][“wen_cha”] = df[“bWendu”]-df[“yWendu”]相当于:df.get(condition).set(wen_cha),第一步骤的get发出了报警链式操作其实是两个步骤,先get后set,get得到的dataframe可能是view也可能是copy,pandas发出警告官网文档: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#re原创 2020-07-11 13:59:31 · 299 阅读 · 0 评论 -
pandas对缺失值的处理,清洗数据
Pandas对缺失值的处理isnull和notnull:检测是否是空值,可用于df和seriesdropna:丢弃、删除缺失值axis : 删除行还是列,{0 or ‘index’, 1 or ‘columns’}, default 0how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除inplace : 如果为True则修改当前df,否则返回新的dffillna:填充空值value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)method原创 2020-07-11 13:21:48 · 1586 阅读 · 0 评论 -
pandas统计函数协方差和相关系数,数据排序
import pandas as pddf = pd.read_csv("D:/python基础课程/pandas/ant-learn-pandas/datas/beijing_tianqi/beijing_tianqi_2018.csv", encoding="utf8", engine="python")print(df.head(5))df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype("int32")df.loc原创 2020-07-11 12:43:31 · 1396 阅读 · 0 评论 -
pandas增加数据列
import pandas as pddf = pd.read_csv("D:/python基础课程/pandas/ant-learn-pandas/datas/beijing_tianqi/beijing_tianqi_2018.csv", engine='python', encoding='utf-8')print(df.head())直接赋值的方法# 替换掉温度的后缀℃df.loc[:, "bWendu"] = df["bWendu"].str.rep原创 2020-07-08 22:18:00 · 1703 阅读 · 0 评论 -
pandas查询数据
Pandas查询数据的几种方法df.loc方法,根据行、列的标签值查询df.iloc方法,根据行、列的数字位置查询df.where方法df.query方法.loc既能查询,又能覆盖写入,强烈推荐!Pandas使用df.loc查询数据的方法使用单个label值查询数据使用值列表批量查询使用数值区间进行范围查询使用条件表达式查询调用函数查询注意以上查询方法,既适用于行,也适用于列注意观察降维dataFrame>Series>值import pandas as pdd原创 2020-07-08 21:36:30 · 650 阅读 · 0 评论 -
pandas数据结构Series和DataFrame
import pandas as pdimport numpy as nps1 = pd.Series([1, "a", 5.3, 7])# 左侧为索引,右侧为数据print(s1)# 获取索引print(s1.index)# 获取数据print(s1.values)# 创建一个具有标签索引的Seriess2 = pd.Series([1, 'a', 5.2, 7], index=['d', 'b', 'a', 'c'])# 使用python字典创建Seriessdata原创 2020-07-08 20:52:31 · 157 阅读 · 0 评论 -
pandas读取csv,txt,excel文件
准备工作 导包import pandas as pd读取csv文件pandas的 read_excel() 方法fpath = './datas/ml-latest-small/ratings.csv'# # 使用pd.read_csv读取数据ratings = pd.read_csv(fpath)查看DataFrame的具体结构ratings.head() # 查看前几行数据userIdmovieIdratingtimestamp0114.0964原创 2020-07-06 22:47:12 · 572 阅读 · 0 评论