数据分析入门
文章平均质量分 67
小黑班♪(・ω・)ノ
这个作者很懒,什么都没留下…
展开
-
pandas中使用numpy
81.导入并查看pandas与numpy版本import pandas as pdimport numpy as npprint(np.__version__)print(pd.__version__)82.从NumPy数组创建DataFrame#随机数temp_1 = np.random.randint(1,100,20)df1 = pd.DataFrame(temp_1)df183.从NumPy数组创建DataFrame#固定步长数temp_2 = np.arange(0原创 2021-03-30 21:42:46 · 691 阅读 · 0 评论 -
pandas 读取大量数据时输出内容省略部分过多
问题:输出时省略内容过多,不便确定内容解决办法:查看pandas文档,通过pandas.set_option()解决pandas.set_option() disply中有设置显示的方法,包括line_width,max_rows,max_columns,max_categories,max_colwidth等,在此只需要把对应属性设置更大值即可。如pd.set_option(‘display.max_columns',100)...原创 2021-03-30 11:10:48 · 323 阅读 · 0 评论 -
pandas金融数据处理
51.使用绝对路径读取本地Excel数据import numpy as npimport pandas as pddata = pd.read_excel('/Users/baji/Desktop/600000.SH.xls')52.查看数据前三行data.head(3)53.查看每列数据缺失值情况data.isnull().sum()54.提取日期列含有空值的行data[data['日期'].isnull()]55.输出每列缺失值具体行数for columname原创 2021-03-29 20:57:16 · 938 阅读 · 5 评论 -
2021-03-26 复习pandas数据处理
21.读取本地EXCEL数据import pandas as pdimport numpy as npdf = pd.read_excel('pandas325.xlsx')22.查看df数据前5行df.head()23.将salary列数据转换为最大值与最小值的平均值def fun(df): lst =df['salary'].split('-') smin = int(lst[0].strip('k')) smax = int(lst[1].strip('k原创 2021-03-27 23:52:38 · 942 阅读 · 1 评论 -
2021-03-23 复习pandas 基础
1.使用字典创建DataFrameimport pandas as pdimport numpy as npdata = {'grammer':['Python','C','Java','GO','NaN','SQL','PHP','Python'],'score':[1.0,2.0,np.nan,4.0,5.0,6.0,7.0,10.0]}df = pd.DataFrame(data)df2.提取含有字符串"Python"的行df[df['grammer'] == 'Python']原创 2021-03-24 00:21:30 · 402 阅读 · 0 评论 -
2021-03-07 pandas(时间序列)
生成一段时间序列代码:date_range(start=None,end=None,periods=None,freq=‘D’)Tips:Start end freq 搭配,生成 start 到end 范围内以频率freq的一组时间索引start periods freq 搭配,生成 start 开始的以频率freq的periods 个 时间索引In [8]: pd.date_range(start='20210101',end='20210303',freq='10D')原创 2021-03-07 22:19:12 · 517 阅读 · 1 评论 -
2021-03-07 value_count()
利用sum统计无效数据df.isnull().sum() 统计每个列中有多少个NaN值value_counts()该方法返回一个Series序列,该序列包含每个值的数量,默认情况下,NaN不会被包含在结果中值A 数量值B 数量值C 数量normalize: 默认=False,当=True时,返回各个值的百分比计数值A 0.5333333值B 0.3333333值C 0.2777777sort:自动排序ascending:=True 升序 从小到大bins: = 区间数前提,只有当原创 2021-03-07 14:45:12 · 134 阅读 · 0 评论 -
2021-03-05 pandas(合并_分组聚合_复合索引)
数据合并join默认情况下他是把行索引相同的数据合并到一起,以调用对象的行为准调用对象不存在的行数不合并,调用对象存在但合并对象无数据的索引位置出现NaNIn [1]: import pandas as pd In [2]: import numpy as np In [3]: d1原创 2021-03-06 01:05:38 · 293 阅读 · 0 评论 -
2021-03-02 学习pandas
pandasnumpy能够处理数值,pandas除了处理数值之外(基于numpy),还能够处理其他类型的数据,例如字符串、时间序列等,以及存储在Excel、数据库中的数据数据类型一维 Series带标签(index索引)数组,可以指定索引值,但要有len(values)一致,否则报错本质上由两个数组构成,1个数组构成对象的键(index 索引),1个数组构成对象的值(values)二维 DataFrameSeries容器从DataFrame中单独取行取列,出来的数值是Serie原创 2021-03-02 23:47:27 · 155 阅读 · 1 评论 -
2021-02-26 numpy学习
numpy的概念一个重在计算且是大部分Python科学计算库的基础库,多用于在大型、多维数组上执行数值运算数组形状按数组的值分类一维数组t1 = np.arange(12)print(t1)#array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]) #一维数组print(t1.shape)#(12,) #只有一个值时表示该元组内元素的个数二维数组t2 = np.array([[1,2,3],[4,5,6]])print原创 2021-02-27 00:24:02 · 106 阅读 · 0 评论 -
2021-02-21 matplotlib(条形、散点、直方图)
matplotlib绘制图形matplotlib基本功能绘制图形条形图散点图直方图实操matplotlib基本功能可回顾上一个笔记内容https://blog.csdn.net/weixin_49487589/article/details/113818071绘制图形其他内容与折线图应用方法大致相同条形图width,height表示条形宽度竖向plt.bar(x,y,width=0.2)横向plt.barh(x,y,height=0.2)散点图绘制方法plt原创 2021-02-21 18:53:47 · 88 阅读 · 0 评论 -
2021-02-15 matplotlib(绘制折线图)
基本要点matplotlib是Python底层绘图库,主要做数据可视化图表,使数据更客观,更具说服力导入from matplotlib import pyplot as plt设置图形大小plt.figure(figsize=(20,8),dpi=80)绘图图中绘制单个图形plt.plot(x,y)图中绘制多个图形plt.plot(x,y)多次调用,plt.plot(x,y_1),plt.plot(x,y_2)调整刻度plt.xticks()/plt.yticks原创 2021-02-15 18:57:52 · 158 阅读 · 0 评论