学习AI过程的的阅读记录1 《利用Python进行数据分析·第2版》
1、数据分析学习
- 《利用Python进行数据分析·第2版》简书链接
主要关注numpy和pandas的主要函数、方法,数据分析在AI中占重要位置
ex: 布尔型索引,pandas 支持*"array[| !=| ~ ] <值> ,例如 (array“a”)| ~(array==“b”)*
满足布尔型的结果直接赋值, array[arry<0]=0
- 支持乱序选行 array[[3,2,1,5]] 选取array的3、2、1、5行
- 花式索引跟切片不一样,它总是将数据复制到新数组中
- tanspose的按轴转换
- 函数np.in1d用于测试一个数组中的值在另一个数组中的成员资格
numpy用于数据分析,pandas用于处理表格和混杂数据
pandas的简单介绍
pandas 两个主要数据结构:Series和DataFrame
Series:
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成
索引在左边,值在右边。由于我们没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。
# 默认是数字
In [15]: obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
In [16]: obj2
Out[16]:
d 4
b 7
a -5
c 3
dtype: int64
In [17]: obj2.index
Out[17]: Index(['d', 'b', 'a', 'c'], dtype='object')
obj2[obj2>0]
Out[21]:
d 6
b 7
c 3
dtype: int64
支持字典创建,索引创建
DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。有关DataFrame内部的技术细节远远超出了本书所讨论的范围。
建DataFrame的办法有很多,最常用的一种是直接传入一个由等长列表或NumPy数组组成的字典
reindex 可以重建索引