数据挖掘（二）——获取数据

最新推荐文章于 2024-06-13 11:47:12 发布

Diamond Mine959

最新推荐文章于 2024-06-13 11:47:12 发布

阅读量42

点赞数

文章标签：数据挖掘 python 机器学习

本文链接：https://blog.csdn.net/weixin_63738685/article/details/134928723

版权

一、新建数据框

第一种方法

对于一个二维数据表，
它的每一列可以用list表示[1,2,3,4,5]
多列组合在一起，就可以用一个字典格式——为每个字典元素提供名称

df1 = pd.DataFrame(
    {
        'name':["Jack","Rose","Andy","Bob"],
        'age':[12,23,4,5],
        'height':[187,168,178,189],
        'weight':[70,49,68,74]
    }
)
print(df1)

'''
   name  age  height  weight
0  Jack   12     187      70
1  Rose   23     168      49
2  Andy    4     178      68
3   Bob    5     189      74
'''

第二种方法

列表的列表

df2 = pd.DataFrame(
    data=[
        [1,"test"],
        [2,"train"],
        [3,"evaluate"],
        [4,"clarify"]
    ],

    columns = ['var1','var2']
)

print(df2)

'''
   var1      var2
0     1      test
1     2     train
2     3  evaluate
3     4   clarify
'''

二、读入文本格式数据文件

1.用read_csv

参数及对应解释

pd.read_csv(
filepath_or_buffer ：要读入的文件路径
sep=','：列分隔符
header ='infer'：指定数据中的第几行作为变量名
names = None：自定义变量名列表
index_col = None ：将会被用作索引的列名，多列时只能使用序号列表
usecols = None ：指定只读入某些列，使用索引列表或者名称列表均可。[0,1,3]，["名次"，“学校名称"，“所在地区"]
encoding = None：读入文件的编码方式 utf-8/GBK，中文数据文件最好设定为utf-8
na_values ：指定将被读入为缺失值的数值列表，默认下列数据被读入为缺失值:
' '，'#N/A'，'#N/A N/A'，'#NA','-1.#IND','-1.#QNAN',
'-NaN','1.#IND','N/A'，'NA','NULL','NaN', 'n/a','1.#QNAN','nan'
)：读取csv格式文件，但也可通用于文本文件读取

df3 = pd.read_csv("D:\student.csv",encoding="utf-8")
print(df3)

'''
       学号   姓名    系别  性别        出生日期  总学分       备注
0   81101   王林   计算机   1  1990-02-10   50      NaN
1   81102   程明   计算机   1  1991-02-01   50      NaN
2   81103   王燕   计算机   0  1989-10-06   50      NaN
3   81104  韦严平   计算机   1  1990-08-26   50      NaN
4   81106  李方方   计算机   1  1990-11-20   50      NaN
5   81107   李明   计算机   1  1990-05-01   54  提前修完一门课
6   81108  林一帆   计算机   1  1989-08-05   52  提前修完一门课
7   81109  张强民   计算机   1  1989-08-11   50      NaN
8   81110   张蔚   计算机   0  1991-07-22   50      三好生
9   81111   赵琳   计算机   0  1990-03-18   50      NaN
10  81113   严红   计算机   0  1989-08-11   48  有一门课不及格
11  81201   王敏  通信工程   1  1989-06-10   42      NaN
12  81202   王林  通信工程   1  1989-01-29   40  有一门课不及格
13  81204  马琳琳  通信工程   0  1989-02-10   42      NaN
14  81206   李计  通信工程   1  1989-09-20   42      NaN
15  81210  李红庆  通信工程   1  1989-05-01   44  提前修完一门课
16  81216  孙祥欣  通信工程   1  1989-03-09   42      NaN
17  81218   孙研  通信工程   1  1990-10-09   42      NaN
18  81220  吴薇华  通信工程   0  1990-03-18   42      NaN
19  81221  刘燕敏  通信工程   0  1989-11-12   42      NaN
20  81241  罗林琳  通信工程   0  1990-01-30   50    转专业学习
'''

2.用read_table

不同之处在于read_table的分隔符是制表符‘\t’，而read_csv是‘，’

三、读入excel文件

pd.read_excel(
filepath_or_buffer：要读入的文件路径
sheet_name:要读入的表单，字符串或者数字序号均可，默认读入第一个
）

df4 = pd.read_excel("D:\student1.xlsx",sheet_name=0)
print(df4)

四、pandas中将DataFrame转换为其他数据格式的命令

数据格式转换命令
dict格式 to_dict
Markdown-friendly 表格格式 to_markdown
console-friendly tabular output to_string
... ...
NumPy array to_numpy
NumPy record array to_records
... ...
latex格式 to_latex
parquet format to_parquet
xarray object to_xarray