数据挖掘(二)——获取数据

一、新建数据框

第一种方法

对于一个二维数据表,
它的每一列可以用list表示[1,2,3,4,5]
多列组合在一起,就可以用一个字典格式——为每个字典元素提供名称
df1 = pd.DataFrame(
    {
        'name':["Jack","Rose","Andy","Bob"],
        'age':[12,23,4,5],
        'height':[187,168,178,189],
        'weight':[70,49,68,74]
    }
)
print(df1)

'''
   name  age  height  weight
0  Jack   12     187      70
1  Rose   23     168      49
2  Andy    4     178      68
3   Bob    5     189      74
'''

第二种方法

列表的列表
df2 = pd.DataFrame(
    data=[
        [1,"test"],
        [2,"train"],
        [3,"evaluate"],
        [4,"clarify"]
    ],

    columns = ['var1','var2']
)

print(df2)

'''
   var1      var2
0     1      test
1     2     train
2     3  evaluate
3     4   clarify
'''

二、读入文本格式数据文件

1.用read_csv

参数及对应解释

pd.read_csv(
filepath_or_buffer :要读入的文件路径
sep=',':列分隔符
header ='infer':指定数据中的第几行作为变量名
names = None:自定义变量名列表
index_col = None :将会被用作索引的列名,多列时只能使用序号列表
usecols = None :指定只读入某些列,使用索引列表或者名称列表均可。[0,1,3],["名次",“学校名称",“所在地区"]
encoding = None:读入文件的编码方式     utf-8/GBK,中文数据文件最好设定为utf-8
na_values :指定将被读入为缺失值的数值列表,默认下列数据被读入为缺失值:
' ','#N/A','#N/A N/A','#NA','-1.#IND','-1.#QNAN',
'-NaN','1.#IND','N/A','NA','NULL','NaN', 'n/a','1.#QNAN','nan'
):读取csv格式文件,但也可通用于文本文件读取

df3 = pd.read_csv("D:\student.csv",encoding="utf-8")
print(df3)

'''
       学号   姓名    系别  性别        出生日期  总学分       备注
0   81101   王林   计算机   1  1990-02-10   50      NaN
1   81102   程明   计算机   1  1991-02-01   50      NaN
2   81103   王燕   计算机   0  1989-10-06   50      NaN
3   81104  韦严平   计算机   1  1990-08-26   50      NaN
4   81106  李方方   计算机   1  1990-11-20   50      NaN
5   81107   李明   计算机   1  1990-05-01   54  提前修完一门课
6   81108  林一帆   计算机   1  1989-08-05   52  提前修完一门课
7   81109  张强民   计算机   1  1989-08-11   50      NaN
8   81110   张蔚   计算机   0  1991-07-22   50      三好生
9   81111   赵琳   计算机   0  1990-03-18   50      NaN
10  81113   严红   计算机   0  1989-08-11   48  有一门课不及格
11  81201   王敏  通信工程   1  1989-06-10   42      NaN
12  81202   王林  通信工程   1  1989-01-29   40  有一门课不及格
13  81204  马琳琳  通信工程   0  1989-02-10   42      NaN
14  81206   李计  通信工程   1  1989-09-20   42      NaN
15  81210  李红庆  通信工程   1  1989-05-01   44  提前修完一门课
16  81216  孙祥欣  通信工程   1  1989-03-09   42      NaN
17  81218   孙研  通信工程   1  1990-10-09   42      NaN
18  81220  吴薇华  通信工程   0  1990-03-18   42      NaN
19  81221  刘燕敏  通信工程   0  1989-11-12   42      NaN
20  81241  罗林琳  通信工程   0  1990-01-30   50    转专业学习
'''

2.用read_table

不同之处在于read_table的分隔符是制表符‘\t’,而read_csv是‘,’

三、读入excel文件

pd.read_excel(
filepath_or_buffer:要读入的文件路径
sheet_name:要读入的表单,字符串或者数字序号均可,默认读入第一个

df4 = pd.read_excel("D:\student1.xlsx",sheet_name=0)
print(df4)

 四、pandas中将DataFrame转换为其他数据格式的命令

          

数据格式转换命令
dict格式to_dict
Markdown-friendly 表格格式to_markdown
console-friendly tabular outputto_string
......
NumPy array to_numpy
NumPy record arrayto_records
......
latex格式to_latex 
parquet formatto_parquet 
xarray objectto_xarray

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Diamond Mine959

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值