import pandas as pd
import numpy as np
from pandas import DataFrame,Series
data_train = pd.read_csv("D:/dataset/titanic.csv")
data_train.info()
执行结果:
pd.read_csv(filepath,encoding,sep,header,names,usecols,index_col,skiprows,nrows……)
filepath:
文件存储路径,可以用r""进行非转义限定,路径最好是纯英文(文件名也是),不然会经常碰到编码不对的问题,最方便是直接将文件存储在pandas
默认的路径下,则直接输入文件名即可encoding:
pandas
默认编码是utf-8
,如果是csv
,且数据中有中文时,则要指定encoding=‘gbk’
sep:
指定分割符形式,CSV
默认逗号分割,可以忽略这个参数,如果是其它分割方式,则要填写header:
指定第一行是否是列名,通常有三种用法,忽略或header=0(表示数据第一行为列名),header=None(表明数据没有列名),常与names搭配使用names:
指定列名,通常用一个字符串列表表示,当header=0时,用names可以替换掉第数据中的第一行作为列名,如果header=None,用names可以增加一行作为列名,如果没有header参数时,用names会增加一行作为列名,原数据的第一行仍然保留usecols:
一个字符串列表,可以指定读取的列名index_col:
一个字符串列表,指定哪几列作为索引skiprows:
跳过多少行再读取数据,通常是数据不太干净,需要去除掉表头才会用到nrows:
仅读取多少行,后面的处理也都仅限于读取的这些行
DataFrame.to_csv(path_or_buf, sep, na_rep, float_format, columns, header, index...)
path_or_buf:
字符串或文件句柄,默认无文件路径或对象,如果没有提供,结果将返回为字符串。sep:
默认字符 **‘ ,’**输出文件的字段分隔符。na_rep :
默认为 ‘’ 浮点数格式字符串。float_format :
默认为 None, 浮点数格式字符串columns :
顺序,可选列写入.header :
字符串或布尔列表,默认为true,写出列名。如果给定字符串列表,则假定为列名的别名。index :
布尔值,默认为Ture
, 写入行名称(索引)
这里用到的是Titanic的数据,地址:https://datahub.csail.mit.edu/download/jander/historic/file/titanic.csv