感觉有必要来记下编码报错的问题了,每次遇到中文编码报错的问题,都得查找,实在麻烦。。
一,读取csv文件:
train= pd.read_csv(train_path)
1. 如果报错OSError: Initializing from file failed,可尝试的方法有:
train= pd.read_csv(open(train_path))
2. 如果是编码报错,如:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 38: illegal multibyte sequence
可尝试:
train= pd.read_csv(train_path,encoding='gbk')
这里的encoding可以尝试其他的,如utf-8,gb2312,gb18030,ISO-8859-1,反正各种试,总有一个可以通过。
3. 如果上面这些都不行,还是编码报错,试试下面这方法,应该都会通过:
train= pd.read_csv(open(train_path,encoding='utf-8',errors='ignore'))
这里的encoding选什么就试了。
注:train_path 是你要读取的文件路径。