【python】read_csv+编码问题

最新推荐文章于 2024-05-18 23:25:36 发布

景珏

最新推荐文章于 2024-05-18 23:25:36 发布

阅读量2.7w

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/wyty88/article/details/51201766

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

想要读取一个excel文件，并且获取某一个分类下的所有的数据

1 pandas官方api有read_excel方法,然而我试了总是提示找不到这个方法，so 还是采用了read_csv

2 将excel转为csv文件，pd.read_csv(path)可以读取，但是乱码，pd.read_csv(path,encoding='utf-8')会出现

只有变更csv文件本身的编码了，用notepad打开，有个编码选择，前方高能，注意：

我这里一开始选择了utf8编码，导致后来出现了获取数据不准确的问题，在转码的时候，有些字符错误导致，分隔符并没有解析出来，

csv本来就是逗号分隔符文件，所以读取的话就会出现数据移动的问题

我在csv文件中并没有看出这个问题，groupby的时候发现出现了不应该出现的数据统计，所以定位到出现错误的index

data_r = data['***'] #返回series

data_err = data_r[data_r == '******'] 返回index和值

用notepad打开发现错误所在序列，确实现实了问题

这里高新技术和国税本来应该是两列，但是因为转码错误，导致“，”解析不出来，整个数据左移了一位

最后尝试了下 csv文件转码的时候在notepad里选择 utf8无bom编码格式

最后成功

__author__ = 'user'
# -*- coding:utf-8 -*-
import numpy as np
import pandas as pd
import matplotlib as plt
from pandas import Series,DataFrame

data = pd.read_csv('E:/yangnan/work/2013_1.csv')
print  data.columns
data_scale = data['企业规模（国家统计局标准）']
print data_scale.size
print data_scale.value_counts()

景珏

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【python】read_csv+编码问题

想要读取一个excel文件，并且获取某一个分类下的所有的数据1 pandas官方api有read_excel方法,然而我试了总是提示找不到这个方法，so 还是采用了read_csv2 将excel转为csv文件，pd.read_csv(path)可以读取，但是乱码，pd.read_csv(path,encoding='utf-8')会出现只有变更csv文件本身的编码了，用not
复制链接

扫一扫