python处理.csv文件

最新推荐文章于 2024-05-11 11:32:04 发布

夏天的技术博客

最新推荐文章于 2024-05-11 11:32:04 发布

阅读量7.8k

点赞数

文章标签： python csv

本文链接：https://blog.csdn.net/wwh578867817/article/details/49283303

版权

看下.csv文件的定义：
逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

.csv文件可以用excel或类似软件打开，样子就是我们常用的表格
如下图
这里写图片描述

用文本工具打开：
这里写图片描述

场景：有两个文件，1.csv和2.csv，2.csv中包含字段sid，1.csv包含字段sid和gid，现在需要将2.csv文件中的sid替换成1.csv中sid对应的gid，2.csv中的sid可能是一串以”;”分隔的sid字符串，还有可能在1.csv中不存在。
简单来说就是用代码处理表格数据
一开始直接用python文本处理函数来做，很麻烦，后来发现python内置了csv模块，专门来处理csv文件，方便了很多

思路：
csv模块内置csv.reader和csv.writer，它类似生成器，不会像open函数一样一次将数据全部读入内存，如果文件很大会发生错误，并且csv模块有两种格式读入csv文件，一种是list列表，一种是dict字典，平常我们看见的表格每一列都有名称，比如姓名一列，性别一列等等，列表reader仅仅是数据，字典DictReader则是一组映射，{name:xxx，sex:男…}，我用的是字典DictReader，这样找到每一条数据的字段非常简单，然后替换即可。
python csv模块手册

#!/usr/bin/env python
#coding:UTF-8

import csv

Dict = {}

def proJIRA(projectName, originName, newName):
    #第一个.csv文件生成dict字典用来映射
    with open(projectName, 'rb') as csvFile:
        readFile = csv.reader(csvFile)
        for readList in readFile:
            Dict[readList[3]] = readList[0]
    #按行去读文件，然后通过字典替换写入新文件
    with open(originName) as file:
        with open(newName, 'wb+') as csvwritefile:
            #fieldnames是列名，顺序可以重新组织
            fieldnames = ['id', 'type', 'priority', 'resolution', 'resolution_date', 'status', 'created', 'assignee', 'creator', 'reporter', 'affected_versions', 'commits']
            writeFile = csv.DictWriter(csvwritefile, fieldnames=fieldnames)
            for row in csv.DictReader(file):
                #映射处理
                row['commits'] = translate(row['commits'])
                print(row['commits'])
                writeFile.writerow(row)

#通过map转换并拼接字符串，因为存在id;id;id...这种字段
def translate(s):
    temp = []
    retStr = ''
    List = s.split(';')
    for item in List:
        if item in Dict:
            temp.append(Dict[item])
    if len(temp) != 0:
        retStr = connectElementOfListToString(temp)
    else:
        #字段不存在，打印错误log
        pass
    return retStr

def connectElementOfListToString(List):
    retStr = ''
    for item in List:
        retStr += str(item)
        retStr += ';'
    #按照格式去除结尾多余的';'号
    retStr = retStr[:len(retStr)-1]
    return retStr


if __name__ == '__main__':
    proJIRA('1.csv', '2.csv', 'new.csv')

夏天的技术博客

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
python处理.csv文件

看下.csv文件的定义：逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。
复制链接

扫一扫