自然语言处理之简单文件去重

#coding:utf-8
"""
开发程序
"""
"""
程序名称:去重删除空白行并去特定长度字符串
程序功能:删除重复的行,删除空白行,提取特定长度的中文字符串
开发平台:PyCharm Community Edition 2017.1.3
软件版本:Python2.7.13
开始日期:2017-6-2
结束日期:2017-6-3
学习内容:1、每个字符所占字节数;2、set(),open(),strip(),len()等方法的使用;
作   者:李开亮
"""
readDir = r"file source path"
writeDir = "file object path"
lines_seen = set() #set()方法用于对文件去重
outfile=open(writeDir,"w")
f = open(readDir,"r")
for line in f:
    #line=line.strip()  #*.strip()方法用于删除文本文件中的空白行
    if 4<=len(line)<=8:  #通过len()方法可以实现提取特定长度的字符串
        if line not in lines_seen:  #测试 line 是否不是 lines_seen的成员
            outfile.write(line)
            outfile.write('\n')
            lines_seen.add(line)
outfile.close()
print ("success")
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值