数据挖掘 文本分类(四)批处理分词

             上一篇博文中实现了用ICTCLAS工具对本地txt文本文件做分词处理,并将分词结果保存到本地。

             这次该把我们测试集中每一类的1000篇左右的文章全都分词并保存了,这个......应该叫做批处理吧?总感觉批处理是一个很高大上的过程,最起码得有一个专门的模块或者函数来实现,找了半天,也没找到,只能自己试着去写了.....

             我们一共是9类文档,得有一个for循环来遍历这9类......

             每类文档又有100篇左右的文档,然后又要一个for循环......

             这就是学渣的思维吧,反正不管有多少东西我就一层一层的if...else下去...一层一层的for下去.....什么switch....什么while统统别来烦我.....

             好了,贴下我当时做批处理的代码,水平实在有限,代码写得很烂,看到的同学不要笑哈,有什么好的建议欢迎留言。

if __name__ == "__main__":
     for j in range (1,10):
         for i in range (10,1000):
            f = open('/Users/yangshaoby/Desktop/%d/%d.txt' % (j,i), 'rb') 
            p = f.read()
            print j,i
            for t in Seg(p):
                s = '%s\t%s' % (t[0],t[1])#把一条分词结果赋给s。可以print s打印    
                b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') 
                b.write (s)
                b.close()
                b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') 
                b.write ('\n')
                b.close()


                可能有些同学对Python不太熟悉,简单解释下,第二行range(1,10)就是按顺序产生1-9这九个整数啦,廖雪峰老师的教程里有详细的解释。 http://www.liaoxuefeng.com 

               然后open里的路径可以看出,这九类文本文件是以1-9这九个整数命名的,同样,每类里的txt文件也是由整数数字命名的。

               写文件的过程就不多说了,桌面上新建一个result文件夹,里边新建9个以1-9这九个整数命名的文件夹就好。

               每写入一次数据,写进去一个回车,这样保证每一行是一个词以及他的词性。

               嗯嗯,这一篇就到这吧,博主由于知识实在有限,为了多凑几篇博文已经丧心病狂啦~~~~

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值