上一篇博文中实现了用ICTCLAS工具对本地txt文本文件做分词处理,并将分词结果保存到本地。
这次该把我们测试集中每一类的1000篇左右的文章全都分词并保存了,这个......应该叫做批处理吧?总感觉批处理是一个很高大上的过程,最起码得有一个专门的模块或者函数来实现,找了半天,也没找到,只能自己试着去写了.....
我们一共是9类文档,得有一个for循环来遍历这9类......
每类文档又有100篇左右的文档,然后又要一个for循环......
这就是学渣的思维吧,反正不管有多少东西我就一层一层的if...else下去...一层一层的for下去.....什么switch....什么while统统别来烦我.....
好了,贴下我当时做批处理的代码,水平实在有限,代码写得很烂,看到的同学不要笑哈,有什么好的建议欢迎留言。
if __name__ == "__main__":
for j in range (1,10):
for i in range (10,1000):
f = open('/Users/yangshaoby/Desktop/%d/%d.txt' % (j,i), 'rb')
p = f.read()
print j,i
for t in Seg(p):
s = '%s\t%s' % (t[0],t[1])#把一条分词结果赋给s。可以print s打印
b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a')
b.write (s)
b.close()
b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a')
b.write ('\n')
b.close()
可能有些同学对Python不太熟悉,简单解释下,第二行range(1,10)就是按顺序产生1-9这九个整数啦,廖雪峰老师的教程里有详细的解释。 http://www.liaoxuefeng.com
然后open里的路径可以看出,这九类文本文件是以1-9这九个整数命名的,同样,每类里的txt文件也是由整数数字命名的。
写文件的过程就不多说了,桌面上新建一个result文件夹,里边新建9个以1-9这九个整数命名的文件夹就好。
每写入一次数据,写进去一个回车,这样保证每一行是一个词以及他的词性。
嗯嗯,这一篇就到这吧,博主由于知识实在有限,为了多凑几篇博文已经丧心病狂啦~~~~