数据挖掘文本分类（四）批处理分词

最新推荐文章于 2022-08-28 08:00:00 发布

Carry_yang

最新推荐文章于 2022-08-28 08:00:00 发布

阅读量2.2k

点赞数 1

分类专栏：数据挖掘文本分类大数据

本文链接：https://blog.csdn.net/yangshaoby/article/details/42010525

版权

大数据同时被 3 个专栏收录

9 篇文章 2 订阅

订阅专栏

数据挖掘

7 篇文章 1 订阅

订阅专栏

文本分类

7 篇文章 0 订阅

订阅专栏

上一篇博文中实现了用ICTCLAS工具对本地txt文本文件做分词处理，并将分词结果保存到本地。

这次该把我们测试集中每一类的1000篇左右的文章全都分词并保存了，这个......应该叫做批处理吧？总感觉批处理是一个很高大上的过程，最起码得有一个专门的模块或者函数来实现，找了半天，也没找到，只能自己试着去写了.....

我们一共是9类文档，得有一个for循环来遍历这9类......

每类文档又有100篇左右的文档，然后又要一个for循环......

这就是学渣的思维吧，反正不管有多少东西我就一层一层的if...else下去...一层一层的for下去.....什么switch....什么while统统别来烦我.....

好了，贴下我当时做批处理的代码，水平实在有限，代码写得很烂，看到的同学不要笑哈，有什么好的建议欢迎留言。

if __name__ == "__main__":
     for j in range (1,10):
         for i in range (10,1000):
            f = open('/Users/yangshaoby/Desktop/%d/%d.txt' % (j,i), 'rb') 
            p = f.read()
            print j,i
            for t in Seg(p):
                s = '%s\t%s' % (t[0],t[1])#把一条分词结果赋给s。可以print s打印    
                b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') 
                b.write (s)
                b.close()
                b = open('/Users/yangshaoby/Desktop/result/%d/%d.txt' % (j,i), 'a') 
                b.write ('\n')
                b.close()

可能有些同学对Python不太熟悉，简单解释下，第二行range（1,10）就是按顺序产生1-9这九个整数啦，廖雪峰老师的教程里有详细的解释。 http://www.liaoxuefeng.com

然后open里的路径可以看出，这九类文本文件是以1-9这九个整数命名的，同样，每类里的txt文件也是由整数数字命名的。

写文件的过程就不多说了，桌面上新建一个result文件夹，里边新建9个以1-9这九个整数命名的文件夹就好。

每写入一次数据，写进去一个回车，这样保证每一行是一个词以及他的词性。

嗯嗯，这一篇就到这吧，博主由于知识实在有限，为了多凑几篇博文已经丧心病狂啦~~~~