利用word分词来对文本进行词频统计

最新推荐文章于 2024-06-11 00:15:00 发布

xiaomin_____

最新推荐文章于 2024-06-11 00:15:00 发布

阅读量634

点赞数

分类专栏：算法分词器文章标签： java

本文链接：https://blog.csdn.net/xiaomin1991222/article/details/84741357

版权

算法同时被 2 个专栏收录

65 篇文章 0 订阅

订阅专栏

分词器

24 篇文章 0 订阅

订阅专栏

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能

命令行脚本的调用方法如下：

 
         将需要统计词频的文本写入文件：text.txt 
        
         chmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt 
        
         程序运行结束后打开文件statistics-result.txt查看词频统计结果

在程序中的调用方法如下：

 
         //词频统计设置 
        
         WordFrequencyStatistics wordFrequencyStatistics =  
         new  
         WordFrequencyStatistics(); 
        
         wordFrequencyStatistics.setRemoveStopWord( 
         false 
         ); 
        
         wordFrequencyStatistics.setResultPath( 
         "word-frequency-statistics.txt" 
         ); 
        
         wordFrequencyStatistics.setSegmentationAlgorithm(SegmentationAlgorithm.MaxNgramScore); 
        
         //开始分词 
        
         wordFrequencyStatistics.seg( 
         "明天下雨，结合成分子，明天有关于分子和原子的课程，下雨了也要去听课" 
         ); 
        
         //输出词频统计结果 
        
         wordFrequencyStatistics.dump(); 
        
         //准备文件 
        
         Files.write(Paths.get( 
         "text-to-seg.txt" 
         ), Arrays.asList( 
         "word分词是一个Java实现的分布式中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。" 
         )); 
        
         //清除之前的统计结果 
        
         wordFrequencyStatistics.reset(); 
        
         //对文件进行分词 
        
         wordFrequencyStatistics.seg( 
         new  
         File( 
         "text-to-seg.txt" 
         ),  
         new  
         File( 
         "text-seg-result.txt" 
         )); 
        
         //输出词频统计结果 
        
         wordFrequencyStatistics.dump( 
         "file-seg-statistics-result.txt" 
         );

第一句话的词频统计结果：

第二句话的词频统计结果：

http://my.oschina.net/apdplat/blog/417641

xiaomin_____

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用word分词来对文本进行词频统计

word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下：?123将需要统计词频的文本写入文件：text.txtchmod +x wfs.sh &amp; wfs.sh -textFile=text.txt -statisticsResultFile=...
复制链接

扫一扫

专栏目录