lucene4.x的分组实现

最新推荐文章于 2024-04-09 09:48:07 发布

xiaomin_____

最新推荐文章于 2024-04-09 09:48:07 发布

阅读量140

点赞数

分类专栏：搜索引擎，爬虫 java

本文链接：https://blog.csdn.net/xiaomin1991222/article/details/84739503

版权

java 同时被 2 个专栏收录

1091 篇文章 1 订阅

订阅专栏

搜索引擎，爬虫

206 篇文章 2 订阅

订阅专栏

lucene在4.x之前，没有实现分组的功能，如果业务中有需要分组的功能，那么必须的借助第三方的提供的插件，来实现分组，例如Bobo-browse，或者，自己用lucene写分组功能，笔者个人觉得用第三方的分组插件，虽说功能强大，但是比较繁琐，自己写的话，可以实现，但是效率方面却不是很好，在4.x之后，lucene已经自己实现分组功能提供了分组jar包 lucene-grouping-4.2.0.jar ，利用此类可以效率很高完成分组去重功能。下面不在啰嗦，直接贴出代码，如有问题，欢迎指正!

 
          public  
          static  
          List<HashMap<String, String>> testGroup(String indexPath,String groupField,String sumField){ 
         
          List<HashMap<String, String>> map= 
          new  
          ArrayList<HashMap<String,String>>(); 
         
          Directory d1= 
          null 
          ;  
         
          IndexReader read1= 
          null 
          ; 
         
          try 
          { 
         
          d1=FSDirectory.open( 
          new  
          File(indexPath)); 
          //磁盘索引 
         
          read1=DirectoryReader.open(d1); 
          //打开流 
         
          IndexSearcher sear= 
          new  
          IndexSearcher( 
          new  
          MultiReader(read1)); 
          //MultiReader此类可以多份索引的读入 
         
          //但是得保证各个索引的字段结构一致 
         
          GroupingSearch  gSearch= 
          new  
          GroupingSearch(groupField); 
          //分组查询按照place分组 
         
          Query q= 
          new  
          WildcardQuery( 
          new  
          Term(groupField, 
          "*" 
          )); 
          //查询所有数据 
         
          TopGroups t=gSearch.search(sear, q,  
          0 
          , Integer.MAX_VALUE); 
          //设置返回数据 
         
          GroupDocs[] g=t.groups; 
          //获取分组总数 
         
          System.out.println( 
          "总数据数" 
          +t.totalHitCount); 
         
          System.out.println( 
          "去重复后的数量:" 
          +g.length); 
         
          for 
          ( 
          int  
          i= 
          0 
          ;i<g.length;i++){ 
         
          ScoreDoc []sd=g[i].scoreDocs; 
         
          String str  =sear.doc(sd[ 
          0 
          ].doc).get(groupField); 
         
          int  
          total=sumcount(str,groupField,sumField,sear); 
         
          //System.out.println("place:"+str+"===>"+"个数:"+g[i].totalHits+); 
         
          System.out.println( 
          "place:" 
          +str+ 
          "===>" 
          + 
          "个数:" 
          +g[i].totalHits); 
         
          HashMap<String, String> m= 
          new  
          HashMap<String, String>(); 
         
          m.put( 
          "word" 
          , str); 
         
          m.put( 
          "wx_count" 
          , total+ 
          "" 
          ); 
         
          m.put( 
          "wx_total" 
          ,  
          "10000" 
          ); 
         
          map.add(m); 
         
          } 
         
          read1.close(); 
          //关闭资源 
         
          d1.close();  
         
          } 
          catch 
          (Exception e){ 
         
          e.printStackTrace(); 
         
          }  
         
          return  
          map; 
         
          }

至此，已经可以简单的实现分组去重统计的功能了，如果业务比较复杂，例如像报表查询，以及一些特定的统计求和功能，这个就可能需要自己写了

http://my.oschina.net/MrMichael/blog/220757

xiaomin_____

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene4.x的分组实现

lucene在4.x之前，没有实现分组的功能，如果业务中有需要分组的功能，那么必须的借助第三方的提供的插件，来实现分组，例如Bobo-browse，或者，自己用lucene写分组功能，笔者个人觉得用第三方的分组插件，虽说功能强大，但是比较繁琐，自己写的话，可以实现，但是效率方面却不是很好，在4.x之后，lucene已经自己实现分组功能提供了分组jar包 lucene-grouping-4.2....
复制链接

扫一扫

专栏目录