lucene4.x的分组实现

lucene在4.x之前,没有实现分组的功能,如果业务中有需要分组的功能,那么必须的借助第三方的提供的插件,来实现分组,例如Bobo-browse,或者,自己用lucene写分组功能,笔者个人觉得用第三方的分组插件,虽说功能强大,但是比较繁琐,自己写的话,可以实现,但是效率方面却不是很好,在4.x之后,lucene已经自己实现分组功能提供了分组jar包 lucene-grouping-4.2.0.jar ,利用此类可以效率很高完成分组去重功能。下面不在啰嗦,直接贴出代码,如有问题,欢迎指正!

 

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
public  static  List<HashMap<String, String>> testGroup(String indexPath,String groupField,String sumField){
         List<HashMap<String, String>> map= new  ArrayList<HashMap<String,String>>();
         Directory d1= null
          IndexReader read1= null ;
         try {
          d1=FSDirectory.open( new  File(indexPath)); //磁盘索引
           read1=DirectoryReader.open(d1); //打开流
        IndexSearcher sear= new  IndexSearcher( new  MultiReader(read1)); //MultiReader此类可以多份索引的读入
        //但是得保证各个索引的字段结构一致
         GroupingSearch  gSearch= new  GroupingSearch(groupField); //分组查询按照place分组
         Query q= new  WildcardQuery( new  Term(groupField, "*" )); //查询所有数据
           TopGroups t=gSearch.search(sear, q,  0 , Integer.MAX_VALUE); //设置返回数据
           GroupDocs[] g=t.groups; //获取分组总数
           System.out.println( "总数据数" +t.totalHitCount);
           System.out.println( "去重复后的数量:" +g.length);
          for ( int  i= 0 ;i<g.length;i++){
                ScoreDoc []sd=g[i].scoreDocs;
                String str  =sear.doc(sd[ 0 ].doc).get(groupField);
                int  total=sumcount(str,groupField,sumField,sear);
            //System.out.println("place:"+str+"===>"+"个数:"+g[i].totalHits+);
            System.out.println( "place:" +str+ "===>" + "个数:" +g[i].totalHits);
                HashMap<String, String> m= new  HashMap<String, String>();
                m.put( "word" , str);
                m.put( "wx_count" , total+ "" );
                m.put( "wx_total" "10000" );
                map.add(m);
          }
          read1.close(); //关闭资源
            d1.close(); 
         } catch (Exception e){
             e.printStackTrace();
        
         return  map;
     }

至此,已经可以简单的实现分组去重统计的功能了,如果业务比较复杂,例如像报表查询,以及一些特定的统计求和功能,这个就可能需要自己写了 

 

 

http://my.oschina.net/MrMichael/blog/220757

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: 中文-英文对照文档,中英对照文档,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【***.jar中文文档.zip】,再解压其中的 【***-javadoc-API文档-中文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·本文档为双语同时展示,一行原文、一行译文,可逐行对照,避免了原文/译文来回切换的麻烦; ·有原文可参照,不再担心翻译偏差误导; ·边学技术、边学英语。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值