白话Elasticsearch51-深入聚合数据分析之text field聚合以及fielddata原理


在这里插入图片描述


概述

继续跟中华石杉老师学习ES,第51篇

课程地址: https://www.roncoo.com/view/55


官网

fielddata: 戳这里

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


示例

对于分词的field执行aggregation,报错

先构造下模拟索引及数据

PUT /artisan_index 
{
  "mappings": {
    "artisan_type": {
      "properties": {
        "artisan_filed": {
          "type": "text"
        }
      }
    }
  }
}




PUT /artisan_index/artisan_type/1
{
  "artisan_filed": "artisan_1"
}

PUT /artisan_index/artisan_type/2
{
  "artisan_filed": "artisan_2"
}


GET  /artisan_index/_mapping/artisan_type

在这里插入图片描述


我们建立的 artisan_filed是text类型,默认是分词的,那么我们对该字段进行 aggs看下

GET  /artisan_index/artisan_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_artisan_field": {
      "terms": {
        "field": "artisan_filed"
      }
    }
  }
}

报错如下:

 {
        "type": "illegal_argument_exception",
        "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [artisan_filed] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead."
      }

在这里插入图片描述

对分词的field,直接执行聚合操作,会报错,大概意思是说,你必须要打开fielddata,然后将正排索引数据加载到内存中,才可以对分词的field执行聚合操作,而且会消耗很大的内存 .

当然了,排序这种操作也是不行的。

在这里插入图片描述


给分词的field,设置fielddata=true,可执行

#删除索引
DELETE artisan_index

#创建索引,设置text类型的字段的fielddata为true
PUT /artisan_index 
{
  "mappings": {
    "artisan_type": {
      "properties": {
        "artisan_filed": {
          "type": "text",
          "fielddata": true
        }
      }
    }
  }
}



#模拟数据
PUT /artisan_index/artisan_type/1
{
  "artisan_filed": "artisan_1"
}

PUT /artisan_index/artisan_type/2
{
  "artisan_filed": "artisan_2"
}


#查看映射
GET  /artisan_index/_mapping/artisan_type



---------------

在这里插入图片描述

# 聚合操作
GET  /artisan_index/artisan_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_artisan_field": {
      "terms": {
        "field": "artisan_filed"
      }
    }
  }
}



在这里插入图片描述

如果要对分词的field执行聚合操作,必须将fielddata设置为true


使用field.keyword,对分词的field进行聚合,可执行

#直接写入数据,让ES自动创建索引
PUT /artisan_index/artisan_type/1
{
  "artisan_filed": "artisan_1"
}

PUT /artisan_index/artisan_type/2
{
  "artisan_filed": "artisan_2"
}


#查看映射
GET  /artisan_index/_mapping/artisan_type


在这里插入图片描述

# artisan_filed.keyword  es内置的keyword也可以在没设置fielddata=true的情况下聚合
GET  /artisan_index/artisan_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_artisan_field": {
      "terms": {
        "field": "artisan_filed.keyword"
      }
    }
  }
}

artisan_filed.keyword es内置的keyword也可以在没设置fielddata=true的情况下。

当然了,如果对不分词的field执行聚合操作,直接就可以执行,不需要设置fieldata=true


分词field+fielddata的工作原理

doc value --> 不分词的所有field,可以执行聚合操作 --> 如果你的某个field不分词,那么在index-time,就会自动生成doc value --> 针对这些不分词的field执行聚合操作的时候,自动就会用doc value来执行。

分词field,是没有doc value的。。。在index-time,如果某个field是分词的,那么是不会给它建立doc value正排索引的,因为分词后,占用的空间过于大,所以默认是不支持分词field进行聚合的

分词field默认没有doc value,所以直接对分词field执行聚合操作,是会报错的

对于分词field,必须打开和使用fielddata,完全存在于纯内存中。。。结构和doc value类似。。。如果是ngram或者是大量term,那么必将占用大量的内存。。。

如果一定要对分词的field执行聚合,那么必须将fielddata=true,然后es就会在执行聚合操作的时候,现场将field对应的数据,建立一份fielddata正排索引,fielddata正排索引的结构跟doc value是类似的,但是只会将fielddata正排索引加载到内存中来,然后基于内存中的fielddata正排索引执行分词field的聚合操作

如果直接对分词field执行聚合,报错,提示让我们开启fielddata=true,告诉我们,会将fielddata uninverted index(正排索引),加载到内存,会耗费内存空间

为什么fielddata必须在内存?分词的字符串,需要按照term进行聚合,需要执行更加复杂的算法和操作,如果基于磁盘和os cache,那么性能会很差

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Elasticsearch中,聚合(aggregation)是一种强大的数据分析工具,可以对文档进行统计分析并返回计算结果。其中,Metric聚合是一种聚合类型,它会对文档中的某些数值型字段进行统计计算,例如:平均值、最大值、最小值、总和等。 下面我们来看一下如何在Elasticsearch中使用Metric聚合进行数据分析。 假设我们有一个存储了销售数据的索引,其中每个文档都包含了产品的名称、价格、销售量等信息。我们想要统计该索引中所有产品的平均价格、最高价格、最低价格以及销售总量,可以使用以下的聚合查询DSL: ``` GET /sales/_search { "size": 0, "aggs": { "avg_price": { "avg": { "field": "price" } }, "max_price": { "max": { "field": "price" } }, "min_price": { "min": { "field": "price" } }, "total_sales": { "sum": { "field": "sales" } } } } ``` 在上述查询中,我们使用了四个不同的Metric聚合:avg(平均值)、max(最大值)、min(最小值)和sum(总和)。每个聚合都针对文档中的price和sales字段进行了计算,最终返回了平均价格、最高价格、最低价格以及销售总量的计算结果。 在聚合查询中,我们还可以使用多个Metric聚合组合起来进行更加复杂的数据分析。例如,我们可以计算不同销售区域的平均价格和销售总量,可以使用以下的聚合查询DSL: ``` GET /sales/_search { "size": 0, "aggs": { "by_region": { "terms": { "field": "region" }, "aggs": { "avg_price": { "avg": { "field": "price" } }, "total_sales": { "sum": { "field": "sales" } } } } } } ``` 在上述查询中,我们首先使用了terms聚合将文档按照region字段进行了分组,然后在每个分组中使用了两个不同的Metric聚合:avg(平均值)和sum(总和)。最终返回了不同销售区域的平均价格和销售总量的计算结果。 总之,Metric聚合Elasticsearch中非常有用的数据分析工具,可以帮助我们对文档中的数值型字段进行统计分析并返回计算结果。在实际应用中,我们可以根据具体的业务需求来选择不同的Metric聚合进行数据分析

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小工匠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值