【Elasticsearch教程12】Mapping字段类型之object


首先给出结论:

  • 在一个字段存储一个JSON对象,可以选择object类型
  • 在一个字段存储多个JSON对象,可以选择nested类型

一、传统数据库存object

假设有一个人员信息如下:

{ 
  "region": "US",
  "manager": { 
    "age":     30,
    "name": { 
      "first": "John",
      "last":  "Smith"
    }
  }
}

建表时会建一个字段存一个值,它的缺点是字段扁平化, 无法直观的表现层级关系

字段
regionUS
manager_age30
manager_firstnameJohn
manager_lastnameSmith

二、ES存object

ES中,一个字段存的就是一个JSON,JSON格式本身就包含嵌套的层级关系。

2.1 创建mapping

  • 一层有2个字段:regionmanager
  • manager包含2个字段: agename
  • name包含2个字段:firstlast
PUT pigg_test_object
{
  "mappings": {
    "properties": {
      "region": {
        "type": "keyword"
      },
      "manager": {
        "properties": {
          "age": {
            "type": "integer"
          },
          "name": {
            "properties": {
              "first": {
                "type": "keyword"
              },
              "last": {
                "type": "keyword"
              }
            }
          }
        }
      }
    }
  }
}

2.2 插入数据

PUT pigg_test_object/_doc/1
{ 
  "region": "US",
  "manager": { 
    "age":     30,
    "name": { 
      "first": "John",
      "last":  "Smith"
    }
  }
}

在ES内部,这些值其实是按如下格式存储的

{
  "region":             "US",
  "manager.age":        30,
  "manager.name.first": "John",
  "manager.name.last":  "Smith"
}

2.3 查询object数据

查询子字段时,得输入字段的全名,如manager.name.first

GET /pigg_test_object/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "manager.name.first": {
              "value": "John"
            }
          }
        }
      ]
    }
  }
}

三、object不要存数组

3.1 存入object数组

  • 30岁的John Smith
  • 40岁的Geen Hank
PUT pigg_test_object/_doc/1
{
    "region":"US",
    "manager":[
        {
            "age":30,
            "name":{
                "first":"John",
                "last":"Smith"
            }
        },
        {
            "age":40,
            "name":{
                "first":"Geen",
                "last":"Hank"
            }
        }
    ]
}

3.2 验证错误的查询结果

查询30岁的Geen按照正常理解,是不应该查询出来结果的,但是它能返回数据

GET /pigg_test_object/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "term": {
            "manager.age": {
              "value": "30"
            }
          }
        },
        {
          "term": {
            "manager.name.first": {
              "value": "Geen"
            }
          }
        }
      ]
    }
  }
}

这是因为在ES内部,数据会如下格式存储

{
  "region":             "US",
  "manager.age":        [30, 40],
  "manager.name.first": ["John", "Geen"],
  "manager.name.last":  ["Smith", "Hank"]
}

这样的存储方式没有把2个人信息分开存储,而是混合在一起,所以有了文章开头的结论:

  • 在一个字段存储一个JSON对象,可以选择object类型
  • 在一个字段存储多个JSON对象,可以选择nested类型

四、object的参数enabled

  • enabled参数只用于object类型,默认值是true(开启)
  • 为true时,ES会object里的所有字段进行索引操作, 这样就可以根据该字段检索文档
  • 为false时,ES不去解析object里的字段,不会索引每个字段
  • 当只需要返回该字段用于展示,而不需要索引某个字段时(例如session信息,我们很少用session作为查询条件),可设置enabled=false

实验如下:

PUT pigg_test_enabled
{
  "mappings": {
    "properties": {
      "name": {"enabled": false}
    }
  }
}

插入多种格式的值

PUT pigg_test_enabled/_doc/1
{
  "name": "winter"
}

PUT pigg_test_enabled/_doc/2
{
  "name": {
    "first_name": "wang",
    "last_name": "dong"
  }
}

GET pigg_test_enabled/_search

返回发现: 不同的值都可以存入
 "hits" : [
      {
        "_index" : "pigg_test_enabled",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 1.0,
        "_source" : {
          "name" : "winter"
        }
      },
      {
        "_index" : "pigg_test_enabled",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 1.0,
        "_source" : {
          "name" : {
            "first_name" : "wang",
            "last_name" : "dong"
          }
        }
      }
    ]

查看mapping

GET pigg_test_enabled/_mapping

返回如下: name类型是object, 并不会解析name在其下面添加first_name和last_name子字段
{
  "pigg_test_enabled" : {
    "mappings" : {
      "properties" : {
        "name" : {
          "type" : "object",
          "enabled" : false
        }
      }
    }
  }
}

在enable=false的字段上检索文档, 是查询不到数据的

GET pigg_test_enabled/_search
{
  "query": {
    "term": {
      "name": {
        "value": "winter"
      }
    }
  }
}

返回没有数据

下一篇博客会详细讲解nested类型,如果本文对您有帮助,就给亚瑟王点个赞👍吧。

### ElasticsearchMapping 的详细介绍 #### 映射的概念及其重要性 MappingElasticsearch 文档结构的定义,类似于关系型数据库中的表模式。它指定了每个字段的数据类型以及如何处理这些数据。这不仅影响到数据存储的方式,也决定了查询性能和功能特性[^1]。 #### 创建索引并定义映射 当创建一个新的索引时,可以通过提供 `mappings` 参数来设定初始映射配置: ```json PUT /my-index-000001 { "settings": { "number_of_shards": 1, "analysis": { ... } }, "mappings": { "_source": {"enabled": true}, "properties": { "title": { "type": "text" }, "date": { "type": "date", "format":"yyyy-MM-dd HH:mm:ss||yyyy-MM-dd"}, "comments": { "type": "nested" } } } } ``` 此示例展示了基本映射设置,其中包含了文本(`text`)类型的 title 字段、日期(`date`)类型的 date 字段 和嵌套对象(nested object) comments[] 数组[^4]。 #### 自动检测与动态模板 如果未显式声明映射,则会启用自动检测机制,默认情况下会对新引入的未知字段应用合理的猜测策略;然而为了更精确控制新增加字段的行为,建议利用动态模板(Dynamic Templates),允许基于正则表达式的匹配规则自定义特定条件下的映射逻辑[^3]。 #### Analyzer 配置详解 Analyzer 负责解析输入字符串成一系列 token (词条), 这对于全文本搜索至关重要。可以在字段级别上指定不同的 analyzers 来优化不同场景下检索效果: * **Index-time analyzer**: 当文档被索引时使用的分词器。 * **Search-time analyzer**: 查询阶段所采用的分词方案。 例如,在下面的例子中设置了两个独立的分析链路——一个是用来建立倒排索引(indexing),另一个则是服务于实际查询(search time): ```json PUT my_index { "mappings": { "properties": { "content": { "type": "text", "analyzer": "ik_max_word", // Index-time analyzer "search_analyzer": "ik_smart" // Search-time analyzer } } } } ``` 这里采用了中文分词插件 IK Analyzer 提供的不同粒度级别的切分方式作为例子[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瑟王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值