一种Elasticsearch数据类型冗余方案

最新推荐文章于 2024-06-26 20:46:06 发布

xujingzhong0077

最新推荐文章于 2024-06-26 20:46:06 发布

阅读量681

点赞数

分类专栏： ElasticSearch

ElasticSearch 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在互联网环境中，我们从不指望用户都是规矩的玩家。

在我们的Elasticsearch应用场景中，用户向我们发送各种各样的JSON数据，而Elasticsearch会在某个JSON字段第一次来之后，判断其值的类型，并以此类型作为后续的相同字段的类型。可是不合规矩的数据总是会来：

第一次发送的数据： {"event":"buy", "context": {"price": 100}}

第二次发送的数据：{"event":"buy", "context":{"price":"kitty"}}

第一条数据发来之后，Elasticsearch会将context.price字段设置成long的数字类型，但是当第二条数据过来之后，Elasticsearch尝试将kitty转换成数字类型时出错了，换句话说本条数据丢了，这对于挑剔（不规矩，也有可能是不小心）的用户来说是不能接受的。为此，我们必须提供一种数据类型冗余的机制，而此机制并不复杂。

为了实现此数据类型冗余机制，我们需要做两件事情：

1. 对每个值进行数据类型推断

2. 将推断出来的类型与数据一并写入到Elasticsearch中

对每个值进行数据类型推断

这里需要注意的是，类型的推断应该从具体到抽象，也就是说我们应该先判断一个值是不是能够转换成数字，而后再判断一个值是不是能够转换成字符串，这是显而易见的，因为发过来的数据都是字符串。

将推断出来的类型与数据一并写入到Elasticsearch中

原始数据： {"event":"buy", "context": {"price": 100}}...
转换之后：{'event': {'s': "buy"}}, {'context':{"price": {'dbl': 100}}}

原始数据： {"event":"buy", "context": {"price": "kitty"}}...
转换之后：{'event': {'s': "buy"}}, {'context':{"price": {'s': "kitty"}}}

其中：l代表long，s代表string。dbl可以用来代表double， b可以用来代表bool等。

通过以上的方案，我们就完成了对数据类型信息的冗余。这样我们就可以以用户需要的操作来选择不同的数据类型：如果用户需要算price平均值，我们要做的仅仅是对context.price.dbl进行操作；而如果用户要做是查看price的分布，我们就可以分别对这个字段上所有类型的：context.price.s, context.price.dbl等一同进行操作即可。

还需要注意一点：对于字符串的处理

字符串在默认情况下，存储时会被analyze（默认是标准分析器），这个过程会将字符串进行分词动作，这对于数据分析需求来说是不必须要的，对于性能来说也是有损耗的，为此，我们需要将对应索引中的所有的字符串值设置成not_analyzed，这可以通过动态模板来完成：

[plain]view plaincopy 
   
 curl -XPUT "http://localhost:9200/_template/not_analyzed_template" -d'  
 {  
     "template": "test*",   
     "mappings": {  
         "_default_": {  
             "dynamic_templates": [  
                 {  
                     "template_1": {  
                         "mapping": {  
                             "index": "not_analyzed",  
                             "type": "string"  
                         },  
                         "match_mapping_type": "string",  
                         "match": "*"  
                     }  
                 }  
             ],  
             _all: {  
                 "enabled": false  
             }  
         }  
     }  
 }