![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据/智能
文章平均质量分 77
该专栏依托大数据智能技术,来实现有价值的应用。
DreamBoy_W.W.Y
不愿做菜鸟的小鸟,不断学习,目标是成为老鸟。
展开
-
【ES】--Elasticsearch的高亮模式
一般情况下,用plain highlight也就足够了,不需要做其他额外的设置;如果对高亮的性能要求很高,可以尝试启用posting highlight;如果field的值特别大,超过了1M,那么可以用fast vector highlight;在ES中,针对某个字段同时配置 Fast Vector Highlighting 和 Postings Highlighting 高亮模式是不可行的,因为这两种高亮模式是互斥的。它们分别依赖于不同的内部索引结构和算法,不可能同时应用于同一个字段;原创 2024-06-29 15:19:38 · 1062 阅读 · 0 评论 -
【ES】--Elasticsearch的翻页详解
ES的分页常见的主要有三种方式:from+size浅分页、scroll深分页、search_after分页。原创 2024-06-29 15:01:54 · 1203 阅读 · 0 评论 -
【ES】--Elasticsearch DSL的简单查询
ES中常见的查询类型分为简单查询、复合查询、聚合查询等。这里基于这些查询进行详细的介绍。**term查询**:单词查询,在字段的倒排索引(发生分词)或者直接在字段值(未发生分词)中查找条件值,只要找到这个条件值就算匹配上,得分为1。**terms查询**:多个单词查询,效果为 多个 term 或者的逻辑。**match查询**:分词后搜索。比如分词后有N个分词,只要匹配上其中一个就可以返回数据。原创 2024-02-25 17:44:00 · 1142 阅读 · 0 评论 -
【ES】--ES的DSL语句初识
类似关系型数据库,ES也有自己的query语言,其搜索结构都是由json串组合构成请求体发送。Elasticsearch提供了基于JSON的完整查询DSL(特定于域的语言)来定义查询。该篇文章对DSL的基本使用做简单介绍。原创 2024-02-23 09:00:51 · 454 阅读 · 0 评论 -
【ES】--Elasticsearch的分词器深度研究
分词器是ik_max_word,会将“龙马家书”拆分为“龙马”、“马家”、“家书”。然后filter配置的是edge_ngram_filter,在上面拆分的token词组基础上,按照edge_ngram_filter规则进一步拆分。从结果看:分词器是keyword,filter支持edge_ngram_filter,字符过滤器支持tsconvert【简繁体】。分词器是keyword,表明是不进行分词,但filtet中edge_ngram_filter是按照布长方式拆分token,所以得到如此结果。原创 2024-02-12 15:33:29 · 1767 阅读 · 2 评论 -
【ES】--ES集成热更新自定义词库(字典)
Win10下安装部署Tomcat,在**\webapps\ROOT路径下,创建一个hotDict.dic文件。knowledge_customize.link_info.value设置了[“analyzer”: “ik_max_word”]。在实际项目中词库是时刻在变更的,但又不希望重启ES,对此我们应该如何解决?把“追命少年”加入hotDict.dic文件中,不需要重启Tomcat和ES,等待一分钟左右时间。针对上面的问题,可以采用**“自定义热更新词库”方案:使用Tomcat来实现热更新**。原创 2024-02-12 15:22:22 · 1271 阅读 · 0 评论 -
【ES】--ES集成自定义分词库
在…\elasticsearch-7.3.2\plugins\ik\config下找到IKAnalyzer.cfg.xml,并打开,如下添加一个自定义的扩展字典myDict.dic,在这里添加词语,并设置编码格式是UTF-8。如果是多个自定义词典,就用;拼接。重启ES,如下表明已经加载了自定义的字典myDict.dic。原创 2024-02-12 15:16:16 · 1235 阅读 · 0 评论 -
【ES】--Elasticsearch的分词器详解
最近项目需求,针对客户提出搜索引擎业务要做到自定义个性化,如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题,“分词器”的原理和使用至关重要。原创 2024-02-12 15:07:55 · 1957 阅读 · 0 评论 -
【ES】--Elasticsearch的深度分页/内存超限等问题
(2)、查询的内容太大,超过内存限制,报错:entity content is too long [138159637] for the configured buffer limit [104857600]----解决: 设置ES查询内容限制HeapBufferedResponseConsumerFactory。(3)、如何提高ES搜索的内容?ES搜索是有分词功能,为了返回高精度的内容,要设置最低分数。对于ES搜索,往往会有一系列的问题。原创 2023-12-18 14:36:05 · 842 阅读 · 0 评论 -
【ES】--Elasticsearch的索引别名和主副分片
【----原因:根据条件查询到具体索引的记录,然后对查询到的数据按照“具体index”进行删除。根据“具体index”及主键id,先查询数据,然后“具体index”删除。根据“别名”及主键id,先查询数据,然后“具体index”删除。(2)、优化查询效率,副本的数据和主分片一致,可以充分发挥查询时的效率。使用别名过滤器来屏蔽文档,他们可以对正在执行的查询自动地实施过滤。插入数据时,按照“具体index”来插入数据,同时可以设置别名。例如“在不同的索引创建窗口”。根据“别名”来查询所有索引的数据。原创 2023-12-18 14:35:34 · 427 阅读 · 0 评论 -
【ES】--track_total_hits参数影响ES分页数据
工作遇到一个ES深度分页查询时出现报错,报错内容如下出现这个问题的原因是:ES为了避免用户的过大分页请求造成ES服务所在机器内存溢出,默认对深度分页的条数进行了限制,默认的最大条数是10000条。原创 2023-10-11 16:48:32 · 2349 阅读 · 0 评论 -
【ES】---Aggregation聚合,遇到String类型如何分组
在单纯搜索中,要达到左右模糊查询,可采用 fuzzyQuery: 左右模糊查询 【不分词,fuzziness的参数作用是在查询时,es动态的将查询关键词前后增加或者删除一个词,然后进行匹配】。在一些聚合中,按照一定要求聚合,遇到string类型进行聚合分组。原创 2023-09-11 10:47:57 · 386 阅读 · 0 评论 -
【ES】---field、field.keyword的区别
另外,Date类型特殊,如果加上 @JSONField(name = “file_upload_time”, format = “yyyy-MM-dd HH:mm:ss”),表明将Date按照format形式转换了,因此在查询时为了不分词,需要加上keyword;ElasticSearch5.x以上版本使用text和keyword作为字符串类型取代之前版本的string类型。:用于全文索引,该类型的字段将通过分词器进行分词,最终用于构建索引;:不分词,只能搜索该字段的完整的值,用于精准匹配过滤和聚合;原创 2023-09-11 10:43:51 · 681 阅读 · 1 评论 -
【ES】---ES的聚合(aggregations)
聚合是对文档数据的统计、分析、计算。参与聚合的字段类型必须是:keyword、数值、日期、布尔,不能是分词字段。原创 2023-07-23 13:08:04 · 804 阅读 · 0 评论 -
【HanLP】--自然语言处理场景应用
HanLP 是由一系列模型与算法组成的工具包,主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。下面将介绍HanLP如何本地集成及一些常用功能在项目的应用!原创 2023-07-20 17:54:18 · 539 阅读 · 0 评论 -
【ES】---ES的基本操作
ES有4种客户端,分别是:Jest client、Rest client、Transport client、Node client。ES支持两种协议HTTP协议,支持的客户端有Jest client和Rest clientNative Elasticsearch binary协议,也就是Transport client【7.0弃用】和Node client【2.3弃用】原创 2023-05-25 15:23:32 · 935 阅读 · 0 评论