大数据/智能
文章平均质量分 73
该专栏依托大数据智能技术,来实现有价值的应用。
DreamBoy_W.W.Y
不愿做菜鸟的小鸟,不断学习,目标是成为老鸟。
展开
-
【ES】--Elasticsearch DSL的简单查询
ES中常见的查询类型分为简单查询、复合查询、聚合查询等。这里基于这些查询进行详细的介绍。**term查询**:单词查询,在字段的倒排索引(发生分词)或者直接在字段值(未发生分词)中查找条件值,只要找到这个条件值就算匹配上,得分为1。**terms查询**:多个单词查询,效果为 多个 term 或者的逻辑。**match查询**:分词后搜索。比如分词后有N个分词,只要匹配上其中一个就可以返回数据。原创 2024-02-25 17:44:00 · 1101 阅读 · 0 评论 -
【ES】--ES的DSL语句初识
类似关系型数据库,ES也有自己的query语言,其搜索结构都是由json串组合构成请求体发送。Elasticsearch提供了基于JSON的完整查询DSL(特定于域的语言)来定义查询。该篇文章对DSL的基本使用做简单介绍。原创 2024-02-23 09:00:51 · 397 阅读 · 0 评论 -
【ES】--ES集成热更新自定义词库(字典)
Win10下安装部署Tomcat,在**\webapps\ROOT路径下,创建一个hotDict.dic文件。knowledge_customize.link_info.value设置了[“analyzer”: “ik_max_word”]。在实际项目中词库是时刻在变更的,但又不希望重启ES,对此我们应该如何解决?把“追命少年”加入hotDict.dic文件中,不需要重启Tomcat和ES,等待一分钟左右时间。针对上面的问题,可以采用**“自定义热更新词库”方案:使用Tomcat来实现热更新**。原创 2024-02-12 15:22:22 · 1134 阅读 · 0 评论 -
【ES】--ES集成自定义分词库
在…\elasticsearch-7.3.2\plugins\ik\config下找到IKAnalyzer.cfg.xml,并打开,如下添加一个自定义的扩展字典myDict.dic,在这里添加词语,并设置编码格式是UTF-8。如果是多个自定义词典,就用;拼接。重启ES,如下表明已经加载了自定义的字典myDict.dic。原创 2024-02-12 15:16:16 · 988 阅读 · 0 评论 -
【ES】--Elasticsearch的分词器详解
最近项目需求,针对客户提出搜索引擎业务要做到自定义个性化,如输入简体或繁体能能够互相查询、有的关键词不能被分词搜索等等。为更好解决这些问题,“分词器”的原理和使用至关重要。原创 2024-02-12 15:07:55 · 1786 阅读 · 0 评论 -
【ES】--Elasticsearch的深度分页/内存超限等问题
(2)、查询的内容太大,超过内存限制,报错:entity content is too long [138159637] for the configured buffer limit [104857600]----解决: 设置ES查询内容限制HeapBufferedResponseConsumerFactory。(3)、如何提高ES搜索的内容?ES搜索是有分词功能,为了返回高精度的内容,要设置最低分数。对于ES搜索,往往会有一系列的问题。原创 2023-12-18 14:36:05 · 686 阅读 · 0 评论 -
【ES】--Elasticsearch的索引别名和主副分片
【----原因:根据条件查询到具体索引的记录,然后对查询到的数据按照“具体index”进行删除。根据“具体index”及主键id,先查询数据,然后“具体index”删除。根据“别名”及主键id,先查询数据,然后“具体index”删除。(2)、优化查询效率,副本的数据和主分片一致,可以充分发挥查询时的效率。使用别名过滤器来屏蔽文档,他们可以对正在执行的查询自动地实施过滤。插入数据时,按照“具体index”来插入数据,同时可以设置别名。例如“在不同的索引创建窗口”。根据“别名”来查询所有索引的数据。原创 2023-12-18 14:35:34 · 237 阅读 · 0 评论 -
【ES】--track_total_hits参数影响ES分页数据
工作遇到一个ES深度分页查询时出现报错,报错内容如下出现这个问题的原因是:ES为了避免用户的过大分页请求造成ES服务所在机器内存溢出,默认对深度分页的条数进行了限制,默认的最大条数是10000条。原创 2023-10-11 16:48:32 · 1307 阅读 · 0 评论 -
【ES】---Aggregation聚合,遇到String类型如何分组
在单纯搜索中,要达到左右模糊查询,可采用 fuzzyQuery: 左右模糊查询 【不分词,fuzziness的参数作用是在查询时,es动态的将查询关键词前后增加或者删除一个词,然后进行匹配】。在一些聚合中,按照一定要求聚合,遇到string类型进行聚合分组。原创 2023-09-11 10:47:57 · 335 阅读 · 0 评论 -
【ES】---field、field.keyword的区别
另外,Date类型特殊,如果加上 @JSONField(name = “file_upload_time”, format = “yyyy-MM-dd HH:mm:ss”),表明将Date按照format形式转换了,因此在查询时为了不分词,需要加上keyword;ElasticSearch5.x以上版本使用text和keyword作为字符串类型取代之前版本的string类型。:用于全文索引,该类型的字段将通过分词器进行分词,最终用于构建索引;:不分词,只能搜索该字段的完整的值,用于精准匹配过滤和聚合;原创 2023-09-11 10:43:51 · 576 阅读 · 1 评论 -
【ES】---ES的聚合(aggregations)
聚合是对文档数据的统计、分析、计算。参与聚合的字段类型必须是:keyword、数值、日期、布尔,不能是分词字段。原创 2023-07-23 13:08:04 · 658 阅读 · 0 评论 -
【HanLP】--自然语言处理场景应用
HanLP 是由一系列模型与算法组成的工具包,主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。下面将介绍HanLP如何本地集成及一些常用功能在项目的应用!原创 2023-07-20 17:54:18 · 478 阅读 · 0 评论 -
【ES】---ES的基本操作
ES有4种客户端,分别是:Jest client、Rest client、Transport client、Node client。ES支持两种协议HTTP协议,支持的客户端有Jest client和Rest clientNative Elasticsearch binary协议,也就是Transport client【7.0弃用】和Node client【2.3弃用】原创 2023-05-25 15:23:32 · 769 阅读 · 0 评论