搜索技术
阿童木-atom
行到水穷处,坐看云起时!
鄙人学富五车、才高八斗。技术能力称雄天下,敢领风骚数五百年。java、scala、python、C/C++、php登峰造极,精通Spring、mybatis、hibernate、struts2各种框架及具备各种大型系统架构能力,深耕搜索、推荐、数据挖掘、机器学习、深度学习、人工智能等领域,通读lucene、solr、elaticsearch、sphinx、mahout、tensorfolw等开源项目源码,精通hadoop、hbase、hive、spark、kafka、rabbit、activeMQ等大数据处理工具的应用。
展开
-
elasticsearch 6.x 集群布署与head、Kibana和IK分词插件的配置
首先准备三台linux服务器,在三台服务器上安装ElasticSearch.6.3,及其head、Kibana插件,插件只需安装在其中一台即可。elasticsearch 6.x以后变化有点的,head和Kibana,不能放在elasticsearch的 plugins、modules 目录下 也不能直接使用使用 elasticsearch-plugin install安装了。 第一步...原创 2018-07-23 12:49:27 · 16762 阅读 · 1 评论 -
hanlp源码解析之中文分词算法
欢迎关注鄙人公众号,技术干货随时看!技术交流qq群: 659201069词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这...原创 2017-10-10 16:38:53 · 20352 阅读 · 0 评论 -
elasticsearch多级聚合查询
欢迎关注鄙人的公众号号,技术干货随时看!**鄙人的新书《elasticsearch7完全开发指南》,欢迎订阅!**-----https://wenku.baidu.com/view/8ff2ce94591b6bd97f192279168884868762b8e7**《kibana权威指南》**----https://wenku.baidu.com/view/24cfee1...原创 2017-10-10 16:23:07 · 22672 阅读 · 0 评论 -
elasticsearch常用操作URL与java实例代码
一、概念1、集群和节点节点(node)是你运行的Elasticsearch实例。一个集群(cluster)是一组具有相同cluster.name的节点集合,他们协同工作,共享数据并提供故障转移和扩展功能,当有新的节点加入或者删除节点,集群就会感知到并平衡数据。集群中一个节点会被选举为主节点(master),它用来管理集群中的一些变更,例如新建或删除索引、增加或移除节点等;当原创 2017-10-10 16:17:38 · 2005 阅读 · 0 评论 -
elasticsearh集群布署与调试
curl 'http://localhost:9200/?pretty' 查看elasticsearch状态一、安装1、安装jdk1.72、安装elasticsearch-1.4.1下载地址:https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1原创 2017-10-10 16:10:03 · 687 阅读 · 0 评论 -
高性能搜索引擎sphinx源码解析之中文分词和mmseg
注:此文档基于sphinx及mmseg3代码整理,内容可能有疏漏,以后逐步完善术语:待分字符串:中华人民共和国 Chunk:中华,人民,共和国,为一条chunk(词组,item的组合) Item:中华,为一个item Sphinx分词器类包括四种:单字节字符集分词类器CSphTokenizer_SBCS,UTF-8字符集分词器类,N-gram,中文分词类CSphTokenizer_UTF8MM原创 2019-12-12 09:25:44 · 16393 阅读 · 0 评论 -
solr分片后副本数据不一致的问题
概述:solr支持单机和cloud两种运行模式,在cloud模式,会出现同一个查询条件数据不一致的问题,这其实就是分布式系统数据一致性问题,根据Eric Brewer教授的CAP定理,一个布式系统不可能同时满足一致性(C:Consistency)、可用性(A:Availability)和分区容错性(P:Partition tolerance)这三个基本需求,最多只能满足其中两项。因为solr在分布原创 2017-10-18 11:18:51 · 18495 阅读 · 1 评论 -
IK分词原理深度解析
**鄙人的新书《elasticsearch7完全开发指南》,欢迎订阅!**-----https://wenku.baidu.com/view/8ff2ce94591b6bd97f192279168884868762b8e7**《kibana权威指南》**----https://wenku.baidu.com/view/24cfee1ce43a580216fc700abb68a98...原创 2017-07-20 11:21:37 · 28728 阅读 · 0 评论 -
用户相关的常用搜索转化率指标
作为代码界的老司机,除了开发新的业务需求,就剩优化代码了。但优化后的效果如何,会不会更差了,如何衡量呢?相信很多人都不知道,甚至根本没考虑过这个问题。作为企业最终追求的唯一目标是:利润!评价优化后的效果主要看:销售额和利润是否有提升! 如何把这个问题量化呢?本文主要讨论和用户相关的几种常用的搜索转化率量化指标,主要指标如下(包括app、pc、h5等所有用户渠道):搜索页面访问总PV次数。...原创 2019-08-01 16:34:35 · 22617 阅读 · 0 评论