系统架构
阿童木-atom
行到水穷处,坐看云起时!
鄙人学富五车、才高八斗。技术能力称雄天下,敢领风骚数五百年。java、scala、python、C/C++、php登峰造极,精通Spring、mybatis、hibernate、struts2各种框架及具备各种大型系统架构能力,深耕搜索、推荐、数据挖掘、机器学习、深度学习、人工智能等领域,通读lucene、solr、elaticsearch、sphinx、mahout、tensorfolw等开源项目源码,精通hadoop、hbase、hive、spark、kafka、rabbit、activeMQ等大数据处理工具的应用。
展开
-
elasticSearch深度剖析之集群升级规范操作步骤
ealsticsearch升级规范原创 2017-07-20 10:48:42 · 15390 阅读 · 0 评论 -
高性能搜索引擎sphinx源码解析之搜索过程和评分公式
技术交流qq群: 659201069 **鄙人的新书《elasticsearch7完全开发指南》,欢迎订阅!** ----- https://wenku.baidu.com/view/8ff2ce94591b6bd97f192279168884868762b8e7 《kibana权威指南》 ---- https://wenku.baidu.com/view/24cfee1ce43a...原创 2017-10-18 16:36:02 · 22221 阅读 · 0 评论 -
高性能搜索引擎sphinx源码解析之中文分词和mmseg
注:此文档基于sphinx及mmseg3代码整理,内容可能有疏漏,以后逐步完善术语:待分字符串:中华人民共和国 Chunk:中华,人民,共和国,为一条chunk(词组,item的组合) Item:中华,为一个item Sphinx分词器类包括四种:单字节字符集分词类器CSphTokenizer_SBCS,UTF-8字符集分词器类,N-gram,中文分词类CSphTokenizer_UTF8MM原创 2019-12-12 09:25:44 · 16393 阅读 · 0 评论 -
hadoop-1.2.1完全分布式安装
配置hadoop集群 首先选准备3台liunx机器(我用的Ubuntu虚拟机) Ubuntu 还是 Centos 随便 192.168.1.101 h1 (准备装成namenode) 192.168.1.102 h2 (准备装成datanode) 192.168.1.103 h3 (准备装成datanode) 首先,联通这3台机子的使用ssh免密钥: 我自己使用的都原创 2017-10-10 16:00:12 · 15406 阅读 · 0 评论 -
elasticsearh集群布署与调试
curl 'http://localhost:9200/?pretty' 查看elasticsearch状态 一、安装 1、安装jdk1.7 2、安装elasticsearch-1.4.1 下载地址:https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1原创 2017-10-10 16:10:03 · 687 阅读 · 0 评论 -
elasticsearch常用操作URL与java实例代码
一、概念 1、集群和节点 节点(node)是你运行的Elasticsearch实例。一个集群(cluster)是一组具有相同cluster.name的节点集合,他们协同工作,共享数据并提供故障转移和扩展功能,当有新的节点加入或者删除节点,集群就会感知到并平衡数据。集群中一个节点会被选举为主节点(master),它用来管理集群中的一些变更,例如新建或删除索引、增加或移除节点等;当原创 2017-10-10 16:17:38 · 2005 阅读 · 0 评论 -
深刻理解数据仓库
讨论的问题 什么是数据仓库? 为什么数据仓库一定要有建模? 数据仓库怎么建模? 国内数据仓库常见的失败原因 目前发现的部分问题 数据中心探讨及建议 什么是数据仓库?业内普遍接受的定义: 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data War原创 2017-11-14 09:35:36 · 16832 阅读 · 2 评论 -
很重要的编码技巧之霍夫曼规则
编码在我们的生活中无处不在,常见的身份证号码、电话号码、物品的分类编码、商品编码等,有的编码只要求排他性即可,但有的编码需要遵循科学的规则。 霍夫曼编码的原理很简单:出现的频次越高,编码越短。这样做的原因是,当初发电文的资源宝贵和昂贵,可以节省资源和成本。现在电话号码的区号,依然遵循了霍夫曼原则,直辖市的通话量大,区号采用了3位数字,其他普通的地区采用了4为,如北京:010,济南:0531...原创 2019-07-02 14:03:44 · 17601 阅读 · 0 评论