搜索引擎实战
文章平均质量分 53
分享一些在搜索引擎开发中一些经验,包括架构、算法、性能、稳定性、时效性等
狂奔的工程师
10多年搜索及推荐经验,主要从事搜索引擎及推荐引擎相关开发
展开
-
性能 - 字符串数值类型转换
sprintf aitoi atof sscanf等转换性能对比数值转字符串性能优化字符串转数值性能优化原创 2021-12-09 19:41:24 · 579 阅读 · 0 评论 -
性能 - cpu 绑定
搜索性能提升什么是CPU亲和性如何将CPU亲和性应用到程序中?thread 线程绑定CPU方法绑定常用函数taskset命令原创 2021-12-09 08:25:43 · 3055 阅读 · 0 评论 -
分布式建库(索引)优化
1、把过滤器内置到hbase底层,只有通过过滤的数据才进入上面的流程,如果有大量的数据被过滤掉,能减少大量的io(我们能节约10几倍,性能提升了10几倍)。2、充分使用上下行带宽,提升数据之间的同步数据(索引在多个机房创建,创建完成之后,机房之前相互同步)。3、使用p2p同步模式,提升数据同步速度。...原创 2021-07-13 19:12:39 · 138 阅读 · 1 评论 -
搜索引擎 - 索引大小优化
优化索引大小,主要有倒排、词表、词向量、正排等几个方向,类似词表可以使用lucence中压缩率更高的词典树(共前缀、共后缀),还可以考虑停用词、词频过滤等,词向量主要是标红用,可以采用实时计算的方式去掉词向量,节省存储。正倒排的优化方向更多一些,类似压缩、connect、编码等。...原创 2021-07-13 09:15:58 · 100 阅读 · 0 评论 -
同义词 - 搜索引擎
同义词分类:索引同义词和搜索同义词。索引同义词和搜索同义词的关系:时间和空间互换,任何词都可以放在搜索同义词中也可以放在索引同义词中,原创 2021-06-10 09:33:28 · 1042 阅读 · 0 评论 -
360搜索的百亿级网页搜索引擎架构实现
360搜索概况我先大概介绍一下目前360搜索的现状。目前360搜索每天抓取的网页大概是十亿级别的量级,现在已经收录的网页基本上是万亿级别的网页集合,实际可检索的网页是在一个百亿级别的网页集合里。目前360搜索的单日流量是一个亿级别的qps。我们目前的在线、离线机群有几万台服务器来维护这么大量级的计算。主要内容我今天的分享主要侧重于百亿级网站搜索引擎架构的一些核心模块的理论设计。本次分享内容分为以下四个模块:如何设计搜索引擎 百亿级网页计算关键技术 网页索引组织模...转载 2021-05-24 09:16:44 · 772 阅读 · 0 评论