大数据
酒中仙1225
大道至简
展开
-
Kafka学习
目录一、基本概念1.1 问题1.2 相关概念二、 push or pull三 存储机制四 高可用五 资料一、基本概念http://dataunion.org/6275.htmlhttp://valleylord.github.io/post/201607-mq-kafka/1.1 问题## 解决了什么问题## 和相关产品的差异1.2 ...原创 2020-03-22 16:09:14 · 139 阅读 · 0 评论 -
SQL解析工具对比分析
目录1 SQL引擎基础认知2 SQL工具引擎对比分析3 参考资料1 SQL引擎基础认知功能:将用户输入的SQL语句序列转换为一个可执行的操作序列,并返回查询的结果集。SQL的解析引擎包括查询编译与查询优化和查询的运行,主要包括3个步骤:查询分析 ---> 制定逻辑查询计划(优化相关)---> 制定物理查询计划(优化相关) 查询分析: 将SQL语句表...原创 2020-02-11 19:22:38 · 967 阅读 · 0 评论 -
ElasticSearch学习
目录1 基本概念1.1 检索概念2 Lucene2.1 简介2.1.1 Lucene基本流程2.1.2 Lucene特性说明2.2 基本概念及操作2.2.1 检索建模2.2.2 创建索引2.2.3 更新索引2.3 Lucene底层数据结构及原理2.4 Lucene的评分机制3 ElasticSearch3.1 定位及竞品对比3.2 分布式...原创 2020-02-11 19:19:22 · 240 阅读 · 0 评论 -
知其所以然之永不遗忘的算法
本文转自:http://selfboot.cn/2015/11/03/howto_find_algorithm/写在转载前:一直以来对数据机构和算法心存敬畏,本科上课的时候也上过相关入门课程######################################相信大部分同学曾经都学习过快速排序、Huffman、KMP、Dijkstra等经典算法,初次学习时我们惊叹于算转载 2015-12-01 21:34:53 · 495 阅读 · 0 评论 -
Python入门之第三方库的安装
前言之前的Python27安装第三方库比较简单,在csdn上找了一个exe格式的第三方库,直接双击安装就ok。 最近手贱将版本换成35,35安装的时候自带pip和easy install。但是这个35安装的时候并没有找到相应的exe格式的第三方库。直接使用pip由于最近网络状况不好,国外的网站安装扩展库的时候总是超时出错。安装方式镜像安装 国外网站下载不了,第一反应就是使用镜像。这篇文章介绍了原创 2015-12-19 14:41:01 · 1203 阅读 · 0 评论 -
数据仓库之维度
变化维度缓慢变化维度(SCD)SCD处理方法一般有三种 scd分析覆盖旧记录如果符合要求,这是最简单的处理方式添加一列xx, yy, new_attr, old_attr 优势: 省空间,把变化前后的属性放在一起,能直观的反映属性的变化 劣势: 只能追溯前一次的属性,也就是只能反映属性的一次变化拉链表拉链表,极限存储,但是无需为了拉链而拉链。能用第二种方法解决就无需拉链。大部分场景都是反映最近原创 2017-12-10 20:07:11 · 916 阅读 · 0 评论 -
presto整体流程及重要概念
1 Presto概览1.1 presto设计思想及特点多数据源:且支持扩展计算方式:完全基于内存进行计算,并没有使用mapReduce。支持标准SQL:pipeLine设计:这个pipeLine如何理解??? 1.2 基础架构及执行过程典型的主从架构,coordinator负责调度,worker上的进程负责接受调度,执行具体的task。每个task读入具体...原创 2018-08-05 12:11:05 · 7402 阅读 · 2 评论 -
Presto相关算子
1 所有查询基于 select nationkey,sum(totalprice) from orders a left outer join customer b on a.custkey=b.custkey group by nationkey;2 逻辑节点1 ScanFilterAndProjectOperator(SourceOpeator)1.1 重要方法不需要a...原创 2018-08-05 12:12:21 · 1805 阅读 · 0 评论 -
Hive原理及优化
1. join原理(common join)join 以连接字段为key,通过shuttle的过程,将待连接的两张表的相同key的记录打到一个reduce节点上,在该节点上对这两张表的记录进行合并。还有一种特殊的join方式 就是map join。顾名思义就是在在map端进行join,其实现的基础是小表放入内存和大表比对,然后完成join。如果产生了数据倾斜,而且符合这种大...原创 2018-08-05 12:16:48 · 996 阅读 · 0 评论