爱技术胜过爱小哥哥-CSDN博客

原创 Spark原理

spark和mr的区别spark的中间结果存储在内存中，mr的中间结果存储在hdfs的磁盘上弹性分布式数据集RDD血统checkpoint容错DAGSchedulerTaskSchedulerjob、stage、task之间的关系rdd的宽窄依赖，使用宽依赖来划分stage两种数据集DataFrameDataSetSPARK作业运行流程1、driver程序main方法创建sparkContent对象2、sparkContent向cluster Manager申请cpu、内存计算

2021-08-11 19:44:56 258

原创特征工程理解

什么是特征工程？将原始数据转化为更好表达问题本质的特征的过程特征工程的作用数据中的特征对预测的模型和获得的结果有着直接的影响。可以这样认为，特征选择和准备越好，获得的结果也就越好特征和属性的区别对解决某个问题y有影响的属性就是特征，换句话说，有用的属性就是特征流程及方法1、基础的数据挖掘场景2、特征工程的常见方法和步骤数据描述最好先对数据的整体情况做一个描述、统计、分析，并且可以尝试相关的可视化操作1、了解数据结构2、做初步的质量校验：标准性、唯一性、有效性、正确性、一致性、缺失

2021-08-10 20:38:42 233

原创 Maven报错排查

案例一：问题描述：无论怎么换镜像，总是下载不了远程仓库的jar包，下载下来的文件里只有.pom文件和.pom.sha1文件可能原因：MAVEN的版本太低(这里笔者用的IDEA是2018.3.4版本的，maven的版本是apache-maven-3.2.2)解决方式：重新安装apache-maven-3.5.2安装方法见：https://blog.csdn.net/a805814077/article/details/100545928...

2021-06-14 16:03:28 393 1

原创 ES索引操作

1、建es索引#这里指定了分词器为ngram_filterPUT db_content_testserver2{ "settings": { "number_of_shards": "3", "index": { "max_ngram_diff": 10 }, "analysis": { "analyzer": {

2021-06-04 15:39:06 1109

原创无罪谋杀：科林尼案

无罪谋杀：科林尼案片头就以一场谋杀案开篇，凶手就是科林尼。联想到片名，最初以为科林尼是一个多么冷血阴险狡诈的杀手，作案手法如此大胆、如此残忍，还主动投案自首，如此自信难道是钻了什么法律的空子，即使坐实杀人，也可以逃脱法律的制裁。剧情的节奏很慢，导演似乎是个慢性子，前面很长的篇幅都在描述为科林尼辩护的律师莱恩的生活，这是莱恩作为一位实习律师接手的第一个案子，从最初想要一展所为为自己打一个漂亮的开局战时的斗志满满，到发现自己尽然是要为一个残忍杀害自己恩人汉斯的凶手辩护时充满愧疚地想要放弃，到后面出于律师的职

2021-05-15 11:23:57 434

原创数据同步--redis

链接redis客户端，执行查询命令，报错(error) MOVED原因这种情况一般是因为启动redis-cli时没有设置集群模式所导致。解决方案启动时使用-c参数来启动集群模式，命令如下：/usr/local/redis-2.8.19/bin/redis-cli -h hostname -c -p 6615;...

2021-04-19 15:02:03 96

原创 Flink常见问题

官方文档：https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/sql/queries.html

2021-03-31 16:56:26 1083

原创使用shell脚本同步redis到数仓，Could not connect to Redis at rds.lzdb.com:6098: Cannot assign requested address

待后续解决

2021-03-31 15:35:10 127

原创 Hive调优实操（不断更新中…）

Hive调优实操（不断更新中…）前提条件：知道mapreduce的原理及代码实现，知道常用的hivesql（比如join、count(distict)）在底层mapreduce是怎么实现的，知道怎么看执行计划，知道yarn的resouce manager webUI的界面数据的含义。1、explain+语句：查看sql对应的mapreduce的stage2、看执行计划的STAGE DEPENDENCIES：理清stage的DAG图3、通过日志给出的track_url查看resouce manager

2021-03-03 20:09:51 390 1

原创 Flink基础

一、需求目的实时统计票数二、技术架构主要计算框架：Flink（Flink SQL)+Kafka用到的数据存储：Mysql、HBASE（Mysql主要是存储维度表、Hbase主要用来持久化结果数据）三、有感离线和实时的根本区别其实相比较于离线，flink实现的实时都是基于流的，即一次事件即能触发整个计算流程，不想离线需要一个调度系统定时调起计算流程。不同需求的实现思路1、如果是计算固定时间段数据，如每天，每天的某些时刻，使用group by字句就可以进行简单统计2、如果是固定时间窗口统计数

2020-11-22 15:40:12 559 1

原创 Hive调优（实操案例）

一、避免数据倾斜表现：由于数据分布不均匀，导致数据大量的集中到某一点上，造成数据热点。map阶段快，reduce阶段非常慢；有些map很快，有些map很慢；某些reduce很快，某些reduce极慢原因：1、数据在节点上分布不均匀2、join时on关键字个别值很大（如null值）3、count（distinct )，在数据量大的情况下，容易数据倾斜，因为是按group by字段分组，按distinct字段拍寻解决方法：1、对应原因1，（原理启动两个MRjob）开启负载均衡：set hive.g

2020-08-26 08:10:00 416

原创当Hive函数、连接语句遇到NULL、如何看hive对你写的sql的实际执行逻辑

一、 avg(col), avg(DISTINCT col)这个函数的实现逻辑是，对此表中的所有行求和/行数，会忽略NULL值的行场次时长1602803null470560用avg(时长）这个函数，得到的是（60+80+70+60）/4二、一定要注意NULL！hive中的函数对NULL的处理方式，以及在full join关联时（一定要先处理好空值再关联），NULL都是会让你的数据出现意想不到的结果的“点睛之笔”附上https://cwik

2020-07-17 09:04:45 416

原创数据仓库有感

数据仓库工程的职责是什么？写shell脚本，将数据从不同的数据源导入到数据仓库中？写sql语句，将数据仓库中的数据整理汇总成业务报表到各个业务系统？这样的工作方式，在一个刚刚开始启用的数仓的企业中，是绰绰有余的，也许还会因为能够看到这样的汇总的数据而感觉到有些许小小的激动。数据仓库的职能变革但是，在一个企业数仓已经构建了好几年的企业中，各个业务部门已经习惯调用统计数据来辅助管理决策的时候，每天可能从各个业务部门提交的新的报表需求就有十几二十个，在加上之前开发报表数据问题的核查，仅仅用人力去每天从数据

2020-07-16 09:08:27 173

weixin_43793061的博客