自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Spark原理

spark和mr的区别spark的中间结果存储在内存中,mr的中间结果存储在hdfs的磁盘上弹性分布式数据集RDD血统checkpoint容错DAGSchedulerTaskSchedulerjob、stage、task之间的关系rdd的宽窄依赖,使用宽依赖来划分stage两种数据集DataFrameDataSetSPARK作业运行流程1、driver程序main方法创建sparkContent对象2、sparkContent向cluster Manager申请cpu、内存计算

2021-08-11 19:44:56 225

原创 特征工程理解

什么是特征工程?将原始数据转化为更好表达问题本质的特征的过程特征工程的作用数据中的特征对预测的模型和获得的结果有着直接的影响。可以这样认为,特征选择和准备越好,获得的结果也就越好特征和属性的区别对解决某个问题y有影响的属性就是特征,换句话说,有用的属性就是特征流程及方法1、基础的数据挖掘场景2、特征工程的常见方法和步骤数据描述最好先对数据的整体情况做一个描述、统计、分析,并且可以尝试相关的可视化操作1、了解数据结构2、做初步的质量校验:标准性、唯一性、有效性、正确性、一致性、缺失

2021-08-10 20:38:42 206

原创 Maven报错排查

案例一:问题描述:无论怎么换镜像,总是下载不了远程仓库的jar包,下载下来的文件里只有.pom文件和.pom.sha1文件可能原因:MAVEN的版本太低(这里笔者用的IDEA是2018.3.4版本的,maven的版本是apache-maven-3.2.2)解决方式:重新安装apache-maven-3.5.2安装方法见:https://blog.csdn.net/a805814077/article/details/100545928...

2021-06-14 16:03:28 348 1

原创 ES索引操作

1、建es索引#这里指定了分词器为ngram_filterPUT db_content_testserver2{ "settings": { "number_of_shards": "3", "index": { "max_ngram_diff": 10 }, "analysis": { "analyzer": {

2021-06-04 15:39:06 1080

原创 无罪谋杀:科林尼案

无罪谋杀:科林尼案片头就以一场谋杀案开篇,凶手就是科林尼。联想到片名,最初以为科林尼是一个多么冷血阴险狡诈的杀手,作案手法如此大胆、如此残忍,还主动投案自首,如此自信难道是钻了什么法律的空子,即使坐实杀人,也可以逃脱法律的制裁。剧情的节奏很慢,导演似乎是个慢性子,前面很长的篇幅都在描述为科林尼辩护的律师莱恩的生活,这是莱恩作为一位实习律师接手的第一个案子,从最初想要一展所为为自己打一个漂亮的开局战时的斗志满满,到发现自己尽然是要为一个残忍杀害自己恩人汉斯的凶手辩护时充满愧疚地想要放弃,到后面出于律师的职

2021-05-15 11:23:57 401

原创 数据同步--redis

链接redis客户端,执行查询命令,报错(error) MOVED原因这种情况一般是因为启动redis-cli时没有设置集群模式所导致。解决方案启动时使用-c参数来启动集群模式,命令如下:/usr/local/redis-2.8.19/bin/redis-cli -h hostname -c -p 6615;...

2021-04-19 15:02:03 87

原创 Flink常见问题

官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/table/sql/queries.html

2021-03-31 16:56:26 1020

原创 使用shell脚本同步redis到数仓,Could not connect to Redis at rds.lzdb.com:6098: Cannot assign requested address

待后续解决

2021-03-31 15:35:10 118

原创 Hive调优实操(不断更新中…)

Hive调优实操(不断更新中…)前提条件:知道mapreduce的原理及代码实现,知道常用的hivesql(比如join、count(distict))在底层mapreduce是怎么实现的,知道怎么看执行计划,知道yarn的resouce manager webUI的界面数据的含义。1、explain+语句:查看sql对应的mapreduce的stage2、看执行计划的STAGE DEPENDENCIES:理清stage的DAG图3、通过日志给出的track_url查看resouce manager

2021-03-03 20:09:51 353 1

原创 Flink基础

一、需求目的实时统计票数二、技术架构主要计算框架:Flink(Flink SQL)+Kafka用到的数据存储:Mysql、HBASE(Mysql主要是存储维度表、Hbase主要用来持久化结果数据)三、有感离线和实时的根本区别其实相比较于离线,flink实现的实时都是基于流的,即一次事件即能触发整个计算流程,不想离线需要一个调度系统定时调起计算流程。不同需求的实现思路1、如果是计算固定时间段数据,如每天,每天的某些时刻,使用group by字句就可以进行简单统计2、如果是固定时间窗口统计数

2020-11-22 15:40:12 508 1

原创 Hive调优(实操案例)

一、避免数据倾斜表现:由于数据分布不均匀,导致数据大量的集中到某一点上,造成数据热点。map阶段快,reduce阶段非常慢;有些map很快,有些map很慢;某些reduce很快,某些reduce极慢原因:1、数据在节点上分布不均匀2、join时on关键字个别值很大(如null值)3、count(distinct ),在数据量大的情况下,容易数据倾斜,因为是按group by字段分组,按distinct字段拍寻解决方法:1、对应原因1,(原理启动两个MRjob)开启负载均衡:set hive.g

2020-08-26 08:10:00 400

原创 当Hive函数、连接语句遇到NULL、如何看hive对你写的sql的实际执行逻辑

一、 avg(col), avg(DISTINCT col)这个函数的实现逻辑是,对此表中的所有行求和/行数,会忽略NULL值的行场次时长1602803null470560用avg(时长)这个函数,得到的是(60+80+70+60)/4二、一定要注意NULL!hive中的函数对NULL的处理方式,以及在full join关联时(一定要先处理好空值再关联),NULL都是会让你的数据出现意想不到的结果的“点睛之笔”附上https://cwik

2020-07-17 09:04:45 403

原创 数据仓库有感

数据仓库工程的职责是什么?写shell脚本,将数据从不同的数据源导入到数据仓库中?写sql语句,将数据仓库中的数据整理汇总成业务报表到各个业务系统?这样的工作方式,在一个刚刚开始启用的数仓的企业中,是绰绰有余的,也许还会因为能够看到这样的汇总的数据而感觉到有些许小小的激动。数据仓库的职能变革但是,在一个企业数仓已经构建了好几年的企业中,各个业务部门已经习惯调用统计数据来辅助管理决策的时候,每天可能从各个业务部门提交的新的报表需求就有十几二十个,在加上之前开发报表数据问题的核查,仅仅用人力去每天从数据

2020-07-16 09:08:27 158

原创 Sqoop导入丢失数据

sqoop是大数据架构中常用的数据导入导出组件之一,只要简单的设置一些参数就可以将数据库的数据快速导入数据仓库中。但在实际使用过程中,常常会碰到一些问题,导致从数据库导入到数据仓库发生数据丢失的问题,以下将发生数据丢失的情况分为三种类型:一、工具使用者使用不善导致的sqoop数据导入过程为:将mysql数据导入到hdfs文件路径,然后再从该hdfs文件路径load到hive表中。所以需要用户...

2020-03-21 11:05:27 2876 1

原创 重新使用IDEA+Maven管理eclipse创建的历史jar包

在公司里,有很多历史的jar包可能都是通过eclipse进行创建打包的,没有使用maven进行依赖的管理,在后期需要对这些jar进行修改重新打包的时候,很容易出现各种问题导致工程报错无法正常打包。经过了好几天的努力,小编摸索了一整套好用的流程如下。一、反编译jar包1.在jar包所在的路径下,“shift+右键”->“在此处打开shell窗口”进入shell窗口;2.在shell窗口中...

2019-11-06 11:27:34 148

原创 Linux系统上Mysql数据库删除&重新安装

最近想将自己linux系统上的mysql5.5改为mysql5.7版本,发现网上资料很多,但没有一个从卸载到重新安装设置完成的操作手册,所以特意整理汇总了一下。自己就是按照以下的步骤,重新安装了mysq5.7版本,供大家参考。第一步 Linux系统上mysql彻底卸载详情参见:https://www.cnblogs.com/nicknailo/articles/8563456.html第二...

2019-07-25 13:25:53 2739

原创 为什么不能在Hadoop单机版上运行自定义分区?

一、报错信息:如果在hadoop单机模式下运行自定义分区会报如下错:19/07/14 18:34:51 WARN mapred.LocalJobRunner: job_local1245405054_0001java.lang.Exception: java.io.IOException: Illegal partition for 3 0 1 2017-07-31 23:20:12 837...

2019-07-15 12:51:51 241

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除