自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 dolphinscheduler资源中心上传较大文件失败

dolphinscheduler资源中心上传较大文件失败相关问题

2023-04-27 15:49:55 1186 3

原创 flume与kafka整合

1.安装flume与kafka2.配置flume中flume与kakfa的相关配置文件例:a1.sources = r1a1.sinks = k1a1.channels = c1#对于source的配置描述 监听文件中的新增数据 execa1.sources.r1.type = execa1.sources.r1.command = tail -F /home/hadoop/lo...

2019-03-12 11:43:39 410

转载 shell常用命令

cut$ cut -c 5-8 textfile.txt # 切出 textfile.txt 中每行的第 5 到第 8 个 character$ cut -f2-4 -d’,’ textfile.txt # 切出 textfile.txt 中每行的第 2 到第 4 块 field,field 由 delimiter “,” 确定$ cut -f2,4 -d’|’ textfil...

2019-03-12 11:43:11 253

原创 java之快排

快速排序的基本思想:通过一趟排序将待排序记录分割成独立的两部分,其中一部分记录的关键字均比另一部分关键字小,则分别对这两部分继续进行排序,直到整个序列有序。  把整个序列看做一个数组,把第零个位置看做中轴,和最后一个比,如果比它小交换,比它大不做任何处理;交换了以后再和小的那端比,比它小不交换,比他大交换。这样循环往复,一趟排序完成,左边就是比中轴小的,右边就是比中轴大的,然后再用分治法,分别...

2019-03-12 11:42:17 396

原创 java之二分查找算法

zz1.二分查找又称折半查找,它是一种效率较高的查找方法。2.二分查找要求:(1)必须采用顺序存储结构 (2).必须按关键字大小有序排列3.原理:将数组分为三部分,依次是中值(所谓的中值就是数组中间位置的那个值)前,中值,中值后;将要查找的值和数组的中值进行比较,若小于中值则在中值前 面找,若大于中值则在中值后面找,等于中值时直接返回。然后依次是一个递归过程,将前半部分或者后半部分继续分解为三...

2019-03-12 11:41:53 74

原创 hive案例调优

无效ID在关联时的数据倾斜问题问题:日志中常会出现信息丢失,比如每日约为 20 亿的全网日志,其中的 user_id 为主 键,在日志收集过程中会丢失,出现主键为 null 的情况,如果取其中的 user_id 和 bmw_users 关联,就会碰到数据倾斜的问题。原因是 Hive 中,主键为 null 值的项会被当做相同的 Key 而分配进同一个计算 Map。解决方法 1:user_id 为...

2019-03-12 11:41:07 143

原创 hive简介

Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。数据仓...

2019-03-12 11:40:48 139

原创 json建表

1、先加载 rating.json 文件到 hive 的一个原始表 rate_jsoncreate table rate_json(line string) row format delimited;load data local inpath ‘/home/hadoop/rating.json’ into table rate_json;2、创建 rate 这张表用来存储解析 json 出...

2019-03-12 11:40:27 833

转载 mysql存储引擎

InnoDBInnoDB是一个健壮的事务型存储引擎,这种存储引擎已经被很多互联网公司使用,为用户操作非常大的数据存储提供了一个强大的解决方案。我的电脑上安装的MySQL 5.6.13版,InnoDB就是作为默认的存储引擎。InnoDB还引入了行级锁定和外键约束,在以下场合下,使用InnoDB是最理想的选择:1.更新密集的表。InnoDB存储引擎特别适合处理多重并发的更新请求。2.事务。Inn...

2019-03-12 11:40:01 53

原创 笔记之kafuka

######################### 1、启动集群每个节点的进程 ###################################nohup kafka-server-start.sh /home/hadoop/apps/kafka_2.11-1.1.0/config/server.properties 1>~/kafkalogs/kafka_...

2019-01-23 19:46:20 483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除