奋斗的鼠-CSDN博客

原创 dolphinscheduler资源中心上传较大文件失败

dolphinscheduler资源中心上传较大文件失败相关问题

2023-04-27 15:49:55 1328 3

原创 flume与kafka整合

1.安装flume与kafka2.配置flume中flume与kakfa的相关配置文件例：a1.sources = r1a1.sinks = k1a1.channels = c1#对于source的配置描述监听文件中的新增数据 execa1.sources.r1.type = execa1.sources.r1.command = tail -F /home/hadoop/lo...

2019-03-12 11:43:39 434

转载 shell常用命令

cut$ cut -c 5-8 textfile.txt # 切出 textfile.txt 中每行的第 5 到第 8 个 character$ cut -f2-4 -d’,’ textfile.txt # 切出 textfile.txt 中每行的第 2 到第 4 块 field，field 由 delimiter “,” 确定$ cut -f2,4 -d’|’ textfil...

2019-03-12 11:43:11 280

快速排序的基本思想：通过一趟排序将待排序记录分割成独立的两部分，其中一部分记录的关键字均比另一部分关键字小，则分别对这两部分继续进行排序，直到整个序列有序。　　把整个序列看做一个数组，把第零个位置看做中轴，和最后一个比，如果比它小交换，比它大不做任何处理；交换了以后再和小的那端比，比它小不交换，比他大交换。这样循环往复，一趟排序完成，左边就是比中轴小的，右边就是比中轴大的，然后再用分治法，分别...

2019-03-12 11:42:17 401

原创 java之二分查找算法

zz1.二分查找又称折半查找，它是一种效率较高的查找方法。2.二分查找要求：（1）必须采用顺序存储结构（2）.必须按关键字大小有序排列3.原理：将数组分为三部分，依次是中值（所谓的中值就是数组中间位置的那个值）前，中值，中值后；将要查找的值和数组的中值进行比较，若小于中值则在中值前面找，若大于中值则在中值后面找，等于中值时直接返回。然后依次是一个递归过程，将前半部分或者后半部分继续分解为三...

2019-03-12 11:41:53 102

原创 hive案例调优

无效ID在关联时的数据倾斜问题问题：日志中常会出现信息丢失，比如每日约为 20 亿的全网日志，其中的 user_id 为主键，在日志收集过程中会丢失，出现主键为 null 的情况，如果取其中的 user_id 和 bmw_users 关联，就会碰到数据倾斜的问题。原因是 Hive 中，主键为 null 值的项会被当做相同的 Key 而分配进同一个计算 Map。解决方法 1：user_id 为...

2019-03-12 11:41:07 150

原创 hive简介

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。数据仓...

2019-03-12 11:40:48 162

原创 json建表

1、先加载 rating.json 文件到 hive 的一个原始表 rate_jsoncreate table rate_json(line string) row format delimited;load data local inpath ‘/home/hadoop/rating.json’ into table rate_json;2、创建 rate 这张表用来存储解析 json 出...

2019-03-12 11:40:27 856

转载 mysql存储引擎

InnoDBInnoDB是一个健壮的事务型存储引擎，这种存储引擎已经被很多互联网公司使用，为用户操作非常大的数据存储提供了一个强大的解决方案。我的电脑上安装的MySQL 5.6.13版，InnoDB就是作为默认的存储引擎。InnoDB还引入了行级锁定和外键约束，在以下场合下，使用InnoDB是最理想的选择：1.更新密集的表。InnoDB存储引擎特别适合处理多重并发的更新请求。2.事务。Inn...

2019-03-12 11:40:01 78

原创笔记之kafuka

######################### 1、启动集群每个节点的进程 ###################################nohup kafka-server-start.sh /home/hadoop/apps/kafka_2.11-1.1.0/config/server.properties 1&amp;amp;gt;~/kafkalogs/kafka_...

2019-01-23 19:46:20 515

weixin_44491898的博客