大帅帅帅呆呆-CSDN博客

原创 HIve，Spark性能优化

HIve，Spark性能优化HIve 性能优化一：map阶段的优化：主要是控制hive任务中的map数量，确定合适的map数，以及每个map处理的合适的数据量1.适当减少map数的情况：当任务中有许多的小文件，产生很多map，一个map任务的启动时间和初始化时间远远大于逻辑处理的事件，造成资源的浪费。合并方法如下：set mapred.max.split.size=100000000;/...

2019-09-22 10:15:36 1277 1

原创 Spark数据倾斜和Hive数据倾斜理解

Spark数据倾斜和Hive数据倾斜理解Spark数据倾斜出现的现象，原因，方案现象：单个或者某几个task拖延整个任务运行时间，导致整体耗时过大单个task处理数据过多，很容易导致oom原因：（1）数据的问题：本身Key的分布不均，这里面含有null值，无效数据，有效数据解决的方案是对前两点可以直接对数据过滤；对有效数据可以进行隔离操作，将异常的key单独处理，处理好后和正常数...

2019-09-21 14:10:52 950

原创 Hbase基本理念和与RDBM之间的导入导出合集

HbaseNoSQL not only sql 非关系型数据库与sql对比优势：数据激增，传统数据库分表分库难以维护数据存在关系型数据库，不可切割，而nosql存储数据之间没有依赖的关系nosql高并发读写，每秒万次读写请求。横向扩展性，即增加硬件，提高性能。灵活的数据模型考虑之处：nosql没有强事务的要求，对于要求一致性的情况下，使用sql更...

2019-07-27 10:27:29 230

原创 Hadoop 知识梳理

Hadoop 知识梳理hadoop是什么由于现在生活中每天甚至每时每秒都产生海量的数据，普通的存储和计算已经不足以完成任务，需要操作管理和分析。（1）集群分功能处理（2）海量数据存储（专人处理）目录（3）统计计算（4）hadoop框架（工具）hadoop的4v原则volumn 体量大velocity 速度快variaty 样式多va...

2019-07-18 20:10:31 103

原创 [Linux]基本命令整理合集

1.通常使用的是Ubantu.RedHad.Centos.SuSE初识linux/bin: 通常放系统文件按/sbin 通常放管理命令/root: 超级用户主目录/lib：存放程序运行的动态链接库/etc: 配置文件和子目录/usr：存放用户应用程序和目录/boot:存放启动linux的核心文件/tmp：存放临时文件/dev: 存放设备存储器/opt: ...

2019-06-30 11:48:18 95

原创 Hadoop3.x版本安装及其应用部署

** 需要准备的：**1. JDK 2. 多台计算机3. 实现无密登录 4.解压hadoop3.1.2tar -zxvf hadoop3.1.2.tar.gz /usr/soft/5.删除帮助文档 rm -rf /usr/soft/hadoop-3.1.2/share/doc6.修改hadoop-env.shexport JAVA_HOME=/usr/sof...

2019-06-30 11:12:54 349

原创 [Linux]各用户利用SSH实现无密登录

1.分别设置各系统用户名hostnamectl set-hostname setname在hosts里面更改vi /etc/hosts IP地址1 setname1IP地址 2 setname2rm -rf /root/.ssh 不知道现在什么步骤的情况下或者出现错误的的情况下ssh-keygen -t rsa 各用户之间同时生成公私钥scp id_rsa.pub root...

2019-06-30 10:53:41 71

原创 [Linux] 各种简单安装环境配置合集

Linux大数据学习必备技能包（一）:查看文件命令:rpm -qa | grep +文件名删除文件命令：rpm -e --nodeps +文件名解压jdk压缩包命令：tar -zxvf +jdk压缩包文件名查看java版本命令：java -version进入指定目录命令cd +文件路径返回上级目录命令cd…防火墙...

2019-06-26 19:22:01 181

原创 VMware与主机共享文件(虚拟机为windows10)

3 在虚拟机里创建一个快捷方式：键入 \vmware-host\Shared Folders\Share。1 首先在本机新建一个文件夹，用于存放共享文件，我的路径为：E:\VMware\Share。2 打开VMware，打开菜单栏的“虚拟机——设置”，

2024-01-17 10:33:12 521 1

原创 docker 搭建nodered 测试环境

--------------------------------------以上----------------------------------------------------------------------实现nodered的持久化--------------------------/bin/bash 是bash的一种命令方式。-it 是终端交互。docker 进入容器。

2023-08-17 10:52:38 252 1

原创 git安装配置应用保姆级整理使用很贴贴

git安装配置应用保姆级整理使用很贴贴

2022-07-08 14:37:34 431 1

彻底删除文件夹以及文件的解决方案（接近两小时删除）闲来无事，自己的电脑较久没用，打开电脑就是弹出广告，强迫症就必须要找到广告都是从哪里来的，哦嚯，首先发现我的电脑里安装了其他软件，原来是女朋友想下载什么软件结果绑定了一些乱七八糟的其他软件，强迫症开始了…卸载软件后来安装的软件全部卸载，如果安装了什么360，管家之类的可以先删除一些，把什么注册表啊，残留的垃圾先删除删除，当然我没有使用软件管家的习惯，于是自己就操作了。打开控制面板选择程序和功能没见过的软件就先删除删除。删除的时候注意看下有没有保

2020-05-10 13:34:36 774 1

原创 Hive函数

Hive插入(装载)数据数据在本地或者hdfs中 load data [local] inpath 'pathname' [overwrite] into table tablename [partition(column=xxx)]insert 方法： insert方法：insert into tablename select xx,xx,xxx,xxx,[union...

2019-09-25 12:27:08 329

原创 ElasticSearch技能包

ES的起源解决传统数据库的问题无法存储海量数据比如PB级别非结构化数据如何存放相关匹配查询问题和Lucene的关系基于lucene，为了解决lucene需要开发和集成以及还需要了解原理的问题，通过RESTful api来隐藏复杂性，让全文检变的简单{ "settings":{ "number_of_shards":5 }, "mappings"...

2019-09-21 14:54:20 119

原创 Hadoop生态圈原理

Hadoop生态圈原理整理Hadoop主要架构：HDFS，Mapreduce，YarnHdfs功能组件 namenode作用：1.管理文件目录结构 fsimage和Edits 2.管理数据节点Datanode DataNode的作用：具体存储数据的节点 SecondaryNamenode的作用：辅助生成目录镜像，定期加载fsimage和Edits合成新的fsimage返回name...

2019-09-21 14:39:11 401 1

原创 Mapreduce 全过程图

2019-09-21 14:15:49 181

原创 Mapreduce，hive，spark实现Wordcount

实现worldcount在给定的文件中，统计输出每一个单词出现的次数mapreduce：need jar ： log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs- - WCdriver类 psvm //创建Job实例来提供默认配置 Configuration con = new Configu...

2019-09-21 14:13:38 396

原创 spark sql操作hive sql 和mysql

spark sql访问hive 和 mysql（不断更新）一，准备工作：1，添加mysql的驱动jar包。将mysql-connector-java-5.0.6-bin.jar 添加到 SPARK_HOME/lib/目录下.将$HIVE_HOME/lib下的mysql-connector-java-5.1.27.jar复制到~/software文件夹下 (这一步是为了spark...

2019-08-10 18:08:40 713

原创 Hdoop小结和worldcount梳理

Hdoop4V特征Volume 大数据量Velocity（速度快）Variety（多样化）Value（价值密度低）Hadoop三大发行版本Apache Clodera HortonworksHadoop组成在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责...

2019-07-27 08:31:28 130

原创 Hive函数(基本使用)

Hive插入(装载)数据数据在本地或者hdfs中：load data [local] inpath ‘pathname’ [overwrite] into table tablename [partition(column=xxx)]insert方法：insert into tablename select xx,xx,xxx,xxx,[union all] select xxx...

2019-07-27 08:30:25 672

weixin_44685655的博客