自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 HIve,Spark性能优化

HIve,Spark性能优化HIve 性能优化一:map阶段的优化:主要是控制hive任务中的map数量,确定合适的map数,以及每个map处理的合适的数据量1.适当减少map数的情况:当任务中有许多的小文件,产生很多map,一个map任务的启动时间和初始化时间远远大于逻辑处理的事件,造成资源的浪费。合并方法如下:set mapred.max.split.size=100000000;/...

2019-09-22 10:15:36 1277 1

原创 Spark数据倾斜和Hive数据倾斜理解

Spark数据倾斜和Hive数据倾斜理解Spark数据倾斜出现的现象,原因,方案现象:单个或者某几个task拖延整个任务运行时间,导致整体耗时过大单个task处理数据过多,很容易导致oom原因:(1)数据的问题:本身Key的分布不均,这里面含有null值,无效数据,有效数据解决的方案是对前两点可以直接对数据过滤;对有效数据可以进行隔离操作,将异常的key单独处理,处理好后和正常数...

2019-09-21 14:10:52 950

原创 Hbase基本理念和与RDBM之间的导入导出合集

HbaseNoSQL not only sql 非关系型数据库与sql对比优势:数据激增,传统数据库分表分库难以维护数据存在关系型数据库,不可切割,而nosql存储数据之间没有依赖的关系nosql高并发读写,每秒万次读写请求。横向扩展性,即增加硬件,提高性能。灵活的数据模型​考虑之处:nosql没有强事务的要求,对于要求一致性的情况下,使用sql更...

2019-07-27 10:27:29 230

原创 Hadoop 知识梳理

Hadoop 知识梳理hadoop是什么​ 由于现在生活中每天甚至每时每秒都产生海量的数据,普通的存储和计算已经不足以完成任务,需要操作 管理和分析。(1) 集群 分功能处理(2) 海量数据存储(专人处理)目录(3) 统计计算(4)hadoop框架(工具)hadoop的4v原则volumn 体量大velocity 速度快variaty 样式多va...

2019-07-18 20:10:31 103

原创 [Linux]基本命令整理合集

1.通常使用的是Ubantu.RedHad.Centos.SuSE初识linux/bin: 通常放系统文件按/sbin 通常放管理命令/root: 超级用户主目录/lib: 存放程序运行的动态链接库/etc: 配置文件和子目录/usr: 存放用户应用程序和目录/boot:存放启动linux的核心文件/tmp:存放临时文件/dev: 存放设备存储器/opt: ...

2019-06-30 11:48:18 95

原创 Hadoop3.x版本安装及其应用部署

** 需要准备的:**1. JDK 2. 多台计算机3. 实现无密登录 4.解压hadoop3.1.2tar -zxvf hadoop3.1.2.tar.gz /usr/soft/5.删除帮助文档 rm -rf /usr/soft/hadoop-3.1.2/share/doc6.修改hadoop-env.shexport JAVA_HOME=/usr/sof...

2019-06-30 11:12:54 349

原创 [Linux]各用户利用SSH实现无密登录

1.分别设置各系统用户名hostnamectl set-hostname setname在hosts里面更改vi /etc/hosts IP地址1 setname1IP地址 2 setname2rm -rf /root/.ssh 不知道现在什么步骤的情况下或者出现错误的的情况下ssh-keygen -t rsa 各用户之间同时生成公私钥scp id_rsa.pub root...

2019-06-30 10:53:41 71

原创 [Linux] 各种简单安装环境配置合集

Linux大数据学习必备技能包(一):查看文件命令:rpm -qa | grep +文件名删除文件命令:rpm -e --nodeps +文件名解压jdk压缩包命令:tar -zxvf +jdk压缩包文件名查看java版本命令:java -version进入指定目录命令cd +文件路径返回上级目录命令cd…防火墙...

2019-06-26 19:22:01 181

原创 VMware与主机共享文件(虚拟机为windows10)

3 在虚拟机里创建一个快捷方式: 键入 \vmware-host\Shared Folders\Share。1 首先在本机新建一个文件夹,用于存放共享文件,我的路径为:E:\VMware\Share。2 打开VMware,打开菜单栏的“虚拟机——设置”,

2024-01-17 10:33:12 521 1

原创 S7-1200 PWM 功能组态及编程方法

点击进入西门子地址

2023-10-14 10:40:24 182

原创 docker 搭建nodered 测试环境

--------------------------------------以上----------------------------------------------------------------------实现nodered的持久化--------------------------/bin/bash 是bash的一种命令方式。-it 是终端交互。docker 进入容器。

2023-08-17 10:52:38 252 1

原创 git安装配置应用保姆级整理使用很贴贴

git安装配置应用保姆级整理使用很贴贴

2022-07-08 14:37:34 431 1

原创 彻底删除文件夹以及文件的解决办法

彻底删除文件夹以及文件的解决方案(接近两小时删除)闲来无事,自己的电脑较久没用,打开电脑就是弹出广告,强迫症就必须要找到广告都是从哪里来的,哦嚯,首先发现我的电脑里安装了其他软件,原来是女朋友想下载什么软件结果绑定了一些乱七八糟的其他软件,强迫症开始了…卸载软件后来安装的软件全部卸载,如果安装了什么360,管家之类的可以先删除一些,把什么注册表啊,残留的垃圾先删除删除,当然我没有使用软件管家的习惯,于是自己就操作了。打开控制面板选择程序和功能没见过的软件就先删除删除。删除的时候注意看下有没有保

2020-05-10 13:34:36 774 1

原创 Hive函数

Hive插入(装载)数据数据在本地或者hdfs中 load data [local] inpath 'pathname' [overwrite] into table tablename [partition(column=xxx)]insert 方法: insert方法:insert into tablename select xx,xx,xxx,xxx,[union...

2019-09-25 12:27:08 329

原创 ElasticSearch技能包

ES的起源解决传统数据库的问题无法存储海量数据比如PB级别非结构化数据如何存放相关匹配查询问题和Lucene的关系基于lucene,为了解决lucene需要开发和集成以及还需要了解原理的问题,通过RESTful api来隐藏复杂性,让全文检变的简单{ "settings":{ "number_of_shards":5 }, "mappings"...

2019-09-21 14:54:20 119

原创 Hadoop生态圈原理

Hadoop生态圈原理整理Hadoop主要架构:HDFS,Mapreduce,YarnHdfs功能组件​ namenode作用:1.管理文件目录结构 fsimage和Edits 2.管理数据节点Datanode​ DataNode的作用:具体存储数据的节点​ SecondaryNamenode的作用:辅助生成目录镜像,定期加载fsimage和Edits合成新的fsimage返回name...

2019-09-21 14:39:11 401 1

原创 Mapreduce 全过程图

2019-09-21 14:15:49 181

原创 Mapreduce,hive,spark实现Wordcount

实现worldcount在给定的文件中,统计输出每一个单词出现的次数mapreduce:need jar : log4j-core ,junit, hadoop-common ,hadoop-client,hadoop-hdfs- - WCdriver类 psvm //创建Job实例来提供默认配置 Configuration con = new Configu...

2019-09-21 14:13:38 396

原创 spark sql操作hive sql 和mysql

spark sql访问hive 和 mysql(不断更新) 一,准备工作:1,添加mysql的驱动jar包。将mysql-connector-java-5.0.6-bin.jar 添加到 SPARK_HOME/lib/目录下.将$HIVE_HOME/lib下的mysql-connector-java-5.1.27.jar复制到~/software文件夹下 (这一步是为了spark...

2019-08-10 18:08:40 713

原创 Hdoop小结和worldcount梳理

Hdoop4V特征Volume 大数据量Velocity(速度快)Variety(多样化)Value(价值密度低)Hadoop三大发行版本Apache Clodera HortonworksHadoop组成在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。在Hadoop2.x时代,增加了Yarn。Yarn只负责...

2019-07-27 08:31:28 130

原创 Hive函数(基本使用)

Hive插入(装载)数据数据在本地或者hdfs中:load data [local] inpath ‘pathname’ [overwrite] into table tablename [partition(column=xxx)]insert方法:insert into tablename select xx,xx,xxx,xxx,[union all] select xxx...

2019-07-27 08:30:25 672

Aloha 3.12.1.323071-armeabi-v7a_lan-sha.com.apk

Aloha 3.12.1.323071-armeabi-v7a_lan-sha.com.apk

2023-02-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除