![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 89
大数据专栏,涉及hadoop、hive、spark、yarn等操作
LaiYoung1022
大数据系统
数据分析与挖掘
服务端开发
python使用
机器学习
深度学习
展开
-
【经验分享】mysql数据库备份与还原
一、数据备份1、使用mysqldump命令备份mysqldump命令将数据库中的数据备份成一个文本文件。表的结构和表中的数据将存储在生成的文本文件中。mysqldump命令的工作原理很简单。它先查出需要备份的表的结构,再在文本文件中生成一个CREATE语句。然后,将表中的所有记录转换成一条INSERT语句。然后通过这些语句,就能够创建表并插入数据。1、备份一个数据库mysqldump基本语法:mysqldump -u username -p dbname table1 table2 …->原创 2021-02-23 09:37:03 · 373 阅读 · 0 评论 -
Logstash的下载、安装与使用
一、环境准备Logstash 依赖 JDK1.8 ,因此在安装之前请确保机器已经安装和配置好 JDK1.8。可参考我的文章Linux环境下安装进行安装二、下载地址https://www.elastic.co/cn/downloads/logstash根据你的ES、kibana的版本选择相一致的版本进行安装三、下载安装下载wget https://artifacts.elastic.co/downloads/logstash/logstash-6.3.2.tar.gz解压并移动至/us原创 2020-12-27 11:58:21 · 3605 阅读 · 0 评论 -
kibana的下载、安装与使用
一、结果预览二、下载下载地址:https://www.elastic.co/downloads/kibana选择与你es版本相一致的kibanawget https://artifacts.elastic.co/downloads/kibana/kibana-6.3.2-linux-x86_64.tar.gz三、安装解压tar -xf kibana-6.3.2-linux-x86_64.tar.gz移动到/usr/local目录下并重新命名mv kibana-6.3.2-linux原创 2020-12-27 11:30:39 · 946 阅读 · 0 评论 -
linux下安装maven
一、环境准备在安装maven之前,先确保已经安装JDK1.7及以上版本,并且配置好环境变量,可参考我的博客安装JDK1.8Linux环境下安装jdk1.8.65二、下载方式1、去maven官网下载-http://maven.apache.org/download.cgi ,然后上传到linux服务器(图片内点解直接下载)方式2、通过wget方式,直接在linux服务器下载包(本选选择此种,包类型为tar)wget http://mirror.bit.edu.cn/apache/maven/mav原创 2020-12-27 10:43:34 · 312 阅读 · 0 评论 -
ElasticSearch-ik的下载、安装与使用
1、下载方式一下载位置:https://github.com/medcl/elasticsearch-analysis-ik/releases选择适合你已安装的ES版本的IK下载完过后,解压到es安装文件夹下的plugins文件夹cd your-es-root/plugins/ && mkdir ikunzip elasticsearch-analysis-ik-7.10.1.zip your-es-root/plugins/ik2、下载方式二./bin/elastics原创 2020-12-27 10:01:24 · 6157 阅读 · 0 评论 -
linux环境下ElasticSearch的下载、安装与使用
一、相关知识安装参考文档:ELK官网:https://www.elastic.co/ELK官网文档:https://www.elastic.co/guide/index.htmlELK中文手册:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.htmlELK中文社区:https://elasticsearch.cn/ELK-API :https://www.elastic.co/guide/en/elasticse原创 2020-12-26 17:45:52 · 639 阅读 · 0 评论 -
mysql、redis、mongodb性能比较
一、数据存储方式(1)Redis所有数据都是放在内存中的,持久化是使用RDB方式或者aof方式。(2)MongoDB的所有数据实际上是存放在硬盘的,所有要操作的数据通过mmap的方式映射到内存某个区域内。然后,mongodb就在这块区域里面进行数据修改,避免了零碎的硬盘操作。至于mmap上的内容flush到硬盘就是操作系统的事情了,所以,如果mongodb在内存中修改了数据,然后,mmap数据flush到硬盘之前,系统宕机了,就会丢失数据。(3)mysql无论数据还是索引都存放在硬盘中。到要使用的时候原创 2020-12-07 21:53:25 · 2284 阅读 · 0 评论 -
mysql、redis、mongodb内存查看方式
1、mysql内存使用情况:SELECT TABLE_NAME,DATA_LENGTH+INDEX_LENGTH,TABLE_ROWS FROM information_schema.TABLES WHERE TABLE_SCHEMA='数据库名';2、redis查看内存的使用情况(1)查看方式我们可以通过redis-cli 连接上redis ,例如 : redis-cli -h 127.0.0.1 -p 6379 连接上redis,然后通过INFO查看redis的一些信息。我们可以查看一些INF原创 2020-12-07 21:52:40 · 622 阅读 · 0 评论 -
数据库mongodb的下载、安装、使用、python连接
一、安装1、下载wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.4.1.tgztar -zxvf mongodb-linux-x86_64-rhel70-4.4.1.tgzmv mongodb-linux-x86_64-rhel70-4.4.1 mongodbmv mongodb /usr/local/mongodb2、配置export PATH=/usr/local/mongodb/bin:$PATH原创 2020-11-19 22:40:36 · 308 阅读 · 0 评论 -
数据库redis的下载、安装、使用、python连接
一、下载安装1、安装gcc:gcc版本是否在5.3以上,CentOS7默认安装4.8.5安装:yum -y install gcc查看gcc版本:gcc -v升级gcc:yum -y install centos-release-sclyum -y install devtoolset-9-gcc devtoolset-9-gcc-c++ devtoolset-9-binutilsscl enable devtoolset-9 bashgcc -v2、安装rediswget https原创 2020-11-19 22:27:20 · 425 阅读 · 0 评论 -
数据库mysql的下载、安装、使用、python连接
一、在Linux上安装mysql1、检查是否安装过Mysql服务检查是否已经安装过mysql,执行命令rpm -qa | grep mysql若安装,则删除rpm -e --nodeps mysql-libs-5.1.73-5.el6_6.x86_64再次执行查询命令,查看是否删除rpm -qa | grep mysql查询所有Mysql对应的文件夹whereis mysqlfind / -name mysql删除相关目录或文件rm -rf /usr/bin/mysql /usr/i原创 2020-11-19 22:16:57 · 406 阅读 · 0 评论 -
【大数据】hadoop,hive无法创建表格的解决方法
解决方法:(1)切到hdfs用户:sudo su hdfs(2)开启hdfs目录的权限问题:hadoop fs -chmod 777 /warehouse/tablespace/managed/hive/mydb.db原创 2020-08-21 16:13:34 · 511 阅读 · 0 评论 -
【大数据】Hadoop知识学习(4)-hive
hive由facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语言(HQL), 将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。(1)优势①Hive支持标准的SQL语法,免去了用户编写MapReduce程序的过程,大大减少了公司的开发成本②Hive的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据,毕竟精转载 2020-08-21 16:12:11 · 360 阅读 · 0 评论 -
【大数据】Hadoop知识学习(1)-基本介绍
1、Hadoop的介绍Hadoop是一个适合大数据的分布式存储与计算平台。2、Hadoop的特点(1) 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。(2) 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。(3) 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速。(4) 可靠性(Reliable):hadoop能自动地维护原创 2020-08-21 16:08:57 · 305 阅读 · 1 评论 -
【大数据】Hadoop知识学习(3)-mapreduce
MapReduce是一种分布式计算模型,用以进行大数据量的计算。其中Map,对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce,则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduce这样的功能划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。TaskTracker:Slave节点,运行Map转载 2020-08-21 16:05:34 · 521 阅读 · 0 评论 -
【大数据】Hadoop知识学习(2)-hdfs
Hadoop是一个适合大数据的分布式存储与计算平台。1.1核心构成1.1.1HDFS架构HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。Client:切分文件;访问HDFS;与NameNode交互,获取文件位置信息;与DataNode交互,读取和写入数据。NameNode:Master节点,在hadoop1.转载 2020-08-21 16:03:02 · 283 阅读 · 0 评论 -
【大数据】支持向量机用于iris数据的分类(spark)
导入需要的函数包import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.{Vectors,Vector}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}原创 2020-08-21 15:54:55 · 982 阅读 · 0 评论 -
【大数据】spark-shell iris数据探索
0.读取数据val data = sc.textFile(“iris.data”)1.统计数据条数data.count()//数据条数2.统计每种花的记录条数。方法一:data.filter(line => line.contains(“Iris-setosa”)).count()data.filter(line => line.contains(“Iris-versicolor”)).count()data.filter(line => line.contains(“Ir原创 2020-08-19 17:23:21 · 310 阅读 · 0 评论 -
【大数据】WordCount流程(spark-submit)
一、操作流程(1)构建maven项目①选择maven项目,将Project SDK设置为1.8,然后从Create form archetype中选择scala-archetype-empty-RELEASE②命名Project,然后将GroupId修改为org.flowpp(可选,此处为与flow公司的操作相一致),其他不需要修改③选择maven版本,可直接选择本地下载安装的maven版本(maven3.6.1),其他参数不需要修改,即可创建项目。(2)导入工作scala SDK到Pro原创 2020-08-19 17:16:58 · 775 阅读 · 0 评论 -
【大数据】WordCount流程(spark-shell)
1、上传wordcount.txt文件至本地rz命令2、将wordcount.txt上传至hdfs中①构建目录hdfs dfs -mkdir tmphdfs dfs -lshdfs dfs -mkdir tmp/demohdfs dfs -ls tmphdfs dfs -put wordcount.txt tmp/demohdfs dfs -ls tmp/demo3、启动spark-shellspark-shell4、程序书写val input = spark.sparkConte原创 2020-08-19 17:13:24 · 281 阅读 · 0 评论 -
【大数据】spark Yarn的使用(1) - 基本介绍
https://www.cnblogs.com/linbingdong/p/6287287.html1、hadoop1.0版本和hadoop2.0版本的区别在hadoop1.0中只有两个模块 hdfs 和 mapReducehdfs负责存储mapReduce 负责计算在hadoop1.0中 所有计算相关的 全部放到了mapReduce上mapReduce在运行的时候有两个进程 jobtracker 和 tasktrackerjobtracker:是整个计算程序的主节点(老大),负责进行资源转载 2020-08-23 00:08:58 · 327 阅读 · 0 评论 -
【大数据】spark Yarn的使用(2) - 资源查看
初始状态spark-shell过后查看Applications信息资源使用情况Nodes运行状态原创 2020-08-23 00:09:20 · 655 阅读 · 0 评论 -
【大数据】利用Python进行Hbase查询的简易指南
一、基本信息可用服务器IP:172.16.129.203需要调用的Python扩展包:happybase、collections,分别用于与Hbase连接和字典计数。查询前的准备需要在Linux命令行中输入代码,以查看thrift集群的调用情况:jps //查看thrift是否得以调用未被调用的情况:被调用的情况:如果未被调用,我们就要在Linux命令行中运行下列语句,实现thrift集群的调用:hbase thrift start-port:9090然后可以在同一个服务器下打开另一个窗口原创 2020-08-21 16:27:40 · 1214 阅读 · 0 评论 -
【大数据】Hadoop知识学习(5)-hbase
一、Hbase架构在HBase中,表被分割成区域,并由区域服务器提供服务。区域被列族垂直分为“Stores”。Stores被保存在HDFS文件。下面显示的是HBase的结构。注意:术语“store”是用于区域来解释存储结构。HBase有三个主要组成部分:客户端库,主服务器和区域服务器。区域服务器可以按要求添加或删除。主服务器分配区域给区域服务器并在Apache ZooKeeper的帮助下完成这个任务。处理跨区域的服务器区域的负载均衡。它卸载繁忙的服务器和转移区域较少占用的服务器。通过判定负载转载 2020-08-21 16:22:25 · 345 阅读 · 0 评论 -
【大数据】ORC数据格式
ORC(OptimizedRC File)也是 Apache 的顶级项目,也是自描述的列存储,源自于RC(RecordColumnar File),主要是在 Hive 中使用,支持数据压缩、索引功能、update 操作、ACID 操作、支持复杂类型等,其查询性能相对 Parquet 略有优势。orc文件有如下结构:block,stripe,row_group,stream,index data,Row data,fileFooter,postscriptorc在hdfs上存储,为适应hdfs区块存原创 2020-08-24 08:24:47 · 1658 阅读 · 0 评论 -
【大数据】hadoop学习总结链接(持续更新)
Ambari 操作指南,熟悉Ambari 的基本操作,该系列总共有6篇文章,第一篇是基础,另外五篇是拓展延伸,你们可以先看第一篇,了解Ambari 界面上的操作和功能https://blog.csdn.net/devalone/article/details/80781652Hadoop系列介绍:含HDFS、MapReduce、Hive、HBase等基本组件的介绍https://www.cnblogs.com/sunddenly/category/611923.html任务hdfs增删改查:含Hdf原创 2020-08-24 08:23:33 · 251 阅读 · 0 评论 -
【大数据】spark学习(2) - DataFrame对象上Action操作
三、https://www.cnblogs.com/honey01/p/8065232.htmlhttps://blog.csdn.net/sinat_26917383/article/details/80500349(一)DataFrame对象生成#构造case class,利用反射机制隐式转换import spark.implicits._val data = sc.textFile(“iris.data”)case class irisData(SepalLengthCm:Float,Se转载 2020-08-24 08:23:10 · 1289 阅读 · 0 评论 -
【大数据】spark学习(1) - 基础知识
(一)简介spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。中间结果输出:基于MapReduce的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。出于任务管道承接的,考虑,当一些查询翻原创 2020-08-24 08:22:35 · 262 阅读 · 0 评论 -
【大数据】spark Yarn的使用(9) - 资源配置查看
方式一:方式二:方式三:Yarn的实际资源通过container,可以设置Yarn的最小、最大内存,一般根据现有的集群资源来分配代码资源——内存和CPU核数举个例子:假设集群中有100G可用内存,20个可用CPU核,则可设置参数如下,尽最大化使用集群资源,提高运行效率num-executors=10,executor-cores=2,executor-memory=10...原创 2020-08-24 08:21:39 · 695 阅读 · 0 评论 -
【大数据】spark Yarn的使用(8) - 资源分配
分配资源:查看耗时:是不是spark-submit的才能看到一个运行时间,Elapsed Time 11 Secs,spark-shell就不太方便查看通过yarn app -list命令查看分布式任务状态(√),-kill命令结束分布式任务。查看某个job的状态:yarn application -status application_1595083311637_0003查看某个job的日志:yarn logs -applicationId application_159508331163原创 2020-08-24 08:21:27 · 208 阅读 · 0 评论 -
【大数据】spark Yarn的使用(7) - job、stage、task的理解
Spark-Spark任务中job,stage,task之间的关系:什么是jobJob简单讲就是提交给spark的任务。什么是stageStage是每一个job处理过程要分为的几个阶段。3什么是taskTask是每一个job处理过程要分几为几次任务。Task是任务运行的最小单位。最终是要以task为单位运行在executor中。Job和stage和task之间有什么关系Job----> 一个或多个stage—> 一个或多个task下图是一个job分成了三个stage:4.原创 2020-08-24 08:21:11 · 934 阅读 · 0 评论 -
【大数据】spark Yarn的使用(6) - 任务提交流程
Spark on YARN是spark运行在yarn上,其中有yarn-client和yarn-cluster两种模式,它们的区别在于Driver运行的结点位置。yarn-client模式yarn-client模式下的spark的Driver运行在客户端,适用于交互、调试,希望立即看到app的输出。yarn-cluster模式yarn-cluster模式下的spark的Driver运行在ResourceManager(以下简称RM)启动的ApplicationMaster(以下简称AM)下,这个模式原创 2020-08-24 08:20:54 · 173 阅读 · 0 评论 -
【大数据】spark Yarn的使用(5) - Driver和Executor
在local模式下 驱动程序driver就是执行了一个Spark Application的main函数和创建Spark Context的进程,它包含了这个application的全部代码。(在那台机器运行了应用的全部代码创建了sparkContext就是driver,以可以说是你提交代码运行的那台机器)Driver:使用Driver这一概念的分布式框架有很多,比如hive,Spark中的Driver即运行Application的main()函数,并且创建SparkContext,创建SparkConte原创 2020-08-24 08:20:02 · 721 阅读 · 0 评论 -
【大数据】spark Yarn的使用(4) - 任务并行度参数设置
1.Spark的并行度指的是什么?spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度!当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置并行度,可以充分利用集群资源,减少每个task处理数据量,而增加性能加快运行速度。)举例:假如, 现在已经在spark-submit 脚本里面,给我们的spark作业原创 2020-08-23 00:10:10 · 1132 阅读 · 0 评论 -
【大数据】spark Yarn的使用(3) - 参数调节与结果对比
默认状态spark-shell --num-executors 20 --executor-memory 16G --executor-cores 2spark-shell --num-executors 20 --executor-memory 16G --executor-cores 4spark-shell --num-executors 20 --executor-memory 8G --executor-cores 2spark-shell --num-executors.原创 2020-08-23 00:09:37 · 136 阅读 · 0 评论 -
【大数据】ambari网页操作流程
1、连接VPN2、登录ambari网页输入ambari地址与用户名/密码3、点击Service-Spark2-Quick links-Spark2 History Server UIStep3:保存文件,重新点击链接即可出现以下界面4、任意选择App ID中的任意一条,即可观察到以下界面...原创 2020-08-24 08:24:03 · 716 阅读 · 0 评论