hadoop+spark
对平时的笔记和实战做总结
忌颓废
୧⍤⃝ 缓慢而坚定的生长୧⍤⃝
展开
-
Scala的Set+Map+Tuple
1、Set(1)、创建无序的setobject lesson_set { def main(args: Array[String]): Unit = { val set = Set[Int](1,2,3,4,5) set.foreach(println) }}结果:(2)交集object lesson_set { def main(args: Array[String]): Unit = { val set = Set[Int](1,2,3,4,5)原创 2020-07-10 16:17:28 · 191 阅读 · 0 评论 -
Scala的字符串、Array和List
1、字符串object String { def main(args: Array[String]): Unit = { val s = "scala" val s1 = "SCALA" println(s.indexOf(97)) //返回a的下标 println(s.indexOf(98)) //字符串没有b返回-1 println(s.equals(s1)) println(s.equalsIgnoreCase(s1)) //不区分大小写原创 2020-07-10 14:07:04 · 438 阅读 · 0 评论 -
Scala方法与函数
Scala方法与函数1、Scala方法的定义(1)、方法中最后返回可以使用return,如果使用了return,那么方法体的返回值类型一定要指定object function { def main(args: Array[String]): Unit = { def max(a:Int,b:Int): Int ={ if(a>b){ return a } else{ return b } }原创 2020-07-10 11:13:39 · 375 阅读 · 0 评论 -
redis安装和简单案例演示
一、Java API1、pom.xml<dependencies> <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.7.0</version> </dependency>原创 2020-06-23 16:10:06 · 333 阅读 · 0 评论 -
Spark Streaming基础案例实现
文件流在文件流的应用场景中,需要编写Spark Streaming 程序,一直对文件系统的某个目录进行监听,一旦发现有新的文件生成,Spark Streaming就会自动把文件内容读取过来,使用用户自定义的处理逻辑进行处理套接字流Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应的处理一、在spark-shell中创建文件流1、创建一个目录 logfilecd /usr/local/spark/mycodemkdir streamingcd stream.原创 2020-06-19 16:39:45 · 1911 阅读 · 0 评论 -
spark sql 的一些基本操作
一、dataframe的创建scala> import spark.implicits._import spark.implicits._scala> val df = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]原创 2020-06-16 23:26:23 · 1645 阅读 · 0 评论 -
hbase伪分布安装和hbase案例
一、安装hbase1、下载wget https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/hbase-2.2.4-bin.tar.gz2、解压并修改文件名tar xzvf hbase-2.2.4-bin.tar.gz -C /usr/local/mv ./hbase-2.2.4 ./hbase3、修改配置文件并使他生效vi /etc/profile添加以下内容:export HBASE_HOME=/usr/local/hbas原创 2020-06-09 21:13:39 · 312 阅读 · 0 评论 -
Sqoop的安装与简单案例分析
一、安装Sqoop(1)下载并解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local(2)将解压后生成的文件夹重命名mv ./sqoop-1.4.7.bin__hadoop-2.6.0 ./sqoop(3)配置环境变量export SQOOP_HOME=/usr/local/sqoopexport PATH+$SQOOP_HOME/bin(4) 重命名配置文件mv sqoop-env-template.sh sqoop原创 2020-05-29 15:09:21 · 220 阅读 · 0 评论 -
Zookeeper的一些Java API简单操作
阅读目录一、启动Zookeeper二、Zookeeper命令行操作三、Zookeeper Java API操作1、pom.xml文件2、创建节点3、修改数据4、获取数据5、删除节点一、启动Zookeeper进入zookeeper安装目录下的bin目录内,通过命令启动./zkServer.sh start通过命令查看节点状态./zkServer.sh status通过命令关闭./z...原创 2020-04-21 22:38:40 · 734 阅读 · 0 评论 -
Spark之RDD编程常用算子代码例子
阅读目录RDD一、创建RDD1、从对象集合创建RDD2、从外部存储创建RDD(1)从HDFS文件创建RDD(2)从Linux本地文件创建RDD二、转换算子1、map()算子2、filter()算子3、flatMap()算子4、distinct()算子5、groupByKey()算子6、reduceByKey()算子7、sortBy()算子8、union()算子三、行动算子1、reduce()算子2...原创 2020-04-20 14:27:38 · 1034 阅读 · 0 评论 -
Spark之wordcount小案例
在虚拟机里1、编辑需要词频计算的文件(用空格隔开)2、在hdfs里新建文件夹WordCount,并把刚刚的words.txt文件上传上去3、在spark的目录中启动: bin/spark-shell 进入spark shell中输入: sc.textFile("/WordCount/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)...原创 2020-04-17 22:33:38 · 454 阅读 · 0 评论 -
Hadoop之mapreduce数据去重和求平均分(案例)
阅读目录一、数据去重使用idea创建Maven项目在pom.xml文件添加Hadoop的依赖库,内容如下:编写Dedup.class运行程序二、求平均分关于部分详细说明一、数据去重使相同的数据在最终的输出结果中只保留一份,使用idea创建Maven项目在pom.xml文件添加Hadoop的依赖库,内容如下: <dependencies> <dep...原创 2020-04-05 16:23:57 · 1677 阅读 · 0 评论 -
Hadoop之mapreduce数据排序案例(详细代码)
阅读目录mapreduce排序案例1、需求2、分析3、代码实现EmployeeSortMapper.classEmployee.classEmployeeSortMain.class4、提交作业到集群运行mapreduce排序案例1、需求查看员工的薪资,按部门、薪资升序排序。2、分析如果key属于某个自定义类,且期望key按某种力式进行排序,此时这个自定类就要实现Java中的Compar...原创 2020-04-03 22:34:21 · 3968 阅读 · 0 评论 -
Hadoop之HDFS读写文件过程(流程图+代码)
阅读目录一、HDFS文件读取过程HDFS文件读取的流程图:流程图的说明:代码:二、HDFS文件写入过程HDFS文件写入的流程图流程图的说明:代码:一、HDFS文件读取过程当客户端需要读取文件时,首先向NameNode发起读请求, NameNode收到请求后,会将请求文件的数据块在DataNode中的具体位置(元数据信息)返回给客户端,客户端根据文件数据块的位置,直接找到相应的DataNode...原创 2020-04-03 00:18:29 · 6262 阅读 · 1 评论 -
Hadoop 之Mapreduce wordcount词频统计案例(详解)
阅读目录一、创建项目 :example-hdfs二、项目目录三、WordCountMapper.class四、WordCountReducer.class五、WordCounfDriver.class六、pom.xml七、打包jar包八、在SecureCRT软件上传刚刚生成的jar包九、运行十、错误及解决MapReduce是什么?Map Reduce是Google公司开源的一项重要技术,它...原创 2020-03-22 21:17:43 · 9165 阅读 · 1 评论 -
HDFS的JAVA API操作(上传文件和下载文件)
阅读目录HDFS Java API一、创建项目 :example-hdfs二、修改pom.xml文件三、创建类TestHDFSClient.java四、创建文件五、下载文件六、上传文件七、其他常见的操作(这里不做演示了)八、FileSystem类常用方法九、遇到的错误及解决方法HDFS Java APIHDFS Java API 位于“org.apache.hadoop.fs"包中,这些AP...原创 2020-03-22 13:53:55 · 15882 阅读 · 0 评论 -
Hadoop之HDFS Shell的常用命令的使用
HDFS Shell 命令是由一系列类似Linux Shell的命令组成的1、创建文件夹2、列出指定的目录或文件3、新建文件4、上传文件5、将本地文件移动到HDFS6、下载文件7、查看文件8、追写文件9、删除目录或者文件10、显示占用的磁盘空间大小11、 HDFS中的文件复制12、HDFS中的文件移动(改名)13 、 HDFS中的文件合并后下载操作命令是以“hdfs dfs”开头的命令。通过这些...原创 2020-03-21 16:37:16 · 910 阅读 · 0 评论 -
Centos7 + Hadoop3 搭建伪分布式集群
操作系统:Centos7Java:jdk-8u162-linux-x64hadoop:hadoop-3.2.1终端连接软件:SecureCRT一、利用SecureCRT上传文件到root目录二、关闭防火墙按顺序执行命令:iptables -F;iptables -X;iptables -Z;iptables -L、iptables-save、setenforce 0vi /etc/...原创 2020-02-14 17:22:36 · 600 阅读 · 1 评论 -
Hadoop学习笔记:Hadoop基础知识
目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是H...原创 2020-02-26 14:00:58 · 551 阅读 · 0 评论 -
Hadoop学习笔记:HDFS理论知识
HDFS介绍HDFS是hadoop自带的分布式文件系统,英文名为:Hadoop Distributed Filesystem,HDFS以流式数据访问模式来存储超大文件。分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node...原创 2020-02-26 21:03:44 · 1147 阅读 · 0 评论