大数据开发技术
文章平均质量分 64
包含spark,Hadoop等的大数据开发技术的环境搭建和应用。
Leviathan_Four
总想抓住些什么东西。
展开
-
IDEA的Maven环境配置 HDFS Java API MapReduce WordCount
文章目录Maven环境的配置Maven安装以及配置文件的修改本地仓库阿里云镜像Maven下载的jdk版本IDEA修改Maven配置jdk的选择Maven的选择一些Maven的配置新建Maven项目添加jar依赖HDFS Java APIMaven环境的配置Maven安装以及配置文件的修改本地仓库阿里云镜像Maven下载的jdk版本IDEA修改Maven配置jdk的选择Maven的选择一些Maven的配置新建Maven项目添加jar依赖HDFS Java API...原创 2020-12-19 16:53:08 · 657 阅读 · 0 评论 -
HBase基本操作
HBase Java API 操作Tips:其实每一个操作都可以简化为:1、配置并连接数据库2、编写 Java API 的 HBase 的操作3、使用权限 执行操作要对一个Hbase数据库进行操作的话,首先我们要进行一系列准备操作//创建HBase配置对象Configuration conf=HBaseConfiguration.create();//指定ZooKeeper集群地址conf.set("hbase.zookeeper.quorum", "centos01:2181,cent原创 2021-10-12 15:29:35 · 829 阅读 · 0 评论 -
基于Hive的MapReduce案例
案例一、去重二、求平均分三、二次排序四、词频统计五、每月最高气温的天一、去重Hive表数据:sql代码:select distinct str from t1;运行结果:二、求平均分Hive表数据:sql代码:select str,avg(grade) from t2 group by str;运行结果:三、二次排序Hive表数据:sql代码:select * from t3 order by v1, v2 desc;运行结果:四、词频统计Hive原创 2020-12-20 21:16:28 · 415 阅读 · 0 评论 -
HBase的Java API中Scan的StartRow与StopRow的设置
这次的HBase实验,老师让做使用Java API实现Hbase的表的扫描。咱也不清楚扫描是咋实现的,只能去网上搜搜看。看了几篇博客,发现大家都是使用了Scan这个类。使用方法大致就是先给Scan设置一个前闭后开区间。然后将用需要扫描的表设置一下该Scan,获取一个迭代器。然后一行行的迭代输出。我一上来是这样设置的Scan scan=new Scan("row1".getBytes(),"row9".getBytes());这样设置后,由于该区间是前闭后开的,最后输出的结果不会含有row9原创 2021-10-09 18:40:59 · 2494 阅读 · 2 评论 -
Hadoop集群环境搭建 HDFS操作基础命令(附hadoop、jdk安装包)
文章目录一、CentOS01的安装和配置系统安装1.下载CentOS 7.2镜像2.创建新的虚拟机3.安装操作系统环境配置二、Java环境配置三、Hadoop环境配置四、由CentOS01克隆出CentOS02、CentOS03,并修改相关配置五、环境测试Live Nodes 访问测试:Hadoop 命令测试一些关于Linux环境配置的建议...要学会看log日志文件。要理解整个搭建过程和Hadoop内核权限管理很重要。环境VMware Workstation Pro 12.0需要的安装包CentO原创 2020-12-17 22:16:13 · 678 阅读 · 0 评论 -
Hive三种环境搭建(内嵌模式、本地模式、远程模式)以及JDBC的配置以及Java代码
一、文件配置(以下操作都是在已经有Hadoop、mysql、hive环境,并且配置过hive的情况下配置的)需要配置的文件有两个1、{HADOOP_HOME}\etc\hadoop\目录下core-site.xml文件内容如下:<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><原创 2020-12-15 21:30:41 · 618 阅读 · 0 评论 -
时隔10个月再次启动Hbase...
本来上一年这时候开了一门Hadoop老师教了hbase,然后就装上了hbase,老师还很负责的教了如何用Zookeeper来配置hbase,当时最后一次启动是上一年的12月25号,至少我看我的文件记录是这样,我的圣诞节难道就是在hbase中度过的吗?回到正题,今年我又开了一门教Hbase大数据技术的课程,总体来说体验很不好,没有实际操作的讲解,纯文字解说,上课我也就自己搞东西了,反正听不下去,之前也学过。到了写实验报告的时候,我想试试看启动我的hbase,结果显而易见。...原创 2021-09-26 10:29:35 · 74 阅读 · 0 评论 -
Windows下PySpark的配置
Windows下PySpark的配置环境:hadoop-2.7.4spark-2.4.3-bin-hadoop2.7jdk-1.8hadooponwindowsAnaconda3python-3.6需要注意的是,这些版本尽量保持和上面所列的版本一致,否则可能会出现报错。资源下载地址需要下载的资源链接放在这便于下载。hadoop-2.7.4spark-2.4.3-bin-hadoop2.7hadooponwindowsAnaconda3jdk-1.8环境变量的设置将解压的文件原创 2021-10-08 18:06:00 · 1368 阅读 · 2 评论 -
SparkStreaming Kafka 集群环境搭建及测试
搭建该环境需要安装zookeeper和Kafka。安装、配置zookeeper的集群环境zookeeper我们安装,需要对环境进行一定配置。下载、安装及配置环境变量安装zookeeper,我们需要将下载的zookeeper安装包解压到我们想要安装的地方。下载网站:https://dlcdn.apache.org/zookeeper/zookeeper-3.7.0/命令为:tar -zxvf apache-zookeeper-3.7.0.tar.gz 解压后,我们需要添加环境变量首先,原创 2021-11-18 22:31:29 · 1792 阅读 · 0 评论 -
学习pyspark中出现的一些问题
一、函数不加括号写代码的时候很多地方需要加括号,又有些函数不需要加括号。给我整懵了,随即去看了看源码,发现是有一种函数是被**@property**所修饰,这样的函数一般是用来维护不可修改的元素的值所创建的,自然也就不需要添加括号了。这里给出一个例子,rdd函数,调用后将会返回dataframe的一个RDD对象:命令为personRDD = personDF.rdd.map(lambda p: "Name: "+p[0]+", Age: "+str(p[1]))rdd源码通过注释我们可以了解原创 2021-10-17 16:38:44 · 376 阅读 · 0 评论