Hadoop
文章平均质量分 91
cgl_dong
!
展开
-
大数据实践(十二)Flume入门
Flume 1.6.0Flume简介Apache Flume 是一个分布式,高可用的数据收集系统。它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集。Flume 分为 NG 和 OG (1.0 之前) 两个版本,NG 在 OG 的基础上进行了完全的重构,是目前使用最为广泛的版本。下面的介绍均以 NG 为基础。外部数据源以特定格式向 Flume 发送 events (事件),当 source 接收到 events 时,它将其存储到一个或多个 channel,channe.原创 2020-12-28 09:48:37 · 134 阅读 · 0 评论 -
大数据实践(十一)SparkSQL模块基础
SparkSQL是Spark的一个子模块,主要用于操作结构化数据,借鉴了Hive。此前使用的是SparkCore模块的RDD结构进行数据处理,SparkSQL提供了结构化的数据结构DataFrame、DataSet。SparkSQL支持SQL、DSL(domain-specific language)两种方式、多种语言(Scala、Java、Python、R)进行开发,最后底层都转换为RDD.SparkSQL支持多种数据源(Hive,Avro,Parquet,ORC,JSON 和 JDBC 等)、支.原创 2020-12-22 13:36:45 · 344 阅读 · 0 评论 -
大数据实践(十) Spark多种开发语言、与Hive集成
Spark 可以使用scala、Java、Sql、Python、R语言进行开发。在bin目录下也提供了spark-shell、spark-sql、sparkR、pyspark等交互方式。SparkSQL实现了Hive的模型、Hive在新版本中也建议使用Spark作为计算引擎。一、Spark实现wordCount(TopK)使用以下文本进行词频统计。Java hadoop Spark \HbaseSpark hadoop Java hive mysqlhadoop Spark hive .原创 2020-12-22 13:36:06 · 670 阅读 · 0 评论 -
大数据实践(九)--sqoop安装及基本操作
大数据实践(九)–sqoop安装及基本操作前置工具及环境Hadoop 2.7.3sqoop 1.4.6mysql 8mysql-connector-java-8.0.20.jarjava-json.jar一、简介Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出:导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS、Hive、HBase 等分布式文件存储系统中;导出数据:从 分布式文件系统中导出数据到关系数据库中。其原理原创 2020-12-15 14:10:11 · 212 阅读 · 0 评论 -
大数据实践(八)--Hive、Pig安装及基本操作
大数据实践(八)–Hive、Pig安装及基本操作mysql-connector-java-8.0.16.jarhadoop 2.7.3hive 2.7.3pig 0.12.0一、简介Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。Pig和Hive类似,但不是使用SQL语句,使用的是自己的一套Pig Latin语言,可以使用脚本。原创 2020-12-15 14:06:53 · 427 阅读 · 0 评论 -
大数据实验(七)Spark单机安装及WordCount(TopKey)
大数据实验(七)Spark单机安装前置环境Ubuntu 16.04Hadoop 2.7.3Java JDK 1.8Spark 3.0.0-preview2一、Spark安装001、下载Spark在Apache官网找到合适的版本进行下载,下载了Spark 3.0.0-preview2。002、安装将Spark 3.0.0-preview2解压到/usr/local下,改名为spark003、配置环境变量sudo vim ~/.bashrc加入位置# Spark Enviro原创 2020-06-12 21:14:16 · 320 阅读 · 0 评论 -
大数据实践(六)--hbase集群搭建(Ubuntu)
大数据实践(六)–hbase集群搭建(Ubuntu)之前搭建了单机hbase,这里搭建集群。hbase是分布式数据库,自身携带了zookeeper,可以自行组建分布式。为了保证高可用,使用外置的zookeeper搭建集群。一、集群搭建1、解压使用tar命令解压到/usr/local下tar -zxvf xxx2、配置环境变量export HBASE_HOME=usr/local/hbaseexport PATH=$HBASE_HOME/bin:$PATH记得生效3、配置文件进原创 2020-06-06 03:42:52 · 469 阅读 · 0 评论 -
大数据实践(五)--Zookeeper集群搭建(Ubuntu)
大数据实践(五)–Zookeeper集群搭建(Ubuntu)一、简介Zookeeper 是一个开源的分布式协调服务,目前由 Apache 进行维护。Zookeeper 可以用于实现分布式系统中常见的发布/订阅、负载均衡、命令服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。它具有以下特性:顺序一致性:从一个客户端发起的事务请求,最终都会严格按照其发起顺序被应用到 Zookeeper 中;原子性:所有事务请求的处理结果在整个集群中所有机器上都是一致的;不存在部分机器应原创 2020-06-06 03:38:41 · 225 阅读 · 0 评论 -
大数据实践(四)MapReduce编程实践(Ubuntu)
大数据实验(四)MapReduce编程实践(Ubuntu)前置工具及环境Ubuntu 16.4VirtualBoxHadoop 2.7.3jdk1.8一、MapReduce简介MapReduce是Hadoop提供的一个分布式计算框架,MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,value> 键值对处理,它将作业的输入视为一组原创 2020-06-06 03:34:26 · 1303 阅读 · 0 评论 -
大数据实践(三)--Hadoop集群搭建(Ubuntu)
大数据实践(三)–Hadoop集群搭建(Ubuntu)前置环境原单机配置前置环境:hadoop2.7.3Ubuntu16VirtualBoxjdk1.8还需要yarn管理集群文章目录大数据实践(三)--Hadoop集群搭建(Ubuntu)001、整体路线002、前置条件1、jdk、hadoop都已经加入环境变量。**2、复制两台虚拟机,将所有节点配置好静态ip。**3、修改主机名称:4、修改hosts文件,使主机名和ip对应。5、配置ssh远程登陆003、修改配置文件1、修改hadoop原创 2020-05-22 10:17:28 · 200 阅读 · 0 评论 -
大数据实践(二)--Hdfs常见操作及Hbase安装
大数据实践(二)–Hdfs常见操作及Hbase安装前置工具及环境Ubuntu 16VirtualBoxHadoop 2.7.3hbase一、Hdfs常见操作Hdfs大部分操作和shell命令都是共通的。001、启动hdfs辅助进程start-dfs.sh002、创建、删除、查看目录#创建目录hdfs dfs -mkdir -p /user/hadoopDir#出现这种情况可能是编码的问题,手敲一遍就好–mkdir: Unknown command#查看目录hdfs原创 2020-05-19 04:39:05 · 384 阅读 · 0 评论 -
大数据实践(一)--Hadoop单机搭建(Ubuntu)
大数据实践(一)–Hadoop单机搭建(Ubuntu)前置环境及工具:Ubuntu 16VirtualBoxHadoop 2.7.3xftp6jdk1.8文章目录大数据实践(一)--Hadoop单机搭建(Ubuntu)1、VirtualBox环境准备001、设置网卡002、更新apt-get(最好更新)003、下载vim(可略去)004、下载ssh005、配置本地ssh登录服务2、Hadoop环境准备001、上传jdk以及hadoop002、解压并配置环境变量(略去)003、修改读写权限(原创 2020-05-18 23:14:11 · 198 阅读 · 0 评论