大数据
文章平均质量分 73
yandao
“我是谁”、“我在哪”、“我要去哪儿”
展开
-
Hive安装-环境搭建
准备并没有集群一说, 只要Hadoop以集群的模式运行, Hive就可以在Hadoop集群中运行。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。Hive的下载地址http://mirror.bit.edu.cn/apache/hive/这里使用的版本是apache-hive-2.3.7-bin.tar.gz环境准备hadoop-2.7.3三台机器:maste原创 2020-10-31 09:42:25 · 205 阅读 · 0 评论 -
datax-hbase2stream
####准备hadoop,hbase的环境,参考https://blog.csdn.net/yandao/article/details/108690126hbase(main):001:0> listTABLE原创 2020-10-30 17:07:24 · 328 阅读 · 0 评论 -
datax-hdfs2stream
准备hadoop环境master 192.168.0.200slave1 192.168.0.201slave1 192.168.0.202master start-all.sh5728 SecondaryNameNode7828 Jps5893 ResourceManager5531 NameNodeslave13895 NodeManager3772 DataNode5646 Jpsslave23745 DataNode5650 Jps3868 NodeManager原创 2020-10-30 16:30:25 · 224 阅读 · 0 评论 -
datax数据同步更新策略-以mysql2mysql为例
全量抽取策略{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage": 0.02 } }, "content": [{原创 2020-10-29 18:45:02 · 3891 阅读 · 0 评论 -
dataX-postgres2mysql
准备postgres数据库准备mysql数据库postgres2mysql.json{ "job": { "setting": { "speed": { "channel": 3 }, "errorLimit": { "record": 0, "percentage": 0.02 }原创 2020-10-29 15:49:05 · 388 阅读 · 2 评论 -
使用dataX-stream2stream/stream2mysql/mysql2mysql/mysql2stream
stream2stream{ "job": { "content": [ { "reader": { "name": "streamreader", "parameter": { "sliceRecordCount": 5, "column": [ { "type": "long", "v原创 2020-10-28 10:15:39 · 503 阅读 · 2 评论 -
使用dataX遇到的坑
首先是安装dataX,安装非常简单,只需下载对应的压缩包即可。下载地址:https://github.com/alibaba/DataX第一个错误:命令提示符界面出现出现乱码。解决方法:可以在cmd中输入: CHCP 65001 (切换为UTP8编码-65001 (UTF-8)),然后进行后续操作。第二个错误:print的问题 File "datax.py", line 114 print readerRef ^SyntaxError: Missing paren原创 2020-10-28 08:22:46 · 7174 阅读 · 4 评论 -
Java代码-Kafka的Publish和Subscribe
import java.util.Properties;import java.util.Random;import java.util.concurrent.TimeUnit;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerR原创 2020-09-22 10:13:32 · 687 阅读 · 0 评论 -
Kafka在windows下单机版安装步骤
准备安装JDKjava version "1.8.0_231"Java(TM) SE Runtime Environment (build 1.8.0_231-b11)Java HotSpot(TM) 64-Bit Server VM (build 25.231-b11, mixed mode)下载kafka_2.12-2.1.1http://kafka.apache.org/downloadshttps://archive.apache.org/dist/kafka/2.2.1/ka原创 2020-09-21 22:43:02 · 358 阅读 · 0 评论 -
Flume-1.8.0的安装与配置
安装下载http://flume.apache.org/download.htmlhttp://archive.apache.org/dist/flume/1.8.0/解压tar -xzvf apache-flume-1.8.0-bin.tar.gz建立一个软连接ln -s apache-flume-1.8.0-bin flume-1.8.0设置环境变量[root@single ~]# echo $PATH/usr/local/sbin:/usr/local/bin:/usr/sbin:原创 2020-09-21 15:23:44 · 1300 阅读 · 0 评论 -
Yarn的工作机制/作业提交流程
作业提交全过程详解(1)作业提交第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。第2步: Client向RM申请一个作业id。第3步: RM给Client返回该job资源的提交路径和作业id。第4步: Client提交jar包,切片信息和配置文件到指定的资源提交路径。第5步: Client提交完资源后,向RM申请运行MrAppMaster。(2)作业初始化第6步: 当RM收到Client的请求后,将该job添加到容量调度器中。第原创 2020-09-20 23:46:45 · 380 阅读 · 0 评论 -
HBaseClient的表操作java实现create put get delete
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.TableName;import org.apache..原创 2020-09-20 23:11:39 · 155 阅读 · 0 评论 -
Yarn架构-简单理解
Yarn架构1.ResourceManager(RM)的主要作用如下:(1)处理客户端的请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度2.NodeManager(NM)的主要作用如下(1)管理单个节点上的资源(2)处理来自ResourceManager的命令(3)处理来自ApplicationMaster的命令3.ApplicationMaster的主要作用如下(1)负责数据的切分(2)为应用程序申请资源并分配给内部的任务原创 2020-09-20 20:04:02 · 225 阅读 · 0 评论 -
HBase Error org.apache.hadoop.hbase.InvalidFamilyOperationException
HBase在createTable的时候遇到如下问题:代码public class HBaseClient { public static void main(String[] args) throws Exception { Configuration configuration = HBaseConfiguration.create(); Connection connection = ConnectionFactory.createConnection(configuration);原创 2020-09-20 18:26:05 · 288 阅读 · 0 评论 -
HBase的使用命令总结
准备工作配置好一个master,两个slave:slave1,slave2,启动hadoopmaster结点[root@master ~]# start-all.shThis script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting namenodes on [master]master: starting namenode, logging to /home/hadoop/hadoop-2.7.3/logs原创 2020-09-20 11:21:39 · 430 阅读 · 0 评论 -
流行的大数据技术
流行的大数据技术,涉及大数据处理的各个阶段,包括:架构,采集,存储,计算处理和可视化。我们下面对hadoop生态圈做下了解:The hadoop includes these modules:Hadoop Common: 为其他hadoop模块提供基础设施。Hadoop Distributed File System(HDFS™): 一个高可靠、高吞吐量的分布式文件系统Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理Hadoop MapReduce: 一个分布式的原创 2020-09-20 09:55:30 · 386 阅读 · 0 评论 -
Hbase安装启动时遇到问题
Hbase安装启动时遇到无法启动zk端口2181问题解压、配置完后执行start-hbase.sh后使用jps未看到HMaster:查看log,提示zk运行的端口应该是2182而不是默认的2181Could not start ZK at requested port of 2181. ZK was started at port: 2182根据提示,在hbase-site.xml中增加一条配置信息:<property> <name>hbase.zookeeper原创 2020-09-20 09:04:50 · 1116 阅读 · 0 评论 -
java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.
查找设置mapper所用类型job.setMapperClass(RMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputKeyClass(IntWritable.class);job.setMapperClass(RMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);2原创 2020-09-14 15:25:44 · 609 阅读 · 0 评论 -
org.apache.hadoop.io.WritableComparator.compare(WritableComparator.java:164)
问题出现的原因: @Override public void write(DataOutput out) throws IOException { // TODO Auto-generated method stub out.write(year); out.writeInt(month); out.writeInt(day); out.writeInt(wd); } @Override public void readFields(DataInput in) throws原创 2020-09-14 10:37:46 · 386 阅读 · 0 评论 -
Hadoop天气系统
1.写完计数程序打包成jar只要class文件即可2.上传到node1上3.hadoop jar weather.jar com.hadoop.mr.weather.WeatherSystemhdfs dfs -ls /data/weather/outputhdfs dfs -cat /data/weather/output/part-r-00000也可以把内容copy到当前的目录hdfs dfs -get /data/weather/output/* ./public class Weat原创 2020-09-13 23:45:05 · 2544 阅读 · 0 评论 -
Hadoop中DataNode没有启动
Hadoop中DataNode没有启动主要原因是因为namenode 启动格式化引起的clusterID不一致把datanode的clusterID 修改为namenode上的clusterID[root@node1 hadoop]# cat /var/hadoop/ha/dfs/name/current/VERSION #Sun Sep 13 06:16:51 CST 2020namespaceID=240374401clusterID=CID-6b9fbb66-0dd8-4a59-ad6e原创 2020-09-13 23:06:56 · 185 阅读 · 0 评论 -
Hadoop wordcount源码
1.写完计数程序打包成jar只要class文件即可2.上传到node1上3.hadoop jar wordcount.jar com.hadoop.mr.WordCounthdfs dfs -ls /data/outputhdfs dfs -cat /data/output/part-r-00000也可以把内容copy到当前的目录hdfs dfs -get /data/output/* ./package com.hadoop.mr.count;import java.io.IOExce原创 2020-09-13 11:43:09 · 261 阅读 · 0 评论 -
Hadoop 2.6.5 Windows Eclipse环境搭建
准备材料hadoop-eclipse-plugin-2.6.0.jarhadoop-2.6.5.tar.gzhadoop-2.6.5-src.tar.gz(不debug查看源码这个也可以不用)对windows支持很好的bin的一些文件准备好这些以后,需要做以下事情把hadoop.dll move/copy到C:\Windows\System32(最好重启系统)把hadoop-eclipse-plugin-2.6.0.jar放到eclipse的plugin目录下,最好重启eclipse解压原创 2020-09-12 22:42:15 · 414 阅读 · 0 评论 -
hadoop 2.6.5下的服务器搭建记录
免密钥有两个需求场景:1.管理脚本 远程管理其他的节点脚本启动2.ZKFC:需要免密钥控制对方和自己JNN配置步骤:1.逻辑到物理的映射2.journalnode相关位置信息的一个描述3.发生故障免密钥的切换的配置启动过程1.先启动JNN2.再启动一个NameNode进行格式化,然后启动这个namenode3.另外一个NameNode启动进行信息同步1.上传解压tar xf zookeeper-3.4.6.tar.gz2. mv zookeeper-3.4.6 /opt/sxt/3原创 2020-09-12 21:20:58 · 94 阅读 · 0 评论 -
Nginx的简单介绍
Nginxengine x是一个高性能的HTTP和反向代理的服务器,也是一个IMAP/POP3/SMTP代理服务器。第一个公开版本0.1.0发布于2004年10月4日其将源代码以类BSD许可证的形式发布,因它的稳定性,丰富的功能集,示例配置文件和低系统资源的消耗闻名官方测试nginx能够支撑5万并发连接,并且CPU等资源消耗非常低,运行非常稳定。2011年6月1日,nginx1.0.4发布-apache, httpdNginx是一款轻量级的web服务器/反向代理服务器以及电子邮件代理服务器,并原创 2020-09-10 20:44:51 · 105 阅读 · 0 评论