笨鸟的平凡之路-CSDN博客

原创笨鸟的平凡之路-sqoop将mysql数据导入hive多分区表时加载emoji数据出错解决方案

问题出现：最近在做mysql数据导入到hive多分区表的工作。在测试时发现hive数据总条数多出源表数据几倍。从mysql查看几条数据与hive对应的数据进行对比，发现mysql一条数据在hive中被加载成多行数据。如下图：原始description_shop一条数据：???????????? Bem-vindos a minha loja! ???????????????????? Oferecemos a você os melhores produtos e artigos para sua

2020-07-15 11:33:32 553

原创笨鸟的平凡之路-hive内部表与外部表的互相转换

首先介绍一下外部表和内部表1．内部表：也称为管理表，表目录会创建在HDFS的仓库目录（/user/hive/warehouse）的相应的库的目录下2．外部表：外部表会根据创建表时location关键字指定的路径创建表目录。（如果没有指定location，则表的创建的位置和内部表相同,如果指定就在指定的位置创建目录）内部表和外部表的区别（1）在hive中创建表会做两件事情：第一，在HDFS...

2019-09-20 13:59:53 370

原创笨鸟的平凡之路-使用mysql遇见的问题及解决方案

今天在使用mysql建表的时候遇见了一个报错:ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes经搜索,要经过以下步骤可解决:1.mysql命令行修改环境变量mysql> set global innodb_large_prefix=on;mysql> set global...

2019-09-18 10:35:53 343

原创笨鸟的平凡之路-CentOS6.5下搭建Scrapy环境

前言Linux通常自带的有Python2的环境，此时如果想使用Python3，但是因为Python2被很多其他应用关联，所以我们不能破坏原有的Python2的环境。1、安装Python3和pip环境参考：Linux(Centos)下安装Python3.6和pip安装好python3和pip后，升级pip（如果pip的版本太老，很多包都无法安装。）[root@cm local]# py...

2019-09-17 11:26:35 162

原创笨鸟的平凡之路-Mac环境下Scrapy的安装

前言：用Python写爬虫经常会用到Scrapy框架，今天为大家分享的是怎么安装Scrapy，以及用pycharm怎么用来运行和调试Scrapy对于Mac OS系统来说，由于系统本身会引用自带的python2.x的库，因此默认安装的包是不能被删除的，但是你用python2.x来安装Scrapy会报错，用python3.x来安装也是报错，我最终没有找到直接安装Scrapy的方法，所以我用另一种安...

2019-09-11 17:07:20 227

原创笨鸟的平凡之路-Kylin的介绍及CDH版安装

文章目录前言一、核心概念数据仓库OLAP维度和度量Cube和Cuboid事实表和维度表星形模型二、Apache Kylin的技术架构三、Apache Kylin的安装软件要求下载tar包解压配置环境变量启动验证验证启动四、官方测试用例导入数据查看导入模型构建Cube查询构建完成的cube信息多表关联查询五、总结前言随着移动互联网、物联网等技术的发展，近些年人类所积累的数据正在呈爆炸式的增长，大...

2019-08-14 10:27:40 930

原创笨鸟的平凡之路-linux启动出错

1、问题现象：终端输入reboot后出现GIVE root password for maintenance(or type control-D to continue):输入密码出现提示符后再reboot才能重启。解决方法：通过百度搜索后说是系统文件只能只读，需要修改权限，也可能是系统文件损坏需要修复。通过执行fsck -A -V 这条命令成功后，重启reboot服务器就恢复正常。...

2019-08-13 10:25:56 219

原创笨鸟的平凡之路-Flink的安装及测试

一. Flink的下载安装包下载地址：http://flink.apache.org/downloads.html ，注意选择对应Hadoop的Flink版本下载.将下载完的.tgz或.tar包上传到需要安装的节点上.我这里是三台,master01,worker01,worker02.然后解压.解压[root@master01 xuyi]# tar xvf ./flink-1.7.2-...

2019-07-18 10:52:27 498 1

原创笨鸟的平凡之路-Service Monitor未找到活动 Master(Hbase)

因为停电,几台虚拟机被动挂掉,来电后启动CDH,发现Hbase的Master爆红解决错误万变不离其中,找log日志.索性将hdfs上hbase的/WALs下所有的文件移动到别的目录下[root@master01 zookeeper]# hdfs dfs -mv /hbase/WALs/* /xuyi然后重新启动HbaseHbase恢复正常....

2019-07-16 18:10:11 3200

原创笨鸟的平凡之路-Spark之数据倾斜处理

现象1.在执行任务的时候,绝大多数task执行的速度还是特别快,有少数task执行的速度特别慢.2.原本能够正常执行的作业,突然有一天OOM,观察异常栈,是我们写的业务代码造成的.(很少见)原理在发生shuffle的过程中,各个节点上相同的key拉取到某一个节点上的一个task去处理,此时如果某个key的数量特别大的话,就会发生数据倾斜.比如,一些key的条数只有10条,某一个key有1...

2019-07-16 13:55:07 202

原创笨鸟的平凡之路-Spark之资源调优

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪...

2019-07-15 16:22:17 162

原创笨鸟的平凡之路-Spark之开发调优

1.避免创建重复的RDD.一个RDD生成后,之后若再对该RDD重新操作时,推荐不要再重新生成了.2.尽可能复用同一个RDD如果RDD1是<key,value>类型,RDD2是类型,并且RDD1中的value是由RDD2中的value而来,那么建议只使用RDD1,不建议利用RDD1再生成RDD2.但是这样RDD1还是被计算了两次,所以一般结合3-持久化的方式进行进一步调优.3.对...

2019-07-15 15:45:09 163

原创笨鸟的平凡之路-mysql出错解决

创建完mysql表后向表中导数时,发现中文乱码情况,于是去修改编码格式.在安装mysql的机器上修改 /etc/my.cnf 文件[root@cm mysql]# vi /etc/my.cnf[mysqld]skip-name-resolve[client]default_character_set=utf8[mysqld]character_set_server = ut...

2019-07-10 20:46:03 145

原创笨鸟的平凡之路-hbase的导入导出工具

由于需要将一个CDH平台A中Hbase的数据转移到另一个CDH平台B,数据量不大,故利用hbase导入导出工具Import,Export1.首先将表中数据导出到hdfs,需要找到A-CDH下的/bin/目录,利用/bin/hbase将表数据导出[root@masternode3 ~]# cd /opt/cloudera/parcels/CDH-5.11.2-1.cdh5.11.2.p0.4/...

2019-07-10 14:44:46 320

原创笨鸟的平凡之路-ResourceManager中log日志不显示

错误:Stack trace: ExitCodeException exitCode=1: at org.apache.hadoop.util.Shell.runCommand(Shell.java:601) at org.apache.hadoop.util.Shell.run(Shell.java:504) at org.apache.hadoop.util.Shell$ShellC...

2019-07-10 13:47:26 817

原创笨鸟的平凡之路-IK分词器的安装

之前我们已经安装完成了ES,版本是6.7.2安装IK分词器是需要和ES对应版本的,不知道版本的请查看以下页面:https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md下载与之对应的版本https://github.com/medcl/elasticsearch-analysis-ik/releases...

2019-07-09 19:24:22 165

原创笨鸟的平凡之路-CDH参数的修改

修改CDH应该先重启组件,然后再部署客户端配置.1.调整NodeManager计算节点的内存大小<property><name>yarn.nodemanager.resource.memory-mb</name><value>8192</value><discription>每个节点可用内存,单位MB，默认是1g，...

2019-07-09 14:18:02 435

原创笨鸟的平凡之路-记一次CDH的错

在安装CDH的时候用的是ntp,但是未生效,原因是dns没有更改,连不了外网,后来在安装ES的时候将所有机器的dns都更改了,时间同步到了网络时间.但是之前已经安装完了CDH,导致CDH出错.之后将**/var/lib/cloudera-host-monitor和/var/lib/cloudera-service-monitor**这两个目录下的数据移动到别的目录,比如我自己创建了一个新的目录...

2019-07-08 17:14:31 221

原创笨鸟的平凡之路-es安装

准备1.官网下载地址:https://www.elastic.co/cn/downloads/past-releases#elasticsearch选择适合自己的版本,我这里选择的是6.7.2版本的.2.将tar.gz包上传到节点的安装目录,我这里上传到/opt目录下然后解压[root@master02 opt]# tar -zxvf ./elasticsearch-6.7.2.tar...

2019-07-05 16:56:55 229

原创笨鸟的平凡之路-win10虚拟机安装MAC OS

一、准备工作VM虚拟机：我选的版本是VMware14MacOS镜像文件：我选的版本是10.12Mac补丁：借助提供，补丁的作用就是让我们win10里面的VM虚拟机可以提供MacOS系统的安装。工具地址（不包含镜像，镜像太大，不是VIP有限制，希望理解）：链接: https://pan.baidu.com/s/1AEOoEYw9Sw-4KmFVWP8QAg 提取码: qgv2二、开始1...

2019-07-03 14:55:15 11992 5

原创笨鸟的平凡之路-CDH版Phoenix安装

准备工作1.安装包的下载下载地址:http://phoenix.apache.org/download.html2.解压安装包[root@cm opt]# tar -zxvf ./apache-phoenix-4.14.0-cdh5.11.2-bin.tar.gz -C ./phoenix/3.复制server.jar到Hbase的lib文件夹中,每一个RegionServer都要复制...

2019-07-02 14:41:56 273

原创笨鸟的平凡之路-sqoop增量导数

准备工作mysql建表及入数:[root@cm ~]# mysql -uroot -p111111mysql> create database test_sqoop;mysql> use test_sqoop;mysql> create table students(s_id varchar(128),s_name varchar(128),s_birth varc...

2019-06-24 15:47:11 846

原创笨鸟的平凡之路-ES的JAVA-API(模糊查询部分)

版本说明及准备工作:es:6.7.2我用的是IDEA的maven工程,需要将以下依赖添加到maven中<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> ...

2019-06-19 18:46:18 2570

原创笨鸟的平凡之路-Hbase预分区

前言Hbase在建表的时候默认只是有一个Region去存储数据,这个Region存储的数据是没有StartKey和EndKey的.如下图:这样造成的影响是这张表的所有的数据都往这一个Region上存储,随着数据的增加,这个Region会承受不了更多的数据（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB）,导致Region会发生Split,均分成两个Re...

2019-06-18 18:55:05 245

原创笨鸟的平凡之路-hbase中图片的存储与读写

Hbase中存储图片话不多说.直接先上代码Demo:import org.apache.commons.io.IOUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FileStatus;im...

2019-06-17 18:05:29 787 2

原创笨鸟的平凡之路-CDH集群角色和节点数规划建议

1、 CDH组件角色说明Hadoop 集群服务器按照节点任务的不同可以分为管理节点和工作节点。管理节点上部署各组件的管理角色，工作节点部署各角色的存储、容器或计算角色。但因为Hadoop 不同组件之间兼容性的问题，所以一般使用Cloudera 套件。在CDH套件中就有如下角色。2、 CDH 节点数量建议2.1 小规模集群一般来说，小于20个节点的都属于小规模集群，受限于集群的存储和处...

2019-06-14 09:46:12 5280 1

原创笨鸟的平凡之路-安装CDH

准备工作相关节点及压缩包的准备,从官网下载cloudera-manager和CDH 5.11.2 parcel文件.CM 下载地址:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.11.2_x86_64.tar.gzCDH parcel 下载地址:http://archive.cloudera.com/cdh5/...

2019-06-14 09:32:41 557 2

原创笨鸟的平凡之路-kettle使用之MySQL数据写入HDFS

表输入步骤:1.核心对象2.输入3.表输入4.右侧图形化界面右击表输入,选择编辑步骤5.数据库连接->新建6.SQL填写(编写需要写入HDFS的数据条件)7.记录数量限制(默认是0,全量导入)8.确定表输入信息填写:HDFS输出步骤:1.核心对象2.Big Data3.双击Hadoop File Output4.右侧图形化界面右击Hadoop File...

2019-06-11 10:50:19 929

原创笨鸟的平凡之路-kettle使用之DB连接

该文章只针对MAC版,kettle版本对应的是7.1,CDH为5.11.2启动kettleMac启动终端,找到kettle的安装目录,并在终端转到data-integration⁩目录下xuyi123:~ xuyi123$ cd /Users/xuyi123/Desktop/work/kettle/data-integration xuyi123:data-integration xuy...

2019-06-10 18:14:47 1580

原创笨鸟的平凡之路-kettle使用之hive2连接之前的配置

连接 hive2 三部曲启动hiveServer2修改plugin.properties及添加覆盖xml文件添加hive对应的jar包1.cdh安装完后hiveServer2可以直接在UI界面启动.(也可以控制台shell命令启动)2.修改plugin.properties及添加覆盖xml文件2.1 修改plugin.properties文件plugin.properti...

2019-06-10 18:08:50 731

原创笨鸟的平凡之路-简述hbase的二级索引和协处理器

何为Hbase的二级索引?在hbase中并不是所有的查询维度都可以依靠rowkey来完成,rowkey的索引单一,对于多维度的查询比较困难,不是所有的列信息都包含在了rowkey中.一般的,当我们知道某一列的某一个值F:C1-C11的时(F为列簇,C11为C1列下的具体值),但是并不知道其对应的rowkey,并且我们还想获取F:C2:C21的值.这时我们可以对F:C1这列建索引,我们需要做的是建...

2019-06-06 15:55:40 212

原创笨鸟的平凡之路-Logstash的搭建与简单测试

由于需要将Mysql的数据导入到ES中,并且考虑MySql后续数据增量的情况,查阅博客推荐使用Logstash或GO-MySQL-ElasticSearch或Py-Mysql_ElasticSearch.有人会说为什么不用flume或者MySqlsMom,在这里说一下我的看法,Flume集成ES并不是很友好,一般的我们是利用Flume实时采集日志发布到Kafka做配套,并且我们知道ELK中的E...

2019-06-04 16:59:40 326

原创笨鸟的平凡之路-简单理解什么是_consumers_offsets

在kafka 0.9 版本之后关于consumer及consumer group,位移的管理与保存机制发生了很大的变化,此后版本的consumer默认将不再保存位移到zookeeper中,而是__consumer_offsets这个topic中.zookeeper其实并不适合进行大批量的读写操作,尤其是写操作.增加__consumeroffsets topic,将offset信息写入这个topic...

2019-05-31 10:34:47 821

原创笨鸟的平凡之路-浅谈spark集群运行的两种模式

spark集群运行的两种模式:yarn-cluster和yarn-client在说yarn-cluster和yarn-client之前,首先大家得知道不管是哪种模式,都是基于yarn来的.在hadoop2.X版本引进yarn之后,为了减轻了在1.X版本的JobTrack和TaskTrack的压力,增加了ResourceManager和NodeManager的概念.JobTracker中的资源管理...

2019-05-29 16:10:28 260

原创笨鸟的平凡之路-记一次spark错误

在集群运行spark时出现java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)查询得知是版本对应问题CDH版的spark是1.6.0版本本地编写代码中的pom文件引用的是2.2.3版本的Spark之后在集群部署了2.X版本的Spark 2然后在控制台找到类似:/opt/cloudera/...

2019-05-29 10:33:03 11800

原创笨鸟的平凡之路-kafka集成SparkStreaming

SparkStreaming集成kafka有两种方式SparkStreaming集成kafka有两种方式:一种是createStream基于Executor中的Receiver接口消费kafka中的数据,采用的是预写WAL,使用高阶API.offset保存在zk.另一种比较常用,是createDirectStream,基于Executor直接连接kafka,消费其中的数据,使用低阶API,客...

2019-05-24 16:20:18 160

原创笨鸟的平凡之路-KETTLE的安装

第一步：安装jdk1、官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html，下载mac版的JDK，下载后，直接安装。2、打开终端，输入 java -version，当出现java版本信息，则表示安装成功。第二步：安装Kettle1、https://sourceforge....

2019-05-23 10:58:21 447

原创笨鸟的平凡之路-FLUME

Flume的简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。◆ Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中◆ 一般的采集需求，通过对flume的简单配置即可实现◆ Flume针对特殊场景也具备良好的自定义扩展能力，...

2019-05-23 10:39:15 233

空空如也

空空如也