自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

十色花的博客

包含大数据各类知识

原创 解决linux上git clone速度慢的问题

在国内,你们肯定发现使用git clone的速度实在太慢,git clone的速度可能会让你难以承受,现再次整理解决方法与大家分享,有图有真相。 原因:git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。只要找到这个域名对应的ip地址,然后在hos...

2020-04-08 15:40:56 514 0

原创 python进行数据分析处理的常用方法

用python进行数据分析处理时,常用到的两个库就是numpy和pandas,以下是些常用的数据处理方法。 合并: 使用一个或多个键,将多行数据连接在一起。执行合并操作的函数为merge()。 import numpy as np import pandas as pd frame=...

2019-01-16 16:32:24 878 0

原创 python进行数据可视化分析实例

  数据可视化是将数据变成图表等形式,容易进一步分析数据之间的各种潜在信息和模式。   python数据可视化的常用工具是matplotlib库(另外的工具:IPython QtConsole、IPython Notebook)。 一:matplotlib库架构   matplotlib库分为...

2019-01-16 15:49:26 793 0

原创 python爬虫实例

  1、使用urllib.request模块实现爬虫 import urllib.request url="http://www.2345.com" #请求该url,并返回页面数据 data=urllib.request.urlopen(url) #将data数据读取出...

2019-01-15 19:20:18 3626 1

原创 Kafka+Log4j实现日志集中管理

第一部分 搭建Kafka环境 安装Kafka 下载:http://kafka.apache.org/downloads.html tar zxf kafka-<VERSION>.tgz cd kafka-<VERSION> 启动Zo...

2018-12-28 15:40:22 1217 0

原创 redis主从复制+sentinel集群

1.Redis主从介绍 主从服务就是用户在主服务器写入数据后,从服务器在写一份数据,一般用在如下场景: 1、辅助实现备份 2、高可用(主从复制只是redis高可用的前提) 3、异地容灾 4、分摊负载 redis主从特点介绍: 1、redis使用异步复制,从服务器会以每秒一次的频率向主服务器报告...

2018-12-28 15:34:00 284 0

原创 centos7搭建elk日志分析系统

ELK 环境: Vagrant 1.8.1 CentOS 7.2 192.168.0.228 Elasticsearch 2.3.2 logstash 2.2.4 Kibana 4.4.2 filebeat 1.2.2 topbeat 1.2.2   ELK安装 CentOS7系...

2018-12-28 15:23:11 930 0

原创 mysql给用户授权

MySQL 赋予用户权限命令的简单格式可概括为:grant 权限 on 数据库对象 to 用户 (授权后记得刷新权限:flush privileges;) 一、grant 普通数据用户,查询、插入、更新、删除 数据库中所有表数据的权利。 grant select on testdb.* to ...

2018-12-27 14:43:16 1266 0

原创 binlog的详细介绍

写在前面的话 1、推荐用mixed,默认使用statement,基于上下文  set session/global binlog_format=mixed; 2、二进制日记录了数据库执行更改的操作,如Insert,Update,Delete等。不包括Select等不影响数据库记录的操作 3、...

2018-12-27 14:35:42 859 0

原创 实时抽取mysql的binlog日志到kafka的详细配置方法

完美使用canal实时抽取binlog日志到kafka的详细配置 # 第一步 数据库my.ini参数 设置binlog_format=ROW # 第二步 数据库赋权 CREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT...

2018-12-21 15:11:37 2096 0

原创 canal配置文件参数解释

一、properties配置文件 properties配置分为两部分: canal.properties (系统根配置文件) instance.properties (instance级别的配置文件,每个instance一份) canal.properties介绍:   canal配置主...

2018-12-18 17:30:56 1545 0

原创 Kafka 集群(用CM部署的)无法使用“--bootstrap-server”进行消费

使用--bootstrap-server参数无法消费Kafka种的数据 1>.启动生产者 kafka-console-producer --broker-list hadoop6:9092 --topic bbb 2>.启动消费者拿不到数据 kafka-cons...

2018-12-18 15:30:55 1017 2

原创 实时抽取mysql数据工具之maxwell

利用Maxwell组件实时监听mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费 文档主题: 如何使用Maxwell实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口 具体步骤 一:在linux环境下安装部署好mysql...

2018-12-12 15:20:08 635 0

原创 hbase报错以及解决方案

HBase启动出现问题 报错一 1.1错误 org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterProcWALs/state-00000000000000000011.log could on...

2018-12-12 03:22:58 1187 0

原创 CDH增加新的节点,扩容DataNode报错

 可能出的错 1 Hive还是Hue启动不起来, 提示ImportError: libxslt.so.1 ... 其实真正的错是缺少libxml2. 但是用yum install libxml2并不能解决的, 要用yum install libxml2-python 2 Hue起不来还有一个可...

2018-12-10 14:35:06 621 0

原创 CDH增加新节点

  新增一台机器步骤: 设置所有集群的hosts一样,加入新增的机器 vim /etc/sysconfig/network 修改hostnmae为aaa hostname aaa cp  cloudera-manager-el5-cm4.6.2_x...

2018-12-07 15:59:41 1697 0

原创 CDH中hue配置hbase

直接访问地址 https://blog.csdn.net/jmx_bigdata/article/details/83146864

2018-12-07 15:58:22 1563 0

原创 CDH集群yarn内存调优

原文地址:http://blog.selfup.cn/1631.html?utm_source=tuicool&utm_medium=referral   吐槽   最近“闲”来无事,通过CM把vcores使用情况调出来看了一眼,发现不论集群中有多少个任务在跑,已分配的V...

2018-12-06 11:10:13 3011 0

原创 离线备份hbase数据

1. Export/Import(导入导出) hdfs常用命令: http://www.cnblogs.com/gaopeng527/p/4314215.html 1) 导出     通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开...

2018-12-06 11:05:58 389 0

原创 canal实时抽取mysql数据发送到kafka

基本说明 canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有: kafka: https://github.com/apache/kafka RocketMQ : https://github.com/apa...

2018-12-06 10:50:48 7926 3

原创 mysql优化

说明: 根据调查发现以上服务器线程缓存thread_cache_size没有进行设置,或者设置过小,这个值表示可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存中,如果线程重新被请求,那么请求将从缓存中读取,如果缓存中是空的或者是新的请求,那么这个线程...

2018-12-04 19:00:23 114 1

原创 Mysql 查看连接数,状态 最大并发数

-- show variables like '%max_connections%'; 查看最大连接数 set global max_connections=1000 重新设置     mysql> show status like 'Thread...

2018-12-04 18:59:25 178 0

原创 canal报错com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') …

1 问题 使用canal 1.0.25,启动canal服务端时或更新数据库数据时,canal服务端报错。报错如下: com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') … ...

2018-11-29 14:51:39 5028 0

原创 canal的搭建以及操作

一、环境介绍 canal是阿里开源的中间件,主要用于同步mysql数据库变更。具体参见:https://github.com/alibaba/canal/releases 搭建环境: vmware centos7 部署mysql和canal windows开发canal client,自动...

2018-11-29 14:50:29 2067 0

原创 实时抽取mysql的数据工具----canal(一)

1、准备: github:https://github.com/alibaba/canal 里面有包括canal的文档,server端 client端的 例子 源码包等等。 2、canal概述: canal是应阿里巴巴存在杭州和美国的双机房部署,存在跨机房同步的业务需求而提出的。 早期,...

2018-11-29 14:47:49 1515 0

原创 hadoop所有版本的下载地址

Apache的hadoop下载地址 地址:https://archive.apache.org/dist/hadoop/common/ CDH的hadoop下载地址 地址:http://archive.cloudera.com/cdh5/cdh/5/   下载案例 首先找到下载的地址,...

2018-11-22 19:00:00 5572 0

原创 解决hbase RegionServer频繁宕机的一些办法

HBase在使用中会遇到非常多的问题,最为常见的就是HBase regionserver挂掉(此文中简称regionserver为RS), 而RS挂掉的原因各不相同。在本文中对遇到过的HBase RS挂掉的情况做一个简单的整理。 HBase集群预留内存不足 现象:HBase RS在起来1-2m...

2018-11-21 15:30:49 2122 0

原创 贝叶斯算法

从贝叶斯定理说开去     简介   贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表...

2018-11-15 13:07:55 96 0

原创 hbase调优总结

一、服务端调优  1、参数配置    1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导...

2018-11-09 17:07:32 79 0

原创 cdh中在线安装及使用Phoenix

1.1: 下载CDH 需要parcel包 下载地址: http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/ CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-e...

2018-11-09 10:56:10 594 0

原创 flume报错flume java.lang.OutOfMemoryError: GC overhead limit exceeded

flumeJava内存溢出造成 解决方案: vim /flume_app/apache-flume-1.6.0-bin/bin/flume-ng 发现 JAVA_OPTS="-Xmx20m" 把参数调大点就可以解决 JAVA_OPTS="-Xmx20...

2018-11-08 13:36:48 391 0

原创 swap自动释放内存

#free -mh 如上图,一般情况下不会用到swap的,一般物理内存使用在90%以上(默认是这个数,可以自行在/etc/sysctl.conf里设置vm.swappiness参数),但有的时候,内存会被缓存占用,导致系统开始使用swap空间,此时就需要清理下swap了 这里先说下vm.swapp...

2018-11-02 17:18:20 1230 0

原创 yarn资源调度参数配置(内存,cpu)

Hadoop  YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。 在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceMana...

2018-10-25 11:05:11 378 0

原创 kafka manger最方便的安装教程,与cdh中的kafka绝配

一、kafka-manager 功能简介 1.管理多个kafka集群 2.便捷的检查kafka集群状态(topics,brokers,备份分布情况,分区分布情况) 3.选择你要运行的副本 4.基于当前分区状况进行 5.可以选择topic配置并创建topic(0.8.1.1和0.8.2的配置不同...

2018-10-23 19:45:44 99 0

原创 mysql快速备份脚本

     mysqldump常用于MySQL数据库逻辑备份。   1、各种用法说明      A. 最简单的用法: mysqldump -uroot -pPassword [database name] > [dump file]      上述命令将指定数据库备份到某...

2018-10-18 11:50:38 1413 0

原创 mysql误删数据后快速回滚

binlog2sql快速回滚 首先,确认你的MySQL server开启了binlog,设置了以下参数: [mysqld] server-id = 1 log_bin = /var/log/mysql/mysql-bin.log max_binlog_size = 1000M binlog-...

2018-10-18 11:49:17 6449 1

原创 centos7安装mariadb

1、安装MariaDB 安装命令 yum -y install mariadb mariadb-server 安装完成MariaDB,首先启动MariaDB systemctl start mariadb 设置开机启动 systemctl enable mariadb 接下来进...

2018-10-18 11:46:56 72 0

原创 cdh集群中添加新主机

1、新加机器环境配置 首先得在新的主机环境中安装JDK,关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python。 2、上传cloudera-manager文件到/opt目录,修改agent配置文件: vi /opt...

2018-10-17 17:30:40 4023 3

原创 如何备份mysql数据

MySQL备份数据的方式 在MySQl中我们备份数据一般有几种方式 热备份 温备份 冷备份 热备份指的是当数据库进行备份时, 数据库的读写操作均不是受影响  温备份指的是当数据库进行备份时, 数据库的读操作可以执行, 但是不能执行写操作  冷备份指的是当数据库...

2018-10-16 17:19:49 142 0

原创 centos7中mysql更改数据目录

一、配置mysql 首先启动mysql service mysqld start 设置密码及安全规则 mysql_secure_installation 这一步骤我只修改了密码,其它安全规则根据需求修改 修改配置文件(这里我修改的为/home目录下) datadir=/home/my...

2018-10-03 02:57:41 753 0

提示
确定要删除当前文章?
取消 删除