自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

十色花的博客

包含大数据各类知识

  • 博客(228)
  • 资源 (2)
  • 论坛 (1)
  • 收藏
  • 关注

原创 解决linux上git clone速度慢的问题

在国内,你们肯定发现使用git clone的速度实在太慢,git clone的速度可能会让你难以承受,现再次整理解决方法与大家分享,有图有真相。原因:git clone特别慢是因为github.global.ssl.fastly.net域名被限制了。只要找到这个域名对应的ip地址,然后在hosts文件中加上ip–>域名的映射,刷新DNS缓存便可。1、查找域名对应的ip地址,并修改h...

2020-04-08 15:40:56 1112 2

原创 python进行数据分析处理的常用方法

用python进行数据分析处理时,常用到的两个库就是numpy和pandas,以下是些常用的数据处理方法。合并:使用一个或多个键,将多行数据连接在一起。执行合并操作的函数为merge()。import numpy as npimport pandas as pd frame=pd.DataFrame({'a':[1,2,3,4],'b':[2,3,4,5],'c':[6,7,...

2019-01-16 16:32:24 1193

原创 python进行数据可视化分析实例

  数据可视化是将数据变成图表等形式,容易进一步分析数据之间的各种潜在信息和模式。  python数据可视化的常用工具是matplotlib库(另外的工具:IPython QtConsole、IPython Notebook)。一:matplotlib库架构  matplotlib库分为三层架构,从最上层到最底层分别是:Scripting、Artist、Backend。  Scrip...

2019-01-16 15:49:26 1032

原创 python爬虫实例

  1、使用urllib.request模块实现爬虫import urllib.request url="http://www.2345.com"#请求该url,并返回页面数据data=urllib.request.urlopen(url)#将data数据读取出来html=data.read()print(html) #将网页放入一个文件file=open("F:/1.h...

2019-01-15 19:20:18 3718 1

原创 Kafka+Log4j实现日志集中管理

第一部分 搭建Kafka环境安装Kafka下载:http://kafka.apache.org/downloads.htmltar zxf kafka-<VERSION>.tgzcd kafka-<VERSION>启动Zookeeper启动Zookeeper前需要配置一下config/zookeeper.properties:接下来启动Zoo...

2018-12-28 15:40:22 1521

原创 redis主从复制+sentinel集群

1.Redis主从介绍主从服务就是用户在主服务器写入数据后,从服务器在写一份数据,一般用在如下场景:1、辅助实现备份2、高可用(主从复制只是redis高可用的前提)3、异地容灾4、分摊负载redis主从特点介绍:1、redis使用异步复制,从服务器会以每秒一次的频率向主服务器报告复制流的处理进度2、一个主服务器可以有多个从服务器,从服务器也可以有自己的从服务器3、复制功能不会...

2018-12-28 15:34:00 352

原创 centos7搭建elk日志分析系统

ELK环境:Vagrant 1.8.1CentOS 7.2 192.168.0.228Elasticsearch 2.3.2logstash 2.2.4Kibana 4.4.2filebeat 1.2.2topbeat 1.2.2  ELK安装 CentOS7系统配置 在开始安装elk之前,我们需要对CentOS7做一系列配置。CentOS7安装后默认没有安...

2018-12-28 15:23:11 1482

原创 mysql给用户授权

MySQL 赋予用户权限命令的简单格式可概括为:grant 权限 on 数据库对象 to 用户 (授权后记得刷新权限:flush privileges;)一、grant 普通数据用户,查询、插入、更新、删除 数据库中所有表数据的权利。grant select on testdb.* to common_user@'%'grant insert on testdb.* to common_...

2018-12-27 14:43:16 1344

原创 binlog的详细介绍

写在前面的话1、推荐用mixed,默认使用statement,基于上下文  set session/global binlog_format=mixed;2、二进制日记录了数据库执行更改的操作,如Insert,Update,Delete等。不包括Select等不影响数据库记录的操作3、MySQL记录的日志有三种模式:STATEMENT、ROW、MIXED4、二进制主要的功能有:复制...

2018-12-27 14:35:42 1143

原创 实时抽取mysql的binlog日志到kafka的详细配置方法

完美使用canal实时抽取binlog日志到kafka的详细配置# 第一步 数据库my.ini参数 设置binlog_format=ROW# 第二步 数据库赋权CREATE USER canal IDENTIFIED BY 'canal';GRANT SELECT, SHOW VIEW, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO ...

2018-12-21 15:11:37 2864

原创 canal配置文件参数解释

一、properties配置文件properties配置分为两部分:canal.properties (系统根配置文件) instance.properties (instance级别的配置文件,每个instance一份)canal.properties介绍: canal配置主要分为两部分定义:1. instance列表定义 (列出当前server上有多少个instance...

2018-12-18 17:30:56 2037

原创 Kafka 集群(用CM部署的)无法使用“--bootstrap-server”进行消费

使用--bootstrap-server参数无法消费Kafka种的数据1>.启动生产者kafka-console-producer --broker-list hadoop6:9092 --topic bbb2>.启动消费者拿不到数据kafka-console-consumer --bootstrap-server 192.144.170.156:9092 --topi...

2018-12-18 15:30:55 1538 2

原创 实时抽取mysql数据工具之maxwell

利用Maxwell组件实时监听mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费文档主题:如何使用Maxwell实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口具体步骤一:在linux环境下安装部署好mysql1 开启binlogsudo vi /etc/my.cnf2 mysql的binlog格式...

2018-12-12 15:20:08 931

原创 hbase报错以及解决方案

HBase启动出现问题报错一1.1错误org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterProcWALs/state-00000000000000000011.log could only be replicated to 0 nodes instead of minReplicati...

2018-12-12 03:22:58 1777

原创 CDH增加新的节点,扩容DataNode报错

 可能出的错1 Hive还是Hue启动不起来, 提示ImportError: libxslt.so.1 ... 其实真正的错是缺少libxml2. 但是用yum install libxml2并不能解决的, 要用yum install libxml2-python2 Hue起不来还有一个可能是没有装libxslt, 请用yum install libxslt.x86_643 HDFS或...

2018-12-10 14:35:06 757

原创 CDH增加新节点

 新增一台机器步骤: 设置所有集群的hosts一样,加入新增的机器 vim /etc/sysconfig/network 修改hostnmae为aaa hostname aaa cp  cloudera-manager-el5-cm4.6.2_x86_64.tar.gz 到新增的机器上 安装jdk环境,最好jdk版本统一,参考此处 ...

2018-12-07 15:59:41 2156

原创 CDH中hue配置hbase

直接访问地址https://blog.csdn.net/jmx_bigdata/article/details/83146864

2018-12-07 15:58:22 1880

原创 CDH集群yarn内存调优

原文地址:http://blog.selfup.cn/1631.html?utm_source=tuicool&utm_medium=referral  吐槽 最近“闲”来无事,通过CM把vcores使用情况调出来看了一眼,发现不论集群中有多少个任务在跑,已分配的VCores始终不会超过120。而集群的可用Vcores是360(15台机器×24虚拟核)。这就相当于CPU资源...

2018-12-06 11:10:13 3757 1

原创 离线备份hbase数据

1. Export/Import(导入导出)hdfs常用命令:http://www.cnblogs.com/gaopeng527/p/4314215.html1) 导出    通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份,Export工具参数如下:可见,在导出时可以指定versio...

2018-12-06 11:05:58 497

原创 canal实时抽取mysql数据发送到kafka

基本说明canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有:kafka: https://github.com/apache/kafka RocketMQ : https://github.com/apache/rocketmq 环境版本操作系统:CentOS release 6.6 (Fina...

2018-12-06 10:50:48 9807 5

原创 mysql优化

说明:根据调查发现以上服务器线程缓存thread_cache_size没有进行设置,或者设置过小,这个值表示可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存中,如果线程重新被请求,那么请求将从缓存中读取,如果缓存中是空的或者是新的请求,那么这个线程将被重新创建,如果有很多新的线程,增加这个值可以改善系统性能.通过比较 Connections 和 T...

2018-12-04 19:00:23 122 1

原创 Mysql 查看连接数,状态 最大并发数

-- show variables like '%max_connections%'; 查看最大连接数set global max_connections=1000 重新设置  mysql> show status like 'Threads%';+-------------------+-------+| Variable_name     | Value |+---...

2018-12-04 18:59:25 277

原创 canal报错com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') …

1 问题使用canal 1.0.25,启动canal服务端时或更新数据库数据时,canal服务端报错。报错如下:com.alibaba.druid.sql.parser.ParserException: syntax error, error in :'XX') …2 分析引起这个问题的原因是创建表的SQL语句中有“)”。根本原因是canal依赖的druid版本的问题。3 解决措...

2018-11-29 14:51:39 7353

原创 canal的搭建以及操作

一、环境介绍canal是阿里开源的中间件,主要用于同步mysql数据库变更。具体参见:https://github.com/alibaba/canal/releases搭建环境:vmware centos7 部署mysql和canalwindows开发canal client,自动捕获mysql数据库变更二、Centos安装Mysql1、尝试用yum安装mysqlwg...

2018-11-29 14:50:29 2263

原创 实时抽取mysql的数据工具----canal(一)

1、准备:github:https://github.com/alibaba/canal里面有包括canal的文档,server端 client端的 例子 源码包等等。2、canal概述:canal是应阿里巴巴存在杭州和美国的双机房部署,存在跨机房同步的业务需求而提出的。早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主...

2018-11-29 14:47:49 1750

原创 hadoop所有版本的下载地址

Apache的hadoop下载地址地址:https://archive.apache.org/dist/hadoop/common/CDH的hadoop下载地址地址:http://archive.cloudera.com/cdh5/cdh/5/ 下载案例首先找到下载的地址,然后再后面加上.tar.gz就可以下载了CDH的下载工具都在http://archive.cloud...

2018-11-22 19:00:00 6682

原创 解决hbase RegionServer频繁宕机的一些办法

HBase在使用中会遇到非常多的问题,最为常见的就是HBase regionserver挂掉(此文中简称regionserver为RS),而RS挂掉的原因各不相同。在本文中对遇到过的HBase RS挂掉的情况做一个简单的整理。HBase集群预留内存不足现象:HBase RS在起来1-2min后马上挂掉日志为如下日志段的重复:Mon Aug  6 10:23:54 CST 2018...

2018-11-21 15:30:49 2412

原创 贝叶斯算法

从贝叶斯定理说开去   简介 贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有 N 个白球,M 个黑...

2018-11-15 13:07:55 117

原创 hbase调优总结

一、服务端调优 1、参数配置   1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。   2)、hbase.h...

2018-11-09 17:07:32 87

原创 cdh中在线安装及使用Phoenix

1.1: 下载CDH 需要parcel包下载地址: http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/ CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcel CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3...

2018-11-09 10:56:10 740

原创 flume报错flume java.lang.OutOfMemoryError: GC overhead limit exceeded

flumeJava内存溢出造成解决方案:vim /flume_app/apache-flume-1.6.0-bin/bin/flume-ng发现JAVA_OPTS="-Xmx20m" 把参数调大点就可以解决JAVA_OPTS="-Xmx2048m"

2018-11-08 13:36:48 523

原创 swap自动释放内存

#free -mh如上图,一般情况下不会用到swap的,一般物理内存使用在90%以上(默认是这个数,可以自行在/etc/sysctl.conf里设置vm.swappiness参数),但有的时候,内存会被缓存占用,导致系统开始使用swap空间,此时就需要清理下swap了这里先说下vm.swappiness参数,设置成vm.swappiness=10:就是说当内存使用90%以上才会使用swap空间...

2018-11-02 17:18:20 1702

原创 yarn资源调度参数配置(内存,cpu)

Hadoop  YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceMan...

2018-10-25 11:05:11 558

原创 kafka manger最方便的安装教程,与cdh中的kafka绝配

一、kafka-manager 功能简介1.管理多个kafka集群2.便捷的检查kafka集群状态(topics,brokers,备份分布情况,分区分布情况)3.选择你要运行的副本4.基于当前分区状况进行5.可以选择topic配置并创建topic(0.8.1.1和0.8.2的配置不同)6.删除topic(只支持0.8.2以上的版本并且要在broker配置中设置delete.topi...

2018-10-23 19:45:44 112

原创 mysql快速备份脚本

     mysqldump常用于MySQL数据库逻辑备份。 1、各种用法说明     A. 最简单的用法:mysqldump -uroot -pPassword [database name] > [dump file]     上述命令将指定数据库备份到某dump文件(转储文件)中,比如:mysqldump -uroot -p123 test > te...

2018-10-18 11:50:38 1844

原创 mysql误删数据后快速回滚

binlog2sql快速回滚首先,确认你的MySQL server开启了binlog,设置了以下参数:[mysqld]server-id = 1log_bin = /var/log/mysql/mysql-bin.logmax_binlog_size = 1000Mbinlog-format = row如果没有开启binlog,也没有预先生成回滚SQL,那真的无法快速回滚了。...

2018-10-18 11:49:17 8669 1

原创 centos7安装mariadb

1、安装MariaDB安装命令yum -y install mariadb mariadb-server安装完成MariaDB,首先启动MariaDBsystemctl start mariadb设置开机启动systemctl enable mariadb接下来进行MariaDB的相关简单配置mysql_secure_installation首先是设置密...

2018-10-18 11:46:56 81

原创 cdh集群中添加新主机

1、新加机器环境配置首先得在新的主机环境中安装JDK,关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python。2、上传cloudera-manager文件到/opt目录,修改agent配置文件:vi /opt/cm-5.7.0/etc/cloudera-scm-agent/config.iniserver...

2018-10-17 17:30:40 5073 3

原创 如何备份mysql数据

MySQL备份数据的方式在MySQl中我们备份数据一般有几种方式 热备份 温备份 冷备份 热备份指的是当数据库进行备份时, 数据库的读写操作均不是受影响  温备份指的是当数据库进行备份时, 数据库的读操作可以执行, 但是不能执行写操作  冷备份指的是当数据库进行备份时, 数据库不能进行读写操作, 即数据库要下线 MySQL中进行不同方式的备份还要考虑存储...

2018-10-16 17:19:49 157

原创 centos7中mysql更改数据目录

一、配置mysql首先启动mysqlservice mysqld start设置密码及安全规则mysql_secure_installation这一步骤我只修改了密码,其它安全规则根据需求修改修改配置文件(这里我修改的为/home目录下)datadir=/home/mysqlsocket=/home/mysql/mysql.sock # For advice ...

2018-10-03 02:57:41 821

已经配好的canal包,解压即可完美使用

实时抽取mysql数据到kafka的工具canal,此处已经配置好,解压稍微修改即可使用。

2018-12-21

配置过得canal包,直接解压,稍微修改一下即可用

基于实时抽取mysql的binlog日志到kafka的组件,已经配好,稍微修改即可使用。

2018-12-21

灵夕丨月下灵的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除