aboth的博客

包含大数据各类知识

python进行数据分析处理的常用方法

用python进行数据分析处理时,常用到的两个库就是numpy和pandas,以下是些常用的数据处理方法。 合并: 使用一个或多个键,将多行数据连接在一起。执行合并操作的函数为merge()。 import numpy as np import pandas as pd frame=...

2019-01-16 16:32:24

阅读数 166

评论数 0

python进行数据可视化分析实例

  数据可视化是将数据变成图表等形式,容易进一步分析数据之间的各种潜在信息和模式。   python数据可视化的常用工具是matplotlib库(另外的工具:IPython QtConsole、IPython Notebook)。 一:matplotlib库架构   matplotlib库分为...

2019-01-16 15:49:26

阅读数 153

评论数 0

python爬虫实例

  1、使用urllib.request模块实现爬虫 import urllib.request url="http://www.2345.com" #请求该url,并返回页面数据 data=urllib.request.urlopen(url) #将d...

2019-01-15 19:20:18

阅读数 578

评论数 0

Kafka+Log4j实现日志集中管理

第一部分 搭建Kafka环境 安装Kafka 下载:http://kafka.apache.org/downloads.html tar zxf kafka-<VERSION>.tgz cd kafka-<VERSION&a...

2018-12-28 15:40:22

阅读数 398

评论数 0

redis主从复制+sentinel集群

1.Redis主从介绍 主从服务就是用户在主服务器写入数据后,从服务器在写一份数据,一般用在如下场景: 1、辅助实现备份 2、高可用(主从复制只是redis高可用的前提) 3、异地容灾 4、分摊负载 redis主从特点介绍: 1、redis使用异步复制,从服务器会以每秒一次的频率向主服务器报告...

2018-12-28 15:34:00

阅读数 154

评论数 0

centos7搭建elk日志分析系统

ELK 环境: Vagrant 1.8.1 CentOS 7.2 192.168.0.228 Elasticsearch 2.3.2 logstash 2.2.4 Kibana 4.4.2 filebeat 1.2.2 topbeat 1.2.2   ELK安装 CentOS7系...

2018-12-28 15:23:11

阅读数 287

评论数 0

mysql给用户授权

MySQL 赋予用户权限命令的简单格式可概括为:grant 权限 on 数据库对象 to 用户 (授权后记得刷新权限:flush privileges;) 一、grant 普通数据用户,查询、插入、更新、删除 数据库中所有表数据的权利。 grant select on testdb.* to ...

2018-12-27 14:43:16

阅读数 501

评论数 0

binlog的详细介绍

写在前面的话 1、推荐用mixed,默认使用statement,基于上下文  set session/global binlog_format=mixed; 2、二进制日记录了数据库执行更改的操作,如Insert,Update,Delete等。不包括Select等不影响数据库记录的操作 3、...

2018-12-27 14:35:42

阅读数 125

评论数 0

实时抽取mysql的binlog日志到kafka的详细配置方法

完美使用canal实时抽取binlog日志到kafka的详细配置 # 第一步 数据库my.ini参数 设置binlog_format=ROW # 第二步 数据库赋权 CREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT, SHOW VIE...

2018-12-21 15:11:37

阅读数 895

评论数 0

canal配置文件参数解释

一、properties配置文件 properties配置分为两部分: canal.properties (系统根配置文件) instance.properties (instance级别的配置文件,每个instance一份) canal.properties介绍:   canal配置主...

2018-12-18 17:30:56

阅读数 532

评论数 0

Kafka 集群(用CM部署的)无法使用“--bootstrap-server”进行消费

使用--bootstrap-server参数无法消费Kafka种的数据 1>.启动生产者 kafka-console-producer --broker-list hadoop6:9092 --topic bbb 2>.启动消费者拿不到数据 ka...

2018-12-18 15:30:55

阅读数 369

评论数 1

实时抽取mysql数据工具之maxwell

利用Maxwell组件实时监听mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口供实时消费 文档主题: 如何使用Maxwell实时监听Mysql的binlog日志,并且把解析的json格式数据发送到kafka窗口 具体步骤 一:在linux环境下安装部署好mysql...

2018-12-12 15:20:08

阅读数 255

评论数 0

hbase报错以及解决方案

HBase启动出现问题 报错一 1.1错误 org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /hbase/MasterProcWALs/state-00000000000000000011.log could on...

2018-12-12 03:22:58

阅读数 249

评论数 0

CDH增加新的节点,扩容DataNode报错

 可能出的错 1 Hive还是Hue启动不起来, 提示ImportError: libxslt.so.1 ... 其实真正的错是缺少libxml2. 但是用yum install libxml2并不能解决的, 要用yum install libxml2-python 2 Hue起不来还有一个可...

2018-12-10 14:35:06

阅读数 245

评论数 0

CDH增加新节点

  新增一台机器步骤: 设置所有集群的hosts一样,加入新增的机器 vim /etc/sysconfig/network 修改hostnmae为aaa hostname aaa cp  cloudera-manager-el5-cm4.6.2_x...

2018-12-07 15:59:41

阅读数 353

评论数 0

CDH中hue配置hbase

直接访问地址 https://blog.csdn.net/jmx_bigdata/article/details/83146864

2018-12-07 15:58:22

阅读数 723

评论数 0

CDH集群yarn内存调优

原文地址:http://blog.selfup.cn/1631.html?utm_source=tuicool&utm_medium=referral   吐槽   最近“闲”来无事,通过CM把vcores使用情况调出来看了一眼,发现不论集群中有多少个任务在跑,已...

2018-12-06 11:10:13

阅读数 947

评论数 0

离线备份hbase数据

1. Export/Import(导入导出) hdfs常用命令: http://www.cnblogs.com/gaopeng527/p/4314215.html 1) 导出     通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开...

2018-12-06 11:05:58

阅读数 191

评论数 0

canal实时抽取mysql数据发送到kafka

基本说明 canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有: kafka: https://github.com/apache/kafka RocketMQ : https://github.com/apa...

2018-12-06 10:50:48

阅读数 2691

评论数 1

mysql优化

说明: 根据调查发现以上服务器线程缓存thread_cache_size没有进行设置,或者设置过小,这个值表示可以重新利用保存在缓存中线程的数量,当断开连接时如果缓存中还有空间,那么客户端的线程将被放到缓存中,如果线程重新被请求,那么请求将从缓存中读取,如果缓存中是空的或者是新的请求,那么这个线程...

2018-12-04 19:00:23

阅读数 79

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭