数据处理工具
文章平均质量分 76
鲲鹏小飞猪
这个作者很懒,什么都没留下…
展开
-
ClickHouse单机版安装部署
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。单个大查询的吞吐量吞吐量可以使用每秒处理的行数或每秒处理的字节数来衡量。如果数据被放置在page cache中,则一个不太复杂的查询在单个服务器上大约能够以2-10GB/s(未压缩)的速度进行处理(对于简单的查询,速度可以达到30GB/s)。如果数据没有在page cache中的话,那么速度将取决于你的磁盘...原创 2020-03-12 21:05:47 · 1420 阅读 · 0 评论 -
Linux中安装mysql数据库(mysql-5.x.x-linux-glibc2.12-x86_64.tar.gz)
Linux中安装mysql...转载 2020-02-24 11:21:07 · 515 阅读 · 0 评论 -
Windows安装Scrapy框架
1、在线升级pip版本,输入pip install --upgrade pip(网络安装);(No module named 'pip’通过下面命令来修复:python -m ensurepippython -m pip install --upgrade pippip -V)2、在线安装whl格式包需要安装wheel库,输入:pip install wheel;3、离线安装l...原创 2020-02-21 00:24:58 · 372 阅读 · 0 评论 -
Cloudera Manager安装Kafka集群
一、前提条件和环境1、环境:CDH5.16.x|Centos7.x|scala 2.112、CM和CDH环境已经搭建完成。在CDH上集成Kafka,要求用CDH上的Zookeeper管理Kafka。二、相关软件下载cloudera官网kafka:https://docs.cloudera.com/documentation/kafka/latest/topics/kafka_p...原创 2019-11-26 22:58:45 · 2167 阅读 · 0 评论 -
Java Spark读取Hbase数据,将结果写入HDFS文件
环境:Hadoop2.6,Spark2.1, jdk1.8注意:hadoop集群启用了kerberos认证,不带认证的需要根据注释简单修改几行代码即可一、案例Java编程要求:读取Hbase表zyl_user,按年龄降序将对应的人进行排序输出到HDFS上。数据表zyl_user如下:hbase(main):002:0> scan 'zyl_user'ROW ...原创 2019-06-07 12:52:02 · 6563 阅读 · 0 评论 -
Hbase自带工具
运行调试工具:1、Canary检测HBase系统状态的工具,检测粒度可以是列族、Region或Region Server等hbase org.apache.hadoop.hbase.tool.Canaryhbase org.apache.hadoop.hbase.tool.Canary<tablename>...2、hbck用于检查HBase...原创 2019-03-28 14:50:48 · 924 阅读 · 0 评论 -
Impala和hive数据同步
[root@bd-130 ~]# beeline -u 'jdbc:hive2://192.X.X.X:10000/default' -n hive -p hive首先,我们在hive命令行执行show databases;可以看到有以下几个数据库:然后,我们在impala同样执行show databases;可以看到:目前的数据库都是一样的(除系统外)。下...原创 2019-03-28 14:57:39 · 3369 阅读 · 0 评论 -
hbase和hive数据同步
首先,我们在hbase中创建一张表create 'user_sysc', {NAME => 'info'}然后,我们在hive中执行[root@bd-130 ~]# beeline -u 'jdbc:hive2://192.168.128.130:10000/default' -n hive -p hiveCREATE EXTERNAL TABLE user_...原创 2019-03-29 08:29:26 · 2209 阅读 · 0 评论 -
CDH版本Flume的数据采集Demo
DEMO:将mysql中的数据采集到HDFS上面1、在CM界面中添加角色:2、增加配置agent.channels.ch1.type = memoryagent.sources.sql-source.channels = ch1agent.channels = ch1agent.sinks = HDFSagent.sources = sql-...原创 2019-03-27 08:46:56 · 2321 阅读 · 0 评论 -
PDI KETTLE6.0打包注意事项
版本包:https://sourceforge.net/projects/pentaho/源码:https://github.com/pentaho/pentaho-kettle/releases一、4个核心包kettle-core-6.0.1.0-386kettle-dbdialog-6.0.1.0-386kettle-engine-6.0.1.0-386kettle-u...原创 2019-03-26 22:11:15 · 559 阅读 · 0 评论 -
Java方式mysql数据库导入elasticsearch
elasticsearch里面提供了两种批量建索引的方法:1,使用 Bulk Api 特点是:使用比较简单,但控制不够灵活2,使用Bulk Processor 特点是:使用稍麻烦,控制非常灵活建立索引时,可以关闭索引的副本功能,可以极大提高写入效率curl -u admin:admin -XPUT '192.168.128.146:9200/etl5...原创 2019-03-26 21:32:44 · 2345 阅读 · 1 评论 -
Datax数据交换开发
官网地址:https://github.com/alibaba/DataX主类:com.alibaba.datax.core.Engine传参:-mode standalone -jobid -1 -jobE:\chengxu\datax\bin\hivetohbase.jsonVM参数:-server -Xms1g -Xmx1g -XX:+HeapDumpOnOutO...原创 2019-03-26 21:03:55 · 685 阅读 · 0 评论