自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

chbxw

努力是会上瘾的,尤其尝到了甜头

  • 博客(969)
  • 资源 (6)
  • 论坛 (1)
  • 收藏
  • 关注

原创 实时数仓

1、实时数仓(一)

2021-02-04 08:41:48 25

原创 impala目录导图

一、Impala介绍二、Impala架构及组件三、安装(这个忽略,使用的CDH,傻瓜式安装v3.1.0-cdh6.1.1)四、Impala-shell五、SQL语法

2020-12-29 06:53:53 57

原创 kudu导图目录

一、kudu介绍1.1、背景1.2、kudu组件二、操作kudu2.1、使用javaAPIc操作苦读

2020-12-27 15:07:39 79

原创 Flume入门及进阶教程

一、Flume介绍二、Flume入门三、Flume的高级特性

2020-08-08 11:09:26 213

原创 Flink目录导读
原力计划

一、Flink是什么二、Flink快速入门三、Flink的安装与部署。。。

2020-05-31 11:13:08 712

原创 机器学习(Macheine Learning)面试知识点

Spark MLlib 机器学习算法及实践

2020-05-07 09:44:08 634

原创 数学基础及计算机理论基础

高等数学(上下)线性代数概率论与数理统计政治理论计算机专业基础综合(包括计算机组成原理、数据结构、计算机操作系统、计算机网络)

2020-05-07 09:36:39 198

原创 kafka面试知识点整理

一、部署1.1、安装部署二、概念及理论2.1、2.2、kafka文件存储三、整合3.1、kafka+flume3.2、flume+kafka+stormflume之kafkaSinkstrom之KafkaSpout测试问题

2020-05-06 15:48:58 162

原创 大数据开发 岗位需要的知识
原力计划

一、大数据的三个发展方向平台搭建/优化/运维/监控大数据开发/设计/架构数据分析/挖掘。二、大数据的4V特征:数据量大,TB->PB数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等;商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来;处理时效性高,海量数据的处理需求不再局限在离线计算当中。  现如今,正式为了应对大数据...

2020-04-22 17:54:33 320

原创 深度学习入门、进阶教程

一、框架1.1、TensorFlow1.2、PaddlePaddle1.3、Pytorch

2019-12-05 08:45:42 167

原创 算法与数据结构面试知识点

Algorithm

2019-10-07 14:41:55 381

原创 Redis目录

一、安装1.1、安装二、Redis的基础数据类型三、Redis的高级特性

2019-06-20 22:56:20 316

原创 python导图目录

python导图目录

2019-04-23 22:57:53 184

原创 ES入门

ES 类比 MySqlMySqlESdatabase(数据库)index(索引库)table(表)type(类型)row(行)document(文档)column(列)field(字段)

2019-02-07 14:22:48 209

原创 Linux导图目录

一、命令1.1、shell时间格式转化

2018-08-20 13:53:13 198

原创 Hive目录导图

一、hive基础篇1.1、介绍1.2、安装1.3、命令1.4、数据模型1.5、表结构1.6、函数1.7、hive的jdbc模式

2018-08-06 09:46:38 538 1

原创 java 接口服务

一、发布htttp服务器1.1、通过tomcat发布服务1.2、通过socket获取http信息

2018-07-10 13:30:15 997 1

原创 spark目录导图

一、介绍1.1、RDD介绍二、安装三、算子四、简单案例五、整合六、问题七、总结

2018-06-26 08:41:49 601 3

原创 hadoop目录导图

MapReduce原理 mapper, reducer,shuffle hadoop实现join方法

2018-06-24 23:10:25 262 1

原创 hbase目录导图

一、介绍 1.1、hbase简介hbase数据模型hbase体系架构1.2、基本命令

2018-06-20 13:44:18 700 1

原创 Storm目录导图

Strom样例代码

2018-06-20 13:44:01 817

原创 Canal HA模式配置

服务器端HA模式配置canal是支持HA的,其实现机制也是依赖zookeeper来实现的,用到的特性有watcher和EPHEMERAL节点(和session生命周期绑定),与HDFS的HA类似。canal的ha分为两部分,canal server和canal client分别有对应的ha实现canal server: 为了减少对mysql dump的请求,不同server上的instance(不同server上的相同instance)要求同一时间只能有一个处于running,其他的处于standb

2021-02-04 10:23:37 24

原创 Canal原理

Canal原理MySQL主备复制原理MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件 log events,可以通过 show binlog events 进行查看)MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)MySQL slave 重放 relay log 中事件,将数据变更反映它自己的数据,以此来达到数据一致。mysql的binlog它记录了所有的D

2021-02-04 10:07:07 28

原创 Protocol Buffers

Protocol Buffers介绍Protocal Buffers(简称protobuf)是谷歌的一项技术,用于结构化的数据序列化、反序列化,常用于RPC 系统和持续数据存储系统。其类似于XML生成和解析,但protobuf的效率高于XML,不过protobuf生成的是字节码,可读性比XML差,类似的还有json、Java的Serializable等。很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。参考:https://z

2021-02-04 10:05:29 14

原创 Canal客户端开发

Canal客户端开发创建client_demo项目Maven依赖<dependencies> <dependency> <groupId>com.alibaba.otter</groupId> <artifactId>canal.client</artifactId> <version>1.0.24</version> </dependency&gt

2021-02-04 10:03:37 9

原创 Canal的安装

环境部署MySQLMySQL需要先开启 Binlog 写入功能,配置 binlog-format 为 ROW 模式,/etc/my.cnf 中配置如下[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限,

2021-02-04 10:01:32 19

原创 ProtoBuf 3语法

ProtoBuf 3语法定义ProtoBuf消息类型要定义一个“搜索请求”的消息格式,每一个请求含有一个查询字符串、感兴趣的查询结果所在的页数,以及每一页多少条查询结果。可以采用如下的方式来定义消息类型的.proto文件syntax = "proto3";message SearchRequest { string query = 1; int32 page_number = 2; int32 result_per_page = 3;} 文件的第一行指定了正在使用proto3语法。如果

2021-02-04 08:20:56 25

原创 IP转转换思路梳理

一、IP转换思路数理

2021-01-31 14:30:34 31

原创 IP转换

一、IP转化工具介绍1.1、第三方工具对比1.2、Ip2region使用1.2.1、ip2region的引入1、将数据集ip2region.db导入到工程下的dataset目录2、导入依赖<dependency> <groupId>org.lionsoul</groupId> <artifactId>ip2region</artifactId> <version>1.7.2</version

2021-01-31 12:54:40 19

原创 CDH 维护

1、cm启动 systemctl restart cloudera-scm-server systemctl restart cloudera-scm-agent2、虚拟机异常,导致mysql重启失败

2021-01-30 15:20:55 19

原创 kudu集成impala

1.1、修改配置在每一个服务器的 impala 的配置文件中添加如下配置。vim /etc/default/impala在 IMPALA_SERVER_ARGS 下添加:-kudu_master_hosts=chb1:7051,chb2:7051,chh3:70511.2、impala操作kudu1.2.1、创建内部表在这里插入代码片...

2021-01-24 11:36:53 35

原创 DataFrame API操作Kudu

  虽然我们可以通过 KuduContext 执行大量操作,但我们还可以直接从默认数据源本身调用读/写 API。要设置读取,我们需要为 Kudu 表指定选项,命名我们要读取的表以及为表提供服务的 Kudu 集群的 Kudu 主服务器列表。1.1、DataFrame 读取kudu @Test def query(): Unit = { // 1、创建KuduContext 和SparkSession val spark = SparkSession.builder() .

2021-01-21 13:49:18 37

原创 Spark操作Kudu

  到目前为止,我们已经听说过几个上下文,例如 SparkContext,SQLContext,HiveContext, SparkSession,现在,我们将使用 Kudu 引入一个KuduContext。这是可在Spark应用程序中广播的主要可序列化对象。此类代表在 Spark 执行程序中与 Kudu Java 客户端进行交互。 KuduContext 提供执行DDL 操作所需的方法,与本机 Kudu RDD的接口,对数据执行更新/插入/删除,将数据类型从Kudu转换为Spark 等。1.1

2021-01-21 09:24:48 45

原创 使用javaAPI操作kudu

文章目录1.1、Kudu API的结构设计1.2、导入依赖1.3、操作1.3.1、初始化1.1、Kudu API的结构设计1.2、导入依赖1.3、操作1.3.1、初始化

2021-01-20 13:21:29 70

原创 Kudu问题解决

1、WARNINGS: Row of size 3.88 MB could not be materialized in plan node with id 2. Increase the max_row_size query option (currently 512.00 KB) to process larger rows.

2021-01-13 10:19:55 172

原创 Canal问题解析

1、消息体过大,当刷数据的时候消息体过大就会报错解决办法第一步修改canal服务端mq的配置canal.mq.maxRequestSize = 1048576 (默认为1m,根据需求修改)第二部修改队列的最大消息体大小/bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic test --config max.message.bytes=52428802、Deployer记录详细日志, 再instance日志可以查询到

2021-01-05 15:13:43 103

原创 Apache Kudu架构

  与 HDFS和HBase相似,Kudu使用单个的Master节点 ,用来管理集群的元数据,并且使用任意量的Tablet Server(类似 HBase中的RegionServer角色)节点用来存储实际数据。可以部署多个Master节点来提高容错性。1.1、 Table  表(Table)是数据库中用来存储的对象, 是有结构的数据集合 。kudu 中的表具有schema(纲要)和全局有序的 primary key(主键)。 kudu中一个table会被水平分成多个被称之为tablet 的片段 。1

2021-01-04 09:54:36 40

原创 Apache Kudu的介绍

一、Apache Kudu的介绍1.1、背景介绍  在KUDU之前,大数据主要以两种方式存储;(1)静态数据 :以HDFS引擎作为存储,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机读写。(2)动态数据 :以 HBase 、Cassandra 作为存储引擎,适用于大数据随机读写场景。局限性是批量读取吞吐远不如HDFS,不适用于批量数据分析的场景。  从上面分析可知,这两种数据在存储方式完 全不同进而导致使用场景从上面分析可知,这两种数据在存储方式完全

2021-01-04 08:48:12 64

原创 impala-shell

一、impala-shell1、启动Impala[root@chb2 ~]# impala-shell2、查看数据库[chb2:21000] default> show databases;3、打开数据库[chb2:21000] default> use test;4.显示数据库中的表[chb2:21000] test> show tables;5.创建一张student表[chb2:21000] test> create table student(id

2020-12-29 17:39:22 30

原创 Impala的基本概念

一、 什么是Impala  Cloudera公司推出,提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能。  基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。  是CDH平台首选的PB级大数据实时查询分析引擎。二、 Impala的优缺点2.1 优点1)基于内存运算,不需要把中间结果写入磁盘,省掉了大量的I/O开销。2)无需转换为Mapreduce,直接访问存储在HDFS,HBase中的数据进行作业调度,速度快。3)使用了支持Data localit

2020-12-29 17:04:53 47

Hive实战之视频网站的测试数据

Hive实战之视频网站 测试数据 https://chbxw.blog.csdn.net/article/details/107738550

2020-08-02

天猫推荐测试数据

hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01

2017-03-04

搭建本地yum源

搭建本地yum源

2019-02-01

第4讲 .pdf

概率论 频率与概率

2019-08-25

hadoop2.5.2学习13-MR之新浪微博

hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介

2017-03-19

java程序员必知的8大排序

8大排序

2016-07-23

chbxw的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除