自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

张不帅

年轻人应该勇于玩转风口浪尖的一切技术

  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 高性能实时数仓建设(三):流量域app端,pc端,小程序端业务数据结构

样例数据userId 用户iddeviceId 设备号startTimeStamp 进入时间endTimeStamp 退出时间appPlatform: 平台brand: 品牌screenSize: 分辨率osTypes: 操作系统商品: 设备id,频道id,类别id,产品id,用户id,打开时间,离开时间,地区,网络方式,运营商版本,渠道购物车: 设备id,频道id,类别i...

2020-01-31 15:28:27 763 2

原创 高性能实时数仓建设(二):java代码模拟http的post请求

package com.zyd.billondataCollect;import java.io.InputStream;import java.io.OutputStream;import java.net.HttpURLConnection;import java.net.URL;/** * 模拟http请求类 */public class GenerateData {...

2020-01-31 14:35:40 589

原创 高性能实时数仓建设(一):spring cloud项目初始建设

父项目billionWarehousepom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x...

2020-01-31 01:27:26 432

原创 idea 修改spring boot的Tomcat启动端口 无效

由于需要构建微服务项目,多个项目之间相互独立,构建的子项目pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance...

2020-01-30 20:15:43 7176 3

原创 flink实时数仓(十):完整代码

见码云https://gitee.com/zhang_bushuai/flink_realtime_warehouse

2020-01-28 23:34:18 2252

原创 flink实时数仓(九):增量同步mysql中数据

文章目录数据库中配置流表jdbc工具类枚举类CodeEnumFlowStatusEnumHBaseStorageModeEnum配置类bean对象flink状态类编程MD5加密Hbase sink 模板数据库中配置流表CREATE TABLE `dbus_flow` ( `flowId` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增ID', `...

2020-01-28 22:14:39 4956

原创 flink实时数仓(八):优化flink实现全量拉取模块抽取mysql中数据(批量同步)

文章目录思路代码实现思路对于mysql中的数据,可以考虑分批次进行同步处理,在sqoop的源码中也有这样的实现原理,达到更高效率,实现的方式很简单,先从mysql中读取最大值和最小值,对于批次数由用户自己指定,耦合出代码外.在抽取数据的sql模块中,动态拼接between xxx and xxx 中代码实现主程序package dbus.fullPull;import dbus.c...

2020-01-25 22:06:46 5574 4

原创 flink实时数仓(七):flink实现全量拉取模块抽取mysql中数据

文章目录package dbus.fullPull;import dbus.config.GlobalConfig;import org.apache.flink.api.common.functions.RichMapFunction;import org.apache.flink.api.common.typeinfo.BasicTypeInfo;import org.apache...

2020-01-25 21:44:29 3528

原创 hive自定义udf函数

在创建自定义函数时,需要将jar包全部部署到hive server节点的所有机器的用户定义的udf参数目录<property>hive.reloadable.aux.jars.path.jars.path.property</property><value>/usr/lib/hive/lib</value>代码调用import org.ap...

2020-01-14 22:50:01 671

原创 hive自定义udf函数hive-exec下载依赖不全

修改pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=...

2020-01-14 22:35:14 1459

原创 flink实时数仓(六):模拟数据编写

文章目录商品模拟数据订单模拟数据配置中心package dbus.config;import java.io.Serializable;/** * 在生产上一般通过配置中心来管理 */public class GlobalConfig implements Serializable { /** * 数据库driver class */ publ...

2020-01-12 00:02:50 1399

原创 flink实时数仓(五):数据库建模

文章目录myql建模hbase表myql建模a、商品表CREATE TABLE test.zyd_goods ( goodsId INT(11) NOT NULL AUTO_INCREMENT COMMENT '自增ID', goodsName varchar(50) NOT NULL COMMENT '商品名称', sellingPrice DECIMAL(11,2) DEFAUL...

2020-01-11 17:15:07 1654 1

原创 flink实时数仓(四):mysql的安装以及canal测试

文章目录查看是否安装mysql[root@note02 ~]# yum list installed | grep mysqlmysql-libs.x86_64 5.1.73-3.el6_5 @anaconda-CentOS-201410241409.x86_64/6.6删除系统已经安装的mysql以及依赖[root@note02 ~]# yum -y remove my...

2020-01-08 22:46:38 1195

原创 flink实时数仓(三):cannel

文章目录

2020-01-07 23:20:01 1882

原创 flink实时数仓(二):mysql主备以及binglog

文章目录mysql主备复制实现MySQL Binary LogSTATMENT模式基于行的复制(row-based replication, RBR):混合模式复制(mixed-based replication, MBR):mysql主备复制实现1.master将改变记录到二进制日志(binary log) 中(这些记录叫做二进制日志事件,binary log events,可以通过sho...

2020-01-06 23:15:48 1623 1

原创 flink实时数仓(一):项目架构设计以及需求

文章目录架构设计数据同步-解决方案mysql数据库建模HBase数据库建模架构设计数据同步-解决方案mysql数据库建模HBase数据库建模

2020-01-06 22:27:44 2217 6

原创 Flink读取嵌套Json

package kafka;import org.apache.flink.api.common.typeinfo.TypeInformation;import org.apache.flink.api.java.typeutils.ObjectArrayTypeInfo;import org.apache.flink.streaming.api.environment.StreamExe...

2020-01-05 23:20:52 5866 3

原创 (五)flink的DataSet:容错

固定延迟失败以及失败率:应用场景:网络存在延迟时,比如数据库连接断开现象package batch.retry;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org....

2020-01-04 17:46:30 323

原创 (四)flink的DataSet:传递参数

文章目录构造方法传参withParameters传参全局传参构造方法传参package batch;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionE...

2020-01-04 17:29:43 363

原创 (三)flink的DataSet:分布式缓存

Flink提供了类似于Apache Hadoop的分布式缓存,可以让并行用户函数实例本地化的访问文件。此功能可用于共享包含静态外部数据(如字典或机器学习的回归模型)的文件工作方式如下:程序将本地或远程文件系统(如HDFS或S3)的文件或目录作为缓存文件注册到ExecutionEnvironment中的特定名称下。当程序执行时,Flink自动将文件或目录复制到所有worker的本地文件系统。...

2020-01-04 15:19:45 497

原创 (二)flink的DataSet:广播变量的使用

文章目录广播变量允许您将数据集提供给的operator所有并行实例,该数据集将作为集合在operator中进行访问注意:由于广播变量的内容保存在每个节点的内存中,因此它不应该太大,常见使用在一些字典映射的环境中package batch;import org.apache.flink.api.common.functions.MapFunction;import org.apache....

2020-01-04 14:12:27 710

原创 (一)flink的DataSet读取文件以及外连接

文章目录读取CSV文件递归读取目录下的文件Unioninner joinjoin与对象结合读取CSV文件package batch;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.DataSource;import org.apache.fl...

2020-01-04 00:33:48 783

原创 (二)基于Flink电商用户画像项目:数据库设计

文章目录用户基础信息表用户详情补充表用户基础信息表用户表userinfo:用户ID、用户名、密码、性别、手机号、邮箱、年龄、注册时间、终端类型其中usertype中0代表pc端,1代表移动端,2代表小程序端CREATE TABLE `userinfo` ( `userid` int(20) DEFAULT NULL, `username` varchar(50) DEFAULT ...

2020-01-03 14:08:51 1414

原创 (一)基于Flink电商用户画像项目:项目概述

文章目录项目架构设计静态信息动态信息项目架构设计应用端:移动端pc端小程序端口快应用处理层1,业务数据存储在关系型数据库后落hdfs中2.用户日志,通过不同的方式落入画像系统中,以flink计算落入数仓中静态信息用户填写的个人资料,对于一些填写资料不准确的需要通过一定的算法纠正,比如用户的性别注册没有填写,可以建立模型,根据用户的行为来判断用户性别是什么,或者它的概...

2020-01-03 12:56:11 1784

原创 (五)flink的Table API 与 SQL-更新模式与kafka连接器案例

文章目录更新模式应用实例更新模式对于stream类型的Table数据,需要标记是由于INSERT,UPDATE,DELETE中哪种操作更新的数据,在Table API中通过Update Modes指定数据更新类型,通过指定不同的Update Modes确定哪种更新操作的数据与外部系统进行交互.connect(...).inAppendMode() //交互INSERT操作更新数据.in...

2020-01-02 13:33:57 2427

原创 (四)flink的Table API 与 SQL-Table Schema

文章目录table schema定义了Flink Table的数据表结构,包括字段名称,类型,同时Table Schema会和Table Format相匹配,在Table数据输入或输出过程中完成Schema的转换但是当Table Input/Output Format和Table Schema不一致的时候,都需要相应的Mapping关系来映射注意:用户必须按照Input/Output数据源中...

2020-01-02 13:12:10 2378

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除