自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 水利水电行业之主数据识别

尽信书,不如不读书”这句话源自古代中国的一句俗语,其含义是告诫我们不能完全依赖书本上的知识,而应该结合实际情况进行思考和判断。在大数据开发领域,这句话同样适用。以上愚见,往大家多批评指正,共同交流促进水利行业大数据发展。

2024-05-08 11:19:05 871 1

原创 flink集群Standalone模式部署

示例:scp -r /opt/flink/flink-1.17.2 /opt/flink/flink-1.17.2【这里是我的安装目录,目录根据自己安装的目录修改】ssh-copy-id -i ~/.ssh/id_rsa.pub 需要免密的机器IP(注意:包含本机,三台服务器都要分发)示例:ssh-copy-id -i ~/.ssh/id_rsa.pub 192.168.119.110。进入conf目录修改flink-conf.yaml、master、worker三个文件。##master文件修改内容。

2024-02-29 17:35:09 844 1

原创 Dinky整库同步mysql到doris问题汇总

flink整库同步mysql到doris

2024-02-04 10:38:52 528 1

原创 dinky flinkcdc 同步mysql到doris时间类型datetime入doris时间类型datetime报错

mysql 同步doris 时间类型报错

2024-01-25 09:12:48 724

原创 Dinky+Flink cdc同步doris数据不成功问题解决

dinky+flinkcdc同步doris数据不成功问题

2024-01-22 10:19:08 680 1

原创 Dinky注册flink集群执行flink作业报错-ERROR:java.lang.NoClassDefFoundError

dinky+flink执行flink作业报错

2024-01-16 17:28:25 661 1

原创 flink单机部署报错问题汇总

flink部署问题处理

2024-01-16 09:17:11 577 1

原创 python安装surprise报错C++ Build Tools

Q1、python安装后无法执行python\pip命令A:需要配置系统环境变量,添加安装目录至系统变量即可Q2、无法安装surprise推荐算法库 提示C++ build tools 错误A:因为surprise需要microsoft Visual C++ 14.0编译,所以需要安装这个库。下载地址:链接: https://pan.baidu.com/s/19F4YurwwZ5A9WF5txzMZoQ密码: ka7qscikit-surprise安装方法:安装microsoft Visual

2021-10-21 18:19:58 475

原创 国内某头部跨境电商公司数仓重构之路 2021-09-09

文章目录一、从通信行业到跨境电商二、重构之前的数仓现状三、数仓重构之路二、使用步骤1.引入库2.读入数据总结一、从通信行业到跨境电商 年初换工作到现在也有小半年了,接手了一个跨境电商公司的数仓重构项目,在通信行业8年的工作经验(从O域到M域再到B域的数据处理经验)让我觉得任何数据及业务都可以玩转,显然我的想法太年轻了,被狠狠的教育了一把(下文会说明原因)。跳出舒适圈,离开自己熟悉的业务,开始一个全新的行业探索,可以给自己的职业生涯带了一些新的激情,就像刚参加工作是的状态,无限的求知欲是力量的源泉 .

2021-09-09 10:04:30 636

原创 阿里云-MaxComputer学习+踩坑 第087天 - 数据治理探索

文章目录前言一、数据治理是什么?二、平台系统是人管理意识的具象化1.数据质量管理流程2.事后学习改进总结前言经过有条不紊的3个月离线数仓的建设,目前公司离线数仓初步阶段已经完成,离线数据已经接入除财务数据的全部核心数据,模型已经开发完成,数据验证也接近尾声,后续就是常规日常需求支撑及开展实时数仓的建设(实时数仓目前正在技术选型阶段和架构设计阶段,后续细聊实时数仓建设心得),目前需要保障离线数仓数据的产出及准确性,话不多说,下面聊数据治理提示:以下是本篇文章正文内容,下面案例可供参考一、数据治..

2021-07-19 15:56:57 347

原创 MySQL 开发准则

转载:MySQL 开发准则(总结自阿里巴巴开发手册)命名规范【强制】对象名称必须用小写或者小写、下划线、数字组成。name;user_name;【强制】对象名称禁止使用 MySQL 保留关键字。如 ORDER 等【强制】对象名称要见名知其意,不要超过 32 个字符。nick_name,student_age,create_time【强制】临时表要以 tmp 为前缀,日期为后缀。tmp_export_user_20200721【强制】备份表要以 bak 为前缀,日期为后缀。bak_use

2021-07-02 14:16:59 94

原创 阿里云-MaxComputer学习+踩坑 第026天 - userAgent用户代理信息解析

文章目录前言一、字符串二、注册函数总结前言MaxCompute 自建函数解析userAgent用户信息代理,功能可实现,但效率太低,不知道后台到底什么逻辑,附上JAR包(导入后注册函数可用),但请大神们谨慎使用,我不到一分钟的任务,加上这个函数后半小时跑7%进度,蜗牛一般的速度一、字符串处理的字符串:Mozilla/5.0 (Linux; Android 10; SO-02L Build/53.1.B.0.474; wv) AppleWebKit/537.36 (KHTML, like ..

2021-05-20 14:11:42 385 1

原创 阿里云-MaxComputer学习+踩坑 第026天 - BASE64编码解码 +URL反向解码

文章目录前言一、GET_JSON_OBJECT二、BASE64/UNBASE64总结前言最近一直在处理公司商城的埋点日志,涉及很多JSON字符串的解析,还有URL的解析,结合这几天的摸索说些阿里云官方文档中没有的内容,涉及函数GET_JSON_OBJECT/BASE64/UNBASE64/URL_DECODE一、GET_JSON_OBJECTJSON字符串解析函数,如果是标准的json字符串可以很好的解析,如果不标准那就转换标准,改截取截取,改嵌套嵌套,没啥说的二、BASE64/UNBA..

2021-05-18 19:27:33 905

原创 阿里云-MaxComputer学习+踩坑 第022天 - 基于MC的时间维表实现

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimpor..

2021-05-15 09:45:17 964

原创 2021-04-30

阿里云-MaxComputer学习+踩坑 第007天文章目录前言一、书接上回二、老师傅遇到新问题1.OSS对象存储三、平台使用踩坑指南1.DATAWORKS 数据集成不足之处总结前言由于最近几天比较忙(比较懒)一直没有更新,项目实施在盲人摸象中一步步推进,既有平台使用大坑,又有新团队磨合的小插曲。接下来说说近一周的踩坑之路一、书接上回分区建表规范:每个分区的数据量上没有要求,注意不要太大(切忌把全量数据扔进一个分区里面),每次读取不必要的数据消耗计算资源。但也不要太小,搞太多太细的分区会使得小

2021-04-30 16:30:21 741 2

原创 阿里云-MaxComputer学习+踩坑 第001天

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、DataWorks是什么?二、MaxComputer是什么?1.产品介绍2.表分区规范3.官方分区文档总结前言由于公司(一家蒸蒸日上的小跨境电商公司)业务快速增长,之前的数仓一直在MySQL+TIDB中构建,目前业务支撑遇到瓶颈,公司准备上马数据中台,领导一拍脑袋就是要自建平台,服务器都买了十几台(要在机房吃灰了),最后考虑再三,还是引入现有产品,接触了几家云平台厂商,最后确定使用阿里云的数据平台DataWorks了

2021-04-23 18:55:05 2816

大数据-flink-mysql-connector:用于flinkcdc实时同步

flinkc-sql-connector-mysql,用于mysql数据实时同步

2024-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除