自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐星球

知之者不如好之者,好之者不如乐之者

  • 博客(56)
  • 资源 (6)
  • 收藏
  • 关注

原创 【GIT】git不同仓库设置不同用户名和邮箱

git不同仓库设置不同用户名和邮箱

2023-02-28 15:58:28 2166 2

原创 【异常解决】The coordinator is not available

CoordinatorNotAvailableException: The coordinator is not available异常解决

2023-02-27 14:51:29 3851 1

原创 【读书笔记】《你有你的计划世界另有计划》——达·芬奇诅咒

什么是“达·芬奇诅咒”,聪明人如何破除“达·芬奇诅咒”

2022-11-23 18:04:03 660

原创 【DATAX】datax读取hive分区表时,空分区任务报错问题解决

datax读取hive表,hdfsreader读取空分区时,任务报错问题解决

2022-09-20 17:15:54 1787

原创 【随记】Java格式化JSON输出

java自定义工具类格式化json字符串

2022-09-05 15:00:28 3002

原创 【读书笔记】《学习究竟是什么》——学精第一

最近几十年,全世界科学家结合心理学和脑科学,已经进一步发现学习的秘密。只有世界上少数一流的脑力工作者,在用这些方法学习。

2022-08-23 07:50:32 296

原创 【异常处理】dolphinscheduler改造引入json-lib依赖异常处理

引入json-lib依赖异常处理

2022-08-16 16:47:49 260

原创 【读书笔记】用户画像方法论与工程化解决方案

本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案。

2022-07-18 11:54:31 1264 10

原创 【python】我用python抓取了19个一线城市三年的房价数据,并做了走势分析

这三年,承载我们无数梦想、牵动无数人心弦的房价在一座城市如何一路走来,未来又将走向何处?

2022-07-15 17:15:01 2857 7

原创 【DataX】Dolphinscheduler调度Datax任务读取Hive分区表案例

dolphinscheduer调度Datax任务读取hive分区表注意事项

2022-06-28 18:10:01 3237 1

原创 【读书笔记】《文案变现》——写出有效文案的四个黄金步骤

在电商领域好的营销活动,往往首先是依靠文案来拉动的。这本《文案变现》训练手册,提炼出4个文案写作的黄金步骤,让文案创作快速落地。

2022-06-23 10:10:09 611

原创 【异常解决】DolphinScheduler-2.0.5 工作流实例无法调度和停止异常

dolphinscheduler 2.0.5 工作流实例无法调度和停止的问题解决

2022-06-14 16:32:30 5390 5

原创 【异常处理】Error:(31, 53) java: -source 1.5 中不支持静态接口方法调用

异常解决:Error:(31, 53) java: -source 1.5 中不支持静态接口方法调用

2022-06-09 10:26:13 821

原创 【读书笔记】数据化管理:洞悉零售及电子商务运营

这既是一套商业分析的方法论,又是一本数据实践的参考书。

2022-05-28 10:46:26 3816

原创 一文读懂数据仓库、数据湖、湖仓一体

本文将按时间顺序及大数据的演进之路盘点各阶段数据存储架构的逻辑及技术特点,探讨“湖仓一体”架构的优势

2022-05-26 18:32:40 5347 8

原创 flink写入starrocks案例

flink starrocks exampleflink 写入startrocks案例

2022-05-19 19:18:06 3328 4

原创 DataX数据交换,starrockswriter异常解决

datax数据交换到starrocks时异常Caused by: java.lang.NullPointerException at com.starrocks.connector.datax.plugin.writer.starrockswriter.manager.StarRocksStreamLoadVisitor.joinRows(StarRocksStreamLoadVisitor.java:111) at com.starrocks.connector.datax.plugin.writ

2022-05-19 17:38:05 1004

原创 使用python统计《三国演义》人物词频,看看罗贯中笔下谁的出场次数最多

使用分词算法统计《三国演义》人物词频,看看谁是罗贯中心中最靓的仔。谁才是《三国演义》中出场次数最多的人。重新优化的其他案例的统计逻辑

2022-05-18 10:46:04 10170 14

原创 Pycharm imageio 安装失败

使用pycharm 运行 程序导入imageio包时总是失败,改用在Terminal命令导入pip install imageio==2.5.0 -i https://pypi.tuna.tsinghua.edu.cn/simpleimageio=={版本可选}

2022-05-16 14:22:11 1743

原创 《看穿一切数字的统计学》读书笔记

这算是一本统计学入门书籍,一方面通过该书,告诉我们统计学的强大威力;另一方面,也提醒我们要注意数据处理的误区。

2022-05-07 21:43:45 505

原创 《数据中台:让数据用起来》读书笔记

这是一部系统讲解数据中台建设、管理与运营的著作,旨在帮助企业将数据转化为生产力,顺利实现数字化转型。

2022-04-29 19:56:56 3139

原创 《增长黑客》读书笔记

图书信息书名:增长黑客副标题:创业公司的用户与收入增长秘籍作者:范冰出版社:电子工业出版社在原子世界,传统的商业触角是以解决消费者的空间半径为指导的,而在比特世界里,以电脑和手机为载体的现代商业模型正在抹平信息不对等带来的时空阻隔。如何在新的商业模式下以更低的成本获取更大的竞争优势,是创业者迫切的需求。第一章 增长黑客的崛起《商业价值》杂志曾针对初创公司做过一次调查,结果80%的创业者认为,公司推广面临的最大的问题并非现有的推广渠道效果不佳,反而是因为效果太好——以至于价格不菲,他们根本负担

2022-04-28 09:00:00 1314

原创 Apache SeaTunnel 2.1.0部署及踩坑

简介SeaTunnel 原名Waterdrop,自2021年10月12日改名为SeaTunnel。SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据,已在近100家公司的生产中使用。特点易于使用,配置灵活,低代码开发实时流媒体离线多源数据分析高性能、海量数据处理能力模块化和插入式机构,易于扩展支持通过SQL进行数据处理和聚合支持Spark结构化流媒体支持Spark 2.x这里我们踩了一个坑,因为我们测试的s

2022-04-22 16:26:04 10627 1

原创 Apache Atlas 编译及安装记录

1、环境准备atlas现在是市场很受欢迎的数据管理工具,但是atlas的下载完是一个源码的项目,无法直接使用,所以要对源码进行编译(就是由源程序到目标程序的过程内含代码生成、代码集成、语法分析、词法分析、依赖下载)后才能安装使用。linux但是编译过程中要通过网络下载相应的依赖包,所以内网环境下的服务器暂时用不了,所以我采用的是腾讯云的云服务器。JDK 8安装下载地址 https://www.oracle.com/java/technologies/downloads/#java8下载:

2021-12-29 16:34:29 2033 3

原创 python向mysql插入数据一直报TypeError: must be real number,not str

今天用python向mysql写数据时,其中有些字段是decimal(16,4)和int类型的,写数据前也做了数据类型转换 store_code= df['store_code'].astype(str) price = df['price'].astype(float)但是执行sql插入时一直报TypeError: must be real number,not strsql = """insert into detail_table(store_code,price) values(%s,%

2021-12-14 18:27:53 4917 1

原创 pycharm Install packages failed

在使用pycharm安装skimage插件报错Try to run this command from the system terminal. Make sure that you use the correct version of ‘pip’ installed for your Python interpreter located at ‘E:\projects\xxx\venv\Scripts\python.exe’.Command “python setup.py egg_info” fai

2021-12-09 16:35:23 1193

原创 PG SQL截取字符串到指定字符位置

今天在做PG数据到HIVE的数据交换任务时,因为某个字段在PG中是Varchar类型,hive是bigint,而偏偏PG 中该字段的存储值都被加了小数点位,导致字段类型转换失败。现在就需要将字符串中小数点后的部分给截掉。开始时尝试使用的是CHARINDEX来获取小数点的位置,然后使用substring函数截取该位置之前的数值。select CAST(SUBSTRING(sal_qty, 1 , CHARINDEX('.',sal_qty)-1)as bigint)但是运行时发现PG中没有CHA

2021-12-06 17:20:18 27976 2

原创 Dolphinscheduler集成Flink任务踩坑记录

1、关于Flink打包flink任务编写完成,在本地运行调试正常后,我打包提交到Dolphinscheduler平台进行测试。运行后没多久就报错: [taskAppId=TASK-10-108-214]:[138] - -> java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/FlinkKafkaConsumer at com.bigdata.flink.FlinkKafka.main(Fli

2021-11-26 17:09:11 5539

原创 Static interface method calls are not supported at language level ‘5‘ 异常解决

在使用IDEA开发flink-kafka时,设置setStartingOffsets(OffsetsInitializer.earliest())时,发现标红,不能引用。查看异常报文:Static interface method calls are not supported at language level ‘5’。语言级别5,不支持静态方法引用。修改语言级别,我的jdk是8,我就相应的改为了8,问题就解决了。...

2021-11-26 11:38:38 3190

原创 kafka参数介绍--随手记

kafka 生产者中的acks参数首先acks参数,是在kafkaProducer,也就是在生产者客户端里设置的也就是说,你往kafka写东西的时候,就可以设置这个参数。这个参数实际上有三种值可以设置,分别是0,1,和all.第一种选择是把参数设置成0我的kafkaProducer在客户端,只要把消息发送出去,不管那条数据有没有在哪怕Partition Leader上落到磁盘,就不管他了,直接认为这个消息发送成功。如果你采用这种设置的话,那么你必须注意的一点是,可能你发送出去的消息还在半路。结果呢

2021-11-26 11:30:35 756

原创 hive 中有数据但是count(*)和count(1)的结果都是0。解决方法。

今天做数据交换任务后,将mysql数据导入hive,任务跑成功了,select * 有数据,但是想count查询却显示为0。问题解决:查询前输入 set hive.compute.query.using.stats=false这个是窗口级别的临时设置。下次再进入hive时还需要重新设置。...

2021-11-24 09:15:29 3922

原创 python语言实现电脑重复文件清理程序

最近电脑部分盘文件太多,且有些杂乱,想清理一下。考虑到办公电脑涉及到工作文件敏感性,遂决定用python自己写个简单的程序清理一下。代码如下import osimport globimport filecmpif __name__ == '__main__': # dir_path = r'F:\testsame' print("请输入要清理的文件夹路径,如F:\\test,慎重起见,请不要输入安装目录C:\\") dir_path = input() if di

2021-11-16 18:21:38 561

原创 Dolphinscheduler调度spark任务踩坑记录

1、关于spark调度的worker部署我在测试Dolphinscheduler时采用的是集群模式,两台机器部署master,两台机器部署worker,而hadoop和spark则是在其他的机器上部署的。在配置dolphinscheduler_env.sh文件时对如何设置spark环境地址就很疑惑。测试调度时果然第一个问题就是找不到spark-submit文件command: line 5: /bin/spark-submit: No such file or directory通过日志查看调度过

2021-11-16 13:53:22 8288 3

原创 Dolphinscheduler源码包src.tar.gz解压问题

源码下载对Dolphinscheduler尝试初步部署了几天后,准备看下它的源码,可是在官网下载文件包后进行解压时遇到了些小问题首先登录官网选择1.3.9版本的src包https://dolphinscheduler.apache.org/zh-cn/download/download.html下载地址https://dlcdn.apache.org/dolphinscheduler/1.3.9/apache-dolphinscheduler-1.3.9-src.tar.gz解压我本来是选用

2021-11-15 11:52:55 1666

原创 Dolphinscheduler调度sql任务建表时The query did not generate a result set异常解决

Dolphinscheduler调度sql任务建表时报execute sql error: The query did not generate a result set!异常登录worker机器查询详细日志execute sql error: The query did not generate a result set![ERROR] 2021-11-12 16:18:44.889 - [taskAppId=TASK-4-34-58]:[170] - sql task error: java.

2021-11-12 16:34:41 3630

原创 Dolphinscheduler配置Datax踩坑记录

tmp/dolphinscheduler/exec/process 下文件创建失败问题dolphinscheduler调度datax任务时需要在tmp/dolphinscheduler/exec/process 目录下创建一系列临时文件,但是在worker运行日志中/opt/soft/dolphinscheduler/logs/dolphinscheduler-worker.log看到创建失败的报错[taskAppId=TASK-1-10-13]:[178] - datax task failurej

2021-11-09 11:57:14 16478 1

原创 kafka异常

kafka启动异常在bin文件下尝试用以下命令启动失败[xxxx bin]# kafka-server-start.sh config/server.properties报错如下ERROR Exiting Kafka due to fatal exception (kafka.Kafka$)java.nio.file.NoSuchFileException: config/server.properties at sun.nio.fs.UnixException.translat

2021-10-27 17:51:29 1738

原创 几款电纸书阅读器参数对比

搜集了市面上亚马逊kindle、文石boox、掌阅ireader几款常用型号电纸书阅读器的主要参数,做成了表格方便对比选择。价格为当前京东自营店活动到手价格,部分商品价格包含手写笔的价格,部分不包含,未作细致区分,仅作为参考。电纸书阅读器参数对比 品牌 型号 价格 分辨率 屏幕 手写笔支持 CPU 内存 重量 电池容量 亚马逊 kindle 青春版8G 658 167ppi 6英寸 不支..

2021-10-23 14:56:32 2665

原创 Information:2021/9/29 10:01 - Build completed with 1 error and 0 warnings in 11s 30ms Error异常处理

今天在IDEA上跑单元测试时,突然控制台直接保存,也没有什么原因。直接弹出一行Information:2021/9/29 10:01 - Build completed with 1 error and 0 warnings in 11s 30ms第二行一个红色感叹号和Error也没有其他报错信息,一脸懵。直接说结论—重启IDEA.我这个工程之前是跑的好好的,跑不了后,我重新写了一个打印hello world的main方法也是这个报错,显然不是代码的问题而是环境的问题。网上找了些方法,有说用命令

2021-09-29 11:23:19 2988 1

原创 B站用户视频观看记录的存储方案

中午上B站看视频的时候,突然好奇B站的视频观看记录是怎么存的。首先,因为多端观看的视频记录都是同步的,即不管是在手机观看,还是网页观看,还是新设备观看,视频都是可以直接跳转到上次的观看位置的,所以这个记录应该不是存储在本地的。其次,B站的用户截至2020年底,MAU(月活)达2.02亿,视频总量2020年看有人统计约为7千万条,假设按1亿条计,即使按人均每日观看100个视频,那10年到用户的话每个用户也有36.5万条记录。这样一个超大的稀疏矩阵该怎么存?传统数据库显然不合适。我自己首先想到的应该是HB

2021-09-23 16:05:08 2872

干扰词——三国演义人物词频统计分词

干扰词——三国演义人物词频统计分词,自定义部分,可自行修改

2022-05-18

汉语停用词——自然能语言处理、分词停用词

汉语停用词——自然能语言处理、分词停用词

2022-05-18

词云底图——三国地图词云底图

三国人物词云底图,三国地图

2022-05-18

电脑重复文件清理软件--自制小工具

电脑重复文件清理软件--自制小工具 ,开发语言python。源码地址:https://blog.csdn.net/weixin_44162809/article/details/121361843?spm=1001.2014.3001.5501

2021-11-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除