若小鱼-CSDN博客

datax数据交换到starrocks时异常Caused by: java.lang.NullPointerException at com.starrocks.connector.datax.plugin.writer.starrockswriter.manager.StarRocksStreamLoadVisitor.joinRows(StarRocksStreamLoadVisitor.java:111) at com.starrocks.connector.datax.plugin.writ

2022-05-19 17:38:05 1229

原创使用python统计《三国演义》人物词频，看看罗贯中笔下谁的出场次数最多

使用分词算法统计《三国演义》人物词频，看看谁是罗贯中心中最靓的仔。谁才是《三国演义》中出场次数最多的人。重新优化的其他案例的统计逻辑

2022-05-18 10:46:04 10745 14

原创 Pycharm imageio 安装失败

使用pycharm 运行程序导入imageio包时总是失败，改用在Terminal命令导入pip install imageio==2.5.0 -i https://pypi.tuna.tsinghua.edu.cn/simpleimageio=={版本可选}

2022-05-16 14:22:11 1989

原创《看穿一切数字的统计学》读书笔记

这算是一本统计学入门书籍，一方面通过该书，告诉我们统计学的强大威力；另一方面，也提醒我们要注意数据处理的误区。

2022-05-07 21:43:45 593

原创《数据中台：让数据用起来》读书笔记

这是一部系统讲解数据中台建设、管理与运营的著作，旨在帮助企业将数据转化为生产力，顺利实现数字化转型。

2022-04-29 19:56:56 3387

原创《增长黑客》读书笔记

图书信息书名：增长黑客副标题：创业公司的用户与收入增长秘籍作者：范冰出版社：电子工业出版社在原子世界，传统的商业触角是以解决消费者的空间半径为指导的，而在比特世界里，以电脑和手机为载体的现代商业模型正在抹平信息不对等带来的时空阻隔。如何在新的商业模式下以更低的成本获取更大的竞争优势，是创业者迫切的需求。第一章增长黑客的崛起《商业价值》杂志曾针对初创公司做过一次调查，结果80％的创业者认为，公司推广面临的最大的问题并非现有的推广渠道效果不佳，反而是因为效果太好——以至于价格不菲，他们根本负担

2022-04-28 09:00:00 1598

原创 Apache SeaTunnel 2.1.0部署及踩坑

简介SeaTunnel 原名Waterdrop，自2021年10月12日改名为SeaTunnel。SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台，支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据，已在近100家公司的生产中使用。特点易于使用，配置灵活，低代码开发实时流媒体离线多源数据分析高性能、海量数据处理能力模块化和插入式机构，易于扩展支持通过SQL进行数据处理和聚合支持Spark结构化流媒体支持Spark 2.x这里我们踩了一个坑，因为我们测试的s

2022-04-22 16:26:04 11077 1

原创 Apache Atlas 编译及安装记录

1、环境准备atlas现在是市场很受欢迎的数据管理工具，但是atlas的下载完是一个源码的项目，无法直接使用，所以要对源码进行编译(就是由源程序到目标程序的过程内含代码生成、代码集成、语法分析、词法分析、依赖下载)后才能安装使用。linux但是编译过程中要通过网络下载相应的依赖包，所以内网环境下的服务器暂时用不了，所以我采用的是腾讯云的云服务器。JDK 8安装下载地址 https://www.oracle.com/java/technologies/downloads/#java8下载：

2021-12-29 16:34:29 2186 3

原创 python向mysql插入数据一直报TypeError: must be real number，not str

今天用python向mysql写数据时，其中有些字段是decimal(16,4)和int类型的，写数据前也做了数据类型转换 store_code= df['store_code'].astype(str) price = df['price'].astype(float)但是执行sql插入时一直报TypeError: must be real number，not strsql = """insert into detail_table(store_code,price) values(%s,%

2021-12-14 18:27:53 5188 1

原创 pycharm Install packages failed

在使用pycharm安装skimage插件报错Try to run this command from the system terminal. Make sure that you use the correct version of ‘pip’ installed for your Python interpreter located at ‘E:\projects\xxx\venv\Scripts\python.exe’.Command “python setup.py egg_info” fai

2021-12-09 16:35:23 1330

原创 PG SQL截取字符串到指定字符位置

今天在做PG数据到HIVE的数据交换任务时，因为某个字段在PG中是Varchar类型，hive是bigint，而偏偏PG 中该字段的存储值都被加了小数点位，导致字段类型转换失败。现在就需要将字符串中小数点后的部分给截掉。开始时尝试使用的是CHARINDEX来获取小数点的位置,然后使用substring函数截取该位置之前的数值。select CAST(SUBSTRING(sal_qty, 1 , CHARINDEX('.',sal_qty)-1)as bigint)但是运行时发现PG中没有CHA

2021-12-06 17:20:18 29364 2

原创 Dolphinscheduler集成Flink任务踩坑记录

1、关于Flink打包flink任务编写完成，在本地运行调试正常后，我打包提交到Dolphinscheduler平台进行测试。运行后没多久就报错： [taskAppId=TASK-10-108-214]:[138] - -> java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/FlinkKafkaConsumer at com.bigdata.flink.FlinkKafka.main(Fli

2021-11-26 17:09:11 5948

原创 Static interface method calls are not supported at language level ‘5‘ 异常解决

在使用IDEA开发flink-kafka时，设置setStartingOffsets(OffsetsInitializer.earliest())时，发现标红，不能引用。查看异常报文：Static interface method calls are not supported at language level ‘5’。语言级别5，不支持静态方法引用。修改语言级别，我的jdk是8，我就相应的改为了8，问题就解决了。...

2021-11-26 11:38:38 3370

原创 kafka参数介绍--随手记

kafka 生产者中的acks参数首先acks参数，是在kafkaProducer,也就是在生产者客户端里设置的也就是说，你往kafka写东西的时候，就可以设置这个参数。这个参数实际上有三种值可以设置，分别是0,1,和all.第一种选择是把参数设置成0我的kafkaProducer在客户端，只要把消息发送出去，不管那条数据有没有在哪怕Partition Leader上落到磁盘，就不管他了，直接认为这个消息发送成功。如果你采用这种设置的话，那么你必须注意的一点是，可能你发送出去的消息还在半路。结果呢

2021-11-26 11:30:35 816

原创 hive 中有数据但是count(*)和count(1)的结果都是0。解决方法。

今天做数据交换任务后，将mysql数据导入hive，任务跑成功了，select * 有数据，但是想count查询却显示为0。问题解决：查询前输入 set hive.compute.query.using.stats=false这个是窗口级别的临时设置。下次再进入hive时还需要重新设置。...

2021-11-24 09:15:29 4256

原创 python语言实现电脑重复文件清理程序

最近电脑部分盘文件太多，且有些杂乱，想清理一下。考虑到办公电脑涉及到工作文件敏感性，遂决定用python自己写个简单的程序清理一下。代码如下import osimport globimport filecmpif __name__ == '__main__': # dir_path = r'F:\testsame' print("请输入要清理的文件夹路径，如F:\\test，慎重起见，请不要输入安装目录C:\\") dir_path = input() if di

2021-11-16 18:21:38 601

原创 Dolphinscheduler调度spark任务踩坑记录

1、关于spark调度的worker部署我在测试Dolphinscheduler时采用的是集群模式，两台机器部署master，两台机器部署worker，而hadoop和spark则是在其他的机器上部署的。在配置dolphinscheduler_env.sh文件时对如何设置spark环境地址就很疑惑。测试调度时果然第一个问题就是找不到spark-submit文件command: line 5: /bin/spark-submit: No such file or directory通过日志查看调度过

2021-11-16 13:53:22 9370 4

原创 Dolphinscheduler源码包src.tar.gz解压问题

源码下载对Dolphinscheduler尝试初步部署了几天后，准备看下它的源码，可是在官网下载文件包后进行解压时遇到了些小问题首先登录官网选择1.3.9版本的src包https://dolphinscheduler.apache.org/zh-cn/download/download.html下载地址https://dlcdn.apache.org/dolphinscheduler/1.3.9/apache-dolphinscheduler-1.3.9-src.tar.gz解压我本来是选用

2021-11-15 11:52:55 1728

原创 Dolphinscheduler调度sql任务建表时The query did not generate a result set异常解决

Dolphinscheduler调度sql任务建表时报execute sql error: The query did not generate a result set!异常登录worker机器查询详细日志execute sql error: The query did not generate a result set![ERROR] 2021-11-12 16:18:44.889 - [taskAppId=TASK-4-34-58]:[170] - sql task error: java.

2021-11-12 16:34:41 3833

原创 Dolphinscheduler配置Datax踩坑记录

tmp/dolphinscheduler/exec/process 下文件创建失败问题dolphinscheduler调度datax任务时需要在tmp/dolphinscheduler/exec/process 目录下创建一系列临时文件，但是在worker运行日志中/opt/soft/dolphinscheduler/logs/dolphinscheduler-worker.log看到创建失败的报错[taskAppId=TASK-1-10-13]:[178] - datax task failurej

2021-11-09 11:57:14 18568 1

原创 kafka异常

kafka启动异常在bin文件下尝试用以下命令启动失败[xxxx bin]# kafka-server-start.sh config/server.properties报错如下ERROR Exiting Kafka due to fatal exception (kafka.Kafka$)java.nio.file.NoSuchFileException: config/server.properties at sun.nio.fs.UnixException.translat

2021-10-27 17:51:29 2203

原创几款电纸书阅读器参数对比

搜集了市面上亚马逊kindle、文石boox、掌阅ireader几款常用型号电纸书阅读器的主要参数，做成了表格方便对比选择。价格为当前京东自营店活动到手价格，部分商品价格包含手写笔的价格，部分不包含，未作细致区分，仅作为参考。电纸书阅读器参数对比品牌型号价格分辨率屏幕手写笔支持 CPU 内存重量电池容量亚马逊 kindle 青春版8G 658 167ppi 6英寸不支..

2021-10-23 14:56:32 3183

原创 Information:2021/9/29 10:01 - Build completed with 1 error and 0 warnings in 11s 30ms Error异常处理

今天在IDEA上跑单元测试时，突然控制台直接保存，也没有什么原因。直接弹出一行Information:2021/9/29 10:01 - Build completed with 1 error and 0 warnings in 11s 30ms第二行一个红色感叹号和Error也没有其他报错信息，一脸懵。直接说结论—重启IDEA.我这个工程之前是跑的好好的，跑不了后，我重新写了一个打印hello world的main方法也是这个报错，显然不是代码的问题而是环境的问题。网上找了些方法，有说用命令

2021-09-29 11:23:19 3140 1

原创 B站用户视频观看记录的存储方案

中午上B站看视频的时候，突然好奇B站的视频观看记录是怎么存的。首先，因为多端观看的视频记录都是同步的，即不管是在手机观看，还是网页观看，还是新设备观看，视频都是可以直接跳转到上次的观看位置的，所以这个记录应该不是存储在本地的。其次，B站的用户截至2020年底，MAU（月活）达2.02亿，视频总量2020年看有人统计约为7千万条，假设按1亿条计，即使按人均每日观看100个视频，那10年到用户的话每个用户也有36.5万条记录。这样一个超大的稀疏矩阵该怎么存？传统数据库显然不合适。我自己首先想到的应该是HB

2021-09-23 16:05:08 3295

干扰词——三国演义人物词频统计分词

汉语停用词——自然能语言处理、分词停用词

词云底图——三国地图词云底图

电脑重复文件清理软件--自制小工具

空空如也