大数据00-CSDN博客

原创好记性不如烂笔头

1、数据仓库2、Hive3、Hadoop4、Spark5、Flink6、Python7、Java8、Scala9、Milvus10、Hologres11、Spring Boot

2024-01-10 23:16:29 478

原创 Spring Boot 3 搭建

【代码】Spring Boot 3 搭建。

2024-06-18 09:59:28 314 1

原创 paddlehub的简单应用

安装完成后重新尝试下载又报错。安装按需修改并下一步即可。看样子像是缺少Cmake。不好意思还没安装成~~

2024-04-28 11:07:19 1069

光学字符识别（Optical Character Recognition, OCR），ORC是指对包含文本资料的图像文件进行分析识别处理，获取文字及版面信息的技术，检测图像中的文本资料，并且识别出文本的内容。那么有哪些应用场景呢？其实我们日常生活中处处都有ocr的影子，比如在疫情期间身份证识别录入信息、车辆车牌号识别、自动驾驶等。我们的生活中，机器学习已经越来越多的扮演着重要角色，也不再是神秘的东西。OCR的技术路线是什么呢？ocr的运行方式：输入->图像预处理->文字检测->文本识别->输出。

2024-04-24 15:56:27 887

原创 Python实现exe小工具

3、然后会在路径下生成一个dist文件夹。参数表示你想要一个独立的exe文件。

2024-04-17 10:04:18 167 1

原创 Hive-Sql复杂面试题

3、rollup是卷起的意思，俗称层级聚合，相对于grouping sets能指定多少种聚合，而with rollup则表示从左往右的逐级递减聚合，如:group by a,b,c with rollup 等价于 group by a, b, c grouping sets( (a, b, c), (a, b), (a), ( )).直到逐级递减为()为止,多适用于有级联关系的组合查询，如国家、省、市级联组合查询。with cube 是group by后列的所有的维度的任意组合查询。

2024-04-16 16:18:57 1077 2

原创 Flink总结

state大小：为保证Exactly-Once准确一次，对于有两个以上输入管道的 Operator，checkpoint barrier需要对齐，即接受到较快的输入管道的barrier后，它后面数据会被缓存起来但不处理，直到较慢的输入管道的barrier也到达。下游算子收到barrier之后，会暂停自己的数据处理过程，然后将自身的相关状态制作成快照，并保存到指定的持久化存储中，最后向CheckpointCoordinator报告自身快照情况，同时向自身所有下游算子广播该barrier，恢复数据处理。

2024-04-02 10:58:32 556

原创 Flink消费kafka乱序

Kafka主题的分区策略不当：如果一条消息被发送到了多个分区，那么这些消息可能会并行地被多个消费者实例处理，导致顺序不一致。分区内的消息写入不是顺序的：在写入Kafka时，如果没有正确地指定分区和键（key），可能导致消息在分区内的顺序被打乱。Flink任务的并行度不适当：如果Flink任务的并行度过高，会导致一个主题分区被多个任务实例并行处理，降低了顺序性。调整Flink任务的并行度，使之与Kafka主题的分区数量相匹配，以保持消息的顺序。确保从最早的记录开始读取，保证了消息的顺序。是消费者群组的ID。

2024-04-01 14:48:55 401

原创 Linux基本操作

权限分为三种：读（r=4），写（w=2），执行（x=1）。综合起来还有可读可执行（rx=5=4+1）、可读可写（rw=6=4+2）、可读可写可执行(rwx=7=4+2+1)。2.与文件所有者同属一个用户组的其他用户可读可执行 4+1=5。以人类可读的格式显示（例如，自动使用K、M或G为单位）。第二个数字表示与文件所有者同属一个用户组的其他用户的权限。: 磁盘使用情况命令，用于显示目录或文件的大小。1.文件所有者可读可写可执行 4+2+1=7。不加-r ,只有-h是升序 r反转操作。: 对输出进行排序。

2024-04-01 13:24:43 308

原创 Hadoop系列总结

hadoop系列操作

2024-04-01 11:25:01 1220 1

原创 Milvus笔记

Milvus 的CRUD操作

2024-03-20 15:59:46 509

原创数据仓库系列总结

一、数据仓库架构二、数据采集三、离线开发四、实时开发五、数据建模六、维度建模七、事实表设计八、数据管理九、数据治理十、数据服务。

2024-03-19 21:09:19 576

原创 Milvus Standalone安装

使用Docker Compose安装 Milvus standalone（即单机版），进行一个快速milvus的体验。docker-compose down 停止并删除容器(特别注意以免误删容器)2.系统已经安装docker和docker-compose。docker-compose start 启动容器。docker-compose stop 停止容器。docker-compose ps 查看容器。下载docker-compose。复制docker-compose。的向量数据和索引数据。

2023-11-16 16:19:19 1066

原创 VMware 安装CentOS7

后面配置网络也是需要用到，当然也是可以选择其他的链接方式，大家根据需要来选择。5.这次安装的是Linux，版本为centos7，至于是32位还是64位大家根据自己的电脑来选择，最后点击下一步。软件安装，如果你是已经很熟悉的可以直接最小化安装，但是初学者建议选择带图形化的系统安装，同时选择开发工具。对即将新建的虚拟机进行硬件处理，这里可以选择删除一部分不会用到的硬件，如打印机；安装信息摘要，这里本地化的三个都不需要管，直接默认；6.虚拟机命名，可以直接默认的，然后更改虚拟机文件位置，建议在c盘之外。

2023-11-15 11:27:51 170

原创 Flink RoaringBitmap去重

Roaring64Bitmap 去重只适合去重整形情况

2023-09-25 18:22:24 795

原创侧输出流SideOutput

主要功能是通过侧数据流拆分流数据。

2023-08-28 16:57:19 117

转载 PageRank&ConnectedComponents&Pregel

sendMsg方法执行完成之后，根据顶点处于激活态的条件，顶点5 成功地分别给顶点3 和顶点6 发送了消息，顶点3 和顶点6 也成功地接受到了消息。顶点3 给顶点6 发送消息失败，顶点3 给顶点2 发送消息成功，此时顶点3 成功发送消息，顶点2 成功接收消息，所以顶点2 和顶点3 都成为激活状态，其他顶点都成为钝化状态。顶点3分别发送消息给顶点2失败和顶点6失败，顶点2 分别发消息给顶点1成功、顶点4成功、顶点5失败，所以顶点2、顶点1、顶点4 成为激活状态，其他顶点为钝化状态。

2023-08-18 15:24:59 68

原创 Spark 图计算ONEID 进阶版

Oneid的生成

2023-08-18 14:32:56 1468 1

转载数仓建模—OneID

ID Mapping是OneID的提前，OneID是ID Mapping的结果，所以要想做OneID必须先做ID Mapping;OneID是为了打通整个数据体系的数据，所以OneID需要以服务的方式对外提供服务，在数仓里面就是作为基础表使用，对外的话我们就需要提供接口对外提供服务。

2023-05-25 16:13:44 696

原创 Blink 会话窗口解决双流关联ID关联不上问题

通过将留资信息实时同步holo，利用holo做维表的方式，进店记录表通过会话窗口延迟5分钟关联确保数据完全能关联到不会丢失。业务：用户留资在前，然后才会有跟进记录，数据上留资时间必然在进店跟进之前，最小相差时间毫秒级别。表2 是用户留资信息。表1 是用户进店记录。

2023-05-08 14:42:55 180

原创数据治理体系

数据治理方案需要建立一套完整的体系，包括组织架构、政策和规范、资产清单和元数据管理、数据质量管理、数据安全管理、培训和教育以及工具和技术。这些方面相互配合，共同构成一个完整的数据治理方案。数据治理是一个涵盖多个方面的综合性管理活动，它的目标是确保数据的质量、一致性、安全性、可靠性和合规性。

2023-04-19 13:13:24 455

原创 JIRA学习

建议由项目经理、产品经理或开发经理，创建故事，关联史诗与sprint，同时指给对应的开发。主要原因在于，Jira的任务类型、工作流不可配置，综合考虑，故事的工作流，更合理。sprint周期的长度，应覆盖完整的需求对接、梳理，数据探索、口径对齐、开发、测试及上线的全流程周期。任务完成，或发生变化，出现异常，必须以备注形式，填加在故事或任务中。如果判断，无法完成，需将一个故事，拆分为多个故事。开发经理，可构建以人为中心的看板，用于评估人员工作负荷情况。每日站会、迭代启动会，均以看板为中心，按史诗，逐个遍历。

2023-03-15 11:26:00 465

原创 Nubula学习笔记

不同的图数据库在术语方面可能会略有不同，但是归根结底都是在讲点、边和属性。至于更多的功能，例如标签、索引、约束、TTL、长任务、存储过程和UDF等这些高级功能，在不同图数据库中，会存在明显的差异。图数据库用图来存储数据，而图是最接近高度灵活、高性能的数据结构之一。图数据库是一种专门用于存储和检索庞大信息网的存储引擎，它能够高效地将数据存储为点和边，并允许对这些点边结构进行高性能的检索和查询。我们也可以为这些点和边添加属性。图数据库几乎适用于存储所有领域的数据。因为在几乎所有领域中，事物之间都是由某种

2023-03-03 16:54:22 165

原创 Flink+MapState+Ontimer+Enum+Flink去重综合应用

Flink+MapState+Ontimer+Enum+Flink去重综合应用

2023-02-24 09:55:42 272

原创 Kafka面试

图中有两个topic，topic 0有两个partition，topic 1有一个partition，三副本备份。所以如果在消息已经被写入 Leader 分片，但是还未同步到 Follower 节点，此时Leader 分片所在服务器宕机了，那么这条消息也就丢失了，无法被消费到。follower再次同步leader，leader的RemoteLEO更新为1，更新HW=Math.max(0, min(1))=1， follower收到leader的HW=1，更新HW = Math.min(1, 1) = 1。

2023-02-10 09:43:02 394

原创 JAVA面试

ReadWriteLock 是一个读写锁接口， ReentrantReadWriteLock 是ReadWriteLock 接口的一个具体实现，实现了读写的分离，读锁是共享的，写锁是独占的，读和读之间不会互斥，读和写、写和读、写和写之间才会互斥，提升了读写的性能。主要用于将私有线程和该线程存放的副本对象做一个映射，各个线程之间的变量互不干扰，在高并发场景下，可以实现无状态的调用，特别适用于各个线程依赖不通的变量值完成操作的场景。cas 是一种基于锁的操作，而且是乐观锁。

2023-02-10 09:18:30 102

原创 Spark面试

这一切对使用者都是透明的。（2）Spark容错性高，它通过弹性分布式数据集RDD来实现高效容错，RDD是一组分布式的存储在节点内存中的只读性的数据集，这些集合石弹性的，某一部分丢失或者出错，可以通过整个数据集的计算流程的血缘关系来实现重建，mapreduce的容错只能重新计算。父RDD的每一个partition中的数据，都可能会传输一部分到下一个子RDD的每一个partition中，此时会出现父RDD和子RDD的partition之间具有交互错综复杂的关系，这种情况就叫做两个RDD之间是宽依赖。

2023-02-07 11:39:12 227

原创 HIVE面试

数据量小的时候无所谓，数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换，尽量避免笛卡尔积，join的时候不加on条件，或者无效的on条件，Hive只能使用1个reducer来完成笛卡尔积。把数据放到对应的文件中。删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

2023-02-07 09:57:13 496

原创钉钉预警步骤

1、把timestamp+“\n”+密钥当做签名字符串，使用HmacSHA256算法计算签名，然后进行Base64 encode，最后再把签名参数再进行urlEncode，得到最终的签名（需要使用UTF-8字符集）。2、在机器人管理页面选择自定义机器人，输入机器人名字并选择要发送消息的群，同时可以为机器人设置机器人头像。例如添加了一个自定义关键词：监控报警，则这个机器人所发送的消息，必须包含监控报警这个词，才能发送成功。1、选择需要添加机器人的群聊，然后依次单击群设置 > 智能群助手。

2023-01-05 16:15:59 662

原创 Blink-DataStream Demo案例

建议您使用maven-shade-plugin插件的Relocation功能，解决JAR包冲突的问题。在作业运行时，如果界面上出现如下类似的错误，表示存在JAR包冲突。

2022-11-23 11:55:12 763

原创 maven打包插件

打包依赖插件

2022-10-31 14:43:28 175

原创 Spark on Maxconpute 读取资源 SQL DataFrame Json 转换开发

【代码】Spark on Maxconpute 读取资源 SQL DataFrame Json 转换开发。

2022-10-20 17:55:15 832

原创数仓面试总结

数仓面试问到过的一些问题总结

2022-09-09 11:25:16 2584

原创 Blink 使用小记

1、各组件版本 Blink 3.6.0 Datahub Hologres 0.10 Rds 8.0/5.7 Maxcompute 3.52、维表关联代码2.1Maxcompute维表2.2Rds维表2.3Hologres维表3、维表关联代码4、数据Sink4.1MaxcomputeSink4.2HologresSink4.3DatahubSink5、自定义函数6、DataStreamAPI2.1 Maxcomp......

2022-04-06 13:42:58 1670

转载 ID-Mapping

转自：一文探究数据仓库体系(2.7万字建议收藏)登录状态下，日志中会采集到用户的登录id（account），可以做到用户身份的精确标识；而在匿名状态下，日志中没有采集到用户的登录id，准确标识用户，成为一件极其棘手的事情解决方案：关联设备ID和登录ID（动态修正）一个设备ID被绑定到某个登陆ID（A）之后，如果该设备在后续一段时间（比如一个月内）被一个新的登陆ID（B）更频繁使用，则该设备ID会被调整至绑定登陆ID（B）...

2022-02-10 15:49:31 354

原创地址总结小记

1、开源下载：Index of /distIndex of /disthttp://archive.apache.org/dist/

2022-02-09 14:57:38 218

转载 Maxcompute 小记2

1、rows between unbounded preceding and current row等，unbounded ，preceding ，following，current row含义详解以下转自：(http://blog.csdn.net/huozhicheng/article/details/5843782/)作者：Horrison目录=========================================1.窗口函数简介2.窗口函数示例-全统计3.窗口函数进阶-滚

2022-02-09 14:07:53 270

原创用户画像之实时标签

Blink 实时标签体系

2021-12-31 11:15:27 2715

原创用户画像之ID-Mapping

spark 图计算

2021-12-31 11:14:53 4734 1

原创用户画像之标签开发

用户标签、用户画像

2021-12-31 11:13:53 530

spring boot 搭建的基本情况

2024-07-11

阿里云Blink DataStream开发

阿里云Blink DataStream开发，集成datahub,通过blink 获取datahub相关数据，将数据进行转化成对象，由于实时数据是binlog日志，所以对数据进行过滤，数据输出时需要将对象转化成json对象提供给下游，所以集成了fastjson，此依赖打包不需要，并自定义datahubsink，将数据回写datahub,datahub做订阅，供下游消费，并进行定制化的筛选触达等工作。StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); env.enableCheckpointing(3600000L); // env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE); //

2023-02-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

spring boot 搭建的基本情况

阿里云Blink DataStream开发

datahub-demo-master.zip

blink_udx_3x-master.zip

alibaba-flink-connectors-flink-1.5.2-compatible.zip

A_calc_day_powerSink.java

KafkaToA_calc_day_power.java

ValueFilterQuery.java

TimestampsFilterQuery.java

RowFilterWithRegex.java

PreFixFilterQuery.java

PageFilterQuery.java

FilterOfFilterList.java

FamilyFilterQuery.java

ColumnPrefixFilterQuery.java

RowFilterQuery.java

空空如也