ES--top_hits的简单使用获取最早进 最晚出的数据 需求:业务 需要知道工人打卡记录最早进 与 最早出 一天记录原始信息,现通过 top_hits来实现如下:GET /hw-attendance-2022-3month/_search{ "query": { "bool": { "filter": [ { "range": { "record_time": { "gte": "2022-03-07T00:00:00", .
ES--top_hits的简单使用获取最早进 最晚出的数据 需求:业务 需要知道工人打卡记录最早进 与 最早出 一天记录原始信息,现通过 top_hits来实现如下:GET /hw-attendance-2022-3month/_search{ "query": { "bool": { "filter": [ { "range": { "record_time": { "gte": "2022-03-07T00:00:00", .
Flink-bug:org.apache.flink.table.api.TableException: uv is not found in visitTime, EXPR$0 代码块 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tEnv = StreamTableEnvironment.create(env); DataStreamSource<PageVisit> input = env.fromElements( new P
Flink写数据到 hudi中,hive读取 flink hive on hudi 手动创建表文档 : https://www.yuque.com/docs/share/879349ce-7de4-4284-9126-9c2a3c93a91d?#%20%E3%80%8AHive%20On%20Hudi%E3%80%8B在 /data/app/hive/auxlib 目录放入hudi jar–>hudi-hadoop-mr-bundle-0.10.0.jar或者 修改配置项 hive-site.xmlhive.default.aux.j
Flink小知识: Window详解 官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/datastream/operators/windows/1、什么是WindowFlink 底层引擎是一个流式引擎,认为 Batch 是 Streaming 的一个特例,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Window窗口就在一个无界流中设置起始位置和终止位置,让无界流变成有
Flink小知识--State Processor API的简单讲解(2) State的Writer 在上一章节中,我简单介绍了State 的读取操作Flink小知识–State Processor API的简单讲解(1) State的读取本章节将重点简述下 state 的写以及修改,主要以 Keyed State为例https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/libs/state_processor_api/1. Writing New Savepoints基于上一期的key state 案例,本期生成的st
ES--cardinality(统计去重) top_hits(内容去重) 的简单使用 统计去重 cardinality## 对时间范围内sn 考勤的人员 身份证去重GET /hw-attendance-aliases/_search{ "query": { "bool": { "must": [ { "terms": { "sn.keyword": ["5043517855901153563I","5043517855901153563O"] } }, .
Flink小知识--State Processor API的简单讲解(1) State的读取 value_count: 计数cardinality: 去重计数avg: 平均值sum: 求和max: 最大值min: 最小值percentiles: 百分比top_hits: 简单来说就是聚合分组后从每一个组取部分数据作为结果返回统计去重 cardinality## 对时间范围内sn 考勤的人员 身份证去重GET /hw-attendance-aliases/_search{ "query": { "bool": { "must": [
Hudi0.9--初步使用 1. 编译官方网址: https://hudi.apache.org/docs/spark_quick-start-guide.html编译指导: https://github.com/apache/hudi#building-apache-hudi-from-source环境准备Unix-like system (like Linux, Mac OS X)Java 8 (Java 9 or 10 may work)GitMaven下载源码# Checkout code and bui
ES--curl的一些操作命令 创建索引--7.x curl -XPUT 'localhost:9205/st_workerattendance_ds' -d '{ "settings": { "refresh_interval" : "60s", "number_of_shards": 1, "number_of_replicas": 1 }, "mappings" : { "doc": { "properties" : { "@version" : { "ty.
SparkML机器学习(一) TF-IDF的提取 package com.xiaolin.ML.start_studyimport java.utilimport com.xiaolin.RecommenderProgram.util.IKAnalyzerimport org.apache.lucene.analysis.TokenStreamimport org.apache.spark.ml.feature.{CountVectorizer, HashingTF, IDF, Tokenizer}import org.apache.spar
小记--bug:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)V 在使用新版本的hadoop3.2.2时,启动spark sql 发现以下报错Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)V at org.apache.hadoop.security.HadoopKerberosName.setConfiguration(HadoopKerb
liunx 线上排查 常用命令 内存瓶颈freefree 是查看内存使用情况,包括物理内存、交换内存(swap)和内核缓冲区内存。free -h -s 3 表示每隔三秒输出一次内存情况,命令如下[root@hadoop001 ~]$ free total used free shared buff/cache availableMem: 119623656 43052220 45611364 4313760 30960
Flink小知识: KeyState的Rescale与 Key Group 本文先介绍Flink状态的理念,再经由状态——主要是Keyed State——的缩放(rescale)引出KeyGroup的细节。 再认识Flink状态 自从开始写关于Flink的东西以来,“状态”这个词被提过不下百次,却从来没有统一的定义。Flink官方博客中给出的一种定义如下: When it comes to stateful stream processing, state comprises of the information that an application or stre.
pgsql存储过程--异常的捕获 在日常需求开发中,有时候会用到存储过程来预处理小量的数据集, 在此 需要记录存储过程的调度时长,是否正常执行 预警等案例CREATE OR REPLACE FUNCTION "public"."project_statistics_copy1"() RETURNS "pg_catalog"."void" AS $BODY$ -- Routine body goes here... -- 声明游标DECLARE start_time varchar :=now();err_message
demo-flink1.11.2实现数据写入hive 环境准备1. hadoop 集群的开启,hive metastore 服务开启2. flink-conf.yaml, sql-client-defaults.yaml 配置 注意: 必须开启checkpoint ,flink 才可提交分区操作3. flink 集群的开启 启动:yarn-session.sh -n 3 -s 3 -nm flink-session -d 关闭:yarn application -kill applicationId4. KafKa集群开启.
LeetCode_36: 有效的数独 ** * @program: spark-scala001 leetcode 36 * @description: 判断一个 9x9 的数独是否有效。只需要根据以下规则,验证已经填入的数字是否有效即可。 * * 数字 1-9 在每一行只能出现一次。 * 数字 1-9 在每一列只能出现一次。 * 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。 * [ * ["5","3",".",".","7",".",".",".","."], * ["6",".",".","1
LeetCode_146: LRUs 算法 LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰最近最少使用的数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”import java.util.LinkedHashMap;import java.util.Map;/** * @program: LeetCode_146 * @description: LRUs 算法 * LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行
Apache Atlas2.1.0 集成Hive元数据管理 Atlas里的相关概念Type元数据类型定义,这里可以是表,列,视图,物化视图等,还可以细分hive表(hive_table),hbase表(hbase_table)等,甚至可以是一个数据操作行为,比如定时同步从一张表同步到另外一张表这个也可以描述为一个元数据类型,atlas自带了很多类型,但是可以通过调用api自定义类型Classification分类,通俗点就是给元数据打标签,分类是可以传递的,比如user_view这个视图是基于user这个表生成的,那么如果user打上了HR这个标签,