xiaolin_xinji
码龄6年
关注
提问 私信
  • 博客:148,097
    148,097
    总访问量
  • 79
    原创
  • 1,041,439
    排名
  • 23
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-12-17
博客简介:

xinji

查看详细资料
个人成就
  • 获得49次点赞
  • 内容获得30次评论
  • 获得242次收藏
  • 代码片获得251次分享
创作历程
  • 5篇
    2022年
  • 19篇
    2021年
  • 34篇
    2020年
  • 30篇
    2019年
成就勋章
TA的专栏
  • Hudi
    2篇
  • Maxwell
    3篇
  • Flink
    14篇
  • Kafka
    1篇
  • Flume
    2篇
  • MySql
    5篇
  • Spark
    25篇
  • Hive
    12篇
  • ElasticSearch
    6篇
  • BUG
    14篇
  • SparkML
    1篇
  • 算法
    5篇
  • Atlas
    2篇
  • Pgsql
    2篇
  • PRESTO
    1篇
  • Hbase
    3篇
  • Zeppelin
    1篇
  • Zookeeper
    1篇
  • TOOLS
    1篇
  • Hadoop
    10篇
  • Linux
    4篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink小知识--任务调度slot的配置 slotSharingGroup

flink通过调整默认行为以及控制作业链与作业分配(处理槽共享组)来提高应用的性能
转载
发布博客 2022.07.15 ·
3765 阅读 ·
1 点赞 ·
2 评论 ·
5 收藏

ES--top_hits的简单使用获取最早进 最晚出的数据

需求:业务 需要知道工人打卡记录最早进 与 最早出 一天记录原始信息,现通过 top_hits来实现如下:GET /hw-attendance-2022-3month/_search{ "query": { "bool": { "filter": [ { "range": { "record_time": { "gte": "2022-03-07T00:00:00", .
原创
发布博客 2022.04.12 ·
2158 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

ES--top_hits的简单使用获取最早进 最晚出的数据

需求:业务 需要知道工人打卡记录最早进 与 最早出 一天记录原始信息,现通过 top_hits来实现如下:GET /hw-attendance-2022-3month/_search{ "query": { "bool": { "filter": [ { "range": { "record_time": { "gte": "2022-03-07T00:00:00", .
原创
发布博客 2022.04.12 ·
961 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink-bug:org.apache.flink.table.api.TableException: uv is not found in visitTime, EXPR$0

代码块 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tEnv = StreamTableEnvironment.create(env); DataStreamSource<PageVisit> input = env.fromElements( new P
原创
发布博客 2022.03.04 ·
1744 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink写数据到 hudi中,hive读取

flink hive on hudi 手动创建表文档 : https://www.yuque.com/docs/share/879349ce-7de4-4284-9126-9c2a3c93a91d?#%20%E3%80%8AHive%20On%20Hudi%E3%80%8B在 /data/app/hive/auxlib 目录放入hudi jar–>hudi-hadoop-mr-bundle-0.10.0.jar或者 修改配置项 hive-site.xmlhive.default.aux.j
原创
发布博客 2022.02.17 ·
4381 阅读 ·
2 点赞 ·
11 评论 ·
15 收藏

Flink小知识: Window详解

官方文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/datastream/operators/windows/1、什么是WindowFlink 底层引擎是一个流式引擎,认为 Batch 是 Streaming 的一个特例,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Window窗口就在一个无界流中设置起始位置和终止位置,让无界流变成有
原创
发布博客 2021.07.29 ·
268 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink小知识--State Processor API的简单讲解(2) State的Writer

在上一章节中,我简单介绍了State 的读取操作Flink小知识–State Processor API的简单讲解(1) State的读取本章节将重点简述下 state 的写以及修改,主要以 Keyed State为例https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/libs/state_processor_api/1. Writing New Savepoints基于上一期的key state 案例,本期生成的st
原创
发布博客 2021.07.13 ·
279 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ES--cardinality(统计去重) top_hits(内容去重) 的简单使用

统计去重 cardinality## 对时间范围内sn 考勤的人员 身份证去重GET /hw-attendance-aliases/_search{ "query": { "bool": { "must": [ { "terms": { "sn.keyword": ["5043517855901153563I","5043517855901153563O"] } }, .
原创
发布博客 2021.07.06 ·
6293 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

Flink小知识--State Processor API的简单讲解(1) State的读取

value_count: 计数cardinality: 去重计数avg: 平均值sum: 求和max: 最大值min: 最小值percentiles: 百分比top_hits: 简单来说就是聚合分组后从每一个组取部分数据作为结果返回统计去重 cardinality## 对时间范围内sn 考勤的人员 身份证去重GET /hw-attendance-aliases/_search{ "query": { "bool": { "must": [
原创
发布博客 2021.07.07 ·
762 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hudi0.9--初步使用

1. 编译官方网址: https://hudi.apache.org/docs/spark_quick-start-guide.html编译指导: https://github.com/apache/hudi#building-apache-hudi-from-source环境准备Unix-like system (like Linux, Mac OS X)Java 8 (Java 9 or 10 may work)GitMaven下载源码# Checkout code and bui
原创
发布博客 2021.07.02 ·
785 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ES--curl的一些操作命令

创建索引--7.x curl -XPUT 'localhost:9205/st_workerattendance_ds' -d '{ "settings": { "refresh_interval" : "60s", "number_of_shards": 1, "number_of_replicas": 1 }, "mappings" : { "doc": { "properties" : { "@version" : { "ty.
原创
发布博客 2021.06.25 ·
380 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SparkML机器学习(一) TF-IDF的提取

package com.xiaolin.ML.start_studyimport java.utilimport com.xiaolin.RecommenderProgram.util.IKAnalyzerimport org.apache.lucene.analysis.TokenStreamimport org.apache.spark.ml.feature.{CountVectorizer, HashingTF, IDF, Tokenizer}import org.apache.spar
原创
发布博客 2021.05.23 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

小记--bug:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)V

在使用新版本的hadoop3.2.2时,启动spark sql 发现以下报错Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism(Ljava/lang/String;)V at org.apache.hadoop.security.HadoopKerberosName.setConfiguration(HadoopKerb
原创
发布博客 2021.05.13 ·
1404 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

liunx 线上排查 常用命令

内存瓶颈freefree 是查看内存使用情况,包括物理内存、交换内存(swap)和内核缓冲区内存。free -h -s 3 表示每隔三秒输出一次内存情况,命令如下[root@hadoop001 ~]$ free total used free shared buff/cache availableMem: 119623656 43052220 45611364 4313760 30960
转载
发布博客 2021.03.24 ·
586 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Flink小知识: KeyState的Rescale与 Key Group

本文先介绍Flink状态的理念,再经由状态——主要是Keyed State——的缩放(rescale)引出KeyGroup的细节。 再认识Flink状态 自从开始写关于Flink的东西以来,“状态”这个词被提过不下百次,却从来没有统一的定义。Flink官方博客中给出的一种定义如下: When it comes to stateful stream processing, state comprises of the information that an application or stre.
转载
发布博客 2021.03.19 ·
524 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pgsql存储过程--异常的捕获

在日常需求开发中,有时候会用到存储过程来预处理小量的数据集, 在此 需要记录存储过程的调度时长,是否正常执行 预警等案例CREATE OR REPLACE FUNCTION "public"."project_statistics_copy1"() RETURNS "pg_catalog"."void" AS $BODY$ -- Routine body goes here... -- 声明游标DECLARE start_time varchar :=now();err_message
原创
发布博客 2021.03.11 ·
3810 阅读 ·
6 点赞 ·
1 评论 ·
8 收藏

demo-flink1.11.2实现数据写入hive

环境准备1. hadoop 集群的开启,hive metastore 服务开启2. flink-conf.yaml, sql-client-defaults.yaml 配置 注意: 必须开启checkpoint ,flink 才可提交分区操作3. flink 集群的开启 启动:yarn-session.sh -n 3 -s 3 -nm flink-session -d 关闭:yarn application -kill applicationId4. KafKa集群开启.
原创
发布博客 2021.03.10 ·
808 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

LeetCode_36: 有效的数独

** * @program: spark-scala001 leetcode 36 * @description: 判断一个 9x9 的数独是否有效。只需要根据以下规则,验证已经填入的数字是否有效即可。 * * 数字 1-9 在每一行只能出现一次。 * 数字 1-9 在每一列只能出现一次。 * 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。 * [ * ["5","3",".",".","7",".",".",".","."], * ["6",".",".","1
原创
发布博客 2021.03.03 ·
143 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

LeetCode_146: LRUs 算法

LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰最近最少使用的数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”import java.util.LinkedHashMap;import java.util.Map;/** * @program: LeetCode_146 * @description: LRUs 算法 * LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行
原创
发布博客 2021.03.03 ·
324 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Apache Atlas2.1.0 集成Hive元数据管理

Atlas里的相关概念Type元数据类型定义,这里可以是表,列,视图,物化视图等,还可以细分hive表(hive_table),hbase表(hbase_table)等,甚至可以是一个数据操作行为,比如定时同步从一张表同步到另外一张表这个也可以描述为一个元数据类型,atlas自带了很多类型,但是可以通过调用api自定义类型Classification分类,通俗点就是给元数据打标签,分类是可以传递的,比如user_view这个视图是基于user这个表生成的,那么如果user打上了HR这个标签,
原创
发布博客 2021.02.26 ·
1172 阅读 ·
0 点赞 ·
3 评论 ·
3 收藏
加载更多