yyoc97
码龄10年
关注
提问 私信
  • 博客:558,131
    社区:941
    559,072
    总访问量
  • 89
    原创
  • 40,147
    排名
  • 268
    粉丝
  • 学习成就

个人简介:--

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2015-01-13
博客简介:

yyoc97的专栏

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    786
    当月
    0
个人成就
  • 获得258次点赞
  • 内容获得217次评论
  • 获得827次收藏
  • 代码片获得1,362次分享
创作历程
  • 3篇
    2024年
  • 2篇
    2023年
  • 3篇
    2022年
  • 2篇
    2021年
  • 28篇
    2020年
  • 40篇
    2019年
  • 38篇
    2018年
  • 10篇
    2017年
  • 15篇
    2015年
成就勋章
TA的专栏
  • 大数据
    73篇
  • clickhouse
    16篇
  • Spark
    22篇
  • Spark源码解析
    5篇
  • flink
    7篇
  • Elasticsearch
    7篇
  • presto
    5篇
  • iceberg
    1篇
  • debezium
    1篇
  • 机器学习
    4篇
  • hbase
    4篇
  • JAVA
    9篇
  • metabase
    2篇
  • scala
    3篇
  • k8s
    1篇
  • mybatis
    3篇
  • SpringBoot
    5篇
  • Linux
    6篇
  • nginx
    1篇
  • Maven
    1篇
  • log
    2篇
  • redis
    2篇
  • 网络
    3篇
  • Mac
    1篇
  • 文件系统
    1篇
  • 数据库
    13篇
  • Kafka
    4篇
  • MQ
    1篇
  • hive
    2篇
  • python
    2篇
  • 数学
    1篇
  • SpringCloud
    1篇
  • zookeeper
    2篇
  • 算法
    1篇
  • 事务
    1篇
  • docker
    2篇
  • Druid
    2篇
  • yarn
    3篇
  • griffin
    1篇
  • 运维
    5篇
兴趣领域 设置
  • 大数据
    hadoophivesparkflink
  • 人工智能
    chatgpt
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

clickhouse(十五、存储优化实践)

clickhouse存储优化,多种方式测试验证
原创
发布博客 2024.06.05 ·
850 阅读 ·
17 点赞 ·
0 评论 ·
13 收藏

Flink cdc debug调试动态变更表结构

flink cdc debug动态变更表结构
原创
发布博客 2024.02.06 ·
2989 阅读 ·
22 点赞 ·
0 评论 ·
17 收藏

Flink cdc3.0动态变更表结构——源码解析

Flink cdc 动态变更表结构的源码分析
原创
发布博客 2024.02.05 ·
3699 阅读 ·
13 点赞 ·
0 评论 ·
35 收藏

Flink cdc3.0同步实例(动态变更表结构、分库分表同步)

基于 Flink CDC 3.0 同步 MySQL 到 Doris ,来体验整库同步、表结构变更同步和分库分表同步等功能。
原创
发布博客 2023.12.20 ·
11609 阅读 ·
31 点赞 ·
23 评论 ·
51 收藏

clickhouse(十四、分布式DDL阻塞及同步阻塞问题)

验证处理clickhouse 分布式ddl和同步阻塞问题
原创
发布博客 2023.08.22 ·
2110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink源码解析(一、source原理)

source/sink 是flink最核心的部分之一,通过对其实现原理的学习,结合源码debug,有助于加深对框架处理过程的理解,以及架构设计上的提升。
原创
发布博客 2022.11.27 ·
2177 阅读 ·
0 点赞 ·
1 评论 ·
6 收藏

Iceberg (一、presto和trino实践——行级更新)

Iceberg 是一种用于大型分析表的高性能格式。Iceberg 为大数据带来了 SQL 表的可靠性和简单性,文章讲述 Presto/Trino对iceberg的入门实践
原创
发布博客 2022.09.26 ·
3432 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Debezium指定binlog位置初始化异常排查修复

文章目录异常现象如何复现排查定位线索定位异常现象最近项目需要使用Debezium指定binlog位置读取数据,当配置FileDatabaseHistory 保存offset就会出现无法识别schema异常。14:52:18.237 [blc-9.135.12.10:3307] ERROR io.debezium.connector.mysql.MySqlStreamingChangeEventSource - Encountered change event 'Event{header=EventHe
原创
发布博客 2022.05.17 ·
3639 阅读 ·
1 点赞 ·
2 评论 ·
4 收藏

Apache Druid(二、架构设计)

文章目录回顾架构 整体设计进程服务作用数据流数据生产数据查询查询的优化索引服务存储设计Datasrouces and segmentssegment设计 特殊数据结构命名设计实际物理存储Segment创建过程参考回顾上一篇提供druid的安装是很早的版本了 https://blog.csdn.net/yyoc97/article/details/88411429,目前druid的安装使用会更简洁些快速入门。因为现在接触的业务有使用到这个组件,今天我们再来学习下它整体的架构。架构 整体设计这个是Dr
原创
发布博客 2021.08.21 ·
640 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

scala dataframe添加一列行号到开头

需求项目有时候需要在dataframe开头添加字段,之前也没搜到好的案例。下面就写个相对简洁的方法。实现import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.functions.{col, monotonically_increasing_id}object SparkTest4 { def main(args: Array[String]): Unit = { val sc = SparkSessio
原创
发布博客 2021.04.30 ·
1271 阅读 ·
0 点赞 ·
2 评论 ·
1 收藏

Flink 零基础实战教程:如何计算实时热门商品

原文:http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的 my-flink-project 项目框架。通过本文你将学到:如何基于 EventTime 处理,如何指定 Wate...
转载
发布博客 2018.11.14 ·
4099 阅读 ·
1 点赞 ·
7 评论 ·
20 收藏

Spark源码解析系列(二、SparkContext内部初始化)

文章目录SparkContextTaskScheduler的实现SPIscheduler.start()SparkContext上一节我们介绍了spark-sumbit方式的任务提交。讲到了SparkContext初始化这里。我们都知道sc是spark应用最为核心的对象,那么今天我们就来看看它是如何进行初始化的。我们通过new SparkContext(conf) 方法进入源码。// 它是S...
原创
发布博客 2019.02.23 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DataX导数的坑

安装按照Git Quick StartDownload 中的描述,选择直接点击DataX下载地址,然后解压执行自检脚本: python {YOUR_DATAX_HOME}/bin/datax.py {YOUR_DATAX_HOME}/job/job.json,到这为止一切都是正常的。异常于是根据reader和writer的格式配置自己的json脚本。{ "core": { "transport" : { "channel": {
原创
发布博客 2020.12.21 ·
21211 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

clickhouse(十三、JDBC引擎)

准备异常Caused by: java.sql.SQLException: No suitable driver found for jdbc:postgresql://dev-111:5432/report?user=dev&password=123456 at java.sql.DriverManager.getConnection(DriverManager.java:689) at java.sql.DriverManager.getConnection(
原创
发布博客 2020.12.18 ·
1266 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala cube聚合操作实例

前言因为内部平台spark-sql不方便调优、配置资源的因素,某些情况还是会用到scala dateframe操作数据,今天记录一些关于聚合,count distinct多个字段,重名展示的一些示例。数据准备Jack2 22 20200405Jack2 21 20200401Jack2 21 20200401Kate 22 20200406Mi2ng 20 20200406代码示例def main(args: Array[String]): Unit = { val sc = S
原创
发布博客 2020.12.08 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

scala(Row、Array、Tuple、Class、RDD、DF之间类型转换)

前言spark中因为Rdd和Dataframe的一些分装函数处理,经常会遇到类型的相关转换,今天就记录些常见的几种类型转换。Array => Rowval arr = Array("aa/2/cc/10","xx/3/nn/30","xx/3/nn/20")// val row = Row.fromSeq(arr)val row = RowFactory.create(arr)Row => Arrayval a:Array[Any] = row.toSeq.toArray有时
原创
发布博客 2020.10.25 ·
12396 阅读 ·
7 点赞 ·
0 评论 ·
42 收藏

spark数据倾斜处理实践

文章目录判断是否倾斜实践定位解决判断是否倾斜通过Spark Web UI查看运行到了哪个Stage。 主要看最慢的Stage各task里 Shuffle Write Size / Records分配的数据量,来确定是否是数据倾斜。实践定位如图stage基本在几分钟内、而这个stage运行较长时间,却只有一个task没完成了。这种情况发生倾斜的概率就很大了。我们可以点到具体的stage中看下详情。从DAG中我们可以看到有leftOuterJoin算子。所以任务必然有shuffle产生,接着继续
原创
发布博客 2020.10.21 ·
950 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

clickhouse(十二、踩坑之路)

Q1DB::Exception: Cannot create table from metadata file /data/clickhouse/metadata/default/dwd_test.sql, error: DB::Exception: The local set of parts of table default.dwd_test doesn’t look like the set of parts in ZooKeeper: 65.88 million rows of 85.04 mi.
原创
发布博客 2020.09.14 ·
22242 阅读 ·
11 点赞 ·
19 评论 ·
40 收藏

metabase常用指令

获取管理员sessioncurl -X POST -H "Content-Type: application/json" -d '{"username": "root@qq.com", "password": "root"}' http://127.0.0.1:3000/api/session{"id":"c9ad042a-9481-4547-bd77-e83321e20f26"}% 创建账号将上面获取的id填到 X-Metabase-Session 中。 分组可以不填,如果填写grou.
原创
发布博客 2020.09.08 ·
1752 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

clickhouse(十一、 实时分析优化AggregateFunction及物化视图 )

文章目录AggregateFunction物化视图原理AggregateFunctionAggregatingMergeTree就有些许数据立方体的意思,它能够在合并分区的时候,按照预先定义的条 件,聚合数据。同时,根据预先定义的聚合函数,计算数据并通过二进制的格式存入表内。将同一分组 下的多行数据,聚合成一行,既减少了数据行,又降低了后续聚合查询的开销。-- 建表语句CREATE TABLE agg_table( id String, city String, code Aggregate
原创
发布博客 2020.08.04 ·
9138 阅读 ·
4 点赞 ·
0 评论 ·
14 收藏
加载更多