xiaoxiao______
码龄5年
关注
提问 私信
  • 博客:28,811
    28,811
    总访问量
  • 65
    原创
  • 2,315,685
    排名
  • 1,178
    粉丝
  • 5
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-07-05
博客简介:

xiaoxiao______的博客

查看详细资料
个人成就
  • 获得20次点赞
  • 内容获得7次评论
  • 获得57次收藏
创作历程
  • 1篇
    2023年
  • 5篇
    2021年
  • 63篇
    2020年
成就勋章
TA的专栏
  • nginx
    1篇
  • hadoop
    9篇
  • hbase
    4篇
  • Scala
    2篇
  • 面试题
    6篇
  • Spark
    15篇
  • kafka
    4篇
  • redis
    1篇
  • worker
    2篇
  • hive
    6篇
  • shell
  • impala
    1篇
  • Mysql练习
  • shell练习题
  • Cosmos
    1篇
  • 面试项目总结
  • idea设置
  • 行为日志实时分析平台项目
  • 数据采集项目
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

踩坑解决macOS Ventura13.0.1安装mysql8.0.32修改密码

macOS Ventura13.0.1使用 brewhome 安装mysql8.0.32,安装好之后是没有密码的,需要进入mysql进行密码修改,这是固定步骤了。但是这次安装之后,进去按照之前的修改方法,竟然报语法错误。(已经修改密码策略!查了好久,在stack overflow上找到了外国友人的解决方法,是因为不知道啥时候 password()不能用了,需要改成caching_sha2_password。按道理就是这样的方式啊。
原创
发布博客 2023.04.19 ·
334 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

国内maven仓库

<!-- 阿里云中央仓库 159行 --> <mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/repositories/central/</u
原创
发布博客 2021.09.27 ·
223 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

impala查询报错:TFetchResultsResp(status=TStatus(errorCode=None, errorMessage=‘UDF ERROR: Decimal express

在使用impala查询的时候,在使用cast函数将数据转为decimal类型时,会报错:Bad status for request TFetchResultsReq(fetchType=0, operationHandle=TOperationHandle(hasResultSet=True, modifiedRowCount=None, operationType=0, operationId=THandleIdentifier(secret='\xc8\xc1j\xfe\xd6.B\xa2\x9e\
原创
发布博客 2021.09.26 ·
1917 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

sparkStreaming报错Failed to send RPC 6254780973500208805 to /10.11.10.10:48838: java.nio.channels.Clos

sparkStreaming报错Failed to send RPC 6254780973500208805 to /10.11.10.10:48838: java.nio.channels.ClosedChannelException21/04/09 06:33:44 ERROR client.TransportClient: Failed to send RPC 6254780973500208805 to /10.11.10.10:48838: java.nio.channels.ClosedCha
原创
发布博客 2021.04.09 ·
495 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

一些hql

ODS层加载数据脚本#!/bin/bashAPP=gmallhive=/opt/module/hive/bin/hive# 如果是输入的日期按照取输入日期;如果没输入日期取当前时间的前一天if [ -n "$2" ] ;then do_date=$2else do_date=`date -d "-1 day" +%F`fisql1=" load data inpath '/origin_data/$APP/db/order_info/$do_date' OVERWR
原创
发布博客 2021.03.11 ·
132 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Cosmos简介及结合spark使用

从Cosmos批量读取数据到Spark// Import Necessary Librariesimport com.microsoft.azure.cosmosdb.spark.schema._import com.microsoft.azure.cosmosdb.spark._import com.microsoft.azure.cosmosdb.spark.config.Config// Read Configurationval readConfig = Config(Map( "
原创
发布博客 2021.03.08 ·
305 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据面试题 -- 05

1、hive的数据倾斜现象:在执行MR任务的时候,大多数的reduce节点都执行完毕,而只有几个reduce节点运行很慢或者一直卡在99%,导致整个MR任务运行很慢。原因:这是因为某一个或几个key的数据量要比其他key要多很多,导致这一个reduce节点运行很慢key分布不均匀sql语句本身就会倾斜业务导致建表考虑不周解决思路:1、在map阶段解决2、对key进行操作解决方法:1、使用combine方法在map端提前进行一个reduce计算,大大减少到reduce端时的数据量。但
原创
发布博客 2020.12.22 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据面试题 -- 06

1、数仓分层的作用2、每层的作用3、hive和mysql的区别Hive 和数据库除了拥有类似的查询语言,再无类似之处。1、数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2、数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3、执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4、数据规模Hive支持
原创
发布博客 2020.12.19 ·
92 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据面试题 -- 04

1、hdfs的写流程1、client调用分布式文件系统对象通过RPC协议连接namenode,调用create方法在namenode上创建一个新文件,此时文件中是没有数据的2、namenode会对client进行权限检查,和检查这个文件是否存在,如果通过检查,返回client一个输出流对象,如果没通过则返回IOExceptiion3、通过检查后,client向namenode请求上传节点,namenode根据机架感知策略返回副本数个datanode(一般为3个),client将这些节点连接起来形成一个
原创
发布博客 2020.12.17 ·
125 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

StructuredStreaming -- 01 【概述,编程模型,source,sink】

文章目录Structured Streaming1、 回顾1.1、Spark 编程模型的进化过程总结1.2、Spark 的 序列化 的进化过程1.2.1、 什么是序列化和序列化?1.2.2、 在 `Spark` 中的序列化和反序列化的应用场景1.2.3、 RDD 的序列化1.2.4、 DataFrame 和 Dataset 中的序列化总结1.3、Spark Streaming 和 Structured Streaming2、 Structured Streaming 入门案例2.1、需求梳理2.2、 代码实
原创
发布博客 2020.12.09 ·
1020 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming -- 03 【window函数,与SparkSQL的整合】

文章目录1、window函数操作1.1、 window函数的简介1.2、 常用的窗口函数1.3、 案例演示:1.3.1、1.3.2、1.3.3、2、sparkStreaming和SparkSQL的整合1、window函数操作1.1、 window函数的简介SparkStreaming提供了滑动窗口的操作。这样的话,就可以计算窗口内的n个micro-batch的数据,进行聚合.窗口有两个参数:窗口大小:指的就是有几个单位时间(time unit)的micro-batch滑动周期:类似于定时器
原创
发布博客 2020.12.08 ·
438 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming -- 02 【SparkStreaming和kafka的整合的offset的维护,常用算子】

文章目录1、SparkStreaming与kafka的整合1.1、 比较1.2、 maven依赖1.3、 案例11.4、 使用0-10的Direct方法的优点1.5 、 两种自动维护offset的说明1.5.1、 0-8的receiver如何自动维护offset的图解1.5.2 、 0-10如何自动维护offset的图解1.6、 使用zookeeper手动维护offset1.7、 使用redis手动维护offset2、SparkStreaming的常用转换算子2.1 、常用算子简介2.1.1、 常用的转换算
原创
发布博客 2020.12.07 ·
337 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Kafka+Spark Streaming管理offset的两种方法

网址
转载
发布博客 2020.12.07 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkStreaming -- 01 【概述,案例,和hdfs的整合,和kafka的整合】

1、SparkStreaming的概述1.1、什么是流式计算1、流式计算就是对数据流进行处理,是实时计算2、数据流值的是动态的数据,是不断产生的,没有边界,源源不断3、流式计算中的计算逻辑不止计算一次,是要一致循环计算的(计算不能终止,除非停止作业)流式计算又分为准实时和实时准实时:是介于实时和离线之间,每一次处理的数据要比实时的多,比离线的少很多,微批处理实时:指的是一条记录就(一个事件event)启动一次计算常见的流式计算框架storm:第一代流式处理框架,每生成一条记录就提交一次作业
原创
发布博客 2020.12.07 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka启动后过一会儿自动挂掉

meta.properties中的broker.id和server.properties中的不一致meta.properties文件位置在自己设置的server.properties中 log.dirs=。。。 的目录下我的设置路径是这个:log.dirs=/usr/local/kafka/data/kafka-logs所以meta.properties在kafka-logs下!...
原创
发布博客 2020.12.07 ·
1005 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

大数据面试题 -- 03

1、hive开启map端join的参数,以及其他优化参数map端join适合优化小表join大表的情况(写sql时将小表作为驱动表,也就是select a from b join c on b.id=c.id -->b 为小表,写左边)mapjoin优化适合小表join大表set hive.optimize.skewjoin=true; //有数据倾斜时开启负载均衡,默认falseset hive.auto.convert.join=true; //设置自动选择MapJoin,默认是
原创
发布博客 2020.12.04 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Redis -- 01 【简介,特点,搭建,shell,数据类型】

1、Redis的简介1.1、NoSqlNoSql 是Not-Only Sql的简写,泛指非关系型数据库关系型数据库不太适合存储非结构化的大数据(现在的非结构化的数据占比90%),所以提出了一个新的数据库解决方案,来存储这样的数据。NoSql的分类键值对模型的NoSQL:Tokyo、Cabinet/Tyrant、Redis、Voldemort、Berkeley DB应用场景:内容缓存,主要用于处理大量数据的高访问负载优势:快速查询劣势:存储的数据缺少结构化列式模型的NoSQL:Cassa
原创
发布博客 2020.12.03 ·
151 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据面试题 -- 01

1、讲一下数仓吧。数仓是一个面向主题的,集成的,相对稳定的,反映历史变化的一个数据仓库,主要用于支持管理决策。面向主题:数仓中的数据是按照主题进行存储的,每一个主题都是决策层分析的一个角度。集成的:不管什么来源的数据都会统一放到数仓中。并且格式,单位,名称等要统一。相对稳定:数据一旦进入数仓中一般不会轻易改变。就算改变也不改变原数据,只是会根据需求重新考虑数据的更新策略。反映历史变化的:时间维度是数仓中很重要的一个维度,数仓中的数据时间跨度会很大,可能有几年到十几年,能反映历史变化。2、数仓分层
原创
发布博客 2020.12.02 ·
445 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

大数据面试题 -- 02

1、kafka出现消息堆积怎么办?1、最简单的原因:消费者太少,增加消费者来解决2、还有一个原因就是消费者每次poll的数据业务处理时间不能超过kafka的max.poll.interval.ms,该参数在kafka 0.10.2.1 中的默认值是300s,所以要综合业务数据来设置每次poll的数据量。2、kafka如何实现高吞吐?顺序读写在硬盘中采用顺序读写的方式,性能损耗不大零拷贝“零拷贝技术”只用将磁盘文件的数据复制到页面缓存中一次,然后将数据从页面缓存直接发送到网络中(发送给不同的订阅
原创
发布博客 2020.12.02 ·
122 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka -- 03 【主题,生产者,消费者(java/scala)的实现,自定义分区器】

文章目录1、API创建主题1.1、java实现1.2、scala实现2、API创建生产者2.1、java实现2.2、scala实现3、API创建消费者3.1、java实现3.2、scala实现4、自定义分区器4.1、随机分区器4.2、Hash分区器4.3、轮询分区器1、API创建主题1.1、java实现package KafkaDay02;import kafka.utils.ZkUtils;import org.apache.kafka.clients.admin.AdminClient;i
原创
发布博客 2020.12.01 ·
146 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏
加载更多