zx_love
码龄11年
关注
提问 私信
  • 博客:244,476
    244,476
    总访问量
  • 78
    原创
  • 2,158,948
    排名
  • 31
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2013-09-22
博客简介:

zxlove

博客描述:
消失de恋人
查看详细资料
个人成就
  • 获得45次点赞
  • 内容获得9次评论
  • 获得174次收藏
创作历程
  • 4篇
    2020年
  • 9篇
    2019年
  • 8篇
    2018年
  • 2篇
    2017年
  • 14篇
    2016年
  • 1篇
    2015年
  • 43篇
    2014年
  • 3篇
    2013年
成就勋章
TA的专栏
  • 大数据
    16篇
  • Java
    10篇
  • HIVE
    5篇
  • python
    1篇
  • 数据库
    4篇
  • 贪心
    5篇
  • ACM
    36篇
  • 动态规划
    3篇
  • 并查集
    10篇
  • 最小生成树
    2篇
  • 模拟
    1篇
  • 数位DP
    5篇
  • 线段树
    5篇
  • 母函数
    7篇
  • 游戏设计
    1篇
  • BFS
兴趣领域 设置
  • 大数据
    mysqlhadoophivesparkflinketl
  • 前端
    vue.js
  • 后端
    springnode.js架构
  • 人工智能
    tensorflownlp回归
  • 搜索
    elasticsearch
  • 运维
    devops自动化网络
  • 服务器
    linuxcentos
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

CentOS7下安装Redash

CentOS7下安装Redash安装docker-ce docker-compose1、安装docker-ce首先删除较旧版本的docker(如果有):yum remove docker docker-common docker-selinux docker-engine-selinux docker-engine docker-ce下一步安装需要的软件包:yum install -y yum-utils device-mapper-persistent-data lvm2..
转载
发布博客 2020.08.20 ·
939 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SQL查询,分组取top n

SQL查询,分组取top n关系型数据库 mysql:1、自身join,having count(1) > n2、嵌套查询,where n < (select count(1) from table where xx=xx)分布式 hive sql:使用开窗函数row_number() over (partition by xx order by xxx)select *from( select *, row_number() over (parti...
原创
发布博客 2020.08.20 ·
1433 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop与Spark并行度设置问题(mr、spark任务提交参数的设置、spark-submit参数调优)

并行度的影响合理的并行度,不能太小也不要过大。并行度较小:并发度小,执行效率低;(失去分布式计算的意义)并行度过大:资源申请上的劣势。导致ApplicationMaster在向yarn提交资源申请时不能做到数据本地化(分配执行任务的机器不是数据所在机器,yarn resourcemanager在分配资源时选择 数据本地、同机架、集群随机三种方式,优先级从前到后),甚至由于集群剩余资源不足而处于排队等待状态,申请资源时间成为整个任务执行时间的瓶颈;每个task的初始化时间拖了任务执行时间的后腿(一
原创
发布博客 2020.07.02 ·
1635 阅读 ·
0 点赞 ·
2 评论 ·
4 收藏

通俗易懂的Hive知识分享

hive sql通过hive cli或者hive server2(jdbc链接)hive cli:hive -e “your sql” 执行sql并退出hive -S -e “your sql” 静默模式,返回结果省去执行耗时、结果行数等信息hive -f /xx/your_sql.hql 执行指定文件中的sql(进入hive shell模式时,可以使用source指定sql文件)hive外部表与管理表(内部表)管理表 —— hive控制着数据的生命周期(删除表时,数据会被删除),数据存储在默
原创
发布博客 2020.06.28 ·
686 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink大数据计算框架

本文从flink基本概念、flink的特点有点开始介绍,并详细介绍了flink save point的应用,以及flink提交参数的设置及其含义。。。
原创
发布博客 2019.09.02 ·
838 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hadoop数据存储orc与parquet格式的选择

对于orc与parquet这两种列式存储格式,网上能找到大量的介绍以及对比,此处简单总结一下:orc VS parquet: orc存储压缩率比parquet要高; 一般来说,orc读取效率比parquet要高; parquet支持嵌套数据格式,orc原生不支持嵌套数据类型(但可通过复杂数据类型如map<k,v>间接实现,此处情况即对应第二条中的“特例”,...
原创
发布博客 2019.09.01 ·
4357 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

【Spark】重分区

重分区的两种方式(coalesce与reparation):dataset(spark2.0以上,dataset/dataframe):coalesce(shuffle=false);reparation(shuffle=true,且可按column进行分区);rdd:coalesce(默认shuffle=false,可传参数,开启shuffle);reparation(shuffle=t...
原创
发布博客 2019.08.31 ·
2412 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Auto email使用文档

欢迎使用Auto emailAuto email是一个 使用Java 实现的自动化读取MySQL数据表单发送电子邮件的工具。他可以帮你实现由MySQL数据库中数据生成邮件报表、excel附件以及各类图表。。。
原创
发布博客 2019.08.11 ·
4382 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Flink实时写入MongoDB

通过flink的RichSinkFunction,实现连接MongoDB,实时写入数据(也可以自定义一个类继承RichSinkFunction)此处需注意,由于RichSinkFunction是序列化对象,此时可以使用@transient (private) lazy来表示不需序列化,否则可能会报异常。(其中@trainsient可以避免overhead,lazy可以第一次被调用时正确地初始...
原创
发布博客 2019.08.06 ·
9085 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

Flink数据写入Elastic Search

需要注意的是,flink连接es时,端口号需要使用tcp端口(一般es默认http端口为9200,tcp端口为9300)。代码如下: //es配置 val config = new java.util.HashMap[String, String] config.put("bulk.flush.max.actions", "1") config.put("c...
原创
发布博客 2019.08.06 ·
1151 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Flink连接Zookeeper消费Kafka数据

废话不多说,直接上代码片段,示例代码(scala版本): val env = StreamExecutionEnvironment.getExecutionEnvironment // kafka 配置 val ZOOKEEPER_HOST = "host:prot" val KAFKA_BROKERS = "host:port" val TRANSAC...
原创
发布博客 2019.08.06 ·
2524 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

SpringData连接ElasticSearch

https://docs.spring.io/spring-data/elasticsearch/docs/3.1.0.RELEASE/reference/html/#repositories.query-methods.details
转载
发布博客 2019.07.09 ·
1002 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据仓库设计与实现入门(一、ODS/DW/BN简介)

一、从数据流的逻辑上来讲,数据可以分为ODS层(原始日志数据),DW层(数据仓库),BN(统计结果数据)Spark/SparkStreaming任务加载原始日志(离线处理flume落地到hadoop集群的hdfs或实时消费kafka数据)提取业务最原始数据,根据业务逻辑生成ODS层数据(分类/分流后的原始日志);再根据业务场景进一步将业务ODS层数据划分到DW层(处理后的数据模型);最后跟...
原创
发布博客 2019.04.02 ·
3167 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

Hive表更名问题——RENAME TABLE

RENAME TABLEALTER TABLE table_name RENAME TO new_table_name这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之,老的表名并未“释放”,对老表的更改会改变新表的数据?不,数据所在的位置会移动到hive表默认路径下。如果建表是指定路径LOCATION,那么重名之后,路径会变更。...
原创
发布博客 2018.11.07 ·
30089 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

linux中grep命令的用法

转自:https://www.cnblogs.com/flyor/p/6411140.html作为linux中最为常用的三大文本(awk,sed,grep)处理工具之一,掌握好其用法是很有必要的。首先谈一下grep命令的常用格式为:grep  [选项]  ”模式“  [文件]grep家族总共有三个:grep,egrep,fgrep。常用选项:  -E :开启扩展(Extend)...
转载
发布博客 2018.10.18 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

EasyConnect

发布资源 2018.08.16 ·
7z

Spark离线计算优化——leftOuterJoin优化

两个k-v格式的RDD进行leftOuterJoin操作如果数据量较大复杂度较高的话计算可能会消耗大量时间。可以通过两种方式进行优化:1、leftOuterJoin操作前,两个RDD自身进行reduceByKey操作(保证key唯一);2、两个RDD先map成结果k-v格式,再将两个RDD进行reduceByKey操作(避免使用leftOuterJoin操作),示例:RDD1:(a, a1)RDD...
原创
发布博客 2018.06.06 ·
3513 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark离线计算优化——增量小数据集更新全量大数据集

有两个k-v格式的RDD需要union之后再进行reduceByKey操作(如:要将每日增量几十万的数据更新到全量几亿的数据)优化方案:先将两个RDD公共部分提取出来,然后将公共部分先union再进行reduceByKey,最后将结果和前面没有交集的RDD相加(union)具体做法:将较小的RDD1的key放入set并广播broadcast,然后将大的RDD2过滤filter出含该key较...
原创
发布博客 2018.06.06 ·
3867 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Hive SQL查询结果写入指定hdfs路径

将hive查询结果写入指定hdfs路径下:set mapred.reduce.tasks = 1;insert overwrite directory '/xx/xx/'ROW FORMAT DELIMITED FIELDS TERMINATED BY '~'select cols...from tableNamewhere conditions...distribute by ran...
原创
发布博客 2018.06.06 ·
10707 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

数据库连接池中的maxIdle,MaxActive,maxWait参数

参考 原文链接1 原文链接2name:表示你的连接池的名称也就是你要访问连接池的地址auth:是连接池管理权属性,Container表示容器管理type:是对象的类型driverClassName:是数据库驱动的名称url:是数据库的地址username:是登陆数据库的用户名password:是登陆数据库的密码maxIdle,最大空闲数,始终保留在池中的最大连接数,如果启用,将定期检查限制连接,超...
转载
发布博客 2018.05.23 ·
18778 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏
加载更多