weixin_43866709
码龄6年
关注
提问 私信
  • 博客:349,166
    349,166
    总访问量
  • 111
    原创
  • 1,616,256
    排名
  • 115
    粉丝
  • 0
    铁粉

个人简介:The best or nothing

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-11-29
博客简介:

weixin_43866709的博客

查看详细资料
个人成就
  • 获得238次点赞
  • 内容获得80次评论
  • 获得1,077次收藏
  • 代码片获得548次分享
创作历程
  • 6篇
    2023年
  • 112篇
    2019年
成就勋章
TA的专栏
  • Git
    1篇
  • shell
    4篇
  • sqoop
    1篇
  • Linux
    9篇
  • Hadoop
    9篇
  • Scala
    14篇
  • IDEA
    9篇
  • spark
    47篇
  • 正则表达式
    3篇
  • python爬虫
    2篇
  • python
    2篇
  • 算法
    2篇
  • Java
    2篇
  • MySQL
    3篇
  • Kafka
    6篇
  • Redis
  • spark共享单车项目
    10篇
  • Nginx
    4篇
  • flume
    3篇
  • hive
    2篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

182人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

解决Linux报错:error opening terminal :xterm或者xterm: unknown terminal type

服务器重新设置之后,使用vim操作文件或者使用nano操作文件时出现问题,具体报错为:error opening terminal :xterm或者xterm: unknown terminal type
原创
发布博客 2023.04.19 ·
3054 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

IDEA中使用Git提交代码(包括合并分支)

在IDEA中使用git提交代码到远程仓库,整体可分为如下几个步骤:前提:注册有GitHub或者gitee账号;本地安装有git。1.创建远程仓库(github或者gitee);2.创建本地仓库并提交代码到本地仓库;3.提交代码到远程仓库。
原创
发布博客 2023.04.15 ·
17358 阅读 ·
26 点赞 ·
3 评论 ·
145 收藏

spark3.0版本中sparkSQL自定义聚合函数(UDAF)

spark3.0版本可以继承Aggregator> 1.继承import org.apache.spark.sql.expressions.Aggregator,定义泛型> IN:输入的数据类型> BUF:缓冲区的数据类型> OUT:输出的数据类型> 2.重写方法> 3.注册自定义聚合函数> spark.udf.register("函数名称",functions.udaf(new MyAgeAvg()))
原创
发布博客 2023.03.25 ·
867 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Spark中cache、persist、checkpoint区别

spark中的cache、persist、checkpoint都可以将RDD保存起来,进行持久化操作,供后面重用或者容错处理。但是三者有所不同。
原创
发布博客 2023.03.22 ·
518 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark中groupByKey和reduceByKey的区别

在spark中,groupByKey和reduceByKey都有按照相同的key进行分组的功能,但reduceByKey自带了一个聚合的功能。两者在性能上也有差异。
原创
发布博客 2023.03.21 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark中distinct函数去重原理

spark中的distinct函数去重方式
原创
发布博客 2023.03.21 ·
972 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在脚本中取出hive表的字段名

现在要写一个脚本,拿到hive表的字段名,并使用逗号分隔可以使用hive -e "SET hive.cli.print.header=true;select * from yewu.data1 limit 0;" | sed -e "s/\t/,/g;s/data\.//g" | grep -v "WARN" > fileds.csv使用这种方法,拿下来的字段名前面都会带有一个表名....
原创
发布博客 2019.12.16 ·
2888 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

使用AWK按照符号截取字符串

现在要写一个脚本,传入一个表名,格式为库名.表名,例如:yewu.data1现在要取出data1可以使用命令:table_name=$(echo "yewu.data1" | awk -F '.' '{print $2}')
原创
发布博客 2019.12.16 ·
1282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell脚本按要求拆分文件,并按照指定格式命名

写一个shell脚本,按照每200000行对一个文件进行拆分,拆分之后命名为原始文件_01.csv,原始文件_02.csv假设原始文件名是data.txt处理后的结果为:data_01.csv,data_02.csv…一开始我使用的是split对文件进行拆分:split -l 200000 data.txt -d -a 2 data_然后再匹配出所有的结果文件,将其命名为.csv文件。...
原创
发布博客 2019.12.16 ·
2197 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

sqoop将Oracle数据接入到hive中中文乱码问题

今天使用sqoop从Oracle中接入数据,有一个字段中文乱码,跟Oracle那边确认是UTF8格式编码。于是开始进行转码:1.convert(字段名,'ZHS16GBK','UTF8')问题解决了。2.其他编码格式还有US7ASCII...
原创
发布博客 2019.12.16 ·
1102 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Linux三剑客之sed常用命令

1.在一个文件的首行添加内容例如:现有一个test.csv文件,要在首行添加上hello world:sed -i "1i\hello world" test.csv**注意:**如果要将一个变量添加到文件行首,需要将变量用单引号引着a="hello world"sed -i "1i\'${a}'" test.csv...
原创
发布博客 2019.11.05 ·
292 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

正则表达式匹配json格式的字符串

最近在使用Python2爬取网页,获取的是json格式的字符串。内容如下:{“message”:"",“content”:{“total”:351027,“datas”:[{“total”:338513,“name”:“字段”,“path”:“org”},{“total”:12514,“name”:“表”,“path”:“org”}]},“state”:“1”}现在我要取出所有tot...
原创
发布博客 2019.10.24 ·
13393 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

centos最小化安装

CentOS 7的安装其实很简单,主要是网络配置。 选英文、设置时区等 最小化安装 先启动一个网络Begin 吧在安装的时候设置好root密码。很简单  别去点安装tools。等待安装完成后,点击reboot  登陆,username用root密码就是刚才我们设置的密码 ...
原创
发布博客 2019.09.25 ·
219 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

selenium解决由于浏览器支持不好而导致的元素无法定位的问题

最近在做一个selenium的测试,对网页进行爬取,遇到了很多问题。下面来总结一下。我在测试的时候,明明通过xpath或者css匹配到了元素,但是就是无法进行点击。研究了之后,发现是浏览器的支持性不太好导致的。首先,当出现这个问题的时候,我们要学会排除可能导致出错的原因,第一点就是可能是frame导致的,当你发现前端代码出现iframe标签时,要想定位里面的元素,必须进行表单切换。切换的方法...
原创
发布博客 2019.09.24 ·
994 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Linux中统计一个文件中文本的行数

第一种方法:sed -n '$=' 文件名-n抑制输出, $到最后一行,=打印行号。第二种方法:cat 文件名 | wc -l等同于wc -l 文件名
原创
发布博客 2019.08.21 ·
2195 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

常用正则表达式

下面所有例子均是在菜鸟教程上看到的,觉得很常用,在此记录一下。菜鸟教程链接:https://c.runoob.com/front-end/854**一、校验数字的表达式**1.数字:^[0-9]*$2.n位的数字:^\d{n}$3.至少n位的数字:^\d{n,}$4.m-n位的数字:^\d{m,n}$5.零和非零开头的数字:^(0|[1-9][0-9]*)$6.非零开头的最多带两位...
原创
发布博客 2019.08.21 ·
2804 阅读 ·
1 点赞 ·
0 评论 ·
13 收藏

Windows下为pip配置国内源

在用Python做开发的时候经常需要安装第三方库,那么经常用到的就是pip这个工具。但是pip在下载过程中用的是pythonhosted.cn这个域名,下载速度会非常慢。不过可以通过修改下载源路径加快下载速度。pip的配置文件在%APPDATA%/pip目录下,配置文件的名称为pip.ini。第一步:按下win+R键,或者在开始菜单上点击右键->运行。然后在弹出窗口中输入%APPDATA...
原创
发布博客 2019.08.20 ·
1910 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

hive窗口函数(over)详解

hive窗口函数:一.函数说明:OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化CURRENT ROW:当前行n PRECEDING:往前n行数据n FOLLOWING:往后n行数据UNBOUNDED:起点,UNBOUNDED PRECEDING表示从前面的起点,UNBOUNDED FOLLOWING表示到后面的终点LAG(col,n)往前第n行数...
原创
发布博客 2019.08.01 ·
4188 阅读 ·
5 点赞 ·
1 评论 ·
18 收藏

hadoop中的Yarn和spark的StandAlone调度模式的对比

YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算...
原创
发布博客 2019.05.28 ·
513 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

flume数据采集架构

在日常生产环境中,如果想要做数据采集基本上都要用到flume,现在就记录一下flume在整个项目中的架构。先简单说一下这个项目,从微信小程序中记录用户数据,项目后台程序使用springBoot编写,部署在服务器上,使用Nginx实现负载均衡,然后要计算实时指标和离线指标。Nginx服务器中产生的数据直接写入到kafka集群中,用于sparkStreaming进行实时指标的计算,这时Nginx服...
原创
发布博客 2019.05.14 ·
809 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多