- 博客(12)
- 收藏
- 关注
原创 【您请这里看】
本人算不上个人能力突出,只能说有耕耘,也有收获。求职简历中放个人主页的链接单纯是因为简历中的只言片语表达不了全部,这里也代表不了全部,权当是简历中部分内容的详细介绍吧。无意献丑,只是很珍惜每一个机会。
2023-05-31 12:46:20 119
原创 【城市二手房分析】
在众多种类的数据分析中,与我们个人生活相关的更让人关注。而二手房市场则是一部分人非常关心的,我们可以尝试获取市面上二手房销售数据以进行分析,在分析的过程中我们将对某个城市的二手房市场或某个城市的房价有更深入的了解与认识。这里仅有一点需要注意,爬虫往往会受限,所以我们可以尝试一个区一个区的去爬取,爬取的数据分别保存到不同的csv文件中,最终将爬取的各个区的csv文件进行汇总。实话实说,有一说一,每个人对数据对于数据分析的需求是不尽相同的,但是,往往由于数据源的数据限制,可数据分析的内容是比较有限的。
2023-12-28 13:20:27 874 1
原创 千亿数仓项目--离线部分杂记
网站采用商家入驻的模式,商家入驻平台提交申请,由平台进行资质审核;审核通过后,商家拥有独立的管理后台录入商品信息,商品经过平台审核后即可发布。网站前台运营商后台商家管理后台kettle缓慢变化维(拉链表):时间维度,脚本生成,时间维度生成之后不会变化。SCD问题我们使用拉链表来解决。Hivekettle:导出数据的工具Spark SQL:计算引擎kylin:计算引擎,进行预计算之后的多维度统计分析可以达到压秒级别。
2023-05-31 12:51:03 361
原创 【Spark程序在某个stage的最后一个Task卡住--Duration一直增长】
我透泥🐎,先有鸡还是先有蛋呢,你想这个问题能想到你死。不多bb,在我这篇帖子,我只说一种办法,把你正在跑的数据量减少一半(总之就是通过减少数据量来验证是不是内存不足导致Task卡死),然后重新跑Spark任务,成功就是硬件的问题(机器内存不够);如果不成功那你还是成仁吧。
2023-03-19 18:51:19 631
原创 集群模式下执行HQL提示`Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask`
回忆录
2023-02-12 17:12:01 647
原创 kettle全量抽取---抽取MySQL数据到HDFS
kettle全量抽取:利用kettle实现从MySQL抽取数据到HDFS的hive分区中,并修复hive的分区
2023-02-12 15:27:49 339
原创 2021-08-11
招聘网站数据采集采集方式:网络爬虫使用工具:Pycharm(Python版本3.0+)目标采集网站:猎聘网浏览器:谷歌/火狐采集思路梳理本人笨比一枚,有幸看了B站某up主的视频学了一些皮毛。爬虫的大概思想就是通过模仿真实的服务器访问特定的网页URL,获取网页源代码,解析源代码中对我们有用的标签信息,最终将数据保存在本地。第一步,模拟浏览器头信息,访问目标URL 我理解的这一步,就是伪装我们是浏览器访问URL,使得网站认为我们是真实的浏览器访 问。告诉猎聘服务器,我们是什么样的机器
2021-08-11 18:11:34 243
原创 2021-03-04
使用 bin/stop-hbase.sh关闭hbase,显示stopping hbasecat: /tmp/hbase-rose-master.pid: 没有那个文件或目录本人学习背景:在三台机器的hadoop和zookeeper集群上搭hbase,用户名是rose机器的主机名分别是Hadoop303,Hadoop304,Hadoop305 我在Hadoop303上启动了master和regionserver,在Hadoop304上启动了regionserver.然后决定在Had....
2021-03-04 16:28:32 463 1
转载 非让写标题,烦死惹
英雄联盟真特么好玩前情概要:本人之前启动hive的方式为bin/hive(在hive的目录下执行)。今天执行了同样的命令后报了以下的问题:[rose@Hadoop303 hive]$ bin/hiveMissing Hive Execution Jar: /opt.nodule/hive/lib/hive-exec-*.jar在此之前我并没有在/etc/profile中配置hive的系统环境变量,但同样可以正常使用1.直接上别人的解决办法:在/etc/profile下添加hive的环境变量(
2021-01-18 18:32:29 115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人