自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Scala综合案例:词频统计

Scala综合案例:词频统计

2023-02-05 22:14:49 1483 1

原创 我的Bug日常:spark基于yarn运行时抛错,内存不足Required executor memory (1024 MB), offHeap memory (0) MB。问题已解决,亲测有用~~~

Exception in thread "main" java.lang.IllegalArgumentException: Required executor memory (1024 MB), offHeap memory (0) MB, overhead (384 MB), and PySpark memory (0 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.sc

2022-04-25 20:14:54 2483

原创 我的Bug日常:Connection timed out 使用secureCRT连接超时 无法连接虚拟机 本机ping不通虚拟机

我的Bug日常:Connection timed out 使用SecureCRT连接超时 无法连接虚拟机 本机ping不通虚拟机

2022-04-19 19:18:45 3584 5

原创 我的Bug日常: Could not resolve placeholder ‘jwt.expireTime‘ in value “${jwt.expireTime}“

Could not resolve placeholder 'jwt.expireTime' in value "${jwt.expireTime}"

2021-12-10 15:41:07 1439

原创 大数据离线处理数据项目(二)数据清洗 ETL 编写MapReduce程序实现数据清洗

数据清洗 ETL 编写MapReduce程序实现数据清洗简介:实现的功能:对采集到的日志数据进行清洗,过滤无效数据、静态资源方法:编写MapReduce进行处理涉及到的类:1)实体类Bean描述日志数据的各个字段:如客户端的ip、请求的url、请求状态等等...

2021-12-03 15:36:44 1310 1

原创 我的Bug日常之 Caused by: java.lang.IllegalStateException: No typehandler found for property transfer_time

我的Bug日常之 Caused by: java.lang.IllegalStateException: No typehandler found for property transfer_time 已解决!

2021-12-01 15:49:05 495 1

原创 大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理

大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理

2021-11-30 19:49:36 5888 3

原创 我的Bug日常之 该虚拟机似乎正在使用中。 如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则,请按“取消(C)”按钮以防损坏。 配置文件:xxxxx

今天打开VMware,刚点击虚拟机1想启动,然鹅......意外却出现了:错误提示:虚拟机可能在使用如果没在使用,点击“获取所有权(T)”,获取它的所有权我小心翼翼地看着这个错误信息,生怕由于我的操作不当使得我的宝贝虚拟机出了什么闪失让我“万劫不复”——可怕的重装虚拟机!!!(心中默默祈祷了千万遍)然后我变按照上面的提示去点击了第一个选项,结果:解决问题:不行!好吧,网上求助,然后找了一圈最后发现,我确实没把之前的VMware关掉,所以是两个VMw...

2021-11-30 14:35:05 202

原创 大数据的中流砥柱——HDFS hdfs及其特点 hdfs的重要功能 hdfs机制

没有hdfs,大数据就是空话 ——me(开个玩笑哈哈哈)1、hdfs入门、hdfs介绍HDFS(Hadoop Distributed File System),也叫分布式文件系统。是一个Apache Software Foundation项目,是Apache Hadoop项目的一个子项目。 Hadoop非常适合存储大型数据(比如TB级别和PB级别的数据),其原因就是它使用Hdfs作为数据的存储系统。可以通过 Apache Hadoop获取 hadoop 相关的版本。Hdfs.

2021-11-28 17:22:55 2223 3

原创 zookeeper 浅谈zookeeper及其特点 重要机制 zookeepe应用汇场景 选举机制 监听原理 zookeeper客户端操作命令 zookeeper配置参数

1、Zookeeper及其他大数据组件简介HDFS:是解决存的问题HBase:解决大表的问题,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统Hive:是包装MapReducer的功能。基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能而zookeeper没有具体的功能,它在大数据区块中的位置比较特殊,好似一个润滑油,实际上它是协调大数据其他框架/组件之间的合作的。2、Zookeeper介绍Zookeeper是一个开源的分布式

2021-11-27 22:28:34 1863 1

原创 MapReduce经典案列 wordcount经典案例的实现 MapReduce分布式计算框架

MapReduce简介:MapReduce”分而治之“的思想处处可见,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责”分“,即把复杂的任务分解为若干个”简单的任务“来处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行再Yarn集群上(资源调度的平台)经典案列:wordcount1、分析数据准备:先启动hadoop:start-dfs.sh..

2021-11-26 21:12:55 599 2

原创 利用Echarts+Springboot实现数据可视化 数据可视化 Spring实现简单的数据可视化 自定义可视化图表

最近老师在带做大数据项目,先做了个数据可视化。简单来说就是:利用Echarts+Springboot实现数据可视化Echarts:调用Echarts.js的API实现图标数据展示 (echarts网址)https://echarts.apache.org/zh/index.htmlSpringboot:编写接口访问 (目录结构如下)pom文件:<?xml version="1.0" encoding="UTF-8"?><p.........

2021-11-26 16:39:17 12007 7

原创 Python用xpath爬取数据返回空列表解决 python爬虫,关于使用xpath写爬虫获取不到内容, 获取到空列表的解决方案

可能的情况:1、url的问题2、xpath路径问题3、网页标签class,id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容,又想偷懒,所以就直接在源码那里直接复制路径,然后就很容易踩雷了(我算是踩了很多坑了,不知道有没有小伙伴和我一样踩过这样的坑):此时可能会得到如下路径:/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span然后跑开始爬虫,结果...

2021-11-26 15:11:34 12762 28

原创 关于JAVA的环境变量配置

身边一位想转行学计算机的好兄弟最近在开始学习,想装个eclipse,然后不知道JAVA的环境变量如何配置,闲着没事马上跑来更嘻嘻!需要配置三个变量,分别是:JAVA_HOME、PATH和ClassPATH步骤如下1)配置JAVA_HOME下载jdk,安装文件夹目录如下:进入文件夹,复制路径:C:\Program Files\Java\jdk1.8.0_131(此为默认安装路径)打开:计算机->属性->高级系统设置,单击环境变量,在系统变量下单击...

2021-11-25 23:28:57 363 2

原创 关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.

关于datanode进程无法启动的另一种解决方法java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725; datanode clusterID = CID-6375bffa-0dd1-4ed0-a315-f081fa079be9

2021-11-25 22:48:11 867 1

原创 启动集群时datanode进程没有启动 执行jps没有datanode的解决方法 亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1

java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725;启动集群时datanode进程没有启动 执行jps没有datanode的解决方法 亲测有效

2021-11-25 22:38:56 802

原创 Hadoop集群下设置虚拟机时钟同步

两种时钟同步方案:第一种:所有主机与网络时间保持一致第二种:所有主机与某一台主机保持时钟同步选用第一种方案:1.给每台机器安装阿里云的时钟同步服务器2.设置定时任务,每一分钟与阿里云云端的时钟同步服务器同步一次步骤:1、给三台虚拟机安装阿里云的时钟同步服务器:yum install -y ntp注意:如果安装失败,可用以下方法解决:sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestm

2021-11-24 22:58:43 1435 1

原创 kafka中副本数据同步策略 ,acknowledge的发送策略,kafka的数据可靠性保证

ack(acknowledge)简介为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的消息后,都需要向producer发送ack(acknowledge),确认收到信号。如果producer收到topic发送的ack,就会进行下一轮的发送,否则重新发送数据何时发送ack?确保有follower与leader同步完成,leader再发送ack,这样才能保证leader挂掉之后,能在follower中选举出新的lea

2021-11-24 15:01:51 1503 1

原创 Can‘t connect to MySQL server on ‘localhost‘ Mysql数据库无法连接

Can't connect to MySQL server on 'localhost' Mysql数据库无法连接

2021-11-24 12:14:25 1026 4

原创 org.apache.hadoop.hbase.client.RetriesExhaustedException:Can‘t get the locations IDEA操作HBase错误解决 已解决

Exception in thread "main" org.apahe.hadoop.hbase.client.RetriesExhaustedException:Can't get the location

2021-11-24 11:47:18 4075 4

原创 ERROR: Can‘t get master address from ZooKeeper; znode data == null HBASE、Zookeeper相关错误解决方案,亲测好用

ERROR: Can't get master address from ZooKeeper; znode data == null

2021-11-24 11:19:28 3693 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除