- 博客(15)
- 收藏
- 关注
原创 大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理
大数据离线处理数据项目(一) 网站日志文件数据采集 日志拆分 数据采集到HDFS并进行预处理
2021-11-30 19:49:36 5887 3
原创 我的Bug日常之 该虚拟机似乎正在使用中。 如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则,请按“取消(C)”按钮以防损坏。 配置文件:xxxxx
今天打开VMware,刚点击虚拟机1想启动,然鹅......意外却出现了:错误提示:虚拟机可能在使用如果没在使用,点击“获取所有权(T)”,获取它的所有权我小心翼翼地看着这个错误信息,生怕由于我的操作不当使得我的宝贝虚拟机出了什么闪失让我“万劫不复”——可怕的重装虚拟机!!!(心中默默祈祷了千万遍)然后我变按照上面的提示去点击了第一个选项,结果:解决问题:不行!好吧,网上求助,然后找了一圈最后发现,我确实没把之前的VMware关掉,所以是两个VMw...
2021-11-30 14:35:05 201
原创 大数据的中流砥柱——HDFS hdfs及其特点 hdfs的重要功能 hdfs机制
没有hdfs,大数据就是空话 ——me(开个玩笑哈哈哈)1、hdfs入门、hdfs介绍HDFS(Hadoop Distributed File System),也叫分布式文件系统。是一个Apache Software Foundation项目,是Apache Hadoop项目的一个子项目。 Hadoop非常适合存储大型数据(比如TB级别和PB级别的数据),其原因就是它使用Hdfs作为数据的存储系统。可以通过 Apache Hadoop获取 hadoop 相关的版本。Hdfs.
2021-11-28 17:22:55 2221 3
原创 zookeeper 浅谈zookeeper及其特点 重要机制 zookeepe应用汇场景 选举机制 监听原理 zookeeper客户端操作命令 zookeeper配置参数
1、Zookeeper及其他大数据组件简介HDFS:是解决存的问题HBase:解决大表的问题,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统Hive:是包装MapReducer的功能。基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能而zookeeper没有具体的功能,它在大数据区块中的位置比较特殊,好似一个润滑油,实际上它是协调大数据其他框架/组件之间的合作的。2、Zookeeper介绍Zookeeper是一个开源的分布式
2021-11-27 22:28:34 1863 1
原创 MapReduce经典案列 wordcount经典案例的实现 MapReduce分布式计算框架
MapReduce简介:MapReduce”分而治之“的思想处处可见,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责”分“,即把复杂的任务分解为若干个”简单的任务“来处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行再Yarn集群上(资源调度的平台)经典案列:wordcount1、分析数据准备:先启动hadoop:start-dfs.sh..
2021-11-26 21:12:55 596 2
原创 利用Echarts+Springboot实现数据可视化 数据可视化 Spring实现简单的数据可视化 自定义可视化图表
最近老师在带做大数据项目,先做了个数据可视化。简单来说就是:利用Echarts+Springboot实现数据可视化Echarts:调用Echarts.js的API实现图标数据展示 (echarts网址)https://echarts.apache.org/zh/index.htmlSpringboot:编写接口访问 (目录结构如下)pom文件:<?xml version="1.0" encoding="UTF-8"?><p.........
2021-11-26 16:39:17 11998 7
原创 Python用xpath爬取数据返回空列表解决 python爬虫,关于使用xpath写爬虫获取不到内容, 获取到空列表的解决方案
可能的情况:1、url的问题2、xpath路径问题3、网页标签class,id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容,又想偷懒,所以就直接在源码那里直接复制路径,然后就很容易踩雷了(我算是踩了很多坑了,不知道有没有小伙伴和我一样踩过这样的坑):此时可能会得到如下路径:/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span然后跑开始爬虫,结果...
2021-11-26 15:11:34 12753 28
原创 关于JAVA的环境变量配置
身边一位想转行学计算机的好兄弟最近在开始学习,想装个eclipse,然后不知道JAVA的环境变量如何配置,闲着没事马上跑来更嘻嘻!需要配置三个变量,分别是:JAVA_HOME、PATH和ClassPATH步骤如下1)配置JAVA_HOME下载jdk,安装文件夹目录如下:进入文件夹,复制路径:C:\Program Files\Java\jdk1.8.0_131(此为默认安装路径)打开:计算机->属性->高级系统设置,单击环境变量,在系统变量下单击...
2021-11-25 23:28:57 363 2
原创 关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.
关于datanode进程无法启动的另一种解决方法java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725; datanode clusterID = CID-6375bffa-0dd1-4ed0-a315-f081fa079be9
2021-11-25 22:48:11 866 1
原创 启动集群时datanode进程没有启动 执行jps没有datanode的解决方法 亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1
java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725;启动集群时datanode进程没有启动 执行jps没有datanode的解决方法 亲测有效
2021-11-25 22:38:56 800
原创 Hadoop集群下设置虚拟机时钟同步
两种时钟同步方案:第一种:所有主机与网络时间保持一致第二种:所有主机与某一台主机保持时钟同步选用第一种方案:1.给每台机器安装阿里云的时钟同步服务器2.设置定时任务,每一分钟与阿里云云端的时钟同步服务器同步一次步骤:1、给三台虚拟机安装阿里云的时钟同步服务器:yum install -y ntp注意:如果安装失败,可用以下方法解决:sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestm
2021-11-24 22:58:43 1433 1
原创 kafka中副本数据同步策略 ,acknowledge的发送策略,kafka的数据可靠性保证
ack(acknowledge)简介为保证producer发送的数据,能可靠的发送到指定的topic,topic的每个partition收到producer发送的消息后,都需要向producer发送ack(acknowledge),确认收到信号。如果producer收到topic发送的ack,就会进行下一轮的发送,否则重新发送数据何时发送ack?确保有follower与leader同步完成,leader再发送ack,这样才能保证leader挂掉之后,能在follower中选举出新的lea
2021-11-24 15:01:51 1503 1
原创 Can‘t connect to MySQL server on ‘localhost‘ Mysql数据库无法连接
Can't connect to MySQL server on 'localhost' Mysql数据库无法连接
2021-11-24 12:14:25 1026 4
原创 org.apache.hadoop.hbase.client.RetriesExhaustedException:Can‘t get the locations IDEA操作HBase错误解决 已解决
Exception in thread "main" org.apahe.hadoop.hbase.client.RetriesExhaustedException:Can't get the location
2021-11-24 11:47:18 4065 4
原创 ERROR: Can‘t get master address from ZooKeeper; znode data == null HBASE、Zookeeper相关错误解决方案,亲测好用
ERROR: Can't get master address from ZooKeeper; znode data == null
2021-11-24 11:19:28 3687 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人