2021年11月_'一生所爱

原创大数据离线处理数据项目（一）网站日志文件数据采集日志拆分数据采集到HDFS并进行预处理

大数据离线处理数据项目（一）网站日志文件数据采集日志拆分数据采集到HDFS并进行预处理

2021-11-30 19:49:36 5887 3

原创我的Bug日常之该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则，请按“取消（C）”按钮以防损坏。配置文件：xxxxx

今天打开VMware，刚点击虚拟机1想启动，然鹅......意外却出现了：错误提示：虚拟机可能在使用如果没在使用，点击“获取所有权（T）”，获取它的所有权我小心翼翼地看着这个错误信息，生怕由于我的操作不当使得我的宝贝虚拟机出了什么闪失让我“万劫不复”——可怕的重装虚拟机!!!（心中默默祈祷了千万遍）然后我变按照上面的提示去点击了第一个选项，结果：解决问题：不行！好吧，网上求助，然后找了一圈最后发现，我确实没把之前的VMware关掉，所以是两个VMw...

2021-11-30 14:35:05 201

原创大数据的中流砥柱——HDFS hdfs及其特点 hdfs的重要功能 hdfs机制

没有hdfs，大数据就是空话 ——me（开个玩笑哈哈哈）1、hdfs入门、hdfs介绍HDFS（Hadoop Distributed File System），也叫分布式文件系统。是一个Apache Software Foundation项目，是Apache Hadoop项目的一个子项目。 Hadoop非常适合存储大型数据（比如TB级别和PB级别的数据），其原因就是它使用Hdfs作为数据的存储系统。可以通过 Apache Hadoop获取 hadoop 相关的版本。Hdfs.

2021-11-28 17:22:55 2221 3

原创 zookeeper 浅谈zookeeper及其特点重要机制 zookeepe应用汇场景选举机制监听原理 zookeeper客户端操作命令 zookeeper配置参数

1、Zookeeper及其他大数据组件简介HDFS：是解决存的问题HBase：解决大表的问题，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统Hive：是包装MapReducer的功能。基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能而zookeeper没有具体的功能，它在大数据区块中的位置比较特殊，好似一个润滑油，实际上它是协调大数据其他框架/组件之间的合作的。2、Zookeeper介绍Zookeeper是一个开源的分布式

2021-11-27 22:28:34 1863 1

原创 MapReduce经典案列 wordcount经典案例的实现 MapReduce分布式计算框架

MapReduce简介：MapReduce”分而治之“的思想处处可见，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责”分“，即把复杂的任务分解为若干个”简单的任务“来处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。MapReduce运行再Yarn集群上（资源调度的平台）经典案列：wordcount1、分析数据准备：先启动hadoop：start-dfs.sh..

2021-11-26 21:12:55 596 2

原创利用Echarts+Springboot实现数据可视化数据可视化 Spring实现简单的数据可视化自定义可视化图表

最近老师在带做大数据项目，先做了个数据可视化。简单来说就是：利用Echarts+Springboot实现数据可视化Echarts：调用Echarts.js的API实现图标数据展示（echarts网址）https://echarts.apache.org/zh/index.htmlSpringboot：编写接口访问（目录结构如下）pom文件：<?xml version="1.0" encoding="UTF-8"?><p.........

2021-11-26 16:39:17 11998 7

原创 Python用xpath爬取数据返回空列表解决 python爬虫，关于使用xpath写爬虫获取不到内容，获取到空列表的解决方案

可能的情况：1、url的问题2、xpath路径问题3、网页标签class，id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容，又想偷懒，所以就直接在源码那里直接复制路径，然后就很容易踩雷了（我算是踩了很多坑了，不知道有没有小伙伴和我一样踩过这样的坑）：此时可能会得到如下路径：/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span然后跑开始爬虫，结果...

2021-11-26 15:11:34 12753 28

原创关于JAVA的环境变量配置

身边一位想转行学计算机的好兄弟最近在开始学习，想装个eclipse，然后不知道JAVA的环境变量如何配置，闲着没事马上跑来更嘻嘻！需要配置三个变量，分别是：JAVA_HOME、PATH和ClassPATH步骤如下1）配置JAVA_HOME下载jdk，安装文件夹目录如下：进入文件夹，复制路径：C:\Program Files\Java\jdk1.8.0_131（此为默认安装路径）打开：计算机->属性->高级系统设置，单击环境变量，在系统变量下单击...

2021-11-25 23:28:57 363 2

原创关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.

关于datanode进程无法启动的另一种解决方法java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725; datanode clusterID = CID-6375bffa-0dd1-4ed0-a315-f081fa079be9

2021-11-25 22:48:11 866 1

weixin_45437533的博客

原创大数据离线处理数据项目（一）网站日志文件数据采集日志拆分数据采集到HDFS并进行预处理

原创我的Bug日常之该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则，请按“取消（C）”按钮以防损坏。配置文件：xxxxx

原创大数据的中流砥柱——HDFS hdfs及其特点 hdfs的重要功能 hdfs机制

原创 zookeeper 浅谈zookeeper及其特点重要机制 zookeepe应用汇场景选举机制监听原理 zookeeper客户端操作命令 zookeeper配置参数

原创 MapReduce经典案列 wordcount经典案例的实现 MapReduce分布式计算框架

原创利用Echarts+Springboot实现数据可视化数据可视化 Spring实现简单的数据可视化自定义可视化图表

原创 Python用xpath爬取数据返回空列表解决 python爬虫，关于使用xpath写爬虫获取不到内容，获取到空列表的解决方案

原创关于JAVA的环境变量配置

原创关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.

原创启动集群时datanode进程没有启动执行jps没有datanode的解决方法亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1

原创 Hadoop集群下设置虚拟机时钟同步

原创 kafka中副本数据同步策略，acknowledge的发送策略，kafka的数据可靠性保证

原创 Can‘t connect to MySQL server on ‘localhost‘ Mysql数据库无法连接

原创 org.apache.hadoop.hbase.client.RetriesExhaustedException:Can‘t get the locations IDEA操作HBase错误解决已解决

原创 ERROR: Can‘t get master address from ZooKeeper； znode data == null HBASE、Zookeeper相关错误解决方案，亲测好用

空空如也

空空如也