'一生所爱-CSDN博客

原创 Scala综合案例：词频统计

Scala综合案例：词频统计

2023-02-05 22:14:49 1483 1

原创我的Bug日常：spark基于yarn运行时抛错，内存不足Required executor memory (1024 MB), offHeap memory (0) MB。问题已解决，亲测有用~~~

Exception in thread "main" java.lang.IllegalArgumentException: Required executor memory (1024 MB), offHeap memory (0) MB, overhead (384 MB), and PySpark memory (0 MB) is above the max threshold (1024 MB) of this cluster! Please check the values of 'yarn.sc

2022-04-25 20:14:54 2483

原创我的Bug日常：Connection timed out 使用secureCRT连接超时无法连接虚拟机本机ping不通虚拟机

我的Bug日常：Connection timed out 使用SecureCRT连接超时无法连接虚拟机本机ping不通虚拟机

2022-04-19 19:18:45 3584 5

原创我的Bug日常： Could not resolve placeholder ‘jwt.expireTime‘ in value “${jwt.expireTime}“

Could not resolve placeholder 'jwt.expireTime' in value "${jwt.expireTime}"

2021-12-10 15:41:07 1439

原创大数据离线处理数据项目（二）数据清洗 ETL 编写MapReduce程序实现数据清洗

数据清洗 ETL 编写MapReduce程序实现数据清洗简介：实现的功能：对采集到的日志数据进行清洗，过滤无效数据、静态资源方法：编写MapReduce进行处理涉及到的类：1）实体类Bean描述日志数据的各个字段：如客户端的ip、请求的url、请求状态等等...

2021-12-03 15:36:44 1310 1

原创我的Bug日常之 Caused by: java.lang.IllegalStateException: No typehandler found for property transfer_time

我的Bug日常之 Caused by: java.lang.IllegalStateException: No typehandler found for property transfer_time 已解决！

2021-12-01 15:49:05 495 1

原创大数据离线处理数据项目（一）网站日志文件数据采集日志拆分数据采集到HDFS并进行预处理

大数据离线处理数据项目（一）网站日志文件数据采集日志拆分数据采集到HDFS并进行预处理

2021-11-30 19:49:36 5888 3

原创我的Bug日常之该虚拟机似乎正在使用中。如果该虚拟机未在使用,请按“获取所有权(T)”按钮获取它的所有权。否则，请按“取消（C）”按钮以防损坏。配置文件：xxxxx

今天打开VMware，刚点击虚拟机1想启动，然鹅......意外却出现了：错误提示：虚拟机可能在使用如果没在使用，点击“获取所有权（T）”，获取它的所有权我小心翼翼地看着这个错误信息，生怕由于我的操作不当使得我的宝贝虚拟机出了什么闪失让我“万劫不复”——可怕的重装虚拟机!!!（心中默默祈祷了千万遍）然后我变按照上面的提示去点击了第一个选项，结果：解决问题：不行！好吧，网上求助，然后找了一圈最后发现，我确实没把之前的VMware关掉，所以是两个VMw...

2021-11-30 14:35:05 202

原创大数据的中流砥柱——HDFS hdfs及其特点 hdfs的重要功能 hdfs机制

没有hdfs，大数据就是空话 ——me（开个玩笑哈哈哈）1、hdfs入门、hdfs介绍HDFS（Hadoop Distributed File System），也叫分布式文件系统。是一个Apache Software Foundation项目，是Apache Hadoop项目的一个子项目。 Hadoop非常适合存储大型数据（比如TB级别和PB级别的数据），其原因就是它使用Hdfs作为数据的存储系统。可以通过 Apache Hadoop获取 hadoop 相关的版本。Hdfs.

2021-11-28 17:22:55 2223 3

原创 zookeeper 浅谈zookeeper及其特点重要机制 zookeepe应用汇场景选举机制监听原理 zookeeper客户端操作命令 zookeeper配置参数

1、Zookeeper及其他大数据组件简介HDFS：是解决存的问题HBase：解决大表的问题，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统Hive：是包装MapReducer的功能。基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能而zookeeper没有具体的功能，它在大数据区块中的位置比较特殊，好似一个润滑油，实际上它是协调大数据其他框架/组件之间的合作的。2、Zookeeper介绍Zookeeper是一个开源的分布式

2021-11-27 22:28:34 1863 1

原创 MapReduce经典案列 wordcount经典案例的实现 MapReduce分布式计算框架

MapReduce简介：MapReduce”分而治之“的思想处处可见，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责”分“，即把复杂的任务分解为若干个”简单的任务“来处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。MapReduce运行再Yarn集群上（资源调度的平台）经典案列：wordcount1、分析数据准备：先启动hadoop：start-dfs.sh..

2021-11-26 21:12:55 599 2

原创利用Echarts+Springboot实现数据可视化数据可视化 Spring实现简单的数据可视化自定义可视化图表

最近老师在带做大数据项目，先做了个数据可视化。简单来说就是：利用Echarts+Springboot实现数据可视化Echarts：调用Echarts.js的API实现图标数据展示（echarts网址）https://echarts.apache.org/zh/index.htmlSpringboot：编写接口访问（目录结构如下）pom文件：<?xml version="1.0" encoding="UTF-8"?><p.........

2021-11-26 16:39:17 12007 7

原创 Python用xpath爬取数据返回空列表解决 python爬虫，关于使用xpath写爬虫获取不到内容，获取到空列表的解决方案

可能的情况：1、url的问题2、xpath路径问题3、网页标签class，id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容，又想偷懒，所以就直接在源码那里直接复制路径，然后就很容易踩雷了（我算是踩了很多坑了，不知道有没有小伙伴和我一样踩过这样的坑）：此时可能会得到如下路径：/html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span然后跑开始爬虫，结果...

2021-11-26 15:11:34 12762 28

原创关于JAVA的环境变量配置

身边一位想转行学计算机的好兄弟最近在开始学习，想装个eclipse，然后不知道JAVA的环境变量如何配置，闲着没事马上跑来更嘻嘻！需要配置三个变量，分别是：JAVA_HOME、PATH和ClassPATH步骤如下1）配置JAVA_HOME下载jdk，安装文件夹目录如下：进入文件夹，复制路径：C:\Program Files\Java\jdk1.8.0_131（此为默认安装路径）打开：计算机->属性->高级系统设置，单击环境变量，在系统变量下单击...

2021-11-25 23:28:57 363 2

原创关于datanode进程无法启动的另一种解决方法 java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.

关于datanode进程无法启动的另一种解决方法java.io.IOException: Incompatible clusterIDs in /export/servers/hadoop-3.1.2/datas/datanode/datanodeDatas: namenode clusterID = CID-a1924214-3008-4899-9b2a-215de6964725; datanode clusterID = CID-6375bffa-0dd1-4ed0-a315-f081fa079be9

2021-11-25 22:48:11 867 1

weixin_45437533的博客