自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据梦想家

大数据 | 程序人生 | 公众号【大数据梦想家】| 个人网站 : www.dreamdataer.com

  • 博客(38)
  • 资源 (5)
  • 收藏
  • 关注

原创 Spark之【RDD编程进阶】——累加器与广播变量的使用

        上一篇博客博主已经为大家介绍了Spark中数据读取与保存,这一篇博客则带来了Spark中的编程进阶。其中就涉及到了累加器与广播变量的使用。文章目录RDD编程进阶1.累加器1.1系统累加器2.广播变量(调优策略)RDD编程进阶1.累加器    &nbsp...

2020-02-29 11:40:17 11153 1

原创 Pig启动出现Unhandled internal error. jline.Terminal.getTerminal()Ljline/Terminal

        今天在启动Pig客户端的时候,命令行出现了下面这个问题。根据命令行的提示,我们打开bug所记录的日志。vim /etc/profile.d/pig_1582816803489.logERROR 2998: Unhandled internal error. jline.Terminal.getT...

2020-02-28 13:18:33 10391

原创 Spark之【数据读取与保存】详细说明

        本篇博客,博主为大家介绍的是Spark的数据读取与保存。文章目录数据读取与保存1. 文件类数据读取与保存1.1 Text文件1.2 Json文件1.3 Sequence文件1.4 对象文件2. 文件系统类数据读取与保存2.1 HDFS2.2MySQL数据库连接2.3 HBase 数据库数据读取与...

2020-02-27 21:04:59 12058 1

原创 解决Hbase远程连接失效ava.io. IOException: org. apache. hadoop.hbase. client.RetriesExhausted Exception Faile

        今天在使用DataGrip连接hive数据库浏览数据的时候,发现hive数据库中与hbase映射的hive数据表查询不了了,双击数据表加载半天出现下面的异常。后面打开Hue,发现关于hbase的连接也失败了。后面在网上搜索了半天,发现情况都跟自己的不一样,然后想起了之前记录Hue配置HBase的...

2020-02-27 15:53:13 12718 1

原创 Spark之【键值对RDD数据分区器】介绍及使用说明

        本篇博客,博主为大家介绍的是关于Spark中数据分区器的一些概念及使用讲解。文章目录键值对RDD数据分区器1.获取RDD分区2.Hash分区3.Ranger分区4.自定义分区键值对RDD数据分区器        S...

2020-02-27 09:35:33 10775 1

原创 Spark之【RDD编程】详细讲解(No6)——《RDD缓存与CheckPoint》

        本篇博客是Spark之【RDD编程】系列第六篇,为大家介绍的是RDD缓存与CheckPoint。        该系列内容十分丰富,高能预警,先赞后看!文章目录7.RDD缓存8.RDD CheckPoint7.RD...

2020-02-26 17:00:13 9933

原创 Spark之【RDD编程】详细讲解(No5)——《RDD依赖关系》

        本篇博客是Spark之【RDD编程】系列第五篇,为大家介绍的是RDD依赖关系。        该系列内容十分丰富,高能预警,先赞后看!文章目录6.RDD依赖关系6.1 Lineage6.2 窄依赖6.3 宽依赖6.4 ...

2020-02-26 10:37:33 11237 6

原创 Spark之【RDD编程】详细讲解(No4)——《RDD中的函数传递》

        本篇博客是Spark之【RDD编程】系列第四篇,为大家带来的是RDD中的函数传递的内容。        该系列内容十分丰富,高能预警,先赞后看!文章目录5.RDD中的函数传递5.1 传递一个方法5.2 传递一个属性...

2020-02-25 22:07:33 9962 3

原创 Spark之【RDD编程】详细讲解(No3)——《Action行动算子》

        本篇博客是Spark之【RDD编程】系列第三篇,为大家带来的是Action的内容。        该系列内容十分丰富,高能预警,先赞后看!文章目录4. Action4.1 reduce(func) 案例4.2 coll...

2020-02-25 14:37:18 10245 9

原创 Spark之【RDD编程】详细讲解(No2)——《Transformation转换算子》

        本篇博客是Spark之【RDD编程】系列第二篇,为大家带来的是RDD的转换的内容。        该系列内容十分丰富,高能预警,先赞后看!文章目录3.RDD的转换(面试开发重点)3.1 Value类型3.1.1 map...

2020-02-25 13:07:27 9381 22

原创 Spark之【RDD编程】详细讲解(No1)——《编程模型的理解与RDD的创建》

        上一篇博客《什么是RDD?带你快速了解Spark中RDD的概念!》为大家带来了RDD的概述之后。本篇博客,博主将继续前进,为大家带来RDD编程系列。        该系列第一篇,为大家带来的是编程模型的理解与RDD的创建!...

2020-02-25 12:49:19 8640 1

原创 python爬虫爬取《斗破苍穹》小说(入门必备)

        小菌之前分享过几篇关于python爬虫的实战经典案例,相信许多没有学过python的小伙伴们肯定都按奈不住纷纷自学去了,哈哈O(∩_∩)O本次小菌带来的同样是适合入门级爬虫爱好者的一个基础案例——爬取《斗破苍穹》全文内容~      &nbs...

2020-02-23 17:19:43 12141 30

原创 什么是RDD?带你快速了解Spark中RDD的概念!

        看了前面的几篇Spark博客,相信大家对于Spark的基本概念以及不同模式下的环境部署问题已经搞明白了。但其中,我们曾提到过Spark程序的核心,也就是弹性分布式数据集(RDD)。但到底什么是RDD,它是做什么用的呢?本篇博客,我们就来详细讨论它们的使用情况。文章目录RDD概述1.什么是RDD2.R...

2020-02-23 11:35:40 17557 1

原创 教你如何轻松配置Spark的历史日志服务器JobHistoryServer?

        默认情况下,Spark程序运行完毕关闭窗口之后,就无法再查看运行记录的Web UI(4040)了,但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后, 依然能够查看运行过程。本篇博客,博主就为大家带来在Spark上配置JobHistoryServer...

2020-02-22 17:01:20 9289

原创 带你书写linux超实用的脚本——xcall(同步执行命令)与xsync(同步文件目录)

        我们都知道现在的集群配置项复杂繁多,动不动就需要进行数据的同步,有时还会遇到多个节点执行相同的命令的操作,可谓是十分繁琐。今天,博主在参考了网上的一些资源后,为大家提供了两个十分简便的脚本,可以轻松解决上述问题。一.同步文件/目录脚本(xsync)将文件或目录同步到集群的其他节点在使用之前,所有...

2020-02-22 10:47:24 13030 22

原创 如何在IDEA上编写Spark程序?(本地+集群+java三种模式书写代码)

        本篇博客,Alice为大家带来关于如何在IDEA上编写Spark程序的教程。文章目录写在前面准备材料图解WordCountpom.xml本地执行集群上运行Java8版[了解]写在前面        本次讲解我会通过...

2020-02-21 10:01:51 8588

原创 Spark命令详解

        本篇博客,Alice为大家带来关于Spark命令的详解。spark-shell引入        之前我们使用提交任务都是使用spark-shell提交,spark-shell是Spark自带的交互式Shell程...

2020-02-21 09:20:00 11517 2

原创 Spark环境搭建——on yarn集群模式

        本篇博客,Alice为大家带来关于如何搭建Spark的on yarn集群模式的教程。文章目录准备工作cluster模式client模式[了解]两种模式的区别官方文档:http://spark.apache.org/docs/latest/running-on-yarn.html准备工作...

2020-02-20 20:27:34 8336

原创 Spark环境搭建——HA高可用模式

        本篇博客,Alice为大家带来的是Spark的HA高可用环境搭建的教程。原理        Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一...

2020-02-20 10:28:43 9560 2

原创 Spark环境搭建——standalone集群模式

        这篇博客,Alice为大家带来的是Spark集群环境搭建之——standalone集群模式。文章目录集群角色介绍集群规划修改配置并分发启动和停止查看web界面测试集群角色介绍        Spark是基于内存计算...

2020-02-19 21:49:41 8193

原创 Spark基础环境搭建——local本地模式

        这篇博客,为大家带来的是关于Spark的环境搭建。Spark环境搭建        提前声明:        1.我们选择目前企业中使用...

2020-02-19 11:46:06 8474

原创 带你深入浅出,彻底了解什么是Spark?

        大数据专业,或者人工智能,深度学习方向的小伙伴们一定对Spark这个名词不陌生吧~不认识也没有关系,今天Alice为大家带来关于Spark的一个详细介绍。文章目录激动人心的Spark发展史Spark为什么流行?1:优秀的数据模型和计算抽象2:完善的生态圈3.Spark VS HadoopSpark使...

2020-02-18 20:11:16 9659 2

原创 hive远程连接失败?Could not open client transport with JDBC Uri: jdbc:hive2:异常解决

        有一段时间没有关集群了。今天由于业务需求需要重启集群,结果在使用DataGrip连接hive数据库的时候报了这个异常!java.net.ConnectException: Connection refused: connect.     &nbs...

2020-02-17 18:21:29 18835 1

原创 解决Hive启动失败Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

        今天在使用Hadoop集群上的Hive时,结果出现了以下的情况。hive (default)> show databases;FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.la...

2020-02-17 18:10:34 19037 1

原创 完美解决Hadoop集群无法正常关闭的问题!

        相信对于大部分的大数据初学者来说,一定遇见过hadoop集群无法正常关闭的情况。有时候当我们更改了hadoop内组件的配置文件后,必须要通过重启集群来使配置文件生效。        但往往一stop-all.sh,集群下方...

2020-02-16 11:21:25 12099 1

原创 运行Sqoop出现hcatalog does not exist!...accumulo does not exist!解决方案

        有一段时间没用sqoop了,今天打开进行测试的时候,发现命令行总是出现下面这样的警示信息:Warning: /opt/module/sqoop/bin/…/…/hcatalog does not exist! HCatalog jobs will fail.Please set $HCAT_HOM...

2020-02-16 10:53:44 14078 4

原创 什么是Avro?Hadoop首选串行化系统——Avro简介及详细使用

        本篇博客,Alice为大家介绍的是Hadoop中作为首选串行化系统的Avro。文章目录简介特点Avro数据类型和模式Avro基本类型Avro复杂类型Avro数据序列化/反序列化方法1 使用编译的方式序列化反序列化方法2 不使用编译的方式序列化反序列化简介   &n...

2020-02-15 21:06:18 8644

转载 升级pip超时异常解决

安装的时候发现报错如下, 提示需要升级pip 按照指引进行升级, 同样的超时  使用 豆瓣源进行安装 pip p...

2020-02-13 10:09:50 7660 1

原创 第一次做大数据毕设?不知道Springboot如何配置Hive?这篇博客或许能帮到你!

        最近刚完成了一份关于大数据的毕设项目,其中使用到的框架就包括Springboot。因为做的是一个离线的数据分析,所以在组件的选用上面也是选择了Hive(如果是做实时的可能就要用到Spark或者HBase了…)。本篇博客,为大家带来的就是关于如何在Springboot项目中配置Hive做一个说明。更改...

2020-02-12 20:40:25 7607 2

原创 2020年你不清楚的18个非技术面试题是这些!

        最近看了博学谷小谷总结的一些企业面试过程中经常会被问到的非技术型面试题后,感觉十分的实用。于是便想着分享给即将在2020年参加面试的"攻城狮"们(包括我自己٩(๑>◡<๑)۶ )~希望大家在新的一年里事事顺心,工作顺利!!!1.请你自我介绍一下你自己?  &nbsp...

2020-02-11 21:28:21 8395 18

原创 scala快速入门系列【Akka】

        本篇作为scala快速入门系列的第四十篇博客,为大家带来的是关于Akka的内容。文章目录实例1.需求:2.架构图:3.重要类介绍4.Actor5.具体代码        Akka基于Actor模型,提供了一个用于构建...

2020-02-11 20:17:17 6257

原创 如何将IDEA上的项目上传到GitHub上?

        最近,找到了一个去年用Springboot完成的一个web类博客项目,于是想到了上传到GitHub上开源分享。相信还有一部分刚入"IT"圈的编程小白(请忽略我也是一个菜鸟…),于是正好利用这个机会做一期记录。       &nbsp...

2020-02-10 21:12:20 6895 1

原创 springboot启动报错 Failed to scan.....derbyLocale_zh_TW.jar异常解决

        最近在调试Springboot项目的时候,发现每次启动控制台都会打印这样的一个异常信息:        其中,最明显的一个信息是:       &n...

2020-02-08 08:39:27 7926

原创 bug解决:The last packet sent successfully to the server was 0 milliseconds ago

        今天在启动springboot项目的时候,报了如下异常:        主要看了一下,说的是jdbc在提交任务的时候出现了问题,并且驱动未收到服务端的数据包。     ...

2020-02-07 10:42:32 54364 17

原创 hive客户端连接服务端报错“Required field 'client_protocol' is unset! ”异常解决

        今天在将springboot项目中运行时,调用集群hive服务器端的时候,报了这个异常!        其中的Required field 'client_protocol' is unset!一度让我怀疑yml配置文件...

2020-02-05 18:01:10 17672

原创 Error:java: Annotation processing is not supported for module cycles.异常解决

        有一段时间没碰Springboot,想起用到它的时候还是在去年…        由于要开始准备毕设了,所以最近开始部署Springboot的项目,结果在启动的时候,报了以下异常:Error:java: Annotatio...

2020-02-04 10:52:18 72059 14

原创 scala快速入门系列【Actor实现WordCount】

        本篇作为scala快速入门系列的第三十九篇博客,为大家带来的是关于如何用Actor实现WordCount的内容。文章目录WordCount案例案例介绍思路分析实现思路步骤1 | 获取文件列表步骤2 | 创建WordCountActor步骤3 | 启动Actor /发送/接收任务信息步骤4 | 消息统...

2020-02-01 10:50:47 4531 3

原创 scala快速入门系列【Actor并发编程】

        本篇作为scala快速入门系列的第三十八篇博客,为大家带来的是关于Actor并发编程的内容。文章目录Actor并发编程1.Actor介绍Java并发编程的问题Actor并发编程模型Java并发编程对比Actor并发编程2.创建Actor使用方式示例Actor程序运行流程3.发送消息/接收消息使用方式...

2020-02-01 10:09:44 4395

互联网常见人事面试题.doc

如今现在的“人事”一词常指人力资源管理术语,包含两层意思,一是指人事工作,二是指人事工作人员,现流程称作HR。 人事工作也是指人力资源管理工作,包含:人力资源规划、招聘、培训、绩效、薪酬和员工关系六大模块的一种管理工作。人事工作人员则是指从事人事工作的人,是公司的一个重要职位。负责公司人事工作的部门则称为人事部或人力资源部。

2020-06-07

SpringBoot+SpringCloud面试题.doc

Spring boot 是 Spring 的一套快速配置脚手架,可以基于spring boot 快速开发单个微服务,Spring Cloud是一个基于Spring Boot实现的云应用开发工具;Spring boot专注于快速、方便集成的单个个体,Spring Cloud是关注全局的服务治理框架;spring boot使用了默认大于配置的理念,很多集成方案已经帮你选择好了,能不配置就不配置,Spring Cloud很大的一部分是基于Spring boot来实现。Spring boot可以离开Spring Cloud独立使用开发项目,但是Spring Cloud离不开Spring boot,属于依赖的关系。

2020-06-07

MQ-A级面试题.pdf

消息队列(MQ),是一种应bai用程序du对应用程序的通信方法。zhi应用程序通过写和检索dao出入列队的针对应用程序的数据(消息)来通信,而无需专用连接来链接它们。

2020-06-07

Java面试 58题.docx

Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程。

2020-06-07

大数据面试宝典-精简版.pdf

从Java基础,JVM,数据库,hadoop,hive,hbase,flume,zookeeper,kafka,scala,redis,机器学习,业务相关多个角度分析了大数据面试可能遇到的问题,非常详细,建议大数据专业的学者都应该阅读一下。

2020-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除