锦超风采-CSDN博客

原创了解Linus的软件安装

Linus中的软件安装方式一，常见的软件安装方式(1).tar安装:如果软件开发商提供的是tar，tar.gz，tar.bz格式的包（其中tar格式为打包后没有压缩的包，gz格式是按照gzip打包并压缩的包，tat.bz格式是按照二进制方式打包并压缩的包）。可以采用tar包安装，tar安装方式本质上是解压软件开发商提供的软件包，之后再通过相应配置，完成软件的安装。(2).rpm安装:rpm安装方式是Redhat Linus系列推出的一个软件包管理器，类似于Windows下的exe安装程序，可以直接

2020-06-17 18:44:21 2125

原创大数据算法题——数据结构

数据结构关于数据结构方面，一般考察都是手写代码。这个建议大家在面试之前一定要牢牢地记住怎么写，一定要自己多写几遍，另外尝试在纸上手写代码，手写代码和使用IDEA写代码地感觉是完全不一样的。另外需要掌握的是算法的思想和流程。1. *冒泡排序？算法思想：将序列中所有元素两两比较，将最大的放在最后面。将剩余序列中所有元素两两比较，将最大的放在最后面。重复第二步，直到只剩下一个数。/** * 冒泡排序：两两比较，大者交换位置，则每一轮循环结束后最大的数会移动到最后 * 时间复杂度为 O(n^2

2020-10-07 16:18:14 849

原创大数据算法题——海量数据处理

海量数据处理1. 给一个超过100G大小的log file,log 中存着IP地址，设计算法找到出现次数最多的IP地址？100G的文件给我们的感觉是太大，我们的电脑内存一般都为4G左右，所以不可能一次性把这么多的信息都加载到内存，所以就要进行切分成100份。IP地址是字符串太长，我们可以把它转化为整形%100，这样取模后的值都落在0-99的区间里，所取模后值相同的IP地址都被分配到同一个文件，这时我们就可以采用哈希表统计出每个文件中最多的那个IP地址，最后比较得到100个IP中最大的那个IP就可以了。

2020-10-03 12:54:13 731

原创数据仓库——数据仓库基础

数据仓库基础1. *数仓中是如何划分主题的？主题（Subject）是在较高层次上将企业信息系统中的数据进行综合，归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域，因此这个数据仓库应用的主题就是“销售分析”。主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。如在生产企业中，同样是材料供应，在操作型数据库系统中，人们所关系的是怎样更方便和更快捷地进行材料供应的业务处

2020-10-02 16:56:15 828

原创核心组件——Kafka

KafkaKafka 需要理解掌握其基本概念，生产者，消费者，broker，分区，消费者组，offset，ack机制，ISR等。面试常问！1. *Kafka和传统消息队列有何区别？首先Kafka会将接收到的消息分区（partition），每个主题（topic）的消息有不同的分区，这样一方面消息的存储就不会受到单一服务器存储空间大小的限制，另一方面消息的处理也可以在多个服务器上并行。其次为了保证高可用，每个分区都会有一定数量的副本（replica）。这样如果有部分服务器不可用，副本所在的服务器就会接替

2020-09-30 16:58:29 440

原创核心组件——Flume

FlumeFlume工具相对来说，比较简单。面试中常问的问题，多为考察Flume的使用，涉及底层原理的考察较少。1. *Flume组成和事务？Flume组成为 Source，Channel，Sink，事务包含Put事务，Task事务。常用的Source，Channel：Taildir Source：断点续传，多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置，实现断点续传。File Channel：数据存储在磁盘，宕机数据可以保存。但是传输速率慢。适合对数据传输可靠性要

2020-09-24 19:31:13 273

原创 Spark技术栈——SparkStreaming

SparkStreaming1. SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么？1.基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的（如果突然数据暴增，大量batch堆积，很容易出现内存溢出的问题），然后Spark...

2020-09-23 18:36:15 217

原创 Spark技术栈——Spark SQL

Spark SQL1.请写出创建Dataset的几种方式？由DataFrame转化成为Dataset。通过SparkSession.createDataset() 直接创建。通过toDS方法隐式转换。图 RDD / DataFrame / DataSet 转换关系面试指导&技巧考察Spark Dataset 的创建方法。基础问题，需要能够掌握相互之间的转换。2.DataFrame 相对 rdd 有哪些不同？RDD特点：RDD是一个懒执行的不可变的可以支持Lambda表达

2020-09-23 12:28:23 273

原创 Spark技术栈——Spark Core

Spark Core1. Spark的有几种部署模式，每种模式特点？1.本地模式Spark不一定非要跑到Hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类：local：只启动一个executor。local[k]：启动k个executor。local[*]：启动跟CPU数目相同的executor。2.standalone模式分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模式

2020-09-21 16:07:35 333

原创 Spark技术栈——Scala

Scala面试指导&技巧Scala面试问题主要考察Scala语言的使用，一些区别与Java的特性会常问。下面节选了一些最常问的Scala问题，偏基础，需要能够回答。1.Scala的偏函数能和我说说吗？偏函数（Partial Function），是数学概念，它不是“函数”的一种，它跟函数是平行的概念。Scala中的Partial Function是一个Trait，其的类型为PartialFunction[A,B]，其中接收一个类型为A的参数，返回一个类型为B的结果。举个例子：scala&

2020-09-14 13:56:07 239

原创 Hadoop生态——HBase

HBase1.为什么用HBase存储？HBase(Hadoop Database)是一个高可靠性，高性能，可伸缩，面向列的分布式数据库（也许叫做存储系统会更加贴切）。HBase与Hadoop的关系非常紧密，Hadoop的HDFS提供了高可靠性的底层存储支持，Hadoop MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定性及failover机制的保障。同时其他周边产品诸如Hive可以与HBase相结合使在HBase进行数据统计处理变得简单，Sqoop为HBa

2020-09-10 19:29:17 1034

原创 Hadoop生态——Hive

文章目录Hive1.*描述一下Hive动态分区和分桶使用场景和使用方法？1.分区Hive1.*描述一下Hive动态分区和分桶使用场景和使用方法？1.分区按照数据表的某列或某些列分为多个分区，分区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从

2020-09-01 16:59:24 524

原创 Vmvare虚拟机扩展磁盘大小(扩展根目录)

首先，在确保虚拟机关闭的情况下，选择编辑虚拟机设置，选择硬盘，扩展，这样就可以增加磁盘的大小。（确保无快照）但是由于未进行分区和磁盘挂载的设置，我们启动虚拟机以后并不能使用增加的磁盘空间，这个时候如下操作fdisk -l 会出现以下的信息：我们可以看到磁盘总大小和使用的大小说明新创建的分区将会是sda32.对剩余空间进行分区...

2020-08-30 23:53:45 639

原创 Hadoop生态——MapReduce

文章目录MapReduce*MR的执行流程？MR的整体执行流程：（Yarn模式）MapReduce*MR的执行流程？MR的整体执行流程：（Yarn模式）在MapReduce程序读取文件的输入目录上存放相应的文件。客户端程序在submit()方法执行前，获取待处理的数据信息，然后根据集群中的参数的配置形成一个任务分配规划。客户端提交切片信息给Yarn，Yarn中的resourcemanager启动...

2020-08-25 17:28:32 332

原创 Hadoop生态——HDFS

文章目录1.*HDFS读写流程？1.写数据流程1.*HDFS读写流程？1.写数据流程

2020-08-20 14:19:35 424 1

原创大数据面试常见Java问题——JVM

文章目录JVM请说明一下Java虚拟机的作用是什么？Java内存结构JVM请说明一下Java虚拟机的作用是什么？解释运行字节码程序消除平台相关性。JVM将Java字节码解释为具体平台的具体命令。一般的高级语言如要在不同的平台上运行，至少需要编译成不同的目标代码。而引入JVM后，Java语言在不同平台上运行时不需要重新编译。Java语言使用模式Java虚拟机屏蔽了与具体平台相关的信息，使得Java语言编译程序只需生成在Java虚拟机上运行的目标代码（字节码），就可以在多种平台上不加修改地运行。Java

2020-08-10 09:07:16 360

原创 Spark基础练习

文章目录班级 ID 姓名年龄性别科目成绩1 . 一共有多少人参加考试？1.1 一共有多少个小于 20 岁的人参加考试？1.2 一共有多少个等于 20 岁的人参加考试？1.3 一共有多少个大于 20 岁的人参加考试？2. 一共有多个男生参加考试？2.1 一共有多少个女生参加考试？3. 12 班有多少人参加考试？3.1 13 班有多少人参加考试？4. 语文科目的平均成绩是多少？4.1 数学科目的平均成绩是多少？4.2 英语科目的平均成绩是多少？5. 单个人平均成绩是多少？6. 12 班平均成绩是多少？6

2020-08-05 22:28:44 745

原创正则表达式语法

文章目录正则表达式（分割，匹配，替换，搜索）1.普通字符2.非打印字符3.特殊字符3.限定符4.定位符正则表达式（分割，匹配，替换，搜索）1.普通字符字母、数字、汉字、下划线、以及没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。2.非打印字符非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列：字符描叙\f换页符。等价于 \x0c 和 \cL。\n匹配一个换行符。等价于 \x0a

2020-08-02 23:47:38 254

原创大数据面试常见Java问题——多线程

文章目录多线程进程和线程的区别是什么？*创建线程有几种不同的方式？你喜欢哪一种？为什么？概况的解释下线程的几种可用状态同步方法和同步代码块的区别是什么？请你谈谈关于Synchronized和Lock多线程进程和线程的区别是什么？进程是执行着的应用程序，而线程是进程内部的一个执行序列。一个进程可以有多个线程。线程又叫做轻量级进程。*创建线程有几种不同的方式？你喜欢哪一种？为什么？有三种方式可以用来创建线程：继承Thread类实现Runnable接口应用程序可以使用Executor框架来创建

2020-07-31 12:24:19 469

原创大数据面试常见Java问题——Java基础

文章目录Java基础1.HashMap 底层源码，数据结构2.面向对象的特征有哪些方面1.继承2.封装3.多态性3.请问error和exception有什么区别？4.请说明一下Java中反射的实现过程和作用分别是什么？5.HashMap和HashTable区别6.TreeSet和HashSet区别7.StringBuffer和StringBuild区别Java基础1.HashMap 底层源码，数据结构底层结构：jdk7：数组+链表jdk8：数组+链表+红黑树HashMap中维护了Node类型的

2020-07-30 13:54:32 835

原创 scala数组,集合——函数大全（贼全）

文章目录1.Array2.++3.++:4.+:5.:+6./:7.:\8.addString(stringbuffer)9.addString(stringbuffer, sep)10.aggregate11.apply12.canEqual13.charAt14.clone15.collect16.collectFirst17.combinations18.contains19.containsSlice20.copyToArray(xs)21.copyToArray(xs, start)22.copy

2020-07-26 18:52:41 1976

原创 Hive函数大全（特全）

文章目录一、关系运算：1. 等值比较: =2. 不等值比较: <>3.小于比较: <4. 小于等于比较: <=5. 大于比较: >6. 大于等于比较: >=7. 空值判断: IS NULL8. 非空判断: IS NOTNULL9. LIKE比较: LIKE10. JAVA的LIKE操作: RLIKE11. REGEXP操作: REGEXP二、数学运算：1. 加法操作: +2. 减法操作: -3. 乘法操作: *4. 除法操作: /5. 取余操作: %6. 位与操作: &a

2020-07-12 23:09:42 11008

原创大数据Hadoop生态圈各个组件介绍（详情）

Hadoop架构HDFS（Hadoop Distributed FIle System）分布式文件系统，解决分布式存储MapReduce分布式计算框架TARN分布式资源管理系统在Hadoop 2.x中引入Common支持所有其他模块的公共工具程序Hadoop分布式文件系统-HDFS架构HDFS采用master/slave架构master：NameNodeslave：DataNodeHDFS组成角色及其功能Client：客户端NameNode（NN）：元数据节点管理文件系统的

2020-07-12 21:15:06 7804 1

原创看了必会之——Hadoop环境搭建(单机)

文章目录1.环境准备2.配置主机名，主机映射3.创建文件夹1.环境准备一个纯净版的centos7 虚拟机，配置好静态ip环境配置方法2.配置主机名，主机映射vi /etc/hostnamehadoop1vi /etc/hosts192.168.25.201 hadoop13.创建文件夹在/opt下创建两个文件夹，software，installcd /optmkdir software install...

2020-07-12 00:04:13 732

原创 Hive分区——Partition(静态分区，动态分区)详解

文章目录分区目的分区的创建1.创建建表时候不管动态还是静态分区2.执行load 装载数据3.查看表结构，查询分区表的数据4.静态分区:5.动态分区:多分区表分区的增删改查分区目的-分区主要用于提高性能-分区列的值将表划分为一个个的文件夹-查询时语法使用"分区"列和常规列类似-查询时Hive会只从指定分区查询数据，提高查询效率-分为静态分区和动态分区分区的创建Hive创建分区时，是通过partitioned by关键字进行创建，要注意的是这个关键字定义的列是表中正式的列，不能与表中其他列名重复

2020-07-08 22:31:37 5623

原创 Linus中安装MySQL——易懂篇

安装mysql一.安装环境1.软件环境：CentOS(Linus)，MobaXterm.11.02.安装方式：rpm，yum安装安装方式详情3.mysql软件：MySQL-server-5.6.46-1.el7.x86_64MySQL-client-5.6.46-1.el7.x86_64链接：https://pan.baidu.com/s/13OuIycWDoFsL7NgjFc5XoQ提取码：7fek二.安装mysql步骤（1）上传rpm包（2）yum 下载并安装依赖包：net-to

2020-07-06 22:42:22 337

原创 MapReduce详细解读一（InputFormat）

文章目录MapReduce工作流程图InputFormatInputSplitRecordReaderFileInputFormatTextInputFormatMapperMapReduce工作流程图InputFormat源码：public abstract class InputFormat<K, V> { public InputFormat() { } public abstract List<InputSplit> getSplits(J

2020-07-05 17:14:21 1705 1

原创看了必会之——Hadoop集群的搭建

文章目录集群准备复制虚拟机修改配置文件hadoop-env.shcore-site.xmlhdfs-site.xmlyarn-env.shyarn-site.xmlmapred-site.xmlslaves时间同步集群准备准备3台客户机（关闭防火墙、静态ip，主机映射、主机名称），主机名称分别hadoop2，hadoop3，hadoop4安装jdk，配置环境变量（可以直接复制hadoop1虚拟机，省略配置）配置ssh，免密登陆配置时间同步复制虚拟机1.复制更改虚拟

2020-07-02 23:32:00 1297

原创 MapReduce原理及编程

文章目录一.什么是MapReduce?二.MapReduce的设计思想三.MapReduce特点优点不适用领域四.MapReduce实现WordCount五.MapReduce编程规范六.MapReduce执行过程七.InputSplit（输入分片）一.什么是MapReduce?1.MapReduce是一个分布式计算框架1).它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。2).起源于Google2.适用于大规模数据处理场景1)每个节点处理存储在该节点的数据3.每个job包含Ma

2020-07-01 22:28:16 414

原创 Java&SQL（试题，阶段测试）——面试必看系

文章目录Java&SQL 阶段考试Java 部分一、选择题二、简答题三、编程题SQL 部分一、选择题二、简答题三、编码题Java&SQL 阶段考试Java 部分一、选择题1.以下关于 abstract 关键字的说法，正确的是（D）。A.abstract 可以与 final 并列修饰同一个类。B.abstract 类中不可以有 private 的成员。C.abstract 类中必须全部是 abstract 方法。D.abstract 方法必须在 abstract 类或接口中。

2020-07-01 20:57:06 2060 1

原创 Linus中安装JDK-——易懂篇

安装JDK一.安装环境1.软件环境：CentOS(Linus)，MobaXterm.11.02.安装方式：tar安装安装方式详情3.jdk软件：jdk-8u221-linux-x64.tar链接：https://pan.baidu.com/s/11-ABTdv1qxldH3UFQmj0Jg提取码：bvmd二.安装jdk（tar.gz包）步骤：（1）上传jdk的安装包（2）tar -zxvf jdk-8u221-linux-x64.tar.gz（解压安装）（3）配置环境变量 vi /et

2020-06-29 16:48:33 444

原创常用命令2

变量的声明与查看1.export在 /etc/profire中配置全局变量（需要重启或source来使配置生效）2.export在命令行或其他普通脚本中声明变量则是当前session有效且立即生效3.echo $变量名可查看具体变量的值4.printenv 可查看所有变量的值echo命令使用echo命令可以打印变量的值printenv命令printenv命令可以打印环境变量grep命令使用正则表达式的搜索工具选项说明-i忽略大小写（ignore case）

2020-06-29 16:22:03 169

原创使用IntelliJ IDEA配置Tomcat（详细操作）

一，下载Tomcat1.进入官网Http://tomcat.apache.org/,选择download，下载所需要的Tomcat版本。（注意：最好下载Tomcat 7 或者Tomcat 8 因为最新版本的出错不好百度调试。）注意有zip和exe两种格式的，zip（64-bit Windows zip(pgp,md5,sha1)）是免安装版的，exe（32-bit/64-bit Windows Service installer(pgp,md5,sha1)）是安装版。同时观察自己的电脑是64位系统还

2020-06-23 17:22:42 1682

空空如也

空空如也