三岁清风-CSDN博客

原创 Spark内核学习

Spark core简单wordcount案例spark文件基本流程1、创建spark环境//配置spark对象val conf = new SparkConf()//设置任务名conf.setAppName(“wordcount”)//指定spark代码运行方式，local：本地测试conf.setMaster(“local”)//spark 上下文对象用于数据读取（后面使用sparksql的时候使用SparkSession）2、RDD转换算子操作（因为转换算子是懒执行）3、R

2022-05-19 23:36:39 1450

原创学习kafka知识点总结

kafka的大致框架图启动zkzkServer.sh start启动kafkakafka-server-start.sh -daemon /usr/local/soft/kafka_2.11-1.0.0/config/server.properties创建一个topickafka-topics.sh --create --zookeeper master:2181,node1:2181,node2:2181 --replication-factor 3 --partitions 3

2022-05-01 22:16:47 260

原创学习大数据的第52天（Hive）——day02

学习大数据的第52天（Hive）——day02Hive的分区操作一、开启HIVE中分区表支持中文字段 1.根据HIVE开启分区支持中文.txt中的操作步骤去MySQL中执行，修改HIVE元数据库中的编码格式2. 插入数据 INSERT INTO TABLE filetest.partition_student PARTITION(gender="女生") SELECT "1500100002","吕金鹏",24,"文科六班"; INSERT INTO TABLE filetest.partit

2022-04-14 23:28:17 362 1

原创学习大数据的第51天（Hive篇）

学习大数据的第51天（Hive篇）——day01Hive框架Hive是什么Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL ），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper

2022-04-13 19:37:16 641

原创学习大数据的第50天（MapReduce篇）——mapreduce的原理概述

Mapreduce的原理Mapreduce的概述MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.MapReduce是分布式运行的，由两个阶段组成：Map和Reduce，Map阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据。Reduce阶段是一个独立的程序，有很多个节点同时运行，每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapReduce框架都有默认实现，用户只需要覆盖map()和reduc

2022-04-08 22:29:44 2573

原创学习大数据的第50天（Mapreduce篇）Hadoop源码分析

Hadoop源码分析：回退上一级源码快捷键：ctrl+alt+ <-数据输入：InputFormat：getSplits（具体由FileInput实现）方法一public List<InputSplit> getSplits(JobContext job) throws IOException { //创建一个时间戳 StopWatch sw = new StopWatch().start(); //最小的切片大小 long minSize = Math.

2022-04-08 22:26:25 1784

原创学习大数据的第49天（搭建HA）

学习大数据的第49天（搭建HA）高可用HA的环境搭建（不过公司里都是用CDH ） ZK NN DN RM NM JN ZKFCmaster 1 1 1 1 1node1 1 1 1 1 1 1 1node2 1 1 1 1注意：操作前需要保存一下之前的快照jdk hosts1、防火墙service iptables stop2、时间同步yum install ntpntpdate -u s2c.time.edu.cn或者date -s 201805033、免密钥

2022-04-07 22:44:09 1295

原创学习大数据的第48天（zookeeper篇）

加油

2022-04-07 22:42:43 720

原创学习大数据的第47天（HDFS以及Zookeeper）——HDFS的重要架构知识点以及zookeeper的安装和基本命令

坚持住就是胜利

2022-04-02 00:16:18 1549 3

原创学习大数据的第46天（Hadoop篇）——Hadoop框架的认识以及基础命令的认识

学习大数据的第46天（Hadoop篇）——Hadoop框架的认识以及基础命令的认识Hadoop的学习笔记大数据的特点：大量、高速、多样化概述：Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。Hadoop框架三大组件支持：Hadoop是一个统称，目前hadoop主要包含三大组件：（1）HDFS：是一个分布式存储框架，适合海量数据的存储（2）mapreduce：是一个分布式计算框架，适合海量数据的计算（3）yarn：是一个资源调度平台，负责给计算框架分配计算资源HDF

2022-03-31 23:19:32 1793

原创学习大数据的第45天（Hadoop篇）——搭建Hadoop平台

学习大数据的第45天（Hadoop篇）——搭建Hadoop平台如何安装Hadoop平台Hadoop安装文档基础配置(三台都要安装，切记否则后面会出错)1、关闭防火墙 systemctl status firewalld.service #停止firewall systemctl disable firewalld.service #禁止firewall开机启动查看防火墙状态 firewall-cmd --state systemctl status firewalld.servi

2022-03-31 23:17:35 113

原创学习大数据的第44天（python篇）——学习python的第四天（scrapy爬虫简单实例）

学习大数据的第44天（python篇）——学习python的第四天（scrapy爬虫简单实例）Python——爬虫scrapy框架Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。Scrapy架构图(绿线是数据流向)Scrapy Engine(引擎): 负责Spider、ItemPipe

2022-03-28 23:12:24 1738

原创学习大数据的第43天（python篇）——学习python第3天

学习大数据的第42天（python篇）——学习python第3天Python的科学计算生态圈NumPy 处理一些多维矩阵Scipy library 主要是积分运算，优化以及图形Matplotlib 画图（二维图形）IPythonSympy 用的不多pandas 主要是数据分析，数据处理（比较重要）数据清洗，提供比较好的数据结构Dataframe （spark中也有）NumpyNumpy 是一个专门用于矩阵化运算，科学计算的开源Python 强大的ndarray

2022-03-28 23:09:37 2207

原创学习大数据的第42天（python篇）——学习python的第2天

学习大数据的第42天（python篇）——学习python的第2天Python 判断循环判断格式:if 表达式1:代码块1(缩进)代码块2(缩进)代码块3(缩进)elif 表达式2:代码块4(缩进)代码块5(缩进)代码块6(缩进)else:代码块7(缩进)代码块8(缩进)age = 200if age <= 0 | age >= 150: print("成精了...")elif age >= 18: print("成年...")eli

2022-03-26 23:25:47 3070

原创学习大数据的第41天（python篇）——学习python的第一天

学习大数据的第41天（python篇）——学习python的第一天Pyhton 基础语法Base变量变量的定义要求:1.命名要求：字母、数字、下划线2.注意: (1)数字不能作为开头(2) 不能以关键字作为变量名注意：输出一串相同的字符串的时候，可以 print(’>>>>’ * 40)五种数据类型整型: int字符串: str小数: float布尔类型: bool空类型:NoneType注意：1.bool类型中的True和False是需要首字母

2022-03-26 23:24:01 90

原创学习大数据的第40天——安装hadoop集群

奥里给

2022-03-22 23:04:16 77

原创学习大数据的第39天（redis篇）——安装redis的注意事项

学习大数据的第39天（redis篇）——安装redis的注意事项Redis安装1. 配置阿里云yum源下载配置文件wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo生成缓存yum makecache2、上传并解压tar -zxvf redis-6.2.6.tar.gz -C /usr/local/soft/3、安装编译所需的依赖yum install -

2022-03-19 13:39:39 1984

原创学习大数据的第38天（mysql篇）——jdbc、自定义工具类和配置文件的方法改进jdbc、如何创建maven项目、Git的使用方法以及创建spring项目的方法

学习大数据的第38天（mysql篇）——jdbc、自定义工具类和配置文件的方法改进jdbc、如何创建maven项目、Git的使用方法以及创建spring项目的方法1.加载驱动程序Class.forName(“com.mysql.jdbc.Driver”);2.获得数据库链接Connection conn=DriverManager.getConnection(URL, USER, PASSWORD);3.通过数据库的连接操作数据库，实现增删改查（使用Statement类）Statement s

2022-03-17 22:42:15 1623

原创学习大数据的第37天（mysql篇）——where 和 having、union、连表联查、视图

新的知识，着重掌握

2022-03-13 21:57:30 2370

原创学习大数据的36天（mysql篇）——详解三大范式以及TopN问题

详解三大范式以及TopN问题MSQL三大范式第一范式:原子性字段不可再分割第二范式:唯一性字段必须依赖与逐渐问题：（1）数据冗余（2）更新异常（3）插入问题（4）删除第三范式:冗余性不能进行依赖传递TopN问题类似于查找分组中最大或者前几个信息，也就是这类的问题不能group by 来解决不能再使用group by 解决TopN的问题因为group by所获的数据量是固定的(和组的数量保持一致)TopN数量不固定-- order by se

2022-03-11 21:38:07 2455

原创学习大数据的第35天（mysql篇）——时间函数、逻辑判断、排序、分页、分组以及mysql三大范式

mysql很关键继续加油

2022-03-10 22:26:09 1237

原创学习大数据的第34天（shell篇）——回顾shell重定向知识

温故而知新

2022-03-09 23:25:53 257

原创学习大数据的第34天(mysql篇)——mysql增删改查（alter、insert、update、select、delete）以及常用的函数和操作

增上改查很重要，必须掌握

2022-03-09 22:45:37 902

原创学习大数据的第33天（mysql篇）——安装mysql以及一些sql语句

进入第三个知识点mysql，坚持住

2022-03-07 22:02:45 735

原创学习大数据的第32天——循环、日期

加油，继续努力

2022-03-06 22:23:17 406

原创学习大数据的第31天——shell数组、算数运算符、条件判断语句的注意事项、以及UDP(回顾java的网络编程)

滴水石穿

2022-03-04 22:50:07 587

原创查漏补缺（java篇——反射的案例以及动态代理的实现）

不要忘记前面学习的知识点，查漏补缺

2022-03-03 23:05:03 212

原创学习大数据的第30天——shell编程基础（变量常量、字符操作、算数运算符）

linux简单认识，能看懂别人写的sh文件就行

2022-03-03 22:02:18 672

原创学习大数据的第29天——Linux指令的学习以及一些面试题

进入第二个学习阶段，记得复习之前的java部分

2022-03-02 22:05:55 719

原创学习大数据的第28天（Linux篇）——安装VMware以及一些安装的小问题

复习新的课程还得一步一步来

2022-02-26 22:19:59 978

原创学习大数据的第28天——UDP、TCP传输以及类加载器、反射和动态代理

java复习用了28天，java打好基础，后面才能得心应手，不过后面还得学习scala，继续保持状态

2022-02-26 22:13:38 701

原创学习大数据的第27天——解决多线程安全问题、死锁、等待唤醒机制、线程组、线程池、匿名内部类创建线程对象以及定时器

水滴石穿

2022-02-24 21:12:37 108

原创学习大数据的第26天——补充IO流、多线程（1）

坚持住还有两个单元就复习完了，不骄不躁

2022-02-20 22:24:25 111

原创学习大数据的第25天——IO流

加油，java快学完啦

2022-02-18 22:24:06 66

原创学习大数据的第24天——集合一些小细节、异常处理、文件处理（1）

不骄不躁

2022-02-17 22:15:59 898

原创集合作业，难度一般

认真做好每一题

2022-02-16 21:31:12 610

原创学习大数据的第23天——Set集合的小练习以及Map相关的知识

勿忘初心

2022-02-16 21:20:12 610

原创自学linux的第二天——Xshell、Xftp用法、vi、vim编辑器、以及一些指令的学习

自学linux的第二天——Xshell、Xftp用法、vi、vim编辑器、以及一些指令的学习因为有些图片传不上去，如果想要笔记的话，可以私信我奥LInux实操篇——远程登陆Linux系统程序员需要安装远程登陆到Linux的软件——Xshell如果有安装文件需要放到linux系统中，则需要一款远程上传和下载的软件——XFtp5安装Xshell后，远程连接LInux系统首先得知道Linux系统的ip地址：在终端中输入ifconfiglinux的ip地址： inet addr:192.168.1

2022-02-14 22:01:12 1150

原创学习大数据的第22天——深入了解泛型、集合（Set、LinkedHashSet、TreeSet）以及一些小的知识点

水滴石穿

2022-02-13 21:43:50 855

原创自学linux第一天——对linux有基础的认识

Linux的应用领域：个人桌面应用领域服务器领域嵌入式领域Linux的特点Linux运行稳定、对网络的良好支持性、低成本、且可以根据需要进行软件的裁剪，内核最小，可以达到几百KB等特点Linux的学习流程第一阶段：基本的操作命令，包括文件操作命令(rm mkdir chmod chown) 编辑工具使用(vi vim) Linux用户管理(useradd userdel usermod)等第二个阶段：各种配置(环境变量的配置、网路配置、服务配置)第三个阶段：Linu

2022-02-12 22:04:40 721

贪吃蛇snake

空空如也