Zi yo-CSDN博客

原创 Typora公式编辑说明

Tyora使用技巧1、数学公式开启设置在使用Typora进行数学公式编辑的过程中，需要将设置中的内联公式进行开启，具体方式如下：Typora想要插入行间公式，首先需要确认以下，Typora已经勾选 “插入内联公式” 选项。具体方法：点击“文件” --> “偏好设置” --> “Markdown” --> “Markdown扩展语法” —> 勾选 “内联公式（例：$ \LaTeX $）”各类公式分为行内公式和行间公式，其表现形式如下1.行内公式正弦函数的公式为:$正

2024-03-20 16:31:38 926 1

原创 Matlab

要创建每行包含四个元素的数组，请使用逗号 () 或空格分隔各元素。这类数组也叫行向量要创建包含多行的矩阵，请使用分号分隔各行。还可以用函数进行创建。

2024-03-20 16:22:37 620 1

原创 Hive（完整版）

大数据-Hive（完整版）

2022-09-27 15:15:20 7232 1

原创 Hive-

1.Hive概述Hive是基于Hadoop的一个数据仓库工具，用于解决海量结构化日志的数据统计，可以将结构化的数据文件映射成为一张表，并提供类SQL的查询功能。本质上是将HQL转化成为MapReduce程序Hive处理的数据存储在HDFS上Hive分析数据底层实现的是MapReduce执行程序运行在YARN上在进行Hive的安装之前需要在当前环境当中安装Mysql数据库，原因是Hive本质上是一个数据真实存储在HDFS文件服务器上，所有数据的元数据（数据位置，数据大小，所属库，所属表）都保存

2021-11-13 13:34:24 161

原创 Spark补充

1.累加器1.产生背景问题:统计此次执行过程中map执行的次数 //创建程序入口 val conf = new SparkConf() .setAppName("Demo2") .setMaster("local[2]") val sc = new SparkContext(conf) //生成RDD对象 val RDD = sc.makeRDD(1 to 10) //编写逻辑 val value = RD

2021-11-13 13:32:47 152

原创 Spark

1.Spark概述Spark是一个支持多语言的数据计算、科学计算、机器学习引擎、同时支持单节点或者集群运行模式其强大的功能包括：批处理、结构化的SQL计算、流式计算、机器学习库、图计算等。2.Spark集群环境的搭建1.下载解压安装包2.修改配置文件2.1 spark-env.sh# 配置hadoop集群的配置文件目录# 目的是让Spark可以读取到HDFS数据HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop# 配置Spark集群主节点的主机名和

2021-11-13 13:31:27 120

原创 Spark-RDD编程

Spark在进行计算的时候通常会包含以下几个步骤创建SparkContext上下文对象使用SparkContext加载数据创建RDDRDD的转换算子transfotmationsRDD的行动算子actionsRDD的缓存和持久化1.创建SparkContext上下文对象 // SparkContext // 创建SparkConf对象用于配置参数 val conf = new SparkConf // 连接集群 // conf.setMaste

2021-11-04 19:46:12 1050

原创 Scala

1.Scala基础 /** Scala * Scala在Java的基础上进行开发,使用Jvm解释器， * 语言上比Java更加精炼,做到了纯面向对象编程 * Scala中每一行代码都是一个表达式 * 与Java不同的是,每行的末尾不需要写; */ //1.变量和常量的声明 //变量在声明时可以使用_来代替但是必须指明变量类型 //也可以不用指明变量类型但是要给出具体值,后续的值是可以改变的 var A:String = _ var

2021-11-02 15:31:52 108

原创 MapReduce

1.MapReduce概述MapReduce是一个由Java语言编写，运行在Hadoop集群上的分布式运算程序框架，是基于Hadoop数据分析应用的核心框架。2.MapReduce的特点优点：易于编程，实现简单的接口就可以完成一个分布式的程序。良好的拓展性，当计算能力不够时可以通过增加机器的数量来提高运算能力。大数据量的统计与计算，可达到PB量级以上的运算性能。缺点：不适合做实事数据的计算，他处理的一般都是打包好的离线数据不适合做流式计算，MapReduce在设计的时候，数据的输

2021-10-25 16:12:28 546

原创 Flume

1.Flume概述Flume是一个分布式日志采集工具，可以对产生的海量日志进行自动收集，聚合，移动。结构Web Server日志信息的来源AgentAgent其实是一个在Flume启动时启动的一个JVM程序，使用Flume进行数据采集的时候先编写Agent配置文件，之后启动Agent来进行采集Source负责将采集信息，并将数据放入ChannelChannnel以队列的形式将采集到的数据进行缓存，等待Sink读取数据Sink读取Channel中的数据

2021-10-24 15:43:33 89

原创 Hbase

1.Hbase概述Hbase是hadoop生态中的一个列式存储的非关系型数据库常用的mysql数据库采用的是行式存储，但是由于行式存储造成大量的稀疏，不适用于大数据的存储，因此出现了Hbase这样的列式存储引擎列式存储是指，将数据用行键和列限定符来标识数据，将关系型表中的稀疏结构中有值的内容按行保存，节省空间并提高查询效率2.Hbase中的两个角色HMaster监控 RegionServer处理 RegionServer 故障转移处理元数据的变更处理region 的分配或移除

2021-10-17 16:04:16 92

原创 zookeeper

1.zookeeper概述zookeeper字面意思就是动物园管理者，在hadoop大数据生态圈，使用到的功能组件大多是以动物作为图标，因此顾名思义。zookeeper就是在众多组件当中起到一个核心的调度管理功能。使用到的场合如下：高可用集群的主备切换统一资源配置管理分布式锁2.zookeeper集群搭建1.下载解压zookeeper-3.4.14.tar到/opt目录下2.修改配置文件将解压目录下的/opt/zookeeper-3.4.14/conf/下的zoo_sample.cfg

2021-10-17 14:46:09 143

原创使用Java程序创建Hadoop-Client操作Hadoop

1.创建一个Maven工程2.在Example的pom文件中添加依赖管理 <dependencyManagement> <dependencies>  <dependency> <groupId>org.apache.hadoop</groupId&

2021-10-14 10:51:56 1598

原创 Java知识点

1.数据类型转换1.数据类型自动提升当大的数据类型与小的数据类型做运算时得到的值会自动将小的数据类型转化成大的数据类型，例如：byte a = 127;byte b = 4;int c = a + b;//输出结果c=131char d = 'a';int e = a + d;//输出结果为e=2242.强制类型转换当大的数据类型向比自己小的数据类型转换时用到，前提是小的数据类型范围能够容纳大的数据，浮点类型在做此项转换时会有精度损失int aa = 56；byte bb = (

2021-10-10 16:02:38 73

原创 HDFS概述

HDFS概述1.HDFS架构1.Client：客户端将文件切分成一个个的Block，进行存储与NameNode进行交互，获取文件的位置信息与DataNode进行交互，读取或追加数据通过命令来管理HDFS，如开启或关闭集群start-dfs.sh、stop-dfs.sh通过命令访问HDFS2.NameNode：HDFS的管理者（命令发布者）管理HDFS的命名空间管理数据块(Block)的映射信息配置副本策略处理客户端的读写请求3.DataNode：HDFS的执行者（命令执行者

2021-10-10 13:09:29 174

原创基于Linux系统搭建Hadoop文件服务器

基于Linux系统搭建Hadoop文件服务器1.工具CentOS7虚拟机镜像、10.0版本以上的Vmware、Hadoop-2.7.7、Linux系统下的jdk1.8、MobaXterm远程连接工具2.Linux虚拟机安装打开Vmware，进入安装导航页面，选择自定义安装，下一步。选择稍后安装操作系统选择安装Linux操作系统，版本选择CentOS7-64位的，具体的可以依据虚拟机的镜像来进行选择。更改你的虚拟机名称，位置建议安装在除C盘以外的系统盘，方便管理。根据自己的电脑的配置

2021-10-05 14:45:26 915

原创基于sklearn的简单分类器

基于sklearn的分类1.基于sklearn的简单分类器输入输出3 1 02 5 11 8 16 4 05 2 03 5 14 7 14 -1 07 5 ？已知部分输入和部分输出求当输入为7、5时输出为多少？我们观察上面的规律不难发现，当输入的第一个数大于第二个数时输出为0，当输入的第一个数小于第二个数时输出为1，因此我们可根据输入和输出关系利用matplotlib.pyplot在坐标系中将输入对应点将输出对应点的颜色表示出来。"""简单的分

2021-10-05 13:08:33 4606

非我执笔