奋斗的憨憨小S-CSDN博客

原创 Python面向对象基础

面向对象基础（OOP）（object-oriented programming）面向过程：根据业务逻辑从上到下写代码函数式：将某功能代码封装导函数中面向对象编程：将数据与函数绑定在一起，进行封装类和对象类：是一个模板，模板里面有很多函数是具有一组相同或者相似属性和方法的一系列对象的集合类：类名，类的属性，类的方法对象：是实实在在的东西，是类的实例化#采用大驼峰法class Person: name = 'Charlie' 类属性直接归属类所有 age = 18

2021-09-09 11:49:37 91

原创 Python内置函数

数学运算函数abs() #求绝对值round() #对浮点数进行近似取值round(3.6) 返回4round(3.66,1) 保留一位返回3.66pow() 求指数pow(3,3) 3的3次方3**3divmod() 求商和余数divmod(7,3) 返回一个元组 (2,1)max() 求最大值给一个序列min() 最小值sum() 求和sum([0,1,2,3,4],2) 指定加完之后最后再加个2eval(expression[,globals[,locals]

2021-09-08 17:23:59 103

原创 Python函数

字符串，列表，元组是序列，支持切片但是字典不是序列，不支持切片列表可以修改，元组是不可变得序列函数就是最基本的一种代码抽象的方式，面对对象的一个封装1.函数基础：具有独立功能的代码块组织为一个小模块，这就是函数定义->调用def 函数名(): 代码块代码的复用最大化以及最小化冗余代码2.函数参数：传参，调用，不定长参数1.必选参数：形式参数：不占用内存地址实参是调用函数时的参数2.默认参数：是在定义参数时直接指定参数的值默认参数必须放在定义函数最后![3.可选参数：.

2021-09-02 11:51:28 171

原创 Python 元组列表字符串共同操作

共有方法 + * instrA='人生苦短'strB='我用Python'print(strA+strB) #连接两个字符串listA=list(range(10))listB=list(range(10,20))print(listA+lsitB) #合并两个列表tupleA=tuple(range(10))tupleB=tuple(range(10,20))print(tupleA+tupleB) #合并两个元组#复制方法print(strA*3) #打印三次字符串，没有换.

2021-08-31 22:01:30 126

原创 Python--字符串，列表，元组，字典的基本操作

序列：在Python当中，就是一组按照顺序排列的值（数据集合）三种序列类型：字符串，列表，元组优点：支持索引和切片的操作特征：正索引是0.从左向右，-1是最后一个可以从右向左索引。字符串切片【高级操作】：指截取字符串中的其中一段内容，可以获取序列对象的任意部分数据[起始下标：结束下标：步长] 步长默认是1下标会越界，切片不会Test = 'python'print('获取第一个字符:',Test[0])print('获取第一个字符%s'%Test[2])for i in Test:

2021-08-31 21:43:07 624

原创 Python基础知识

def fun(): a = 10 print(a) return a+100print(fun())函数定义时：指定参数必须在默认参数的前面。全部变量是所有地方都可以使用，局部变量只能函数内部使用，除非在函数内部声明global#写文件text = 'This is my first test.\nThis is next line'#没有会自动创建my_file = open('myfile.txt','w')my_file.write(text)my_

2021-08-28 19:21:15 150

原创 Hbase

Hbase语言：truncate：disable the table + drop + recreate the table structure truncate 'Student'#就是格式化表结构，重新创建表create:create a table create 'Student','Info','Edu' create 'Employee',{NAME=>'Per_Info',VERSIONS=>4},{MA<E=>'Edu_Info',VERSIONS=>

2020-11-19 15:00:08 128

原创 Hbase

start-hbase.shhbase shell1.list是显示所有表create 'studnet' 'info' 'dept'创建表scan 'student'审查表describe 'student' 查看表的详细信息put ‘student’,‘1’,‘cf1:name’,‘peter’添加链接描述help ‘命名名’ 查看命令的使用描述 help ‘命令名’whoami 我是谁 whoamiversion 返回hbase版本信息 versionstatus 返回hbase

2020-11-12 15:15:52 209

原创 2020-10-13

<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.9.2</version> </dependency> .

2020-10-13 14:00:48 79

原创 2020-10-08

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.SequenceFile;import org.apache.hadoop.io.Text;import java.io.IOException;public class SquenceFileDemo {

2020-10-08 14:35:53 81

原创 2020-10-07

package Chapter7;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.io.compress.CompressionCodec;import org.apache.hadoop.io.compress.CompressionCodecFactory;impor

2020-10-07 14:55:56 80

原创 9-30

2020-09-30 15:42:45 81

原创 2020-9-22

2020-09-22 15:51:18 82

原创 MapReduce工作流程

Shuffle机制map方法之后，reduce之前的数据处理过程叫shuffle（洗牌）分区Partition分区：默认分区是根据key的hashCode对ReduceTasks个数取模得到的，用户没法控制哪个key存储到哪个分区。

2020-07-30 08:52:48 88

原创 MapReduce序列化

1.什么是序列化：序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘和网络传输反序列化是将收到的字节序列或者是磁盘的持久化数据，转换成内存中的对象。2.为什么要序列化：序列化可以存储活的对象，可以将活的对象发送到远程计算机3.数据块：Block是HDFS物理上把数据分成一块一块的。数据切片()：只是在逻辑上对输入进行切片，并不会在磁盘上将其切分成片进行存储。Map并行度，MapTaskFileInputFormat切片机制：切片数与MapTask数目一样切片大

2020-07-25 22:24:59 292

原创 Spring boot（二）

eclipse ： ide自带jdk1.8SpringBootRpository 目录maven 仓库构建工具三个文件下载，解压修改settings.xml 里的本地仓库目录修改eclipse maven设置，指定仓库未位置项目文件：main/java java源码位置（包）main/resourceapplication.properties 主配置static 静态资源（不需服务处理）templates 动态模板资源pom.xml mav

2020-07-23 08:59:36 168

原创 MapReduce实际操作

1.在pom.xml中添加依赖 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</source> <tar

2020-07-21 22:07:22 92

原创 Spring

eclipse ： ide自带jdk1.8SpringBootRpository 目录maven 仓库构建工具三个文件下载，解压修改settings.xml 里的本地仓库目录修改eclipse maven设置，指定仓库未位置项目文件：main/java java源码位置（包）main/resourceapplication.properties 主配置static 静态资源（不需服务处理）templates 动态模板资源pom.xml mav

2020-07-21 19:52:29 111

原创 MapReduce简介

打

2020-07-20 10:58:59 271

原创 HDFS2.X的新特性

1.实现两个集群之间的数据拷贝（distcp命令）bin/hadoop distcp hdfs://hadoop132/user/shizhenqi/hello.txt hdfs://hadoop137/user/shizhenqi/hello.txt这是两个不同集群的虚拟机2.小文件文档缺点：每个文件按块存储，会占用NameNode大量的空间，但是小文件所需要的磁盘容量和数据块的大小无关。把小文件进行整合。因此NameNode把这些小文件看成了一个整体归档文件命令#在/user/s

2020-07-19 16:40:41 97

原创 HDFS的数据流（面试重点）

一：剖析文件写入二：网络拓扑-节点距离计算在HDFS写数据的过程中，NameNode会选择距离最近的DataNode接收数据节点距离：两个节点到达最近的共同祖先的距离总和三：机架感知（副本存储节点选择）HDFS的放置策略是在本地机架上放置一个节点的副本，第二个副本与第一个副本相同机架的随机节点，第三个副本位于不同机架的随机节点。四：HDFS读取数据流程串行读数据五：NameNode的元数据存储在内存中，产生了在磁盘中备份元数据的FsImage。之后引入了Edits文件（只进行追加操作，效率

2020-07-18 17:04:07 104

原创 HDFS输入输出流的操作--小白都能看懂

一：把本地文件通过输入输出流上传到HDFS上（一般会在公司中使用，会有相应的架构）源头是输入流，去向是输出流public class HDFSIO { @Test public void putFIleToHDFS() throws IOException, InterruptedException, URISyntaxException { //获取对象 Configuration conf = new Configuration(); FileSystem fs = FileSyste

2020-07-17 10:28:04 750

原创 HDFS客户端操作

1.在eclipse编写在hdfs上创建目录public static void main(String[] args) throws IOException, Exception, URISyntaxException { Configuration conf = new Configuration(); //conf.set("fs.defaultFS", "hdfs://hadoop132:9000"); //1获取hdfs客户端对象 //FileSystem fs = FileSyst

2020-07-16 16:26:16 155

原创 Hadoop的客户端配置

1.下载eclipse2.下载与集群上版本号相同的hadoop压缩包解压然后配置环境变量HADOOP_HOME 解压目录Path中添加 %HADOOP_HOME%\bin3.在eclipse中建立Maven项目打开pom.xml 引入如下依赖junitjunitRELEASEorg.apache.logging.log4jlog4j-core2.8.2org.apache.hadoophadoop-common2.9.2org.apache.hadoopha

2020-07-14 19:19:02 789

原创 HDFS相关命令操作

（linux系统中，所有的文件与目录bai都是由根目du录/开始，不是以/开头的就是相对路径；1、“.”表示当前目录，也可以用“./”表示；2、“…”表示上一级目录，也可以用“…/”表示；3、“~” 代表用户自己的宿主目录；）HDFS的Shell命令hadoop fs-help：输出这个命令参数-lsr：显示目录信息，递归显示-mkdir：创建目录-moveFromLocal：从本地剪切上传到HDFS 本地就没有了如：在hadoop目录下 vim panjinlian.txthadoo

2020-07-14 17:58:44 114

原创 HDFS的优缺点以及组成架构

1.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nut

2020-07-14 10:53:54 607

原创 JSP相关知识

servlet生成响应转到jsp页面session可以直接跳转jsp页面value会提交给服务端1.单选按钮：性 别：  <input typ

2020-07-13 10:23:59 108

原创 Kettle介绍

数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程改进，监视时间成本、质量以及控制。数据仓库：搜集大量的数据数据分析ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经（extrac过抽取t）、转换（transform）、加载（load）至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程，目的是将企业中分散、零乱、标准不统一的数

2020-07-12 21:41:19 174

原创 Hadoop集群搭建（二）

1.集群的启动和关闭在有namenode的机器上启动start-dfs.sh在有resourcemanager上启动sstart-yarn.sh2.集群时间同步时间同步方法：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步（1）先检查是否有体检同步的安装包，如果有的话，修改配置文件即可（修改如下图）注意这里应该是你集群的网段，因为我的网段是184的所以这里是184的网段为了是让硬件时间与系统时间一起同步（2）重新启动ntpd服务：service ntpd status

2020-07-12 21:40:22 62

原创 Hadoop网络配置以及集群搭建（一）

网络配置，虚拟机克隆（Centos7）1.在/etc/hostname 修改主机名称2.在/etc/sysconfig/network-scripts里面syscfg-ens33里面有相关的网络配置3.ifconfig检查ip地址是否正确1.scp 安全拷贝可以实现服务器与服务器之间的数据拷贝语法：scp -r pdir/pdir/pdir/fname user@hadoopuser@hadoopuser@hadoophost:pdir/pdir/pdir/fname递归

2020-07-11 10:34:01 819

原创 MySql开窗函数

#Key word :Partiton by & order by<开窗函数> over ([PARTITION by <列清单>]Order by <排序用列清单>）Mysql中支持的开窗函数有很多，这里重点给大家介绍三个：row_number(),rank(),dense_rank()row_number:不管排名是否有相同的，都按照顺序1，2，3……nrank:排名相同的名次一样，同一排名有几个，后面排名就会跳过几次dense_rank:排名相

2020-06-22 10:57:47 820

原创大数据hadoop相关知识

Hadoop HDFS 海量数据的存储 MapReduce 海量数据的处理HDFS模块HDFS 负责大数据的存储，通过将大文件分块后进行分布式存储方式，突破了服务器硬盘大小的限制，解决了单台机器无法存储大文件的问题，HDFS 是个相对独立的模块，可以为 YARN 提供服务，也可以为 HBase 等其他模块提供服务。YARN 模块YARN 是一个通用的资源协同和任务调度框架，是为了解决 Hadoop1.x 中MapReduce 里 NameNode 负载太大和其他问题而创建的一个框架。Y

2020-06-21 12:42:51 129

原创 SQL语句(一)

结构化查询语言(Structured Query Language)简称SQL，是关系型数据库管理系统都需要遵循的规范，是数据库认识的语句。不同的数据库生产厂商都支持SQL语句，但都有特有内容。普通话：各数据库厂商都遵循的ISO标准。方言：数据库特有的关键字。SQL分类：数据定义语言：简称DDL(Data Definition Language)，用来定义数据库对象：数据库，表，列等。关键字：create，alter，drop等数据操作语言：简称DML(Data Manipulation

2020-06-18 14:41:02 187

原创 Mysql数据库

数据库就是存储数据的仓库，其本质是一个文件系统，数据按照特定的格式将数据存储起来，用户可以对数据库中的数据进行增加，修改，删除及查询操作。随着互联网的高速发展，大量的数据在不断的产生，伴随而来的是如何高效安全的存储数据和操作数据，而这一问题成为了信息时代的一个非常大的问题。使用数据库可以高效的有条理的储存数据：1、可以结构化存储大量的数据，2、可以有效的保持数据的一致性、完整性...

2020-06-18 11:30:39 123

原创 Hadoop配置文件说明

（1)dfs.hosts记录即将作为DataNode加入集群的机器列表；（2)mapred.hosts记录即将作为TaskTracker加入集群的机器列表：（3)dfs.hosts.exclude mapred.hosts.exclude分别包含待移除的机器列表；（4)master记录运行辅助NameNode的机器列表；（5)slaves记录运行DataNode和TaskTracker的机器列表；（6)hadoop-env.sh记录脚本要用的环境变量，以运行Hadoop;（7)core-site

2020-06-17 21:52:42 278

原创 Linux命令操作（二）

mkdir是创建文件夹touch用于创建文件 touch a.txt

2020-06-16 13:22:48 96

原创 Linux常规命令操作（一）

Linux的目录结构是一个树型结构Windows 系统可以拥有多个盘符, 如 C盘、D盘、E盘Linux没有盘符这个概念, 只有一个根目录 /, 所有文件都在它下面目录作用/bin 二进制命令所在的目录/boot 系统引导程序所需要的文件目录/dev 设备软件目录，磁盘，光驱，/etc 系统配置，启动程序/home 普通用户的家，目录默认数据存放目录/lib 共享库文件和内核模块存放目录/mnt 临时挂载储存设备的挂载点/opt 额外的应用软件包/proc 操作系统运行时，进程信

2020-06-15 16:38:28 124

原创 Linux系统相关概述

1.对于Linux操作系统来说，其本身是一个整体，包括Linux内核、系统库和系统程序，Linux内核是其最基础的部分，它实现了对硬件资源的管理，并且提供了使用这些硬件资源的通用接口 Redhat：目前，全球最大的Linux发行厂商，功能全面、稳定。 Redhat 被 IBM 收购! Ubuntu：目前，是Linux桌面操作系统做的最好的。 Centos：免费版的redhat，Centos 基于 redhat 发行版基础之上，再重新编译发布的版本。 目前 Centos 已经被 Redha

2020-06-15 10:52:58 135

原创计算机原理（1）

1.计算机都是基于冯诺依曼结构，该结构的核心思想是冯将程序和数据都存放在计算机中，按存储器的存储程序首地址执行程序的第一条指令，然后进行数据的处理计算。2.计算机由运算器，控制器，存储器，输入设备，输出设备五大结构组成3.计算机由软件和硬件组成。硬件主要有CPU，存储设置，输入输出设备组成。软件包括操作系统，系统软件和应用软件4.操作系统：Linux，Unix，IOS5.操作系统（Operating System，简称OS）是管理和控制计算机硬件与软件资源的计算机程序，是直接运行在“裸机”上的

2020-06-15 10:30:13 233

原创第七章数据结构思维导图

2019-12-21 10:32:04 214

空空如也

空空如也