呆萌的小透明-CSDN博客

原创大数据之Hadoop（DataNode）

6.1 DataNode工作机制（1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。（2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。（3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。（4）集群

2021-01-08 12:37:16 398

原创大数据之Hadoop（NameNode和SecondaryNameNode）

NameNode和SecondaryNameNode5.1 NN和2NN工作机制5.2 Fsimage和Edits解析5.3 CheckPoint时间设置5.4 NameNode故障处理5.5 集群安全模式5.5.1 概述5.5.2 基本语法5.5.3 案例5.6 NameNode多目录配置5.1 NN和2NN工作机制1、思考：NameNode中的元数据是存储在哪里的？首先，我们做个假设，如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需

2021-01-08 12:37:02 263 1

原创大数据之Hadoop（HDFS的数据流）

4.1 HDFS写数据流程4.1.1 剖析文件写入（1）HDFS客户端创建分布式文件系统（Distributed FileSystem）。（2）HDFS客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（3）NameNode返回是否可以上传。（4）客户端请求第一个Block上传到哪几个DataNode服务器上。（5）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3（根据距离

2021-01-08 12:36:48 230

原创大数据之Hadoop（HDFS客户端操作）

3.1 HDFS客户端环境准备1、根据电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径。2、配置HADOOP_HOME环境变量3、配置Path环境变量4、创建一个Maven工程HdfsClientDemon5、导入相应的依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId&g

2021-01-08 12:36:29 718

原创大数据之Hadoop（HDFS的Shell操作）

HDFS的Shell操作1、基本语法2、常用命令实操1、基本语法bin/hadoop fs 具体命令或者 bin/hdfs dfs 具体命令dfs是fs的实现类2、常用命令实操（0）启动Hadoop集群sbin/start-dfs.shsbin/start-yarn.sh（1）-help：输出这个命令参数bin/hadoop fs -help rm（2）-ls：显示目录信息bin/hadoop fs -ls /（3）-mkdir：在HDFS上创建目录bin/hadoop fs

2021-01-08 12:36:00 176

原创大数据之Hadoop（HDFS概述）

1.1 HDFS产生背景及定义1.1.1 HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.1.2 HDFS定义HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有

2021-01-08 12:35:41 133

原创大数据之Hadoop（完全分布式运行模式）

4.3 完全分布式运行模式（1）准备3台客户机（关闭防火墙、静态ip、主机名称）（2）安装JDK（3）配置环境变量（4）安装Hadoop（5）配置环境变量（6）配置集群（7）单点启动（8）配置ssh（9）群起并测试集群4.3.1 虚拟机准备...

2021-01-04 18:31:40 176

原创大数据之Hadoop（本地运行模型、伪分布式运行模式）

标题

2020-12-23 22:23:20 248 1

原创大数据之Hadoop（Hadoop运行环境搭建）

虚拟机环境准备1、克隆虚拟机2、修改克隆虚拟机的静态IP3、修改主机名4、关闭防火墙5、创建atguigu用户6、配置atguigu用户具有root权限

2020-12-18 19:42:21 246

原创大数据之Hadoop（从Hadoop框架讨论大数据生态）

Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。（2）主要解决，海量数据的存储和海量数据的分析计算问题。（3）广义上来说，Hadoop通常是指一个更广泛的概念-Hadoop生态圈。Hadoop发展历史（1）Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。（2）2001年年底Lucene称为Apache基金会的一个子项目。（

2020-12-17 22:02:51 184

原创大数据之Hadoop（大数据概论）

大数据概念大数据(Big Data)：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB主要解决，海量数据的存储和海量数据的分析计算问题。大数据的特点（4V）1、Volume(大量)：截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型的

2020-12-17 22:02:39 202 1

原创 Linux实操篇-学习笔记（三）

远程登录到Linux服务器为什么需要远程登录到Liunx？（1）linux服务器是开发小组共享的。（2）正式上线的项目是运行在公网上的。（3）因此程序员需要远程登录到centos进行项目管理或者开发。（4）远程登录客户端有Xshell、Xftp，我们学习使用Xshell5和Xftp5。如果希望安装好Xshell5就可以远程访问Linux系统的话，需要由一个前提，就是Linux启动了sshd服务，该服务会监听22号端口。Xshell5远程登录到Linux后，就可以使用指令来操作Linux系统

2020-12-16 22:23:31 128

原创 Linux基础篇--学习笔记（二）

Linux的目录结构Linux的文件系统是采用层式的树状目录结构，在此结构中最上层是根目录“/”，然后在此目录下再创建其他的目录。在Linux的世界里，一切皆文件。/dev 管理设备/bin：（/usr/bin, /usr/local/bin）是Binary的缩写，这个目录存放着最经常使用的命令/sbin：s就是Super User的意思，这里存放的是系统管理员使用的系统管理程序/home：存放普通用户的主目录，在Linux中每个用户都有一个自己的目录，一般该目录名时以用户的账号命名的。（us

2020-12-10 22:54:02 69

原创 Linux入门--学习笔记（一）

第一章 Linux入门

2020-12-10 22:53:47 68

原创尚硅谷_Java零基础教程（面向对象下）--学习笔记（十四)

Static关键字package com.atguigu.java;/* * static关键字的使用 * * 1、static：静态的 * 2、static可以用来修饰：属性、方法、代码块、内部类 * * 3、使用static来修饰属性：静态变量（或类变量） * （1）属性，按属否使用static修饰，又分为：静态属性vs非静态属性 * 实例变量：我们创建了类的多个对象，每个对象都独立的拥有一套类的实例变量。当修改一个对象中的非静态属性时，不会导致其他对象中同样的属性值的修

2020-12-01 22:52:14 117

原创尚硅谷_Java零基础教程（面向对象中）--学习笔记（十三)

多态性package com.atguigu.java;/* 不能调子类所特有的方法、属性有了对象的多态性以后，内存中实际上加载了子类特有的属性和方法的，但是由于变量声明为父类类型，导致编译时，只能调用父类中声明的属性和方法。子类特有的属性和方法不能调用。如何才能调用子类特有的属性和方法？向下转型：使用强制类型转换。 Man m1 = (Man)p2; 向下转型-使用instanceof判断向上转型-多态使用强转时，可能出现Cla

2020-11-29 15:02:45 170

原创尚硅谷_Java零基础教程（面向对象中）--学习笔记（十二)

继承package com.atguigu.exer;public class ManKind { private int sex; //性别 private int salary; //薪资 public ManKind() { super(); } public ManKind(int sex, int salary) { super(); this.sex = sex; this.salary = salary; } public void manOrW

2020-11-26 21:38:39 145

原创白板机器学习推导系列（频率学派vs贝叶斯学派）学习笔记（二）

频率派 vs 贝叶斯派X：data -> X=(x1,x2,...,xN)N∗PTX = (x_1, x_2, ..., x_N)^T_{N*P}X=(x1,x2,...,xN)N∗PTθ\thetaθ：parameter假设x∽p(x∣θ)x{\backsim}p(x|\theta)x∽p(x∣θ)：x服从p(x∣θ)p(x|\theta)p(x∣θ)，这是概率模型频率学派频率派认为：θ\thetaθ是一个未知的常量，X是一个随机变量；关心的数据，需要估计θ{\theta}

2020-11-25 22:51:25 145

原创白板机器学习推导系列（机器学习资料介绍）学习笔记（一）

机器学习资料介绍频率派->统计机器学习贝叶斯派->概率图模型Book：李航（统计学习方法）、周志华（西瓜书）、PRML、MLAPP、ESL、Deep Learning（圣经）Videos：台大林轩田（机器学习基石、技法）、张志华（机器学习导论、统计机器学习）、NG（CS229）、徐亦达（概率模型，github-notes）、台大李宏毅（ML、MLDS）...

2020-11-24 23:26:02 197

原创尚硅谷_Java零基础教程（面向对象中）--学习笔记（十一)

项目二package com.atguigu.p2.bean;/** * @Description Customer实体对象类，用来封装客户信息 * @author yangwei * */public class Customer { private String name; private char gender; private int age; private String phone; private String email; public Customer() {

2020-11-22 23:49:13 169 1

原创 Hands-on Machine Learning with Scikit-Learn, keras, and Tensorflow 第二版（机器学习的主要挑战）学习笔记（二）

机器学习的主要挑战简而言之，由于你的主要任务是选择一种学习算法并在某些数据上对其进行训练，因此可能出错的两件事是“错误算法”和“错误数据”。让我们从坏数据的例子开始。训练数据的数量不足为了让幼儿知道苹果是什么，你所做可能是指着一个苹果然后说“苹果”（可能重复这个过程很多次）。现在孩子能够识别各种颜色和形状的苹果。机器学习是完全不同的；大多数机器学习算法都需要大量的数据才能正常工作。即使对于非常简单的问题，你通常也需要上千个样本。对于像图像和语音识别这样复杂的问题，你可能需要上百万的样本（除非你

2020-11-21 01:19:12 2046

原创 Hands-on Machine Learning with Scikit-Learn, keras, and Tensorflow（机器学习系统的类型）学习笔记（一）

碎碎念从今天开始，博主开始学习Hands-on Machine Learning with Scikit-Learn，Keras & Tensorflow(2nd Edition，Tensorflow 2)，这本书的第一版是有大佬翻译过了，第二版好像没有。博主尝试阅读英文原著，并且也会在博客上记录和分享自己的学习笔记。Chapter 1 机器学习概览当大多数人听到“机器学习”，他们会想象着一个机器人：这个机器人是一个可靠的管家或者是一个可怕的终结者，这个想象取决于你询问的是谁。但是机器学

2020-11-19 21:31:42 3432

原创尚硅谷_Java零基础教程（面向对象上）--学习笔记（十一）

package com.itguigu.java;/* * 面向对象的特征一：封装与隐藏 * 一、问题的引入： * 当我们创建一个类的对象以及，我们可以通过"对象.属性"的方式，对对象的属性进行赋值。这里，赋值操作要受到 * 属性的数据类型和存储范围的制约，除此之外，没有其他制约条件。但是，在实际问题中，我们往往需要给属性赋值 * 加入额外的制约条件。这个条件就不能在属性声明时体现，我们只能通过方法进行限制条件的添加。同时，我们需要 * 避免用户再使用"对象.属性"的方式对属性进行赋值

2020-11-18 23:32:47 180

原创 Python深度学习（DeepDream）--学习笔记（十九）

8.2 DeepDreamDeepDream是一种艺术性的图像修改技术，

2020-11-18 12:53:31 447

原创 Python深度学习（使用 LSTM 生成文本）--学习笔记（十八）

第8章生成式深度学习人工智能模拟人类思维过程的可能性，并不局限于被动性任务（比如目标识别）和大多数反应性任务（比如驾驶汽车），它还包括创造性活动。的确，到目前为止，我们见到的人工智能艺术作品的水平还很低。人工智能还远远比不上人类编剧、画家和作曲家。但是，替代人类始终都不是我们要谈论的主题，人工智能不会替代我们自己的智能，而是会为我们的生活和工作带来更多的智能，即另一种类型的智能。在许多领域，特别是创新领域中，人类将会使用人工智能作为增强自身能力的工具，实现比人工智能更加强大的智能。很大一部分的艺术

2020-11-17 18:32:35 778

原创 Python深度学习（让模型性能发挥到极致）--学习笔记（十七）

7.3 让模型性能发挥到极致

2020-11-17 18:32:17 300 1

原创 Python深度学习（使用 Keras 回调函数和 TensorBoard 来检查并监控深度学习模型）--学习笔记（十六）

7.2 使用 Keras 回调函数和 TensorBoard 来检查并监控深度学习模型使用model.fit()或model.fit_generator()在一个大型数据集上启动数十轮的训练，有点类似于扔一架飞机，一开始给它一点推力，之后你便再也无法控制其飞行轨迹或着陆点。如果想要避免不好的结果（并避免浪费纸飞机），更聪明的做法是不用纸飞机，而是用一架无人机，它可以感知其环境，将数据发挥给操作者，并且能够基于当前状态自主航行。7.2.1 训练过程中将回调函数作用于模型训练模型时，很多事情一开始都

2020-11-16 20:29:42 558

原创 Python深度学习（不用 Sequential 模型的解决方案：Keras 函数式 API）--学习笔记（十五）

第7章高级的深度学习最佳实践7.1 不用Sequential模型的解决方案：Keras函数式API到目前为止，介绍的所有神经网络都是用Sequential模型实现的。Sequential模型假设，网络只有一个输入和一个输出，而且网络是层的线性堆叠。这是一个经过普遍验证的假设。这种网络配置非常常见，以至于前面只用Sequential模型类就能够涵盖许多主题和实际应用。但有些情况下这种假设过于死板。有些网络需要多个独立的输入，有些网络则需要多个输出，而有些网络在层与层之间具有内部分支，这使得网络看起来

2020-11-16 20:29:21 713

原创尚硅谷_Java零基础教程（面向对象上）--学习笔记（十）

package com.itguigu.java;/* * 一、理解“万事万物皆对象” * 1、在Java语言范畴中，我们都将功能、结构等封装到类中，通过类到实例化，来调用具体的功能结构。 * 2、涉及到Java语言与前端Html、后端的数据库交互时，前后端的结构在Java层面交互时，都体现为类、对象。 * * 二、内存解析的说明 * 1、引用类型的变量，只可能存储两类值：null或地址值（含变量的类型） * * 三、匿名对象的使用 * 1、理解：我们创建的对象，没有显式的赋给一个

2020-11-15 19:34:03 130

原创 Python深度学习（用卷积神经网络处理序列）--学习笔记（十四）

用卷积神经网络处理序列第5章我们学习了卷积神经网络（convnet），并知道它在计算机视觉问题上表现出色，原因在于它能够进行卷积运算，从局部输入图块中提取特征，并能够将表示模块化，同时可以高效地利用数据。这些性质让卷积神经网络在计算机视觉领域表现优异，同样也让它对序列处理特别有效。时间可以被看作一个空间维度，就像二维图形的高度或宽度。对于某些序列处理问题，这种一维卷积神经网络的效果可以媲美RNN，而且计算代价通常要小很多。最近，一维卷积神经网络（通常与空洞卷积核（dilated kernel）一起使用

2020-11-15 12:55:23 599

原创 Python深度学习（循环神经网络）--学习笔记（十三）

6.2 理解循环神经网络目前见过的所有神经网络（比如密集连接网络和卷积神经网络）都有一个特点，那就是它们都没有记忆。它们单独处理每个输入，在输入与输入之间没有保存任何状态。对于这样的网络，要想处理数据点的序列或时间序列，你需要向网络同时展示整个序列，即将序列转换成单个数据点。例如，在IMDB示例中就是这么做的：将全部电影评论转换为一个大向量，然后一次性处理。这种网络叫作前馈网络（feedforward network）。与此相反，当你在阅读这个句子时，你是一个词一个词地阅读（或者说，眼睛一次扫视一次扫

2020-11-15 12:55:01 781

原创 Python深度学习（处理文本数据）--学习笔记（十二）

第6章深度学习用于文本和序列用于处理序列的两种基本的深度学习算法分别是循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet），这些算法的应用包括：（1）文档分类和时间序列分类，比如识别文字的主题或书的作者；（2）时间序列对比，比如估测两个文档或两支股票行情的相关程度；（3）序列到序列的学习，比如将英语翻译成法语；（4）情感分析，比如将推文或电影评论的情感划分为正面或负面；（5）时间序列预测，比如根据某地最近的天气数据来预测未来天气。6.1 处理文

2020-11-12 22:35:44 1174

原创尚硅谷_Java零基础教程（面向对象上）--学习笔记（九）

学习面向对象内容的三条主线1.Java类及类的成员2.面向对象的三大特征3.其它关键字4.1 面向过程与面向对象面向过程（POP）与面向对象（OOP）：二者都是一种思想，面向对象是相对于面向过程而言的。面向过程，强调的是功能行为，以函数为最小单位，考虑怎么做。面向对象，将功能封装进对象，强调具备了功能的对象，以类／对象为最小单位，考虑谁来做。4.2 Java语言的基本元素：类和对象类（class）和对象（object）是面向对象的核心概念：类是对一类事物的描述，是抽象的、概念上的定义

2020-11-11 21:48:19 153

原创 Python深度学习（使用预训练的卷积神经网络）--学习笔记（十一）

5.3 使用预训练的卷积神经网络想要将深度学习应用于小型图像数据集，一种常用且非常高效的方法是使用预训练网络。预训练网络（pretrained network）是一个保存好的网络，之前已经在大型数据集（通常是大规模图像分类任务）上训练好。如果这个原始数据集足够大且足够通用，那么预训练网络学到的特征的空间层次结构可以有效地作为视觉世界的通用模型，因此这些特征可用于各种不同的计算机视觉问题，即使这些新问题涉及的类别和原始任务完全不同。举个例子，你在ImageNet上训练了一个网络（其类别主要是动物和日常用品

2020-11-10 18:34:36 1477

原创 Python深度学习（在小型数据集上从头开始训练一个卷积神经网络）--学习笔记（十）

5.2 在小型数据集上从头开始训练一个卷积神经网络使用很少的数据来训练一个图像分类模型，这是很常见的情况，如你要从事计算机视觉方面的职业，很可能会在实践中遇到这种情况。“很少的”样本可能是几百张图像，也可能是几万张图像。5.2.1 深度学习与小数据问题的相关性有时你会听人说，仅在有大量数据可用时，深度学习才有效。这种说法部分正确：深度学习的一个基本特性就是能够独立地在训练数据中找到有趣的特征，无须认为的特征工程，而这只在拥有大量训练样本时才能实现。对于输入样本的维度非常高（比如图像）的问题尤其如

2020-11-10 18:34:14 1427 2

原创 Python深度学习（卷积神经网络简介）--学习笔记（九）

第5章深度学习用于计算机视觉5.1 卷积神经网络简介# 实例化一个小型的卷积神经网络from keras import layersfrom keras import modelsmodel = models.Sequential()model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)))model.add(layers.MaxPooling2D((2, 2)))model.add(

2020-11-09 18:33:12 466

原创 Python深度学习（机器学习基础）--学习笔记（八）

第4章机器学习基础4.1 机器学习的四个分支在前面的例子中，你已经熟悉了三种类型的机器学习问题：二分类问题、多分类问题和标量回归问题。。这三者都是监督学习（supervised learning）的例子，其目标是学习训练输入与训练目标之间的关系。4.1.1 监督学习监督学习是目前最常见的机器学习类型。给定一组样本（通常由人工标注），它可以学会将输入数据映射到已知目标（也叫标注（annotation））。一般来说，近年来广受关注的深度学习应用几乎都属于监督学习，比如光学字符识别、语音识别、图像

2020-11-09 18:32:38 760 1

原创 Python深度学习（预测房价：回归问题）--学习笔记（七）

3.6 预测房价：回归问题前面两个例子都是分类问题，其目标是预测输入数据点所对应的单一离散的标签。另一种常见的机器学习问题是回归问题，它预测一个连续值而不是离散的标签，例如，根据气象数据预测明天的气温，或者根据软件说明书预测完成软件项目所需要的时间。3.6.1 波士顿房价数据集本节将要预测20世纪70年代中期波士顿房屋价格的中位数，已知当时郊区的一些数据点，比如犯罪率、当地房产税等。本节用到的数据集与前面两个例子有一个有趣的去吧。它包含的数据点相对较少，只有506个，分为404个训练样本和102

2020-11-05 18:32:36 1867

原创 Python深度学习（新闻分类：多分类问题）--学习笔记（六）

3.5 新闻分类：多分类问题本节会构建一个网络，将路透社新闻划分为46个互斥的主题。因为有多个类别，所以这是多分类（multiclass classification）问题的一个例子。因为每个数据点只能划分到一个类别，所以更具体地说，这是单标签、多分类（single-label, multiclass classification）问题的一个例子。如果每个数据点可以划分到多个类别（主题），那它就是一个多标签、多分类（multilabel, multiclass classification）问题。3

2020-11-04 20:27:00 777

原创 Python深度学习（电影评论分类：二分类问题）--学习笔记（五）

3.4 电影评论分类：二分类问题3.4.1 IMDB数据集本节使用IMDB数据集，它包含来自互联网电影数据库（IMDB）的50000条严重两极分化的评论。数据集被分为用于训练的25000条评论与用于测试的25000条评论，训练集和测试集都包含50%的正面评论和50%的负面评论。不应该将训练机器学习模型的同一批数据再用于测试模型！模型在训练数据上的表现很好，而你真正关系的是模型在新数据上的性能（因为你已经知道了训练数据对应的标签，显然不再需要模型来进行预测）。例如，你的模型最终可能只是记住了训练样本和

2020-11-04 19:25:26 913

空空如也

空空如也