2020年05月_David Wolfowitz

原创统计学习方法【6】-逻辑斯谛回归与最大熵模型

声明：该文章为作者整理和简略的，非原创，是多方资料的整合，为方便所以标注的原创,有错别字欢迎指正，仅作为学习用途，其中也有博主自己的笔记一、逻辑斯谛回归模型（1）、逻辑斯谛分布设XXX是连续随机变量，XXX服从逻辑斯谛分布是指XXX具有以下分布函数和密度函数：F(x)=P(X≤x)=11+exp−(x−μ)γF(x) = P(X \leq x) = \frac{1}{ 1 + exp^{-(x-\mu)\gamma}}F(x)=P(X≤x)=1+exp−(x−μ)γ1f(x)=F′(x)=exp

2020-05-31 11:36:02 235

原创统计学习方法【5】-决策树

决策是一种基本的用于分类与回归的方法。在分类问题中，表示基于特征对实例进行分类的过程，可以认为是if-then规则的集合，也可认为是定义在特征空间与类空间上的条件概率分布，主要优点有：模型具有可读性，分类速度快。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型。决策树学习通常包括3个步骤：特征选择，决策树的生成，决策树的修建一、决策树模型基本知识（1）决策树模型决策树：分类决策树模型是一种描述对实例进行分类的树形结构，决策树由结点（node）和有向边（directed edge）组成，结点有

2020-05-29 17:01:17 202

原创 MYSQL基础【4】-过滤数据

MYSQL中使用WHERE关键字能达到过滤数据的作用。一、使用where接单语句进行过滤（1）使用where子句SELECT prod_name, prod_price FROM products WHERE prod_price = 2.5;从表products中选择出prod_price 等于2.5的行。SQL过滤与应用过滤：数据也可在应用层过滤，为此目的，SQL的SELECT语句为客户机应用检索出超过实际需要的数据，然后客户机代码对返回数据进行循环，以提取出需要的行。通常，这种实现并

2020-05-28 18:24:53 251

原创 MYSQL基础【3】- 检索数据

一、SELECT 基本检索语法（1）检索单个列SELECT prod_name FROM products;注1：prod_nam 是列名， products是表名，语句后面用分号(; )结束；SQL语句不区分大小写，但是习惯上对SQL所有关键字使用大写，而对所有列和表名使用小写，这样做使代码更容易阅读和调试。（2）检索多个列SELECT pro_id, prod_name, prod_price FROM products;注2：在选择多个列时，列名之间使用（逗号）‘,’隔开（3）检索

2020-05-28 15:32:04 178

原创 MYSQL基础【2】-登入、查看、选择数据库

一、登入mysql登陆的命令格式为：mysql−h[hostip]−u[username]−p[password][database]mysql -h [hostip] -u [username] -p [password] [database]mysql−h[hostip]−u[username]−p[password][database]1.普通登陆mysql数据库命令格式：mysql -u 用户名 -p 密码，例如: mysql -u root -proot如果在-p后没有提供密码，则会

2020-05-28 11:51:01 1076

原创 MYSQL基础【1】-基本概念

数据库的基本概念：（1）数据库：是一个以某种有组织的方式存储的数据的集合。相当于一个文件柜。（2）数据库软件：DBMS（数据库管理系统），数据库是通过DBMS来创建和操作的容器。（3）表：某种特定类型数据的结构化清单。是将其放置在数据库中，表中存储的就是数据。（4）模式：关于数据库和表的布局及特征的信息。（5）列：表由列组成，列中存储者表中某部分的信息，列就是表中的一个字段，所有表都是由一个或多个列组成。（6）分解数据：正确地将数据分解为多个列极为重要，有利于对特定列进行排序和过滤。（7）数据

2020-05-28 10:16:30 141

原创数据结构-栈(stack)的应用【1】

题目Trapping Rain WaterGiven n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.思路：（1）首先给出暴力求解的方法：（这种方法我提交的时候是时间超出的，但我们后面去改进的，还是很有用的）这个思路的关键点就是我们在每个位置去计算出该位置

2020-05-27 21:49:14 252

原创统计学习方法【4】- 朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入xxx，利用贝叶斯定理求出后验概率最大的输出yyy.一、朴素贝叶斯法（生成）的学习与分类1、基本方法设输入空间χ⊆Rn\chi \subseteq R^nχ⊆Rn为nnn维向量的集合，输出空间为类标记集合γ={c1,c2,...,ck}\gamma = \{ c_1, c_2, ..., c_k\}γ={c1,c2,...,ck}。输入

2020-05-27 18:00:21 124

翻译统计机器学习【3】- K近邻法（三）Ball Tree

在计算机科学中，球树（ball tree）是一种空间划分数据结构，用于组织在多维空间中的点。球数之所有得到此名，是因为它将数据点划分为一组嵌套的超球体。这种类型的数据结构特征使其在很多方面都有用，特别是在最近邻搜索。一般的在特征向量维度小于20的时候是可以用KD-Tree的，但是更高维度的时候建议使用Ball-Tree，这种算法的效率更高非正式描述球树是二叉树，其中每个结点定义一个d维的超球面，或称为球，其中包含被搜索的点的子集。树的每个内部结点将数据点划分为两个不相交的集合，这两个集合与不同的球相

2020-05-26 22:21:02 3847 1

原创统计机器学习【3】- K近邻法（二）Kd-Tree

为什么需要kd树呢？因为在实现k近邻法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索，这点在特征空间的维度大及训练数据容量大时尤其必要。k近邻法最简单的实现方法是线性扫描，这时要计算输入实例与每一个训练实例点的距离，当训练集很大时，计算非常耗时，这种方法是不可行的。为了提高k近邻搜索的效率，可以使用特殊的结果存储训练数据，以提高效率。（1）构造kd树kd树是一种对k维空间(这里的k指的是k维空间不是knn中的k，knn中的k指的是k个近邻点)中的实例点进行存储以便对其进行快速检索的树形数据结构。

2020-05-26 18:21:00 277

原创统计机器学习【3】- K近邻法（一）：基础知识

kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形结构。kd数是二叉树，表示对k维空间的一个划分。构造kd数相当于不断地用垂直于坐标轴地超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每一个节点对应于一个k维超矩形区域。构造kd数的方法如下：构造根节点，使根节点对应于k维空间中包含所有实例点的超矩形区域；通过下面的递归方法，不断地对k维空间进行切分，生成子节点，在超矩形区域（节点）上选择一个坐标轴和在次坐标轴上的一个切分点，确定一个超平面，这个超平面通过选定的切分点并垂直于选定的

2020-05-26 16:31:53 348

原创统计机器学习【2】- 感知机（一）:基本知识

声明：声明：该文章为作者整理和简略的，非原创，是多方资料的整合，为方便所以标注的原创,有错别字欢迎指正一、初始感知机(perceptron)感知机（perceptron）是二类分类的线性分类模型，感知机对应于输入空间（特征空间）中将实例划分为正负两类的分离超平面，属于判别模型。（关于生成模型和判别模型可见博客统计机器学习【1】- 入门机器学习（一））。感知机学习旨在求出将训练数据进行线性划分的分离超平面。二、感知机1、什么是感知机假设输入空间（特征空间）是χ⊆Rn\chi \subseteq R

2020-05-23 23:26:07 214

原创统计机器学习【1】- 入门机器学习（三）- 精确率P与召回率R

首先还是讲讲TP，FN，FP，TN先：TP——将正类预测为正类数；TP——将正类预测为正类数；TP——将正类预测为正类数；FN——将正类预测为负类数；FN——将正类预测为负类数；FN——将正类预测为负类数；FP——将负类预测为正类数；FP——将负类预测为正类数；FP——将负类预测为正类数；TN——将负类预测为负类数；TN——将负类预测为负类数；TN——将负类预测为负类数；对于上面的我们可以这样理解，第一个字符表示该结果是预测错误的，第二个字符表示预测成了是正类（positive）还是负类（nega

2020-05-23 16:56:12 425

原创统计机器学习【1】- 入门机器学习（二）

声明：该文章为作者整理和简略的，非原创，是多方资料的整合，为方便所以标注的原创,有错别字欢迎指正常见的机器学习的三大分类：分类问题、标注问题、回归问题一、分类问题在监督学习中，当输出变量有有限个离散变量值时，预测问题就成了分类问题。输入变量XXX 可以是离散的，也可以是连续的，，监督学习从数据中学习一个分类模型或分类决定函数，称为分类器（classifier）。评价分类性能指标一般是分类准确率（accuracy），定义为：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。对于二分类

2020-05-23 12:43:58 177

原创统计机器学习【1】- 入门机器学习（一）

##一、统计学习1、什么是统计学习？统计学习是关于计算机基于数据构建概率模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。2、统计学习的特点：（1）统计学习以计算机及网络为平台，是建立在计算机及网络之上的；（2）统计学习以数据为研究对象，是数据驱动的学科；（3）统计学习的目的是对数据进行预测与分析；（4）统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；（5）统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

2020-05-23 10:57:12 793

原创 Hadoop 【10】 - Hadoop 整理提升【一】

Hadoop 提升【1】一、关于MapReduce1、概述MapReduce是一种可用于数据处理的编程模型。Hadoop可以运行各个语言版本的MapReduce程序。MapReduce程序本质上是并行运行的，因此可以将大规模的数据分析发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集。2、Hadoop分析数据首先提供一个背景，就是给定一个每年的气象数据信息，去挖掘气象数据。2.1 小提示首先，为了充分利用Hadoop提高的并行处理优势，我们将查询表示成Map

2020-05-09 17:34:25 219

原创 Hadoop - 【10】- Flume【1】--概述

一、概述Flume是一个高效的，高可靠的，分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源（source）收集过来，再将收集到的数据送到指定的目的地（sink）。为了保证输送的过程一定会成功，在送到目的地（sink）之前，会先缓存数据（channel），待数据真正到达目的地（sinl）之后，flume在删除自己缓存的数据。Flume支持定制各类数据发送方，用于收集各类型数据；同时， Flume支持定制各种数据接收方，用于最终存储数据。一般的采集需求，通过对flume的简单配置

2020-05-08 23:51:49 131

原创 Hadoop 【9】MapReduce入门 - Combiner组件

Mapreduce的combiner每一个map都可能产生大量的本地输出， Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和red...

2020-05-08 17:26:12 129

原创 Hadoop【8】 - MapReduce入门（三） Mapreduce的序列化

1、定义序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要接收或从磁盘读取的字节流转化为对象，就要进行反序列化。Java的序列化（Serialization）是一个重量级序列化框架，一个对象被序列化后，会附带很多额外的...

2020-05-08 16:19:27 114

原创数据结构-链表的应用【2】

19. Remove Nth Node From End of List题目Given a linked list, remove the n-th node from the end of list and return its head.简单来说就是给定一个链表，叫你删除从后往前数第N个节点，然后返回。思路我开始想的时候觉得这题挺简单的，的确是，但是还是要注意一些细节.首先...

2020-05-07 00:27:12 126

原创 Hadoop【7】- MapReduce入门（二）Mapreduce的处理流程

Mapper 任务执行过程讲解第一阶段：是把输入目录下文件按照一定的标准逐个进行逻辑切片，切成切片规划。默认情况下， Split size=Block size。每一个切片有一个MapTask处理。第二阶段：是对切片中的数据按照一定的规则解析成<key, value>。默认规则是把每一行文本内容解析成键值对。 key是每一行的起始位置（单位是字节）， value是本...

2020-05-06 23:39:12 207

原创 Hadoop【6】- MapReduce入门（一）Mapreduce基本概念

一、MapReduce计算模型理解MapReduce思想MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景，大规模数据处理场景。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此之间没有相互依赖的关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapR...

2020-05-06 20:50:45 314

原创数据结构- 链表的应用【1】

复制带随机指针的链表题目给定一个链表，每个节点包含一个额外增加的随机指针，该指针可以指向链表中的任何节点或空节点。要求返回这个链表的深拷贝。我们用一个由 n 个节点组成的链表来表示输入/输出中的链表。每个节点用一个 [val, random_index] 表示：val：一个表示 Node.val 的整数。random_index：随机指针指向的节点索引（范围从 0 到 n-1）；如果...

2020-05-05 23:41:35 648

原创 Hadoop【5】- HDFS的应用

案例：shell定时采集数据至HDFS上线的网站每天都会产生日志数据，假如有这样一个需求，要求凌晨24点操作前一天产生的日志数据，准时上传至HDFS集群中。如何实现？实现后能否实现周期性上传数据？如何定时？分析：HDFS SHELL：hadoop fs -put //上传文件Linux crontab：crontab -e 0 0 *** /shell/uploadFile2...

2020-05-04 22:06:07 154

原创 Hadoop 【5】- HDFS入门（三）工作机制

HDFS的工作机制NameNode负责管理整个文件系统元数据， DataNode负责管理具体文件数据块存储， Secondary NameNode协助NameNode进行元数据的备份。HDFS的内部工作机制对对客户端保持透明，客户端请求访问HDFS都是通过向NameNode申请来进行。一、HDFS写数据流程详细步骤：client发起文件上传请求，通过RPC与NameNOde建立...

2020-05-04 12:47:52 135

原创 Hadoop【4】- HDFS入门（二）基本原理

HDFS基本原理1、NameNode概述NameNode是HDFS的核心。NameNode也称为Master。NameNode仅存储HDFS的元数据：文件系统中的所有文件的目录树，并跟踪整个集群中的文件。NameNode不存储实际数据或数据集。数据本身实际存储在DataNode中。NameNode知道HDFS中任何给定文件的块列表及其位置。使用此信息NameNOd...

2020-05-04 09:15:06 189

原创 Hadoop【3】 - HDFS入门（一）基本概念

1、HDFS基本概念什么是HDFSHDFS是Hadoop Distribute File System的简称，是Hadoop分布式文件系统，是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。分布式文件系统解决的问题是大数据存储，它们是横跨在多台计算机上的存储。框架图HDFS设计目标1）硬件故障是常态。HDFS将有成百上千的服务器组成，每一个组成部分都有可能出...

2020-05-03 21:46:54 204

原创 Hadoop【2】- web-ui访问Hadoop集群

Web访问Hadoop一旦Hadoop集群启动并运行，可以通过web-ui进行集群的查看，一、NameNode的访问http://had-node1:9870上面的had-node1改为自己设置的##要注意###这里我的hadoop的版本是3.2，所以是9870的端口，一定注意这个差别， 2.xd的端口50070二、ResourceManager的访问http:had-n...

2020-05-02 12:44:23 2930

原创 Hadoop【1】- Hadoop的配置

环境说明：Centos 8, 三个节点服务器配置（1）设置主机名(三个节点)vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=had-node1 （2）配置IP、主机名映射vi /ect/hosts192.168.33.101 had-node1192.168.33.102 had-node192.168.33.103 ha...

2020-05-01 23:41:00 196

weixin_43763859的博客