2019年08月_Quinto0

原创模型的选择与调优

模型的选择与调优1 交叉验证1.1 交叉验证过程交叉验证：为了让被评估的模型更加准确可信交叉验证的意义：为了使一部分数据即当成验证集，也做过训练集，更加准确得出准确率，把最后的准确率取平均值。注意：线上的测试数据才有测试集如果没有测试数据集，怎么知道结果好与不好，那就把训练集分成训练集和验证集（和测试集没关系...

2019-08-31 19:26:39 339

原创分类模型的评估

分类模型的评估在许多实际问题中，衡量分类器任务的成功程度是通过固定的性能指标来获取。一般最常见使用的是准确率，即预测结果正确的百分比，方法为estimator.score()1混淆矩阵有时候，我们关注的是样本是否被正确诊断出来。例如，关于肿瘤的的判定，需要更加关心多少恶性肿瘤被正确的诊断出来。也就是说，在分...

2019-08-31 17:10:39 237

原创朴素贝叶斯算法-分类算法

朴素贝叶斯算法-分类算法1 概率基础概率定义为一件事情发生的可能性联合概率：包含多个条件，且所有条件同时成立的概率，记作P(A,B)条件概率：事件A在另一个事件B已经发生条件下的发送概率，记作P(A|B)在A1,A2相互独立的情况下，条件概率的特性：P(A1,A2|B)=P(A1|B)P(A2|B)2 贝叶斯公...

2019-08-31 16:12:20 611

原创 k近邻算法(KNN)-分类算法

k近邻算法(KNN)-分类算法1 概念定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。k-近邻算法采用测量不同特征值之间的距离来进行分类。2 优缺点优点：简单，易于理解，易于实现，无需估计参数，无需训练缺点：懒惰算法，对测试样本分类时的计...

2019-08-31 14:33:45 1556

原创 sklearn数据集与估计器

sklearn数据集与估计器1 sklearn数据集（1）数据来源：大多数以文件的形式（csv文件..）, 因为mysql有性能瓶颈、读取速度遭到限制，数据大的时候很费时间（2）读取数据的工具：Python中很强大的模块pandas:读取工具、numpy(数据计算模块，计算速度非常快,因为释放了Python中的GIL)...

2019-08-31 10:44:50 448

原创数据的特征工程

数据的特征工程1 什么是数据的特征工程特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性。特征工程的意义：将直接影响模型的预测结果。2 数据的来源与类型2.1 数据的来源企业日益积累的大量数据，各大机构的实验数据等等。总之数据无处不在，大...

2019-08-29 22:13:39 665 1

原创 Sqoop

Sqoop1 什么是Sqoopsqoop 是Apache的一款“Hadoop 和关系数据库服务器之间传送数据”的工具，Sqoop 的本质是一个命令行工具。2 Sqoop产生背景早期数据存储是基于传统的关系型数据库的，但是随着数据量的增长，传统的数据存储方式无法满足需求，随着出现的HDF...

2019-08-24 20:54:34 218

原创 HBase原理

目录 HBase原理1 HBase架构2 HBase中的核心概念3 HBase的存储机制4 HBase的寻址机制5 HBase的读写流程6 HBase的设计7 HBase和Hive的整合 ...

2019-08-23 22:10:51 542

原创 HBase基础

HBase基础1HBase简介1.1 HBase是什么是 Apache Hadoop 的数据库，是建立在 HDFS 之上，被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统，实现对大型数据的实时、随机的读写访问。简而言之是针对海量数据，快速...

2019-08-20 22:11:12 233

原创 Hive高级操作

Hive高级操作1 Hive的数据类型1.1 原子数据类型（1）Hive 是用 Java 开发的，Hive 里的基本数据类型和 java 的基本数据类型也是一一对应的，除了 String 类型。（2）有符号的整数类型：TINYINT、SMALLINT、INT 和 BIGINT 分别等价于 ...

2019-08-19 21:52:54 189

原创 Hive解题思路

Hive解题思路1 相关知识讲解1.1 HQL语句的语法sql语句的语法：select ..... from .... join ..... where .....group by ... having...order by|sort by|cluster by|distribu...

2019-08-19 08:59:58 716

原创 Hive内置函数大全

Hive内置函数大全目录 Hive内置函数大全1.复合类型构造函数2 复合类型操作符3数值计算函数4 日期函数5条件函数6字符串函数7汇总统计函数（UDAF）8表格生成函数(UDTF)9 类型转换...

2019-08-17 16:26:07 1586

原创 Hive基本操作

Hive基本操作1 DDL操作1.1 数据库操作（1）创建库： #语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hd...

2019-08-13 23:00:41 173

原创 Hive基础知识

Hive基础知识1Hive相关概念1.1 Hive是什么Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，最终底层将HQL语句转换为MapReduce任务的，底层数据是存储在 HDFS 上。1.2 Hive的产...

2019-08-12 21:30:44 237

原创 Hadoop学习之yarn

Hadoop学习之YARN1 YARN简介1.1 概述YARN （Yet Another Resource Negotiator）是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。YARN 是 Ha...

2019-08-11 20:11:47 250

原创 Hadoop学习之MapReduce

Hadoop学习之MapReduce目录 Hadoop学习之MapReduce1 MapReduce简介1.1 什么是MapReduce1.2MapReduce的作用1.3MapReduce的运行方式2MapReduce的运行机制2.1 相关进...

2019-08-09 19:05:02 468

原创 Hadoop学习之HDFS

Hadoop学习之HDFS1 HDFS相关概念1.1 设计思路分散存储，冗余备份。分散存储：大文件被切割成小文件，使用分而治之的思想让多个服务器对同一个文件进行联合管理；冗余备份：每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失。1.2 架构主从架构（1）namenode(nn主节点):...

2019-08-04 21:58:07 275

原创 Hadoop学习之整体介绍及环境搭建

Hadoop学习之整体介绍及环境搭建1 大数据概述1.1 什么是大数据数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的的原始素材。大数据：传统处理方式无法解决的不仅大而且复杂的数据集的存储和计算。1.2 大数据的四个特性（1）容量（Volume）：数据的大小决定所考虑的数...

2019-08-04 11:21:56 200

fighting