2018年08月_道法—自然

原创机器学习部分：模型过拟合与模型欠拟合

模型过拟合训练模型都会将数据集分为两部分，一般会将0.8比例的数据集作为训练集，将0.2比例的数据集作为测试集，来训练模型。模型过拟合就是训练出来的模型在训练集上表现很好，但是在测试集上表现较差的一种现象，也就是模型对已有的训练集数据拟合的非常好（误差值等于0），对于测试集数据拟合的非常差，模型的泛化能力比较差。如何判断模型发生过拟合？训练出模型后，可以在训练集中测试下模型的正确率...

2018-08-31 14:22:07 373

原创 Storm部分：flume+kafka+spout

一、Kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网：https://kafka.apache.org/kafka集群有多个Broker服务器组成，每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可以...

2018-08-30 10:25:05 187

原创 kafka部分：kafka的架构

2018-08-30 10:24:38 246

原创 Storm部分：storm的事务，storm部分的项目

Storm事务基本原理分为三个阶段：第一阶段：每一个tuple都有一个tid，一直到数据库，仅当第一个执行完之后才会执行第二个第二阶段：每批次给一个tid,一批次一批次的执行，按批次提交，按批次提交效率较高如果当前的事务没有提交到数据库，后边的就不允许处理缺点是造成了资源的浪费，相当于hadoop中的federation情况第三阶段：多个节点并行，但...

2018-08-30 10:23:38 188

原创 Storm部分：StormDRPC，Storm的远程调用

/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * r...

2018-08-29 16:18:31 541

原创 Storm部分：Storm的容错机制

Storm 的容错机制包括架构容错和数据容错。1)架构容错：Nimbus 和 Supervisor 进程被设计成快速失败(fail fast)的(当遇到异常的情况，进程就会挂掉)并且是无状态的(状态都保存在 Zookeeper 或者在磁盘上)。最重要的是，worker 进程不会因为 Nimbus 或者 Supervisor 挂掉而受影响。这跟Hadoop 是不一样的，当...

2018-08-29 11:22:23 1010

原创 Storm部分：Storm提交文件报错【bug调优】

错误描述：Exception in thread "main" java.lang.UnsupportedClassVersionError: com/bjsxt/storm/TP : Unsupported major.minor version 52.0 at java.lang.ClassLoader.defineClass1(Native Method) at java...

2018-08-29 10:57:30 455

原创 Storm部分：storm中进程、线程、任务

worker process：进程executor：线程task：任务一个进程、两个线程、四个任务两个进程、八个线程、十个任务。两个线程分配四个任务，一个线程分配两个任务。--------------------------------------------------------------------------------------------...

2018-08-29 10:50:32 1066

原创 Storm部分：storm集群的安装、配置、启动

三、完全分布式安装部署各节点分配： Nimbus Supervisor Zookeepernode1 1 1node2 1 1node3 1 1node1作为nimbus，开始配置$ vim ...

2018-08-29 10:34:02 216

原创 Storm部分：storm单机节点集群的安装、配置、使用

二、单机模式上传解压$ tar xf apache-storm-0.9.4.tar.gz $ cd apache-storm-0.9.4$ storm安装目录下创建log： mkdir logs$ ./bin/storm --help下面分别启动ZooKeeper、Nimbus、UI、supervisor、logviewer$ ./bin/storm dev-zookeeper...

2018-08-29 09:42:48 567

原创 Storm部分：storm的运行环境要求

JDK 1.6+java -versionPython 2.6.6+python -VZooKeeper3.4.5+storm 0.9.4+

2018-08-29 09:21:35 632

原创 Storm部分：storm任务提交的流程，storm本地目录树，storm zookeeper组件

Storm组件本地目录树 Storm zookeeper目录树 Storm任务提交的过程

2018-08-29 08:13:35 286

原创 Storm部分：storm的架构设计

2018-08-29 08:10:27 326

原创 Storm部分：处理文件数据

Spolt部分代码：package com.sxt.storm.grouping;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.InputStreamReader;import java.util.Map;import backtype.storm.spout.SpoutO...

2018-08-29 00:00:35 714

原创 Storm部分：Storm Grouping -- 数据流分组（即数据分发策略）

1. Shuffle Grouping 随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。轮询，平均分配 2. Fields Grouping按字段分组，比如，按"user-id"这个字段来分组，那么具有同样"user-id"的 tuple 会被分到相同的Bolt里的一个task，而不同的"user-id"则可能会被分配到不同的...

2018-08-28 23:46:55 524

原创 storm部分：storm的架构介绍

storm是并行计算的框架storm是一种有向无环的方式，并且是并行计算的方式，是一种实时的方式 flume：消息采集器kafka：消息队列storm异步实时处理请求：异步是指是有向无环的方式同步的话：需要借助于分布式远程服务 Storm的架构：Spolt负责推送数据Bolt负责处理数据topology负责分发策略local cl...

2018-08-28 21:49:01 898

原创 SparkSQL部分：创建dataframe的几种方式

创建dataframe的几种方式：DataFrame也是一个分布式数据容器。与RDD类似，然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看， DataFrame API提供的是一套高层的关系操作，比函数式的RDD AP...

2018-08-28 17:32:22 3298 1

原创 Spark部分：Sample算子

2018-08-27 15:01:17 1779 1

原创 Spark部分：zip相关算子的原理

2018-08-27 13:34:53 600

原创 spark部分：改变rdd的分区数coalesce，repartition，glom,randomSplit的区别

小转大必须开启shuffle大转小开启shuffle：再次分区大转小不开启分区：任意合并

2018-08-27 13:30:43 744

原创 spark部分：map，flatmap，mapPartitions,mapPartitionswithindex算子

2018-08-27 13:20:25 441

原创 spark部分：distinct去重的原理

2018-08-27 13:13:52 14747

原创排序算法：sort by key和sort by算子

sort：

2018-08-27 13:12:26 357

原创 spark部分：join，inner join，left outer join,right outer join,full outer join算子

join的常见方式：join，inner join，left outer join,right outer join,full outer join 在 Spark 的算子中，对两个 RDD 进行 join 有着类似的作用 ...

2018-08-27 13:06:54 1080

原创 spark部分：算子大总结

spark部分算子的分类：一.transformation类算子flatmapmapflatmapmappartitionsaggregatebykeycombinebykeyreducebykeygroupbykey filterval rdd = sc.makeRDD(Array("hello","hello","hello","world...

2018-08-27 12:34:40 442

原创 Spark部分：重新分区（repartition和coalesce）

coalescedef coalesce(numPartitions:Int，shuffle:Boolean=false):RDD[T] 该函数用于将RDD进行重分区，使用HashPartitioner。第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false。repartitiondef repartition(numPartitions: Int): RDD...

2018-08-27 11:08:30 2454

原创大数据面试必备：Wordcount的书写

1.源数据hello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello w...

2018-08-27 10:51:15 597

原创日志分析项目中的技术点以及问题描述

日志分析项目中的技术点以及问题描述：HBASE数据库是主备模式：表设计问题如何进行获取有用信息？数据清洗：以天为单位PV，uvlvs,nginx Java设计模式rpc数据远程调用数据清洗，以天为单位启动nginx服务：service nginx start80：nginx的端口号 ...

2018-08-26 14:54:01 498

原创项目具体分析中的设计思路【项目部分】

统计人数戴眼镜不戴眼镜男女男戴眼镜女戴眼镜男不戴眼镜女不戴眼镜戴眼镜不戴眼镜map：张三男戴眼镜男 1戴眼镜 1男戴眼镜 1李四男不戴眼镜男 1不戴眼镜 1男不戴眼镜 1韩梅梅女戴眼镜女 1戴眼镜 1女戴眼镜 1reduce：男 1 2男 1...

2018-08-26 09:21:58 1239

原创 flume部分：flume的学习（全）

http://flume.apache.org/安装1、上传2、解压3、修改conf/flume-env.sh 文件中的JDK目录注意：JAVA_OPTS 配置如果我们传输文件过大报内存溢出时需要修改这个配置项4、验证安装是否成功 ./flume-ng version5、配置环境变量 export FLUME_HOME=/home/apache-flume-1....

2018-08-26 09:19:33 164

原创配置NGINX服务器【全】

安装之前准备1、依赖 gcc openssl-devel pcre-devel zlib-devel 安装：yum install gcc openssl-devel pcre-devel zlib-devel -y安装Nginx./configure make && make install默认安装目录：/usr/local/nginx配置Nginx为...

2018-08-26 09:15:42 276

原创 sqoop部分：sqoop的学习（数据的导入导出）

sqoop的学习：导入：从关系型数据库往HDFS里边写叫导入导出：从HDFS导出到MapReduce叫导出连接关系型数据库的四个参数： sqoop中查看表数据sqoop的配置： sqoop安装的时候随便找一台虚拟机安装就可以。sqoop-env.shsqoop-site.shsqoop的版本：1.4.6修改/etc/pro...

2018-08-26 08:29:57 1429

原创 hive部分：hive表中加载数据的方式（四种）

注意：hive不支持insert into table values（）的插入数据hive表中加载数据的四种方式1.从本地加载数据hive (hive)> create table wyp > (id int,name string, > age int,tel string) > row fo...

2018-08-26 00:09:55 5819

原创关系型数据库和非关系型数据库，以及hive数据仓库的区别

关系型数据库：Mysql，Oracle非关系型数据库：Redis，MongoDB，HBASE类SQL数据库：hive具体地：关系型数据库（Mysql和Oracle）1.表和表、表和字段、数据和数据存在着关系优点:1.数据之间有关系，进行数据的增删改查的时候是非常方便的2.关系型数据库是有事务操作的，保证数据的完整性和一致性。缺点：1.因为数据和数据是有关系的...

2018-08-25 23:50:09 6953

原创 MapReduce部分：MapReduce架构图

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

2018-08-25 23:16:12 1228

原创 TCP的三次握手与四次挥手

三次握手（发送数据的时候）：你是谁我是我要发数据四次挥手（关闭的时候）：你好，你是XXX我是XXX我要关闭了，再见再见建立TCP需要三次握手才能建立，而断开连接则需要四次握手。整个过程如下图所示：先来看看如何建立连接的。【更新于2017.01.04 】该部分内容配图有误，请大家见谅，正确的配图如下，错误配图也不删了，大家可以比较下，对比理...

2018-08-25 18:45:40 100

原创 hive部分；HBASE部分：hive和HBASE的区别

hive是逻辑数据仓库，分为服务器端和客户端，metostore和client，实际的表主要存储在HDFS上，内部表存储在你指定的位置，外部表是存储的映射关系，是类SQL语句。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。HBASE是数据库，nosql数据库，底层是一个物理表。HBase的查询效率很高，主要由于查询和展示结果他们两存储的时候都是列式存储 Hive...

2018-08-25 18:26:26 248

原创 HBASE部分：HBASE的优化

HBase性能优化方法总结（一）：表的设计1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照re...

2018-08-24 21:44:03 190

原创 HBASE部分：HBASE中的表设计

HBase中表的设计主要是将原来的关系解开问题：例子：表设计一：表设计二：这是一个双向查询，根据人员查角色，根据角色查人员问题：0为顶级部门，1为子部门放到一张表中不会对效率产生影响，因为HBASE是海量存储，海量读写的。 Redis是一个内存数据库，新浪微博是使用Redis用的最好的一家公司Redis可以持久化到本地，可以...

2018-08-24 21:00:08 4608

原创 Kafka部分：kafka的原理，解释一下 leader 均衡机制(auto.leader.rebalance.enable=true)，高可用和负载均衡的区别

kafka是什么？使用场景？ kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。2.kafka生产消息、存储消息、消费消息Kafka架构是由producer（消息生产者）、consumer（消息消费者）、borker(kafka集群的ser...

2018-08-24 17:57:24 4842

空空如也

空空如也