2018年07月_阿豪963

转载 NIO部分

内容：1. Java NIO 简介2. Java NIO 与 IO 的主要区别3. 缓冲区(Buffer)和通道(Channel)4. 文件通道(FileChannel)5. NIO 的非阻塞式网络通信 选择器(Selector) 1 Java NIO 简介Java NIO（New IO）是从Java 1.4版本开始引入的一个新的IO API，可以替代...

2018-07-30 19:54:18 186

转载 juc部分

juc简介在 Java 5.0 提供了 java.util.concurrent （简称JUC ）包，在此包中增加了在并发编程中很常用的实用工具类，用于定义类似于线程的自定义子系统，包括线程池、异步 IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多线程上下文中的 Collection 实现等。 1-volatile 关键字内存可见性（Memory Visib...

2018-07-30 19:32:08 319

原创第二篇机器学习numpy

1 机器学习应用场景机器学习广泛用于模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等领域；2 机器学习一般步骤训练样本->特征提取->学习函数->预测分析3 python常用的机器学习库numpy：科学计算库pandas：数据分析处理库matplotlib：数据可视化库scikit-learn：机器学习库4 开发环境准备...

2018-07-28 14:41:08 390

转载一机器学习分类

1 基本概念机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。图1 机器学习的应用领域二机器学习的基本...

2018-07-23 21:01:05 873

原创 maven ssm结合制作JFreeChart

1 创建maven项目，编写pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaL...

2018-07-12 22:27:37 832

原创 sparksql在Mysql中生成表

1 提供比较全的pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.version>2.2.0</spark.version> <hadoop.versio...

2018-07-12 20:28:01 1855

原创 Maven构建SparkStreaming+ Kafka消费者代码, 在Spark集群上运行

1 编写pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="

2018-07-12 17:03:13 3689

1 centeros7时间同步删除本地时区#rm -rf /etc/localtime设置时区cp /usr/share/zoneinfo/Asia/Shanghai/etc/localtime安装ntp，同步时间yum install -y ntp同步时间ntpdate time.nist.gov格式化查看时间 date "+%Y/%m/%d %H:%M:%S"2 使用cron执行任务计划...

2018-07-11 21:38:00 229

原创 flume+kafka

大数据平台每天会产生大量的日志，处理这些日志需要特定的日志系统。一般而言，这些系统需要具有以下特征：构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。为此建议将日志采集分析系统分为如下几个模块：数据采集模块：负责从各节点上实时采集数据，建议选用Flume-NG来实现...

2018-07-11 02:24:38 579

转载 Kafka集群搭建

Kafka集群搭建Kafka初识Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题：我们想分析下用户行为（pageviews），以便我们设计出更好的广告位我想对用户的搜索关键词进行统计，分析出当前的流行趋势有些数据，存储数据库浪费，直接存储硬盘效率又低这些场景都有一个共同点：数据是由上游模块产生，上游模块，使用上游模块的数据计算、统计、分析，这个时候就可以...

2018-07-11 02:03:05 3126

原创 centeros7上安装nginx

安装所需环境Nginx 是 C语言开发，建议在 Linux 上运行，当然，也可以安装 Windows 版本，本篇则使用 CentOS 7 作为安装环境。一. gcc 安装安装 nginx 需要先将官网下载的源码进行编译，编译依赖 gcc 环境，如果没有 gcc 环境，则需要安装：yum install gcc-c++二. PCRE pcre-devel 安装PCRE(Perl Compatibl...

2018-07-10 21:13:20 3575 2

转载 nginx访问日志

nginx访问日志查看nginx.conf文件vim /usr/local/nginx/conf/nginx.conf中间有一行是定义log的格式log_format combined_realip '$remote_addr $http_x_forwarded_for [$time_local]' ' $host "$request_uri" $status' ' "$http_...

2018-07-10 00:14:16 12596 1

原创 ngix反向代理

一、代理服务器 1、什么是代理服务器代理服务器，客户机在发送请求时，不会直接发送给目的主机，而是先发送给代理服务器，代理服务接受客户机请求之后，再向主机发出，并接收目的主机返回的数据，存放在代理服务器的硬盘中，再发送给客户机。 2、为什么要使用代理服务器 1）提高访问速度由于目标主机返回的数据会存放在代理服务器的硬盘中，因此下一次客户再访问相同的站点数据时，会直接从代理服务器的硬盘中读取，起...

2018-07-10 00:08:47 220

原创 bigdata项目

1 项目技术点

2018-07-09 22:43:10 390

原创分析项目

1、大数据集群环境的搭建CentOS 6.8、hadoop-2.7.3、hive-0.13.1zookeeper-3.4.10kafka_2.10-0.10.2.0、flume-ng-1.7.0日志采集流程、Spark 1.6.32、企业级大数据项目的架构搭建Java、配置管理组件、JDBC辅助组件（内置数据库连接池）、Domain与DAO模型scala：只适合用于编写一些比较纯粹的一些数据处理程...

2018-07-08 23:03:08 213

原创 spark streaming

1 spark streaming基本概念Spark streaming是Spark核心API的一个扩展，它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据，也可以通过由高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后，处理后的数据可以推送到文件系统、数据库、...

2018-07-08 20:58:11 297

原创 spark sql

1 Spark SQL简介Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。2 Spark SQL的特性集成无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询，在Python，Scala和Java中集成了API。这种紧密的集...

2018-07-05 22:20:19 684

原创 Spark分区

Spark分区原理分析介绍分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。一个分区是大型分布式数据集的逻辑块。那么思考一下：分区数如何映射到spark的任务数？如何验证？分区和任务如何对应到本地的数据?Spark使用分区来管理数据，这些分区有助于并行化分布式数据处理，并以最少的网络流量在executors之间发送数据。默认情况下，Spark尝试从靠近它的节...

2018-07-04 17:22:57 1126 1

原创 spark文件读写

1 普通textFile读写读取hdfs上的文本文件scala>val rdd1=sc.textFile("hdfs://hadoop1:9000/myone/input/a.txt")进行相关处理，按照文件中每行进行处理scala> val rdd2=rdd1.flatMap(line=>line.split("\\s+")).map(d=>(d,1)向hdfs写入tex...

2018-07-04 15:05:13 1075

原创 spark-scala程序

1 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht

2018-07-04 00:01:39 359

原创 implicit的用法

掌握implicit的用法是阅读spark源码的基础，也是学习scala其它的开源框架的关键，implicit 可分为：隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时，可以把最后一个参数列表标记为implicit，表示该组参数是隐式参数。一个方法只会有一个隐式参数列表，置于方法的最后一个参数列表。如果方法有多个隐式参数，只需一个implicit修饰即可。当调用包含隐式参数的方法是...

2018-07-03 22:29:50 3529 1

ping的博客