自学
xiaoxin1024
the life i want,this is no shortcut.
展开
-
Centos6.8安装jdk1.8
1下载jdk,推荐Chrome浏览器,如看不懂英文右键翻译中文即可。 本文为下载tar包安装教程(根据系统版本选择相应的tar包)2.解压jdktar -xzvf jdk-8u171-linux-x64.tar.gz3.配置环境变量vim /etc/profile 输入i进入插入命令模式export JAVA_HOME=/usr/java/jdk/jdk1.8.0_17...原创 2018-06-17 13:34:02 · 2673 阅读 · 0 评论 -
Spark算法初入门-KMeans篇
目录聚类:K-Means:依赖分析补充知识:关于本地向量(Local Vector)高斯混合-Gaussian mixture聚类:聚类是一种无监督的学习。聚类常用于探索性分析或作为分层监督学习管道的组成部分。我们在画像系统中对用户分群用到了KMeans。K-Means:K-means是最常见的聚类算法之一,它将数据点聚类为预定义数量的聚类。该spar...转载 2019-07-02 20:42:38 · 925 阅读 · 0 评论 -
Druid初入门-应用/加载数据
目录概述:Druid有什么作用:Druid如何工作:Druid常见应用领域:什么时候我该使用Druid:构建:Druid的进程和服务器使用:加载数据:使用数据加载器加载数据使用规范加载数据(通过控制台)使用规范加载数据(命令行)不使用脚本加载数据清理:参考:Hortonworks官方文档-https://hortonworks.com/...转载 2019-07-03 11:27:45 · 1016 阅读 · 0 评论 -
Flink初入门-运行时环境
Flink1.7官网文档翻译 -原创-flink.sojb.cn目录任务和算子链TaskManager,JobManager,客户端任务槽和资源状态后台SavePoint任务和算子链对于分布式执行,Flink链算子任务一起放入任务。每个任务由一个线程执行。将算子链接到任务中是一项有用的优化:它可以Reduce线程到线程切换和缓冲多的开销,并在降低延迟的...转载 2019-06-27 14:24:30 · 233 阅读 · 0 评论 -
Flink初入门-API使用
简单的wordCount就不再演示了,可以移步官网-https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.htmlFlink的程序每个程序包含相同的基本部分如下:1.获得一个execution environment2.加载/创建初始数据,3.执行此数据的转换,4.指定...转载 2019-06-27 16:47:43 · 511 阅读 · 0 评论 -
Flink初入门-应用场景
一、Flink简介Apache Flink®- Stateful Computations over Data Streams上面是官网的介绍,翻译过来是流数据上的有状态的计算。-Flink执行模型:1.流计算:数据不断产生,一致处于计算状态2.批处理:完成一定时间段的计算任务官网给的有中文网站链接,github上面也有很多开源的翻译~https://flink.apac...转载 2019-06-27 11:40:13 · 684 阅读 · 0 评论 -
Kudu初入门
目录介绍:基础架构:关于Tablet:Kudu与Impala集成安装Kudu配置Impala支持Kudu:使用案例:创建表:查询Impala中现有的Kudu表使用CREATE TABLE AS SELECT语句查询Impala中的任何其他表或来创建表:不支持Kudu表的Impala关键字:将数据插入Kudu表:参考—Apache-kudu官网-h...转载 2019-07-03 17:35:47 · 761 阅读 · 0 评论 -
Impala初入门
目录什么是Impala:Impala的优点:Impala的功能:参考Impala-中文文档-http://www.dba.cn/book/impala/IMPALAJiaoCheng/IMPALAGaiShu.html什么是Impala:Impala 是用于存储在Hadoop集群中的大量数据的MPP(大规模并行处理)sql查询引擎。换句话说,Impala是性能最...转载 2019-07-03 18:16:18 · 276 阅读 · 0 评论 -
Flink初入门-API使用(补)
目录数据存储/接收器迭代:执行参数:容错:控制延迟:数据存储/接收器数据接收器使用DataStream将他们转发到文件,socket,外部系统或者打印他们。Flink带有各种被指的输出格式,这些格式封装再DataStream上的算子操作后面:writeAsText() / TextOutputFormat -按字符串顺序写入数据元。通过调用每个数据元的toStr...转载 2019-06-28 22:34:07 · 475 阅读 · 0 评论 -
ClickHouse初入门
目录什么是ClickHouse:OLAP场景得关键属性:ClickHouse的独特功能:1.真正面向列的DBMS,2.数据压缩3,数据磁盘存储4,多个核心的并行处理5,多个服务器上多的分布式处理6,SQL支持7,矢量引擎8,实时数据更新9,索引10,适合在线查询11,支持近似计算12,数据复制和数据完整性支持ClickHouse的...转载 2019-07-04 14:59:11 · 1067 阅读 · 0 评论 -
Spark算法初入门-逻辑回归篇3
目录逻辑回归:二项逻辑回归:多项逻辑回归:原文参考Apache Spark官方网站http://spark.apache.org/docs/2.2.0/ml-classification-regression.html#logistic-regression逻辑回归:逻辑回归是预测分类相应的常用方法。广义线性回归的一个特例是预测结果的概率。在spark.ml逻辑回归中,...转载 2019-07-05 18:34:26 · 1104 阅读 · 0 评论 -
Flink初入门-容错处理
目录检查点:启用和配置检查点:相关的配置选项:选择状态后台:迭代作业中的状态检查点:重启策略:检查点:检查点通过允许恢复状态和相应的流位置使Flink中的状态容错,从而为引用程序提供无故障执行相同的语义。--Flink中每个函数和运算符都是有状态的(有关详细信息,请参阅state)。有状态函数在各个元素/事件处理中存储数据,使状态成为任何类型的复杂操作的关...转载 2019-06-29 22:46:20 · 219 阅读 · 0 评论 -
Flink初入门-状态
目录状态运行:被Keys化状态和算子状态:算子状态;原始和托管状态:Keys化使用托管状态:状态运行:本文档介绍了在开发应用程序时如何使用Flink的状态抽象。被Keys化状态和算子状态:Flink有两种基本的状态:Keyed State和Operator State。被Keys化状态:被Keys化状态始终与键相关,只能在a上的函数和算子中使用Ke...转载 2019-06-29 23:55:02 · 228 阅读 · 0 评论 -
DataX初入门
目录关系型数据库拉取到Hive:mongo到hiveSqoop存在局限性,只能在关系型数据库到hadoop(Hive)之间导数据,如果有noSql的场景怎么解决?我们用阿里开源的产品DataX来解决。目前开源版本为dataX3。进入阿里github仓库拉取源码进行编译:注意匹配java和python版本问题。我这里快速入门以官方给好的tar为例进行阐述。-->前面的页...转载 2019-07-01 19:58:00 · 1531 阅读 · 0 评论 -
Centos 6.7最小版安装AzKaban
首先,是要安装git的已安装直接掉过本节:1、下载git源码包wget https://github.com/git/git/archive/v2.3.0.zip之后,解压,进入解压目录。在进行下一步操作之前,要思考一个问题,系统安装过git没有,话说yum里面带的是1.7.0的,版本不太符合。首先git --version有1.7则remove 没有接着操作。开始编译–安装在...原创 2019-05-04 22:57:54 · 281 阅读 · 0 评论 -
从0开始学习数据仓库-大纲视图
转载 2019-04-17 08:48:21 · 354 阅读 · 0 评论 -
centos6.9安装Hadoop2.7.6
1.官网下载Hadoop2.7.62.远程登录到centos发送Hadoop安装文件。(目录自己决定,本文以放到/home目录下来讲解//不推荐!!所以我换到了/usr/local/hadoop/下)3.解压tar -xzvf hadoop-2.7.6.tar.gz (解压后为配置方便,修改了Hadoop-2.7.6文件夹名称为hadoop)4.进入hadoop文件夹5.修...原创 2018-06-18 18:31:25 · 803 阅读 · 2 评论 -
二叉树的遍历(图解)
看视频上就是这么个遍历方法,下面以实例进行讲解。其实我看的B站上老师讲的。传送门原创 2018-08-06 08:30:35 · 7232 阅读 · 0 评论 -
java按字节截取字符串
首先分编码格式,gbk和gb2312公用一套方案,,而u8是另一套。为什么呢,因为gbk和gb2312是两个字节表示一个汉字,前者两个字节的值都是负数,后者第二个数有时为正,比如(琲bei)那u8呢,是三个字节表示一个汉字,所以判断条件比gbk多了一点。String类的length()方法是以unicode代码单元,换言之就是char的个数为来统计的。所以使用subString等截取出...原创 2018-08-11 20:56:04 · 5877 阅读 · 0 评论 -
String类中的compareTo源码分析(为什么这样啊~~!!)
今天看了集合,在treeset中,要自定义排序,需要实现comparable接口(比较器排序),或者自己给出compareTo方法(自然排序),但是实现comparable接口,自己写逻辑这个还好理解一点,但是对于这个compareTo我还是有的懵逼-->因为我看到说Comparable接口是对应TreeSet的无参构造方法 数值型数据 ---> ...原创 2018-08-21 18:49:03 · 238 阅读 · 0 评论 -
centos7安装docker最新入门
first 验证内核uname -r 查看内核版本是否高于3.10 笔者的测试机器为3.10.0-862.el7.x86_64第一个警告切勿在没有配置docker yum' 源的情况下直接使用yum命令安装docker由于centos刚好满足最低内核的要求但是内核版本较低,部分功能(如 overlay2存储层驱动) 无法使用,,并且部分功能不稳定开始安装卸载旧版本$ sudo...原创 2018-10-14 18:53:38 · 296 阅读 · 0 评论 -
RAID 0 RAID 1 RAID 10 RAID5分析
RAID 0:RAID 0:连续以位或字节为单位分割数据,并行读/写于多个磁盘上,因此具有很高的数据传输率,但它没有数据冗余,因此并不能算是真正的RAID 结构。 RAID 0 只是单纯地提高性能,并没有为数据的可靠性提供保证,而且其中的一个磁盘失效将影响到所有数据。因此,RAID 0 不能应用于数据安全性要求高的场合.RAID 1RAID 1:它是通过磁盘数据镜像实现数据冗余,在成对...翻译 2018-10-22 12:40:00 · 192 阅读 · 0 评论 -
numSplits源码分析
/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ //numSplits:来自job.getNumMapTasks(),即在job启动时用org.apache.hadoop.mapred.JobConf.setNumMapTasks(int n)设置的值,给M-R框架的Ma...原创 2018-11-01 17:57:10 · 406 阅读 · 0 评论 -
getSplits源码分析
/** Splits files returned by {@link #listStatus(JobConf)} when * they're too big.*/ //numSplits:来自job.getNumMapTasks(),即在job启动时用org.apache.hadoop.mapred.JobConf.setNumMapTasks(int n)设置的值,给M-R框架的M...原创 2018-11-01 17:59:22 · 437 阅读 · 0 评论 -
scala入门练习二
作业一:package day03class Student(var name:String,var id:Long) {}反编译之后的结果:// Decompiled Using: FrontEnd Plus v2.03 and the JAD Engine// Available From: http://www.reflections.ath.cx// Decompile...翻译 2018-11-21 21:56:44 · 214 阅读 · 0 评论 -
记一次storm启动报错。。
怎么错的呢。以为是Kafka broker挂了,又重启Kafka,不管用,又是重启storm集群,也不行,一遍debug一遍百度,最后发现是代码问题,集群模式和本地模式的执行方法是不一样的(丢人呐),如下。这个pom文件的这里也得注释掉!...原创 2019-02-23 21:42:35 · 260 阅读 · 0 评论 -
Pulsar初入门(一)
目录简介:架构:一、Messaging Concepts(消息概念)Producer模式:压缩:BatchingConsumer模式:client:ack死信主题:topics:namespace订阅模式:独占:故障转移:共享:Key_shared多topic订阅分区主题:路由模式:订购保证:mes...原创 2019-07-06 21:07:26 · 4310 阅读 · 0 评论