自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

转载 kafka文件存储机制那些事

Kafka文件存储机制那些事“悠悠香草” ·2015-01-13 16:00Kafka是什么Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级

2017-05-31 17:31:09 709

原创 Spark on yarn和Hadoop on yarn的区别

Apache Spark 的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与 Hadoop 2.0(包括 YARN 和MapReduce)是一致的。Hadoop 2.0 自己实现了类似 Actor 的异步并发模型,实现方式是 epoll+状态机,而 Apache Spark 则直接采用了开源软件Akka,该软件实现了 Actor 模型,性能非常高。

2017-05-31 10:30:59 3471

原创 Spark术语解释

Spark术语解释Application:基于Spark的用户程序,包含了driver程序和集群上的executorDriver program:运行main函数并且创建SparkContext的程序Cluster Manager:在集群上获取资源的外部服务(例如standlone,Mesos,Yarn)Worker Node:集群中

2017-05-27 10:21:01 737

原创 Spark的几种运行模式及shell测试

Spark的几种运行模式:local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100standalone集群模式:需要的配置项

2017-05-25 22:09:27 3203

原创 Sqoop进行数据导入导出

Sqoop是用来进行数据导入导出的工具,一般用在hadoop这个框架中,常用的应用场景有将mysql数据库中的数据导入HDFS或者Hive、Hbase,或者从后者中导出到关系型数据库中,下面将进行几段代码的演示导入和导出的过程。将mysql中的数据导入到hadoop集群上(HDFS):首先将脚本命令贴出:./sqoop import --connect jdbc:mys

2017-05-25 14:34:33 3004

转载 Zookeeper全解析——Paxos作为灵魂

那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server中对应的实现。先说Paxos,它是一个基于消息传递的一致性算法,Leslie Lamport在1990年提出,近几年被广泛应用于分布式计算中,Google的Chubby,Apache的Zookeeper都是基于它的理论来实现的,Paxos还被认为是到目前为止唯一的分布式一致性算

2017-05-22 21:30:03 572

原创 Hive与传统数据库的区别

Hive在很多方面和传统数据库类似(例如支持SQL接口),但是其底层对HDFS金额MapReduce的依赖意味着它的体系结构有 别于传统数据库,而这些区别又影响着Hive所支持的特性,进而影响着Hive的使用。读时模式VS写时模式在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称

2017-05-16 18:38:06 4888 1

转载 Hive元数据库表分析和操作

在安装Hive时,需要在hive-site.xml文件中配置元数据相关信息。与传统关系型数据库不同的是,hive表中的数据都是保存的HDFS上,也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的文件。这里说到的元数据可以理解成hive中用于保存数据库、表、分区或者表字段等基本属性,以及这些属性与HDFS文件对应关系的一个映射。  这些映射关系比较常见的一个场景是保存在mysq

2017-05-16 17:04:03 914

转载 大数据Pig命令

1.pig与hive的区别pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop走的mapreduce任务。pig和hive的区别就是,想要实现一个业务逻辑的话,使用pig需要一步一步操作而使用hive的话一条SQL就可以搞定。如果想在很短时间内获取一个比较复杂的业务逻辑处理结果的话,建议使用pig。 如果需要定时执行的一些任务,建议使用hive。

2017-05-16 11:33:24 1778

转载 Mysql的四种分区

MySQL表的四种分区类型一、什么是表分区通俗地讲表分区是将一大表,根据条件分割成若干个小表。mysql5.1开始支持数据表分区了。 如:某用户表的记录超过了600万条,那么就可以根据入库日期将表分区,也可以根据所在地将表分区。当然也可根据其他的条件分区。二、为什么要对表进行分区为了改善大型表以及具有各种访问模式的表的可伸缩性,可管理性和提高数据库效率。分区的一

2017-05-12 17:46:23 814

转载 线程池的原理及实现

1、线程池简介:    多线程技术主要解决处理器单元内多个线程执行的问题,它可以显著减少处理器单元的闲置时间,增加处理器单元的吞吐能力。        假设一个服务器完成一项任务所需时间为:T1 创建线程时间,T2 在线程中执行任务的时间,T3 销毁线程时间。    如果:T1 + T3 远大于 T2,则可以采用线程池,以提高服务器性能。                一个线程

2017-05-07 13:26:28 720

原创 利用TFIDF实时微博情感分类-朴素贝叶斯算法

最近自己在做一个基于朴素贝叶斯算法的微博情感分类,首先朴素贝叶斯算法的基本推到我这里就不细说了。分类中我们一般会进行下面几个步骤:1 对我们的语料库(训练文本)进行分词2 对分词之后的文本进行TF-IDF的计算(TF-IDF介绍可以参考这边文章http://blog.csdn.net/yqlakers/article/details/70888897)3 利用计算好的TF-IDF记性分

2017-05-07 12:20:08 4413 2

转载 HashMap的底层实现

Hashmap是一种非常常用的、应用广泛的数据类型,最近研究到相关的内容,就正好复习一下。网上关于hashmap的文章很多,但到底是自己学习的总结,就发出来跟大家一起分享,一起讨论。 1、hashmap的数据结构 要知道hashmap是什么,首先要搞清楚它的数据结构,在java编程语言中,最基本的结构就是两种,一个是数组,另外一个是模拟指针(引用),所有的数据结构都可以用这两个基本结构

2017-05-05 16:22:08 556

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除