自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

转载 ArangoDB、Neo4j、OrientDB单机性能比较

系统信息图数据库版本信息图数据库 版本 备注 Neo4J 3.2   OrientDB 2.2.x   ArangoDB、 3.1.19 有密钥失效问题,导致无法下载成功server端 Titan 1.0.0 需要集群,暂不分析 OS&库信息OS:Ubuntu 16.04 虚拟机VM12 pyt...

2019-01-30 19:38:32 735

转载 关于SQL时间类型的模糊查询

关于SQL时间类型的模糊查询今天用time Like '2008-06-01%'语句来查询该天的所有数据,被提示语句错误。查了一下才发现该模糊查询只能用于String类型的字段。自己也查阅了一些资料。关于时间的模糊查询有以下三种方法:1.Convert转成String,在用Like查询。select * from table1   where convert(varchar,date,...

2019-01-25 11:03:02 1058

转载 深入理解mongodb和hbase区别

最近公司想要做数据分析,之前我们公司用的是免费的growing IO。他们分析仅限于界面跳转的转化率,不能详细地分析业务数据。我研究了一个需要埋点的产品,搞明白他们是在每个接口的调用埋点,将用户对接口的调用行为记录下来,进行分析。由于接口众多,每个接口的数据都不同。可以充分利用hbase宽表的特性,在一行中定义一个通用的字段来标示当前行的数据类型,操作人,然后定义不同的字段来记录每一...

2019-01-23 11:02:48 476

转载 OpenStack的基本概念与架构图------云计算框架

美国国家宇航局(NASA)和Rackspace合作开发的一个开源项目。 目的是为公有云和社区云提供软件,但因其灵活性,也可以定制私有云。 可以帮助服务商和企业实现类似于亚马逊Amazon EC2和S3的云基础架构服务。 Openstack是一个Iaas层的软件。 已经得到了IBM、Dell、HP、AMD、Intel等各大IT厂商的支持。    Openstack的开源社区也为Openst...

2019-01-23 10:50:06 2916

转载 日志级别的选择:Debug、Info、Warn、Error还是Fatal

软件中总免不了要使用诸如 Log4net, Log4j, Tracer 等东东来写日志,不管用什么,这些东东大多是大同小异的,一般都提供了这样5个日志级别:    × Debug    × Info    × Warn    × Error    × Fatal        一个等级比一个高,但是在具体开发中,关于应该如何选择适应的等级,却没有找到好的文章进行说明。记录一下自己的一些...

2019-01-17 11:20:25 828

原创 Cloudera's Distribution for Hadoop

现在的公司使用的是Cloudera的hadoop分布式平台,在此记录一笔,做后续的学习知识点!Cloude Manager概述:CDH是Cloudera公司对整体hadoop集群环境进行监控与管理的企业级大数据管理平台...

2019-01-14 10:35:11 429

转载 ElasticSearch的基本原理与用法

一、简介ElasticSearch和Solr都是基于Lucene的搜索引擎,不过ElasticSearch天生支持分布式,而Solr是4.0版本后的SolrCloud才是分布式版本,Solr的分布式支持需要ZooKeeper的支持。这里有一个详细的ElasticSearch和Solr的对比:http://solr-vs-elasticsearch.com/二、基本用法集群(Clus...

2019-01-11 18:21:57 227

转载 Elasticsearch之中文分词器插件es-ik(博主推荐)

 前提什么是倒排索引?Elasticsearch之分词器的作用Elasticsearch之分词器的工作流程Elasticsearch之停用词Elasticsearch之中文分词器Elasticsearch之几个重要的分词器        elasticsearch官方默认的分词插件  1、elasticsearch官方默认的分词插...

2019-01-11 11:33:07 385

转载 什么是倒排索引?

见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现...

2019-01-11 10:57:34 397

转载 Elasticsearch 系列指南(三)——集成ik分词器

Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如“the”这个词)等;chinese 效果很差。这次主要玩这...

2019-01-10 20:26:49 354 1

转载 Elasticsearch系列(五)----JAVA客户端之TransportClient操作详解

Elasticsearch JAVA操作有三种客户端:1、TransportClient2、JestClient3、RestClient还有种是2.3中有的NodeClient,在5.5.1中好像没有了。还有种是spring-data-elasticsearch,这里先以TransportClient来讲解CRUD,所用环境为:JDK1.8ES5.5.1Transpor...

2019-01-10 17:14:58 1232

转载 Hive入门-----安装、建表、查询

介绍Hive 是一个基于 Hadoop 的数据仓库工具,它可以将结构化数据文件映射成一张表,然后通过类似 SQL 的查询语句来执行查询。这些查询语句在Hive中被称作HQL,这些 HQL 会被翻译成 MapReduce 作业来执行。Hive 把表和字段转换成 HDFS 中的文件夹和文件,并将这些元数据保持在关系型数据库中,如 derby 或 mysql。Hive 查询的数据存储在HDF...

2019-01-10 14:19:13 200

转载 Hadoop、Hive、Spark 之间关系

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据传统的文件系统是单机的,不能横跨不同的机...

2019-01-10 11:32:28 224

转载 大数据的四个核心问题

学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。1.数据的存储(big data storage),海量数据需要处理和分析,但前提是要进行有效的存储。稍后会提到Hadoop(HDFS)分布式文件系统对超大数据集的容错性问题。2...

2019-01-10 11:29:33 4510

转载 在HBase数据库创建表

要通过Java在HBase中创建一个数据表,首先需要导入hbase-client.jar驱动包。可以在项目pom.xml配置文件中添加依赖:<dependency>      <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId&gt...

2019-01-09 21:10:02 3032

转载 Hbase的命名空间namespace操作

1、介绍在HBase中,namespace命名空间是对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespaceHBase系统默认定义了两个缺省的namespacehbas...

2019-01-09 21:01:14 1705

原创 Hadoop中的发展历史

Hadoop使用分布式文件HDFS系统,用于存储大数据(数据至少要到TB吧)。 在最初版本的Hadoop,使用MapReduce来做计算处理。使用yarn来做资源的调度。使用磁盘空间作为计算。因为MapReduce比较笨重,用同样是计算框架的spark来替代MapReduce。因为Spark只是计算框架,不具备Hadoop环境的HDFS系统等。所以业界都是采用Hadoop+Spark来做大数据计算...

2019-01-09 20:28:31 527 1

转载 关于HBase 中Scan扫描的优化(重要)

Hbase只能要么按照主键范围查询,要么全表检索。只能使用这两种查询1、由于Scan是全表扫描,任何时候,在使用Scan一定要加上StartRowKey和StopRowKey,限定扫描的范围。3333333_Filterprefilter3333333_111113333333_222123333334_3333333_startrowkey3333...

2019-01-09 20:04:07 2653

转载 HBase Java API - HBase(五):HBase基本API操作之CRUD

import java.io.IOException;import java.util.Arrays;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil...

2019-01-09 17:28:55 414

转载 HBase Java API --- HBase 1.2.5 Java API教程

虽然现在项目中用的Hbase的版本是V1.3.1,但是1.2.5版本中的API还是有参考价值的关于HBase 1.2 安装&使用参考:HBase Reference Guide。本文重点讲解 HBase 1.2.5 Java API使用。HBase APIHBase 1.2 API 常用类:使用org.apache.hadoop.hbase.client.Connectio...

2019-01-09 11:56:06 306

转载 Hbase的理论概述,Hbase的架构原理和应用场景*******

关于HBase环境搭建和java操作,请见笔者相关博客。1.概述 HBase是一个分布式的、面向列的开源数据库,HBase的成熟应用归功于Google论文“Bigtable:一个结构化数据的分布式存储系统”。利用HBase技术可在廉价PC Server上搭建起大规模存储集群。Hbase的名字的来源是Hadoop database,即hadoop数据库。...

2019-01-09 11:01:27 189

转载 Hbase的API地址

https://hbase.apache.org/apidocs/

2019-01-08 17:40:18 231

转载 Linux中怎么通过PID号找到对应的进程名及所在目录

有时候通过top命令可以看到有个别进程占用的内存比较大,但是top无法直接查看到进程名以及进程所在的目录。所以我们可以通过以下方法来定位。  首先需要知道PID号,可以通过top命令获取。  然后我们可以用ps看以下大致信息(ps出来的信息个人觉得比较乱,不是很方便查找)[root@iZbp13806tx36fgoq7bzk1Z 28990]# ps -aux |grep -v ...

2019-01-08 11:03:49 8351

转载 java jps命令使用解析

在linux环境下显示一个进程的信息大家可能一直都在使用ps命令,比如用以下命令来显示当前系统执行的java进程:ps -ef | grep java针对java的进程,jdk1.5以后提供了一个查看当前所有java进程pid的小工具。位置JAVA_HOME/bin/目录下面功能jps(Java Virtual Machine Process Status Tool)是JDK...

2019-01-03 15:31:22 256

rocketmq-console

想要设置为免费的,谁知道不能设置,注意将包用压缩工具打开,修改BOOT-INF中的application.properties中的rocketmq.config.namesrvAddr为自己的rocketMQ的地址。

2018-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除