2018年04月_李思苇

转载高质量开发者博客

名称(站点名或人名) 国家备注1 Adam Bien 德国 Java EE相关 2 Antonio Goncalves 法国 Java EE相关（《Java EE 5》和《Java EE 7》的作者） 3 Henrik Warne 瑞典编程过程中的一些思考 4 Billy Yarosh 美国 Java日常开发中的实用代码示例 ...

2018-04-24 18:28:55 237

转载 spring高级话题-@Enable***注解的工作原理

转自：https://blog.csdn.net/qq_26525215/article/details/53524844@EnableAspectJAutoProxy@EnableAspectJAutoProxy注解激活Aspect自动代理 1 开启对AspectJ自动代理的支持。在用到AOP的自动代理的时候用，如果你理解了Java的动态代理，很容易的就会熟悉AOP的自动代...

2018-04-22 19:47:57 210

原创 elastic 索引与搜索模块

倒排索引lucnce采用倒排索引，例如：对 {“_id”:1,”name”:”欧阳红叶”,”age”:18} {“_id”:2,”name”:”欧阳晴明”,”age”:17} 两条数据，会建立如下索引： word index 欧阳 1[1],2[1],0,0 #当前词在id=1的doc中出现1次，offset为0，在id=2的doc中出现一次...

2018-04-16 16:15:16 249

原创 elastic search 基本操作

ES提供了Restful web API1.REST (REpresentational State Transfer)——表述性状态转移状态是指网络上的某个资源在某个时间点下的数据呈现，表述性指将状态用一定的格式表述出来。简单举例如下：比如说在北京时间20170929 08:55:06.986这个时间点，我们想查看下es集群的状态，于是发送了一个HTTP GET请求:GE...

2018-04-16 11:13:36 297

转载 elasticsearch 核心概念

转自大数据学习平台-大讲台： http://www.dajiangtai.com/course/search.do?search=elastic一、分片（shards）一个索引库默认有5个分片，如果想更改分片数，必须在创建索引库的时候指定POST /{indexname} -d {"settings":{"shards":5}}例：curl -XPOST http...

2018-04-15 19:39:04 185

转载深入分析hbase compaction

转自：http://www.binospace.com/index.php/in-depth-understanding-of-the-hbase-compaction/Compaction介绍 Compaction是buffer->flush->merge的Log-Structured Merge-Tree模型的关键操作，主要起到如下几个作用：1）合并文件2）清除删除、...

2018-04-12 14:42:21 307

转载 hbase原理学习总结

转自：https://blog.csdn.net/embracejava/article/details/72589045 译自：《Architecting HBase Applications-A GUIDE FOR SUCCESSFUL DEVELOPMENT AND DESIGN》，作者：Jean-Marc Spaggiari & Kevin O’Dell，如果对原书内容感兴趣，建...

2018-04-12 13:02:37 224

转载大数据领域两大最主流集群管理工具Ambari和Cloudera Manger

转自：https://www.cnblogs.com/zlslch/p/6118862.html　　目前啊，都知道，大数据集群管理方式分为手工方式（Apache hadoop）和工具方式（Ambari + hdp 和Cloudera Manger + CDH）。　手工部署呢，需配置太多参数，但是，好理解其原理，建议初学这样做，能学到很多。该方式啊，均得由用户执行，细节太多，切当设计多个...

2018-04-11 12:23:17 6077 1

原创 HDFS写文件的过程

1、副本及存储策略：保证副本复制时的效率（低延迟和网络性能）：多个副本在同一机架上，这样副本复制时效率高。避免数据丢失：至少一个副本与其它副本在不同的机架上。2、写文件的网络流量及磁盘空间：网络流量=磁盘空间=文件size*dfs.replication3、写数据的流程* client将文件file1划分出blocks —— block1、bloc...

2018-04-11 11:47:53 911

原创 hadoop集群服务器软硬件规划

一、硬件选型： 1、服务器：太贵：大型机、小型机（400W左右），一般起步公司假设年收2000W，硬件成本占1/4不太现实 2、PCServer：适合：最适合hadoop的支持廉价机器的，20-5W不等 3、云服务：小公司适用，但是如果数据增长过快，可能很快就需要自行搭建硬件集群，进行数据迁移。以滴滴为例，目前全球日数据量是2000TB 4、普通PC机器，稳定性差，可用于实验环境。...

2018-04-11 11:47:26 7324

原创 vi 命令

普通模式：撤销上一操作：u 恢复撤销的操作：Ctrl+r 跳到文档开始位置：gg 跳到文档结束位置：G 跳到本屏的首行：H 跳到本屏的中间行：M 跳到本屏的最后一行：L编辑模式：进入编辑模式后，插入点在当前光标位置：i 进入编辑模式后，插入点跳到行首：I 进入编辑模式后，插入点跳到当前光标的下一字符：a 进入编辑模式后，插入点跳到行末：A 进入编辑模式后，...

2018-04-11 11:45:47 161

原创大量小文件不适合存储于HDFS的原因

1、小文件过多，会过多占用namenode的内存，并浪费block。 - 文件的元数据（包括文件被分成了哪些blocks，每个block存储在哪些服务器的哪个block块上），都是存储在namenode上的。 HDFS的每个文件、目录、数据块占用150B，因此300M内存情况下，只能存储不超过300M/150=2M个文件/目录/数据块的元数据 - dataNode会向NameNod...

2018-04-10 13:58:15 10524

原创 hadoop机架感知

当硬件服务器数量多分布在不同机架上时，NameNode必须要知道所有DataNode(slaves)的所在的机架。否则的话会出现在不同rack间的不必要的网络流量，降低数据读写的性能。可以通过以下两个配置实现机架感知：1、启用机架感知：在namenode所在机器的hadoop-site.xml中做如下配置，指定机架感知脚本 topology.script.file.name...

2018-04-10 13:40:49 213

原创 hadoop常用管理命令

hadoop shell 命令 doc hadoop命令手册： http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html hdfs操作命令： http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html1、所有命令（HADOOP_HOME/bin下）bin/had...

2018-04-10 11:28:05 456

转载 Hadoop HDFS本地存储目录结构解析

转自：opensure https://blog.csdn.net/opensure/article/details/51452058HDFS metadata以树状结构存储整个HDFS上的文件和目录，以及相应的权限、配额和副本因子（replication factor）等。本文基于Hadoop2.6版本介绍HDFS Namenode本地目录的存储结构和Datanode数据块存储目录结构，...

2018-04-10 10:01:56 1184

转载 log4j（六）——log4j.properties简单配置样例说明

转自： http://www.cnblogs.com/godtrue/p/6443995.html 一：测试环境与log4j（一）——为什么要使用log4j？一样，这里不再重述二：老规矩，先来个栗子，然后再聊聊感受（1）使用配文件的方式，是不是感觉非常的清爽，如果不在程序中读取配置文件就更加的清爽啦！这里为了简便，就是单单使用一个Java类来做实验了。import org.apa...

2018-04-10 08:45:11 320

转载 log4j（五）——如何控制不同目的地的日志输出

转自：http://www.cnblogs.com/godtrue/p/6443195.html一：测试环境与log4j（一）——为什么要使用log4j？一样，这里不再重述二：老规矩，先来个栗子，然后再聊聊感受import org.apache.log4j.*;import java.io.*;//by godtruepublic class UseLog4j { //...

2018-04-10 08:43:36 244

转载 log4j（四）——如何控制不同风格的日志信息的输出

转自：http://www.cnblogs.com/godtrue/p/6442562.html 一：测试环境与log4j（一）——为什么要使用log4j？一样，这里不再重述二：老规矩，先来个栗子，然后再聊聊感受import org.apache.log4j.*;//by godtruepublic class UseLog4j { //日志记录器 private...

2018-04-10 08:42:03 277

转载 log4j（三）——如何控制不同级别的日志信息的输出

转自：http://www.cnblogs.com/godtrue/p/6442398.html一：测试环境与log4j（一）——为什么要使用log4j？一样，这里不再重述二：老规矩，先来个栗子，然后再聊聊感受import org.apache.log4j.*;//by godtruepublic class UseLog4j { //日志记录器 private...

2018-04-10 08:40:37 484

转载 log4j（二）——如何控制日志信息的输出？

转自：http://www.cnblogs.com/godtrue/p/6442347.html posted on 2017-02-25 17:56 godtrue一：测试环境与log4j（一）——为什么要使用log4j？一样，这里不再重述二：先看栗子再来下结论import org.apache.log4j.*;import test.log4j.bean.Person;//b...

2018-04-10 08:33:45 786

转载 log4j（一）为什么要使用log4j

转自：http://www.cnblogs.com/godtrue/p/6442273.html posted on 2017-02-25 17:21一：试验环境OS：win7JDK：jdk7Log4j：1.2.17（好尴尬，原本是想试验下log4j2的，结果阴差阳错用了这个版本，不过幸好，试验也不白试验，试验的作用是一样的）二：先看两个简单的栗子然后在谈为什么吧！（1）...

2018-04-10 08:31:24 237

转载 JVM运行流程和结构

转自：https://blog.csdn.net/u011015260/article/details/574169771运行流程整个流程是：通过java xx命令进入jvm中装载配置：根据当前的路径和系统版本寻找 jvm.cfg文件根据配置文件寻找jvm.dll 文件：jvm.dll文件为JVM的主要实现初始化JVM 得到JVM对应的接口和findClass等操作实现找...

2018-04-02 17:49:10 223

李思苇