2019年04月_zengxianglei

原创 hive 中insert into和insert overwrite 的区别举例

hive 中insert into和insert overwrite 的区别举例1、insert into 语句Hive> insert into table account select id,age,name from account_tmp;2、insert overwrite语句hive> insert overwrite table account2 selec...

2019-04-30 00:52:15 8155 1

原创 source命令相当于（.）命令

source命令相当于（.）命令source命令：source命令也称为“点命令”，也就是一个点符号（.）。source命令通常用于重新执行刚修改的初始化文件，使之立即生效，而不必注销并重新登录。用法：source filename 或 . filenamesource命令除了上述的用途之外，还有一个另外一个用途。在对编译系统核心时常常需要输入一长串的命令，如：make mrprop...

2019-04-29 12:29:48 1886

原创 azkaban简单job示例以及多个有依赖关系的job示例以及 azkaban web界面介绍

azkaban简单job示例以及多个有依赖关系的job示例链接：https://www.cnblogs.com/qingyunzong/p/8810610.html

2019-04-29 01:34:09 3354

原创 linux系统下压缩和解压缩文件命令

linux系统下压缩和解压缩文件命令1、把/home目录下面的mydata目录压缩为mydata.zipzip -r mydata.zip mydata #压缩mydata目录2、把/home目录下面的mydata.zip解压到mydatabak目录里面unzip mydata.zip -d mydatabak3、把/home目录下面的abc文件夹和123.txt压缩成为abc123....

2019-04-28 20:10:06 3176

原创 azkaban调度器的安装及配置

azkaban调度器的安装及配置安装前首先了解一下azkaban工作调度器：azkaban工作流调度系统产生的背景：一个完整的数据分析系统都是由大量的任务单元组成如：shell 脚本程序 /java程序 /mapreduce 程序/hive脚本程序等并且各个任务单元之间存在时间先后依赖关系，为了更好的执行复杂计划需要有一个工作流调度系统来调度执行。简单的任务调度：直接使用 li...

2019-04-28 18:36:38 758

原创 rank()和dense_rank()和row_number()函数

rank()和dense_rank()和row_number()函数row_number():不考虑数据的重复性按照顺序一次打上标号 :如： 1，2，3，4dense_rank() :考虑数据重复性不挤占坑位如：1，2，2，3rank() :考虑数据的重复性，挤占坑位如：1，2，2，4...

2019-04-28 09:44:31 1681

原创网站流量日志分析系统（一）概念

网站流量日志分析系统网站流量日志分析系统：点击流数据模型点击流:是指用户持续访问浏览网站的轨迹。点击流数据是由散点状的点击日志数据梳理所得。点击流数据在数据建模时存在俩张模型表 Pageviews 和visits1.首先有一张：原始访问日志表时间戳/ip地址/请求的url/referal/响应码/。。。2.页面点击流模型的 pageviews 表 session/ip地址/...

2019-04-28 02:12:59 2356

原创 idea pom.xml中的打包插件配置

##idea pom.xml中的打包插件配置 org.apache.maven.plugins maven-jar-plugin 2.4 ...

2019-04-27 14:41:52 3500 1

原创 hive 的udf(user defined function)自定义函数

hive 的udf(user defined function)自定义函数1.新建java maven 项目2.pom.xml 中引入 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</ar...

2019-04-27 14:01:22 1230

原创大数据和java的区别

大数据和java的区别1架构层面：javaee：三层架构表现层（web）业务层（service）持久层（dao）大数据：围绕数据数据采集 --数据存储–数据计算（分析）–数据展示2.技术层面：javaee：成熟解决方案多技术点集中大数据：相对年轻迭代更新快解决方案相对少技术相当繁琐杂 /碎3.开发层面：javaee：代码量很大偏向业务运维等任务较少固定搭...

2019-04-27 10:43:01 5019

原创 hive的mysql版的安装配置以及远程服务以及内置表和外置表/单分区表和双分区表/分桶表

hive的mysql版的安装配置Hive 数据类型：Hive中所有的数据都存储在hdfs中，没有专门的存储格式。在创建时指定数据中的分隔符，hive就可以映射成功，解析数据。Hive 的安装与部署：1 安装前需要安装好 jdk和hadoop 以及启动hadoop集群：start-all.sh2.上传 hive包解压后到bin目录可以看见hiveHive 根据元数据存储的介...

2019-04-18 19:39:42 371

原创数据仓库和数据库的区别

数据仓库和数据库的区别首先你要了解企业中的一个问题比如：java人员爬虫了一些数据，我们大数据拿来用但是最终的结果出现了错误这时大数据人员说 java爬的数据有问题 java人员说他爬的数据没有问题是大数据的问题这就是公司中出现的拉皮条显现【推卸责任】企业数据文件管理的真谛：方便快速的存储和快速的提取。方式：分类管理--根据文件不同属性划分不同文件夹–相同属性文件再根据日...

2019-04-14 21:49:33 1351

原创 flume 企业中的实例案例默认拦截器

flume 企业中的实例案例案例场景：A、B 两台日志服务机器实时生产日志主要类型为 access.log、nginx.log、web.log需求：把 A、B 机器中的 access.log、nginx.log、web.log 采集汇总到 C 机器上然后统一收集到 hdfs 中。但是在 hdfs 中要求的目录为：/source/logs/access/20160101/**/sou...

2019-04-14 12:40:04 389

原创 flume 的负载均衡（load-balance）和容错（机制）

flume 的负载均衡（load-balance）和容错（机制）学习前先了解一下企业中可能遇见的一个问题：spooldir 监控的目录文件有重复名的话会报错且罢工！在企业中如何控制文件的产生文件名不同我们20150109-01.log【我们文件名产生前用时间控制文件名年月日小时每一个小时的数据存储在一个文件中。这样就保证了数据源文件名的不重复。如何模拟一个不断变化的文件。 ...

2019-04-13 22:27:01 2024

原创 flume三个案例

flume 安装及测试 netcat-logs.confFlume :Flume 安装上传包解压到 conf 目录下flume.env.sh 配置 jdk 即可vi netcat-logger.conf定义这个 agent 中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1描述和配置 source 组件：r1a...

2019-04-12 20:43:13 326

原创 mapreduce案例序列化bean对象并获取文本文件中某些字段信息并打印在hdfs相关目录

mapreduce案例序列化bean对象并获取文本文件中某些字段信息并打印在hdfs相关目录1.文本数据源已上传指百度云盘参考资料/mapreduce中【注意此文本有问题：自己需要拉几条作为数据源原因：里面有多个tab 分割】2.创建maven 项目参考 mapreduce 案例3. 创建如下几个类：FlowBean.FlowCountMapperFlowCo...

2019-04-11 21:21:01 564

原创 mapreduce 单词统计案例

mapreduce 单词统计案例一、Hadoop MapReduce 构思体现在如下的三个方面：1.如何对付大数据处理：分而治之2.构建抽象模型：Map 和 ReduceMap: 对一组数据元素进行某种重复式的处理；Reduce: 对 Map 的中间结果进行某种进一步的结果整理。MapReduce 处理的数据类型是<key,value>键值对3.统一构架，隐藏系统层细节...

2019-04-09 19:02:17 4067

原创 Elasticsearch和solr 比较

Elasticsearch和solr 比较Elasticsearch和solr 比较Solr:当单单对已有的额数据进行搜索时，sorl更快。Es:当实时建立索引时，solr会产生io阻塞，查询性能较差，此时es具有更大的优势。随着数据的增加，solr的效率会变得更低，而es基本上没有什么变化。综上所诉：solr 不适合实时框架的开发。1.solr是利用zookeeper 进行分布...

2019-04-09 16:30:44 491

原创 maven安装及配置

maven安装及配置1.1 maven的概念1.2 Maven的作用1.3 Maven的概念模型一.1.下载maven，这里有个绿色版本直接将绿色maven放到路径不为中文的目录下2.Maven repository(maven 仓库) 也放到一个路径不为中文的目录下3.在1maven中，与bin同级的conf 中的 settings.xml 中将2中的仓库路径配到里面4....

2019-04-09 16:20:10 183

原创 windows 系统下操作hdfs 以及shell编程规范

windows 系统下操作hdfs 以及shell编程规范以上是在node1主机上有一个 1.txt文件分成三块备份副本数为2Node1 : blk-1 ,blk-3Node2 :blk-2,blk-1Node3 :blk-3,blk-21.请求下载文件2.确认是否具有操作文件的权限3.Namenode 视情况分批返回该文件的元数...

2019-04-04 15:23:01 678

原创 eclipse 常用快捷键

eclipse 常用快捷键Windows—pre—gen—java —eidt :改变字体大小；Windows–pre–gen—debug----eidt ：改变控制台字体大小Alt+/ :内容补全；Ctrl+/ :注释；Ctrl+2松手+L: 自动补齐变量名及数据类型；Ctrl+shift+o ：自动导包；或者ctrl+1 错误提示导包；Alt +shift+r 统一...

2019-04-02 17:09:21 1117

原创 idea常用快捷键

idea 快捷键首先下载安装1.字体和背景设置为黑色：file -->setting–>editor—>color&fonts --》用save as 新建一个,–> color&fonts 下面——》font 设置字体大小第二部：appearance 选择 Darcula 即可。2.刚安装后，System/ String 等都...

2019-04-02 17:04:11 359

zengxianglei的博客--手指星辰奈何天！