自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 hive 中insert into和insert overwrite 的区别 举例

hive 中insert into和insert overwrite 的区别 举例1、insert into 语句Hive> insert into table account select id,age,name from account_tmp;2、insert overwrite语句hive> insert overwrite table account2 selec...

2019-04-30 00:52:15 8155 1

原创 source命令相当于(.)命令

source命令相当于(.)命令source命令:source命令也称为“点命令”,也就是一个点符号(.)。source命令通常用于重新执行刚修改的初始化文件,使之立即生效,而不必注销并重新登录。用法:source filename 或 . filenamesource命令除了上述的用途之外,还有一个另外一个用途。在对编译系统核心时常常需要输入一长串的命令,如:make mrprop...

2019-04-29 12:29:48 1886

原创 azkaban简单job示例以及多个有依赖关系的job示例以及 azkaban web界面介绍

azkaban简单job示例以及多个有依赖关系的job示例链接:https://www.cnblogs.com/qingyunzong/p/8810610.html

2019-04-29 01:34:09 3354

原创 linux系统下 压缩和解压缩文件命令

linux系统下 压缩和解压缩文件命令1、把/home目录下面的mydata目录压缩为mydata.zipzip -r mydata.zip mydata #压缩mydata目录2、把/home目录下面的mydata.zip解压到mydatabak目录里面unzip mydata.zip -d mydatabak3、把/home目录下面的abc文件夹和123.txt压缩成为abc123....

2019-04-28 20:10:06 3176

原创 azkaban调度器的安装及配置

azkaban调度器的安装及配置安装前首先 了解一下azkaban工作调度器:azkaban工作流调度系统产生的背景:一个完整的数据分析系统都是由大量的任务单元组成 如:shell 脚本程序 /java程序 /mapreduce 程序/hive脚本程序等 并且各个任务单元之间存在时间先后依赖关系,为了更好的执行复杂计划 需要有一个工作流调度系统来调度执行。简单的任务调度:直接使用 li...

2019-04-28 18:36:38 758

原创 rank()和dense_rank()和row_number()函数

rank()和dense_rank()和row_number()函数row_number():不考虑数据的重复性 按照顺序一次打上标号 :如: 1,2,3,4dense_rank() :考虑数据重复性 不挤占坑位如:1,2,2,3rank() :考虑数据的重复性,挤占坑位如:1,2,2,4...

2019-04-28 09:44:31 1681

原创 网站流量日志分析系统(一)概念

网站流量日志分析系统网站流量日志分析系统:点击流数据模型点击流:是指用户持续访问浏览网站的轨迹。点击流数据是由散点状的点击日志数据梳理所得。点击流数据在数据建模时存在俩张模型表 Pageviews 和visits1.首先有一张:原始访问日志表 时间戳/ip地址/请求的url/referal/响应码/。。。2.页面点击流模型的 pageviews 表 session/ip地址/...

2019-04-28 02:12:59 2356

原创 idea pom.xml中的打包插件配置

##idea pom.xml中的打包插件配置 org.apache.maven.plugins maven-jar-plugin 2.4 ...

2019-04-27 14:41:52 3500 1

原创 hive 的udf(user defined function)自定义函数

hive 的udf(user defined function)自定义函数1.新建java maven 项目2.pom.xml 中引入 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</ar...

2019-04-27 14:01:22 1230

原创 大数据和java的区别

大数据和java的区别1架构层面:javaee:三层架构 表现层(web)业务层(service)持久层(dao)大数据:围绕数据 数据采集 --数据存储–数据计算(分析)–数据展示2.技术层面:javaee:成熟 解决方案多 技术点集中大数据:相对年轻 迭代更新快 解决方案相对少 技术相当繁琐 杂 /碎3.开发层面:javaee:代码量很大 偏向业务 运维等任务较少 固定搭...

2019-04-27 10:43:01 5019

原创 hive的mysql版的安装配置以及远程服务以及内置表和外置表/单分区表和双分区表/分桶表

hive的mysql版的安装配置Hive 数据类型:Hive中所有的数据都存储在hdfs中,没有专门的存储格式。在创建时指定数据中的分隔符,hive就可以映射成功,解析数据。Hive 的安装与部署:1 安装前需要安装好 jdk和hadoop 以及启动hadoop集群:start-all.sh2.上传 hive包 解压 后到bin目录可以看见hiveHive 根据元数据存储的介...

2019-04-18 19:39:42 371

原创 数据仓库和数据库的区别

数据仓库和数据库的区别首先你要了解企业中的一个问题比如:java人员 爬虫了一些数据,我们大数据拿来用 但是最终的结果出现了错误这时大数据人员说 java爬的数据有问题 java人员说他爬的数据没有问题是大数据的问题 这就是公司中出现的拉皮条显现【推卸责任】企业数据文件管理的真谛:方便快速的存储和快速的提取。方式:分类管理--根据文件不同属性划分不同文件夹–相同属性文件再根据日...

2019-04-14 21:49:33 1351

原创 flume 企业中的实例案例 默认拦截器

flume 企业中的实例案例案例场景:A、B 两台日志服务机器实时生产日志主要类型为 access.log、nginx.log、web.log需求:把 A、B 机器中的 access.log、nginx.log、web.log 采集汇总到 C 机器上然后统一收集到 hdfs 中。但是在 hdfs 中要求的目录为:/source/logs/access/20160101/**/sou...

2019-04-14 12:40:04 389

原创 flume 的负载均衡(load-balance)和容错(机制)

flume 的负载均衡(load-balance)和容错(机制)学习前 先了解一下企业中可能遇见的一个问题:spooldir 监控的目录文件 有重复名的话会报错且罢工!在企业中如何控制文件的产生 文件名不同 我们20150109-01.log【我们文件名产生前用时间控制文件名 年月日小时 每一个小时的数据存储在一个文件中。这样就保证了 数据源文件名的不重复。如何模拟一个不断变化的文件。 ...

2019-04-13 22:27:01 2024

原创 flume三个案例

flume 安装 及测试 netcat-logs.confFlume :Flume 安装 上传包 解压到 conf 目录下flume.env.sh 配置 jdk 即可vi netcat-logger.conf定义这个 agent 中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1描述和配置 source 组件:r1a...

2019-04-12 20:43:13 326

原创 mapreduce案例 序列化bean对象 并获取文本文件中某些字段信息并打印在hdfs相关目录

mapreduce案例 序列化bean对象 并获取文本文件中某些字段信息并打印在hdfs相关目录1.文本数据源已上传指百度云盘 参考资料/mapreduce中 【注意 此文本有问题 :自己需要拉几条作为数据源 原因:里面有多个tab 分割】2.创建maven 项目 参考 mapreduce 案例3. 创建如下几个类:FlowBean.FlowCountMapperFlowCo...

2019-04-11 21:21:01 564

原创 mapreduce 单词统计 案例

mapreduce 单词统计 案例一、Hadoop MapReduce 构思体现在如下的三个方面:1.如何对付大数据处理:分而治之2.构建抽象模型:Map 和 ReduceMap: 对一组数据元素进行某种重复式的处理;Reduce: 对 Map 的中间结果进行某种进一步的结果整理。MapReduce 处理的数据类型是<key,value>键值对3.统一构架,隐藏系统层细节...

2019-04-09 19:02:17 4067

原创 Elasticsearch和solr 比较

Elasticsearch和solr 比较Elasticsearch和solr 比较Solr:当单单对已有的额数据进行搜索时,sorl更快。Es:当实时建立索引时,solr会产生io阻塞,查询性能较差,此时es具有更大的优势。随着数据的增加,solr的效率会变得更低,而es基本上没有什么变化。综上所诉:solr 不适合实时框架的开发。1.solr是利用zookeeper 进行分布...

2019-04-09 16:30:44 491

原创 maven安装及配置

maven安装及配置1.1 maven的概念1.2 Maven的作用1.3 Maven的概念模型一.1.下载maven,这里有个绿色版本 直接将绿色maven放到路径不为中文的目录下2.Maven repository(maven 仓库) 也放到一个路径不为中文的目录下3.在1maven中,与bin同级的conf 中的 settings.xml 中将2中的仓库路径 配到里面4....

2019-04-09 16:20:10 183

原创 windows 系统下操作hdfs 以及shell编程规范

windows 系统下操作hdfs 以及shell编程规范以上是 在node1主机上 有一个 1.txt文件 分成三块 备份副本数为2Node1 : blk-1 ,blk-3Node2 :blk-2,blk-1Node3 :blk-3,blk-21.请求下载文件2.确认是否具有操作文件的权限3.Namenode 视情况分批返回该文件的元数...

2019-04-04 15:23:01 678

原创 eclipse 常用快捷键

eclipse 常用快捷键Windows—pre—gen—java —eidt :改变字体大小;Windows–pre–gen—debug----eidt :改变控制台字体大小Alt+/ :内容补全;Ctrl+/ :注释;Ctrl+2松手+L: 自动补齐变量名及数据类型;Ctrl+shift+o :自动导包;或者ctrl+1 错误提示导包;Alt +shift+r 统一...

2019-04-02 17:09:21 1117

原创 idea常用快捷键

idea 快捷键首先 下载 安装1.字体和背景设置为黑色:file -->setting–>editor—>color&fonts --》用save as 新建一个,–> color&fonts 下面——》font 设置字体大小 第二部:appearance 选择 Darcula 即可。2.刚安装后 ,System/ String 等都...

2019-04-02 17:04:11 359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除