大数据高级研发
文章平均质量分 79
zfszhangyuan
目前专注于大数据领域,希望能安身立命!
展开
-
hadoop的发展和介绍
今天整好有这个时间,我就整理整理一下hadoop相关的资料,想初步简略的谈一下hadoop的发展史和应用情况。说到hadoop不得不说一下大数据。什么是大数据?网上搜了一圈基本都是说数据量大,有价值的数据就叫大数据,这么说也不错,但是很抽象,很笼统,我总结了一下大数据最起码具备四个方面的特征:第一:体量大(volume)数据规模庞大,传统的数据库无法存储和计算,而且直接原因是非结构化的数据的超大规模增长。第二:多样性(variety) 大数据的异构性和多样性,庞大体量的数据他们的存在是不同形式的(原创 2016-09-12 14:04:33 · 3803 阅读 · 0 评论 -
flume-ng编程之自定义拦截器
学习flume以来,实现了日志的多来源自动抽取和多target的自动发送等,但是一直以来的数据清洗过程一直是放在hadoop中用MR程序定时进行清洗的,有没有一种方式编程能够直接在flume中来进行相关的数据清洗数据匹配,过滤掉那些不规范的脏数据,于是决定打这个flume拦截器的主义,觉得只要把代码稍微改改,从拦截body开始自定义intercepter编程完成每个body字符串的解析字段的正则提原创 2016-09-06 13:16:36 · 12371 阅读 · 1 评论 -
spark入门知识讲解和基础数据操作编程(统一用scala编程实例)
在我的上一篇博文中:http://blog.csdn.net/zfszhangyuan/article/details/52538108 讲如何应用scala编程完成用户的在线时长和登录次数在spark上的求解方式。讲到这里有同学可能对编程完后如何将程序放到线上spark集群上运行以及如何理解spark框架在大数据架构体系中的位置及其基本原理有所疑问。原创 2016-09-16 15:23:03 · 4002 阅读 · 0 评论 -
scala实战之spark读取mysql数据表并存放到mysql库中编程实例
今天简单讲解一下应用spark1.5.2相关读取mysql数据到DataFrame的接口以及将DF数据存放到mysql中接口实现实例。通过这段代码可以实现从mysql关系型数据库中直接读取数据转化成DataFrame参与到sparksql的分析当中这个意义是非常重大的,因为我们日常应用sparksql进行数据分析时经常会用到一些配置表,而这些配置定义表都是存在关系型数据库中,所以以后不用担心了。另外这里还实现了DataFrame结果回写到mysql数据库中,虽然官方的spark源码的写入有些奇葩,设定的原创 2016-09-20 11:05:19 · 17937 阅读 · 1 评论 -
scala实战之spark源码修改(能够将DataFrame按字段增量写入mysql数据表)
在上一篇博文中,我们可以简单的应用官网的给出的一些接口提取mysql数据表中的数据到spark中,也可以将spark的运行结果存入mysql中。但是我们会发现spark将其DF存入mysql的时候,无论你选择什么模式:jdbcDF.write.mode(SaveMode.Overwrite).jdbc(url,"zfs_test",prop)jdbcDF.write.mode(SaveMode.Append).jdbc(url,"zbh_test",prop)结果都是会重建这个表。这样一来这个表之原创 2016-09-23 11:26:31 · 7659 阅读 · 2 评论 -
kafka单机重启topic丢失问题排查
这个问题,在线上集群环境一般不容易出现,因为相关的日志文件参数都已经配置好了,而且经受住时间的的验证了。作为新手,我在本地配置了一个单机kafka,用得是kafka自带的zookeeper服务。kafka安装很简单如下:1).下载kafka:wget http://apache.fayea.com/kafka/0.10.1.0/kafka_2.10-0.10.1.0.tgz原创 2016-11-29 11:11:10 · 10707 阅读 · 1 评论 -
mac上Jstorm单机安装实操
由于我的电脑是mac pro,想在本地安装一个阿里Jstorm玩玩,发现在Linux上的安装教程很多,但是mac上的能完整安装成功的没有。虽然mac的内核也是linux但是还是有一定的差别,导致我们要安装很多的工具型程序下面让我们开始吧首先去官网参考一下 官网给的安装路数:https://github.com/alibaba/jstorm/wiki/如何安装1.python没有的安原创 2016-11-24 10:31:50 · 2827 阅读 · 0 评论 -
hive表级权限配置以及运行调试
环境:我们已经安装了Hadoop集群,hive,hue 以及命令行工具Beelinehue: 主要是对hive数据仓库的一个可视化操作客户端,我们可以用hue对hive库添加管理员用户账号。Beeline:HiveServer2提供了一个新的命令行工具Beeline,它是基于SQLLine CLI的JDBC客户端。关于SQLLine的的知识,可以参考这个网站:http://sqll原创 2017-01-11 10:11:12 · 8087 阅读 · 0 评论