大数据
zengxianglei
曾经 年少 爱追梦, 一心 只想 往前飞 。。。
展开
-
yum源误删后重装
yum误删后重装首先下载以上几个rpm包Rpm -qa yum 查看当前yum 版本 若无结果 则没装yum首先 卸载掉以前所有的 东西rpm -qa | grep yum | xargs rpm -e --nodeps再查看一下 yum :rpm-qa yum卸载完后 再按以下步骤:rpm -ivh pyhton-iniparse-0.3.1-2.1.el6.no...原创 2019-03-20 12:40:49 · 941 阅读 · 0 评论 -
网站流量日志分析系统(一)概念
网站流量日志分析系统网站流量日志分析系统:点击流数据模型点击流:是指用户持续访问浏览网站的轨迹。点击流数据是由散点状的点击日志数据梳理所得。点击流数据在数据建模时存在俩张模型表 Pageviews 和visits1.首先有一张:原始访问日志表 时间戳/ip地址/请求的url/referal/响应码/。。。2.页面点击流模型的 pageviews 表 session/ip地址/...原创 2019-04-28 02:12:59 · 2375 阅读 · 0 评论 -
rank()和dense_rank()和row_number()函数
rank()和dense_rank()和row_number()函数row_number():不考虑数据的重复性 按照顺序一次打上标号 :如: 1,2,3,4dense_rank() :考虑数据重复性 不挤占坑位如:1,2,2,3rank() :考虑数据的重复性,挤占坑位如:1,2,2,4...原创 2019-04-28 09:44:31 · 1691 阅读 · 0 评论 -
网站访问日志(二)通过Mapreduce 初步清洗数据得到weblogbean数据
网站访问日志(二)通过Mapreduce 初步清洗数据原始数据文件:百度网盘 /02.参考资料\网站流量日志分析:项目脚本-配置代码/access.log.fensi需求:对原始数据进行清洗 ,得到我们想要的11个字段数据。同时对不合法的数据标记为false 【1.状态码>400的 2.请求的request中包含过滤的静态资源的字段的 3.通过空格split 长度小于11的都标记为f...原创 2019-05-02 22:08:20 · 1023 阅读 · 0 评论 -
azkaban调度器的安装及配置
azkaban调度器的安装及配置安装前首先 了解一下azkaban工作调度器:azkaban工作流调度系统产生的背景:一个完整的数据分析系统都是由大量的任务单元组成 如:shell 脚本程序 /java程序 /mapreduce 程序/hive脚本程序等 并且各个任务单元之间存在时间先后依赖关系,为了更好的执行复杂计划 需要有一个工作流调度系统来调度执行。简单的任务调度:直接使用 li...原创 2019-04-28 18:36:38 · 778 阅读 · 0 评论 -
linux系统下 压缩和解压缩文件命令
linux系统下 压缩和解压缩文件命令1、把/home目录下面的mydata目录压缩为mydata.zipzip -r mydata.zip mydata #压缩mydata目录2、把/home目录下面的mydata.zip解压到mydatabak目录里面unzip mydata.zip -d mydatabak3、把/home目录下面的abc文件夹和123.txt压缩成为abc123....原创 2019-04-28 20:10:06 · 3186 阅读 · 0 评论 -
网站访问日志(三)清洗以及pageview和visit模型 代码及思路
网站访问日志清洗以及pageview和visit模型 代码及思路想要清洗数据得到pageview表和visitbiao对象数据之前我们先了解一下weblogbean pageviewbean visitbean 三个对象里 所有或者做需要的属性数据。如下:初步清洗后的 weblogbean数据false194.237.142.21-2013-09-18 06:49:18/...原创 2019-05-07 14:48:42 · 1585 阅读 · 0 评论 -
jvm 大数据面试
jvm 大数据面试https://blog.csdn.net/weixin_42312342/article/details/90082642原创 2019-05-11 12:46:48 · 370 阅读 · 0 评论 -
时间复杂度和空间复杂度的概念及各种算法的时间复杂度 及举例
时间复杂度和空间复杂度的概念及各种算法的时间复杂度 及举例算法的复杂度可分为俩种 一种时间复杂度 另一种是空间复杂度。俩者的概念:时间复杂度是指执行这个算法所需要的计算工作量;而空间复杂度是指执行这个算法所需要的内存空间。时间和空间(即寄存器)都是计算机资源的重要体现,而算法的复杂性就是体现在运行该算法时的计算机所需的资源多少。各种算法的复杂度如下:时间复杂度:1:算法的时间复杂度反映...原创 2019-05-11 15:02:55 · 18423 阅读 · 4 评论 -
web网站访问日志(四) 根据业务需求 书写hive sql
web网站访问日志(四) 根据业务需求 书写hive sql1.ods层(事实表)建表语句原始数据表:对应mr清洗完之后的数据,而不是原始日志数据drop table if exists ods_weblog_origin;create table ods_weblog_origin(valid string,remote_addr string,remote_user stri...原创 2019-05-11 17:17:10 · 716 阅读 · 1 评论 -
sqoop 的安装 及将mysql数据库中的数据用sqoop导入到hdfs/hive中 和将hdfs中的数据导出到mysql数据库中
sqooq 的安装 及数据的导入 导出mysql首先上传 sqooq 安装包;tar -zxvf 包mv 改名到 cd/export/server/sqooq/conf改名 为 sqooq.env.sh1.vi sqooq.env.shexport HADOOP_COMMON_HOME=/export/servers/hadoopexport HADOOP_MAPRED_H...原创 2019-05-16 16:32:44 · 739 阅读 · 0 评论 -
hadoop总结
hadoop总结Hadoop第一天1.Vmwarey有三种模式:桥接模式 ,nat模式,host-only模式 一般情况下 用nat2./etc是配置文件的目录/var是储存各种变化的文件。3.修改主机名:vi/etc/sysconfig/network 修改原 hostname 为 newname4.修改ip:/etc/sysconfig/network-scripts/ifcfg...原创 2019-07-10 16:19:49 · 1027 阅读 · 0 评论 -
hive的mysql版的安装配置以及远程服务以及内置表和外置表/单分区表和双分区表/分桶表
hive的mysql版的安装配置Hive 数据类型:Hive中所有的数据都存储在hdfs中,没有专门的存储格式。在创建时指定数据中的分隔符,hive就可以映射成功,解析数据。Hive 的安装与部署:1 安装前需要安装好 jdk和hadoop 以及启动hadoop集群:start-all.sh2.上传 hive包 解压 后到bin目录可以看见hiveHive 根据元数据存储的介...原创 2019-04-18 19:39:42 · 382 阅读 · 0 评论 -
hive 的udf(user defined function)自定义函数
hive 的udf(user defined function)自定义函数1.新建java maven 项目2.pom.xml 中引入 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</ar...原创 2019-04-27 14:01:22 · 1247 阅读 · 0 评论 -
大数据和java的区别
大数据和java的区别1架构层面:javaee:三层架构 表现层(web)业务层(service)持久层(dao)大数据:围绕数据 数据采集 --数据存储–数据计算(分析)–数据展示2.技术层面:javaee:成熟 解决方案多 技术点集中大数据:相对年轻 迭代更新快 解决方案相对少 技术相当繁琐 杂 /碎3.开发层面:javaee:代码量很大 偏向业务 运维等任务较少 固定搭...原创 2019-04-27 10:43:01 · 5030 阅读 · 0 评论 -
linux中使用top命令查看io负载,cpu和内存状态
如何查看当前Linux系统的状态,如CPU使用,内存使用,负载情况等第一行:10:01:23 当前系统时间126 days, 14:29 系统已经运行了126天14小时29分钟(在这期间没有重启过)2 users 当前有2个用户登录系统load average: 1.15, 1.42, 1.44 load average后面的三个数分别是1分钟、5分钟、15分钟的负载情况。load aver...原创 2019-03-21 16:49:02 · 21023 阅读 · 0 评论 -
windows 系统下操作hdfs 以及shell编程规范
windows 系统下操作hdfs 以及shell编程规范以上是 在node1主机上 有一个 1.txt文件 分成三块 备份副本数为2Node1 : blk-1 ,blk-3Node2 :blk-2,blk-1Node3 :blk-3,blk-21.请求下载文件2.确认是否具有操作文件的权限3.Namenode 视情况分批返回该文件的元数...原创 2019-04-04 15:23:01 · 695 阅读 · 0 评论 -
idea常用快捷键
idea 快捷键首先 下载 安装1.字体和背景设置为黑色:file -->setting–>editor—>color&fonts --》用save as 新建一个,–> color&fonts 下面——》font 设置字体大小 第二部:appearance 选择 Darcula 即可。2.刚安装后 ,System/ String 等都...原创 2019-04-02 17:04:11 · 375 阅读 · 0 评论 -
hdfs命令
hdfs 初级体验(海量数据的存储系统)hadoop fs -mkdir -p /wordcount/input (在hdfs系统创建目录)hadoop fs -ls / (查看hdfs 系统根目录文件)hadoop fs -put /root/a.txt /wordcount/input (将linux系统中本地文件 a.txt文件上传到 hdfs系统中)hdfs webui(浏览器查看...原创 2019-03-29 10:25:14 · 307 阅读 · 0 评论 -
虚拟机 一台主机打不开 I:\xxx.vmdk”
虚拟机 一台主机打不开 报:打不开磁盘“I:\xxx.vmdk”或它所依赖的某个快照磁盘这是因为非正常关闭虚拟机造成的。在每次正常启动虚拟机时都会给每个虚拟磁盘加一个磁盘锁(也就是.lck文件夹 文件夹下有个文件 里面好像是uuid什么的),正常关闭时会将.lck文件夹自动删除,但非正常关闭不会自动删除.lck文件。 这时只需要将报错路径vmk对应的.lck文件夹删除即可。工作机制:虚拟机为...原创 2019-03-29 10:38:05 · 749 阅读 · 0 评论 -
mapreduce案例 序列化bean对象 并获取文本文件中某些字段信息并打印在hdfs相关目录
mapreduce案例 序列化bean对象 并获取文本文件中某些字段信息并打印在hdfs相关目录1.文本数据源已上传指百度云盘 参考资料/mapreduce中 【注意 此文本有问题 :自己需要拉几条作为数据源 原因:里面有多个tab 分割】2.创建maven 项目 参考 mapreduce 案例3. 创建如下几个类:FlowBean.FlowCountMapperFlowCo...原创 2019-04-11 21:21:01 · 578 阅读 · 0 评论 -
Elasticsearch和solr 比较
Elasticsearch和solr 比较Elasticsearch和solr 比较Solr:当单单对已有的额数据进行搜索时,sorl更快。Es:当实时建立索引时,solr会产生io阻塞,查询性能较差,此时es具有更大的优势。随着数据的增加,solr的效率会变得更低,而es基本上没有什么变化。综上所诉:solr 不适合实时框架的开发。1.solr是利用zookeeper 进行分布...原创 2019-04-09 16:30:44 · 510 阅读 · 0 评论 -
flume三个案例
flume 安装 及测试 netcat-logs.confFlume :Flume 安装 上传包 解压到 conf 目录下flume.env.sh 配置 jdk 即可vi netcat-logger.conf定义这个 agent 中各组件的名字a1.sources = r1a1.sinks = k1a1.channels = c1描述和配置 source 组件:r1a...原创 2019-04-12 20:43:13 · 340 阅读 · 0 评论 -
mapreduce 单词统计 案例
mapreduce 单词统计 案例一、Hadoop MapReduce 构思体现在如下的三个方面:1.如何对付大数据处理:分而治之2.构建抽象模型:Map 和 ReduceMap: 对一组数据元素进行某种重复式的处理;Reduce: 对 Map 的中间结果进行某种进一步的结果整理。MapReduce 处理的数据类型是<key,value>键值对3.统一构架,隐藏系统层细节...原创 2019-04-09 19:02:17 · 4099 阅读 · 0 评论 -
flume 的负载均衡(load-balance)和容错(机制)
flume 的负载均衡(load-balance)和容错(机制)学习前 先了解一下企业中可能遇见的一个问题:spooldir 监控的目录文件 有重复名的话会报错且罢工!在企业中如何控制文件的产生 文件名不同 我们20150109-01.log【我们文件名产生前用时间控制文件名 年月日小时 每一个小时的数据存储在一个文件中。这样就保证了 数据源文件名的不重复。如何模拟一个不断变化的文件。 ...原创 2019-04-13 22:27:01 · 2049 阅读 · 0 评论 -
数据仓库和数据库的区别
数据仓库和数据库的区别首先你要了解企业中的一个问题比如:java人员 爬虫了一些数据,我们大数据拿来用 但是最终的结果出现了错误这时大数据人员说 java爬的数据有问题 java人员说他爬的数据没有问题是大数据的问题 这就是公司中出现的拉皮条显现【推卸责任】企业数据文件管理的真谛:方便快速的存储和快速的提取。方式:分类管理--根据文件不同属性划分不同文件夹–相同属性文件再根据日...原创 2019-04-14 21:49:33 · 1362 阅读 · 0 评论 -
Hbase 的Hmaster 在运行一段时间后 自动关闭 原因及解决方案
Hbase 的Hmaster 在运行一段时间后 自动关闭 原因及解决方案首先启动 hbase集群 步骤;1.一键启动zk :cd /export/onejian ./start-all.sh2.启动hadoop: cd /export/servers/hadoop/sbin ./start-all.sh3.启动 hbase: cd /export/servers/hbase...原创 2019-07-27 21:45:03 · 7229 阅读 · 7 评论