大数据
谁用了尧哥这个昵称
大家好!!!
展开
-
大数据题的解法总结
1.网页黑名单系统,垃圾邮件过滤,爬虫网址判重 空间有限制,允许一定的错误率 使用布隆过滤器来做 2.内存限制下,找到很多数中出现次数最多的数 用hash来做,key是数字,value是次数 进阶:将这些数用hash分成若干份,对每一份进行hash计算个数,最后再对每一份的最多的数进行判断,找到全局最多的数。 3.在一堆数中找到没出现的数 用bit数组来做,数组长度就是题目中给的数的范原创 2017-04-13 13:41:25 · 788 阅读 · 0 评论 -
spark入门——读取gz文件并过滤(包括开发环境安装)
安装jdkjdk下载网址 根据需要选择操作系统以及位数,一般就安装在C盘。然后配置环境变量 CLASSPATH .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar 注意前面有个点 JAVA_HOME C:\Program Files\Java\jdk1.8.0_111 Path %JAVA_HOME%\bin;%JAVA_HOME%\jre\b原创 2016-10-27 10:47:51 · 7791 阅读 · 2 评论 -
SparkSQL+Hive(持续更新)
1、SparkSQL SparkSQL学习手册package SparkSqlimport org.apache.spark.sql.{SQLContext, SaveMode}import org.apache.spark.{SparkConf, SparkContext}object sparksql_test { def main(args: Array[String]): Unit原创 2017-04-16 19:20:02 · 1361 阅读 · 0 评论 -
小白自学搭建单机版的Hadoop生态圈(持续更新)
安装虚拟机VM免费版 下载这个免费的VM,用虚拟机装Linux,所以你本机的内存至少要8G,不然就很慢啦。 安装过程,复选框都可以去掉,除了选快捷方式的那一栏。注意不要装在C盘哦。 Ubuntu下载 下载16.04 64位的。 安装好VM之后打开,点击新建虚拟机 安装过程中会出现让你下载VM tools,下载吧,不过这次可能会下载不成功,没关系,先取消,后面改了源之后原创 2016-12-11 17:04:41 · 2488 阅读 · 0 评论 -
hbase的一些使用经验
HBase读写操作Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值原创 2016-12-08 17:14:00 · 3901 阅读 · 0 评论 -
sqoop安装及使用
安装下载地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz 下载 sqoop-1.4.6-cdh5.5.2.tar.gz解压后命名为sqoop-1.4.6修改环境变量: export SQOOP_HOME=/home/xuyao/下载/sqoop-1.4.6 export PATH= $PATH:$SQ原创 2017-04-23 00:27:45 · 6399 阅读 · 0 评论 -
分布式双活数据中心部署模式
中国IDC圈7月26日报道: 传统主备模式是一个业务只在一个数据中心运行,企业结合灾备等级需求和业务需求,在备份中心部署了大量的备份服务器,但备份中心仅为该业务提供灾备服务,只有当灾难发生、生产数据中心瘫痪时,灾备中心的业务系统才启动这些服务器,造成备份中心服务器资源浪费,广域网链路也无法得到充分的利用。分布式双活数据中心(如图1所示)可以使分布在多个数据中心的同一类业务同时运行,也可以将一个业务分转载 2015-09-22 23:10:58 · 8734 阅读 · 0 评论 -
Spark入门--求中位数
求中位数,数据是分布式存储的将整体的数据分为K个桶,统计每个桶内的数据量,然后统计整个数据量根据桶的数量和总的数据量,可以判断数原创 2015-07-29 12:42:23 · 11369 阅读 · 2 评论 -
Spark入门--倒排索引
思路这个程序我可是花了3天才写起来的,主要是学习嘛,很多API不知道,一边查一边学喽。 首先读取文件夹里面的所有文件,将每个文件的内容按行拆分,然后再按单词拆分,组成(文件名,单词)对,然后再合并,最后得到我们的结果。原创 2015-07-31 16:32:53 · 4943 阅读 · 4 评论 -
flume+kafka+spark streaming(持续更新)
kafkakafka中文教程Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力. Apache kafka是消息中间件的一种。 一 、术语介绍 Broker Kafka集群包含一个或多个服务器,这种服务器被称为broke原创 2017-02-19 23:09:37 · 5631 阅读 · 2 评论 -
spark--PageRank
package spark1import org.apache.spark.{SparkConf, SparkContext}object test { def main(args: Array[String]): Unit = { val nums = 2 val conf = new SparkConf().setAppName("PageRank").setMaster("原创 2017-02-03 16:23:42 · 925 阅读 · 0 评论 -
Cloudera和openstack
ClouderaHadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训转载 2017-01-05 16:34:04 · 965 阅读 · 0 评论 -
Spark入门:在Intellij IDEA上单机运行Spark的RRD的map和filter
map是对RDD数据集里面每个数据都进行括号里面的操作。 filter是对RDD数据集进行过滤,符合括号里面的操作的,留下来原创 2015-07-14 21:01:40 · 2504 阅读 · 0 评论 -
Hadoop1.2.1单机版部署
如何在ubuntu下安装Hadoop1.2.1的单机版原创 2015-07-17 09:38:40 · 542 阅读 · 0 评论 -
Spark入门-WordCount
首先启动HDFS集群:start-dfs.sh然后启动Spark集群:./sbin/start-all.sh最后以让spark-shell运行在Spark集群上:./bin/spark-shell因为我这里是单机版的,所以是上面的输入,不需要指定端口号 假定你已经上传了一个文件到HDFS中,读取该文件:val rdd=sc.textFile("/input/nihao")使用count统计一下该文原创 2015-07-17 11:39:07 · 594 阅读 · 0 评论 -
Spark入门--实战操作搜狗日志文件
日志下载地址 我们使用的是迷你版本的tar.gz格式的文件,其大小为87K 该文件的格式如下所示:访问时间\t用户ID\t查询词\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL我们使用Spark获得搜索结果排名第一同时点击结果排名也是第一的数据量,也就是第四列值为1同时第五列的值也为1的总共的记录的个数。打开spark-shellval rdd = sc.textFile(原创 2015-07-17 17:21:58 · 1176 阅读 · 0 评论 -
hive数据倾斜
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分转载 2015-07-23 10:36:15 · 479 阅读 · 0 评论 -
HBase 和RDBMS(关系数据库)的比较
一 为什么会有NOSQL 普通的数据库无法满足大规模的数据处理,ACID无法满足基本需求,所以需要从架构上去改变。NOSQL通过访问缓存来节省查询的开销。 二 什么是Hbase Hbase是一个面向列存储的分布式存储系统,它的优点在于可以实现高性能的并发读写操作,同时Hbase还会对数据进行透明的切分,这样就使得存储本身具有了水平伸缩性。 面向行存储的数据库主要适合于事务性要求严格场合,或者转载 2015-07-23 10:59:29 · 2700 阅读 · 0 评论 -
Hadoop上的一些组件介绍
1.FlumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、原创 2016-10-25 15:43:15 · 3159 阅读 · 0 评论 -
HBase API操作(新版本)
我下载的是HBase1.2.3 在eclipse里面需要加入的包有: commons-codec-1.9.jar commons-collections-3.2.2.jar commons-configuration-1.6.jar commons-lang-2.6.jar commons-logging-1.2.jar guava-12.0.1.jar hadoop-auth-2.原创 2016-11-26 10:08:09 · 6469 阅读 · 0 评论 -
spark优化经验
1.为什么要优化程序运行时间太长,某些task分分钟就跑完了,某些却需要1个甚至几个小时。很显然,这个叫做数据倾斜。 那么我们要做的就是让每一个task都运行差不多的数据,这样速度就快很多了。2.关于shuffleshuffle指的是类似reducebykey,groupbykey,或者类似jion这样的操作,指的是将数据从原来的分区转移到另一个分区。 所以呢,shuffle操作是比较花费时间的原创 2016-12-24 11:57:48 · 945 阅读 · 0 评论 -
Spark入门--基于Intellij IDEA开发Spark应用并在集群上运行
1. 在命令行中输入idea.sh2. 打开之后,选择File-New-Project 然后选择左侧栏目的scala,再选择右侧栏目的scala,OK 在弹出的对话框中输入你的Project Name,其他默认,然后Finish. 3. 选中你的工程,按F4 出现如下界面 首先修改Modules选项: 在右边的Name下面有个Sources,选中 在src下面创建2个原创 2015-07-18 10:51:10 · 831 阅读 · 0 评论