
BigData
文章平均质量分 71
Mayz梅子子子
接毕业设计
展开
-
spark常用算子区别
1、MapPartition和Map的区别:map和mapParttion都是spark的算子,他们在进行数据处理时有一定的区别:map是RDD中的每一个元素进行操作。mapPartition是对RDD的每一个分区的迭代器进行操作,返回的是迭代器。mapPartiton的优势: 提高性能,比如我们对一个含有100条log数据的分区进行操作,使用map的话函数要执行100次计算。使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有原创 2021-05-27 12:44:23 · 1293 阅读 · 0 评论 -
Spark sql详细介绍
Spark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为止Spark SQL提供了两种风格的交互API:Dataset-API /SQL脚本。Dataset API:加强版的RDD操作,原创 2021-05-04 14:46:33 · 727 阅读 · 0 评论 -
HBase LSM树存储结构
1、LSM树的由来 在了解LSM树之前,大家需要对hash表和B+树有所了解。 hash存储方式支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是最佳选择 B+树不仅支持单条记录的增、删、读、改操作,还支持顺序扫描(B+树的叶子节点之间的指针),对应的存储系统就是关系数据库(Mysql等)。但是删除和更新操作比较麻烦原创 2021-05-04 14:21:59 · 163 阅读 · 0 评论 -
Protobuf简介
Protobuf简介 什么是 Google Protocol Buffer? 假如您在网上搜索,应该会得到类似这样的文字介绍: Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说原创 2021-05-04 14:19:22 · 150 阅读 · 0 评论 -
HBase优化设计
1、表的设计1、Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。//第一种实现方式是使用admin对象的切分策略byte[] startKey = ...; // yo原创 2021-05-04 14:12:48 · 123 阅读 · 0 评论 -
MapReduce经典案例之共同好友
【数据】小明 小红 小黑 小绿 小兰小兰 小乐 小云 小小 小明小芳 小资 小飞 小王 小橘 小鹅 小钱 小时 小鸥 小票小心 小丑 小宝 小白 小兰小鸟 小米 小可 小小 小资小九 小红 小鬼 小飞 小时 小爱小爱 小时 小阮 小鬼 小七 小九 小橘 小鹅 小王 小兰小绿 小红 小黑 小飞 小七 小吴 小图 小鸥 小胖 小微 小炮第一个为用户,之后为好友列表;【思路解析】如上数据所示,小明和小红是直接好友,小明和小黑是直接好友,小红和小黑是潜在的间接好友;统计两个用户之间的原创 2021-03-22 17:45:14 · 338 阅读 · 0 评论 -
MapReduce案例之查找每个月温度最高的两天
MapReduce案例之查找每个月温度最高的两天本次采用本地计算+本地数据的方式运行本地计算指的是借助于Windows平台的hadoop环境模拟运行MapReduce程序本地数据指的是计算的数据来源于Windows平台,并且输出到本地1、新建maven项目,引入需要的maven依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-com原创 2021-03-16 23:14:47 · 470 阅读 · 0 评论 -
scala安装、基本概念用法以及函数使用
Scala LanguageScala语言Scala是一门多范式的编程语言,能够以一种优雅的方式来解决现实问题,同时支持面向对象和面向函数的编程风格。虽然它是强静态类型的编程语言,但是它强大的类型推断能力,使其看起来就像是一个动态编程语言。Scala语言最终会被编译成java字节码文件,可以和JVM无缝集成,并且可以使用Scala调用Java的代码库。Scala编程语言除了自身的特性以外,目前比较流行的Spark计算框架也是使用Scala语言编写。Spark 和 Scala 能够紧密集成,例如,使用Sc原创 2021-03-04 14:09:57 · 226 阅读 · 1 评论 -
此时不应有 \scala\bin\scala.bat)。
安装完毕,配置完环境变量,命令窗口报错。此时不应有 \scala\bin\scala.bat)。出现上述问题,说明你的PATH与SCALA_HOME都设置正确了。这个问题的原因是因为安装目录里边含有空格。查看一下安装目录,不论安装目录是在C盘还是D盘,默认的都是安装在“C:\Program Files (x86)”或者是“C:\Program Files”中,问题就出现在这了。安装目录不能存在空格,上述的两个目录中间都有个空格。这就是出现”此时不应有 \scala\bin\scala.bat“的真正原因原创 2021-03-03 14:33:43 · 858 阅读 · 1 评论 -
为什么HDFS文件块(block)大小设定为128M
块(block)的大小可以通过设置HADOOP_HOME/etc/hadoop/hdfs-site.xml中dfs.blocksize来实现;在Hadoop2.x的版本中,文件块的默认大小是128M,老版本中默认是64M;原理:文件块越大,寻址时间越短,但磁盘传输时间越长;文件块越小,寻址时间越长,但磁盘传输时间越短。block大小设置原则:减少硬盘寻道时间(disk seek time):HDFS的设计是为了支持大数据操作,合适的block大小有助于减少硬盘寻道时间(平衡了硬盘寻道时间、IO时原创 2021-03-03 10:42:20 · 1348 阅读 · 0 评论 -
大数据重点面试知识点总结
Linux1、常见命令2、linux的启动顺序通电后读取ROM的BIOS程序进行硬件自检,自检成功后把计算机控制权交给BIOS中BOOTsequence中的下一个有效设备,读取该设备MBR找到操作系统,载入linux的bootloader,一般是grub。之后载入kernel,执行 /etc/rc.d/sysinit ,开启其他组件(/etc/modules.conf),执行运行级别,执行/...原创 2020-02-15 13:37:42 · 1435 阅读 · 1 评论 -
MapReduce中的常见InputFormat之DBInPutFormat和DBOutPutFormat案例详解
MapReduce中的常见InputFormat之DBInPutFormat和DBOutPutFormat案例详解一、背景为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapRedu...原创 2019-08-17 15:47:03 · 665 阅读 · 1 评论 -
通过MapReduce统计PV和UV
通过MapReduce统计PV和UV一、pv(page view,页面浏览量)PV(page view),即页面浏览量;用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。每产生一条访问日志,pv+1。案例:本次采用本地计算+本地数据的方式运行本地计算指的是借助于Windows平台的hadoop环境模拟运行MapReduce程序本地数据指的是计算的数...原创 2019-08-15 13:10:00 · 1030 阅读 · 3 评论