大数据学习
weixin_44804248
这个作者很懒,什么都没留下…
展开
-
大数据学习04:搭建Hadoop环境
搭建Hadoop的环境2019年3月25日 星期一今日头条App多频道超24小时未更新,字节跳动回应:很快恢复京东汽车业务自有品牌“京安途”正式上线,深挖汽车后市场李嘉诚旗下欧洲电信运营商“3公司”力挺华为,禁购将让5G商用推迟一年半复旦大学与BOSS直聘合作,人才大数据助力高校职业教育大学生艺术教育平台「36艺」获Pre-A轮3000万元融资more /etc/...原创 2019-03-25 13:52:15 · 222 阅读 · 0 评论 -
大数据学习19:HDFS的联盟和HA
一、安装配置HUE(待完成)二、利用ZooKeeper实现秒杀系统:分布式锁的功能 private static int mNumber = 5; public static void main(String [] args){ RetryPolicy policy = new ExponentialBackoffRetry(10,1000); //创...原创 2019-04-22 09:48:26 · 174 阅读 · 0 评论 -
大数据学习17:数据分析引擎:Pig
数据分析引擎:Pig一、什么是Pig?安装和配置1、最早由Yahoo开发,后来给Apache2、支持语句PigLatin语句,类似SQL3、翻译器:PigLatin语句 ----> MapReduceSpark(从0.17开始支持)4、安装和配置tar -zxvf pig-0.17.0.tar.gz -C ~/training/设置环境变量PIG_HOME=/root/tr...原创 2019-04-17 16:35:35 · 252 阅读 · 0 评论 -
大数据学习18:HUE、Zookeper
管理工具:HUE一、Hadoop中的管理工具HDFS: NameNode网页 http://ip:50070SecondaryNameNode网页: http://ip:50090Yarn: http://ip:8088 HBase: http://ip:16010Hive http://ip:9999/hwi/Spark http://ip:8080二、演示...原创 2019-04-17 17:52:06 · 172 阅读 · 0 评论 -
大数据学习20:MemCached
1、NoSQL数据库:Redis基于内存NoSQL数据库前身是MemCached2、大数据的实时计算:Apache Storm集成Storm和Redis一、为什么要把数据存入内存?1、原因:快2、举例:在B/S如何从架构的角度上,提高性能3、常见的内存数据库 (*)MemCached:严格来说,不是数据库,只能叫缓存,因为不支持持久化 (*)Redis:支持持久化(RDB、AOF...原创 2019-04-24 19:34:11 · 139 阅读 · 0 评论 -
大数据学习22:大数据实时计算框架——Storm
一、大数据实时计算框架1、什么是实时计算?流式计算? 举例:自来水厂处理自来水(特点:持续性、流式计算))2、对比:离线计算和流式计算 (*)离线计算:MapReduce和Spark Core, 数据的批量处理(Sqoop-->HDFS-->MR(SparkCore)--->HDFS) (*)流式计算:Storm和Spark Streaming, 数据的实时性 ...原创 2019-04-25 14:24:24 · 484 阅读 · 0 评论 -
大数据学习25:Scala常用集合、样本类
一、可变集合、不可变集合二、列表三、序列四、Set:不重复元素的集合,默认是:HashSet五、模式匹配:就相当于switch … case 语句六、样本类:case class,支持模式匹配,就相当于支持switch … case 语句 相当于 instanceof...原创 2019-05-10 11:12:10 · 131 阅读 · 0 评论 -
大数据学习26:Scala泛型及隐式转换
(一)泛型 1.泛型类:定义类的时候,可以带有一个泛型的参数For Exampleobject GenericClass { def main(args: Array[String]): Unit = { //定义一个Int 类型 var v1 = new GenericClass[Int] v1.set(1) println(v1.get()) ...原创 2019-05-10 17:25:17 · 200 阅读 · 0 评论 -
大数据学习28:RDD定义及体系架构
1原创 2019-05-17 10:21:37 · 281 阅读 · 0 评论 -
大数据学习16:Hive环境搭建及内部表、分区表
大数据分析引擎:Hive大数据的终极目标:使用SQL语句处理大数据1、Hadoop的终极目标:使用SQL语句来处理大数据()Hive:支持SQL;()Pig:支持PigLatin2、Spark的体系架构中:(*)Spark SQL:类似Hive支持SQL、支持DSL语句3、另一个impala一、什么是Hive 1、Hive是基于HDFS之上的一个数据仓库 Hive ...原创 2019-04-14 01:10:18 · 242 阅读 · 0 评论 -
大数据学习08:HDFS的底层原理:代理对象和RPC
Java的代理对象废话不多说上手源码public interface MyBusiness { public void method1(); public void method2();}public class MyBusinessImpl implements MyBusiness { @Override public void method1() { Sys...原创 2019-03-29 10:19:59 · 119 阅读 · 0 评论 -
大数据学习05:HDFS数据的存储
HDFS:数据存储(一)HDFS的体系架构1、NameNode:名称节点 (*)职责: (1)是HDFS的主节点、管理员 (2)接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据 (3)管理和维护HDFS的日志和元信息 (*)日志文件(edits文件...原创 2019-03-25 13:58:44 · 691 阅读 · 0 评论 -
大数据学习03:MapReduce及Bigtable简单介绍
MapReduce及Bigtable简单介绍MapReduce的编程模型:先拆分、再合并HDFS = NameNode+SecondaryNameNode+DataNode求和:大任务=小任务1+小任务2+......完事再合并BigTable:大表------NoSQL数据库:HBase1、关系型数据库:Oracle、MySql等等----->行式数据库----->i...原创 2019-03-22 10:10:37 · 627 阅读 · 0 评论 -
大数据学习09:MapReduce基础
第六章:MapReduce问题:1、清空HDFS的回收站-expungePermanently delete files in checkpoints older than the retention threshold from trash directory, and create new checkpoint.2、课程回看===========================...原创 2019-03-31 00:03:01 · 120 阅读 · 0 评论 -
大数据学习14:MapReduce小结
问题:1、偏移量是什么?k1是这一行在文本文件中的位置(字节数)举例=====================================一、课程概述依赖jar包 $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapreduc...原创 2019-04-10 10:05:43 · 244 阅读 · 0 评论 -
大数据学习07:HDFS数据上传及下载流程及原理
HDFS数据上传原理图HDFS数据下载原创 2019-03-28 10:06:36 · 250 阅读 · 0 评论 -
大数据学习12:MapReduce案例1-模拟多表查询(等值连接,自连接)
MapReduce编程案例一、MapReduce的核心:Shuttle 1、Hadoop 3.x以前:会有落地(产生I/o操作)二、MapReduce编程案例:顺便复习关系型数据库的相关知识(SQL等等) 1、数据去重 (*)复习SQL:distinct实现去重,作用于后面所有的列 一个列: ...原创 2019-04-06 21:52:42 · 594 阅读 · 0 评论 -
大数据学习13:MapReduce编程案例2(倒排索引,MRUnit)
MapReduce编程案例2文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents)Web Search中的问题主要分为三部分:crawling(gathering web content) ,网页爬虫,收集数据i...原创 2019-04-08 14:26:28 · 220 阅读 · 0 评论 -
大数据学习27:Spark体系结构及全分布环境搭建及Word Count程序编写及原理分析
三部分的内容1、Spark Core:内核,是Spark中最重要的内容,相当于MapReduce Spark Core和MapReduce都是进行离线计算 Spark Core的核心:RDD(弹性分布式数据集),由分区组成 2、Spark SQL:相当于Hive、Pig 支持SQL和DSL语句 ----->...原创 2019-05-14 11:29:22 · 121 阅读 · 0 评论