自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 Spark编程案例——DataFrame

Spark SQL1、相应于Hive: SQL —> MapReduce2、底层依赖RDD: SQL —> RDD一、Spark SQL基础1、什么是Spark SQL?参考官网2、核心概念:DataFrame(表)= Schema(表结构) + Data(表数据) (*)就是表,是Spark SQL对结构化数据的抽象 ...

2019-05-29 17:25:25 839

原创 解决Xshell连接不上CenterOS的问题

问题的根源:没安装ssh解决方案:在ubuntu下安装SSH可以:apt-get install openssh-server就是说在centos上可以这样来安装ssh:# yum -y install openssh-server

2019-05-27 09:25:09 858

原创 大数据学习29:Spark Core编程案例

案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据网页的名字进行分区(类似MapReduce中的自定义分区) 结果: 网页的名字 访问日志 oracle.jsp ...

2019-05-20 15:43:47 2699 1

原创 大数据学习28:RDD定义及体系架构

1

2019-05-17 10:21:37 247

原创 解决resourceManager启动后进程自动杀死问题

可能是Yarn的节点配置的不对 <property> <name>yarn.resourcemanager.hostname</name> <value>bigdata124</value> </property> ...

2019-05-16 11:10:44 2359

原创 解决Zookeeper org.apache.zookeeper.server.quorum.Learner.registerWithLeader

将/opt/module/zookeeper-3.4.10/tmp 目录下非myid文件删除,然后重启zookeeper

2019-05-14 17:23:16 380

原创 大数据学习27:Spark体系结构及全分布环境搭建及Word Count程序编写及原理分析

三部分的内容1、Spark Core:内核,是Spark中最重要的内容,相当于MapReduce Spark Core和MapReduce都是进行离线计算 Spark Core的核心:RDD(弹性分布式数据集),由分区组成 2、Spark SQL:相当于Hive、Pig 支持SQL和DSL语句 -----&gt...

2019-05-14 11:29:22 113

原创 大数据学习26:Scala泛型及隐式转换

(一)泛型 1.泛型类:定义类的时候,可以带有一个泛型的参数For Exampleobject GenericClass { def main(args: Array[String]): Unit = { //定义一个Int 类型 var v1 = new GenericClass[Int] v1.set(1) println(v1.get()) ...

2019-05-10 17:25:17 175

原创 大数据学习25:Scala常用集合、样本类

一、可变集合、不可变集合二、列表三、序列四、Set:不重复元素的集合,默认是:HashSet五、模式匹配:就相当于switch … case 语句六、样本类:case class,支持模式匹配,就相当于支持switch … case 语句 相当于 instanceof...

2019-05-10 11:12:10 122

原创 大数据学习24:Scala面向对象:类似Java

第二章:Scala面向对象:类似Java一、复习:面向对象的基本概念 (*)定义:把数据和操作数据的方法放到一起,作为一个整体(类 class) (*)面向对象的特质: (1)封装 (2)继承 (3)多态二、定义类class三、属性的get和set方法class StudentBean {//定义属性 private var stuName = "Tom" pr...

2019-05-09 16:16:32 232

原创 大数据学习23:Spark:大数据的计算引擎(Scala开发环境安装)

第一部分:Scala编程语言第二部分:Spark Core内核(最重要的内容)—> 概念RDD:相当于MapReduce第三部分:Spark SQL:相当于Hive,也支持SQL语句 -----> 底层依赖Spark Core ----> 依赖RDD第四部分:Spark Streaming:相当于Storm用于流式计算 - ----> 底层依赖Spark Core -...

2019-05-09 09:53:13 208

原创 hadoop格式化namenode然后启动不了的问题

多次对namenode进行格式化导致节点无法启动的解决  多次格式化namenode造成了namenode和datanode的clusterID不一致!每次格式化时,namenode会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。这里提供了两种解决办法:1.打开core-site.xml文件里面配置的目录打开namenode 对应的curren...

2019-05-01 10:08:07 1902

原创 大数据学习22:大数据实时计算框架——Storm

一、大数据实时计算框架1、什么是实时计算?流式计算? 举例:自来水厂处理自来水(特点:持续性、流式计算))2、对比:离线计算和流式计算 (*)离线计算:MapReduce和Spark Core, 数据的批量处理(Sqoop-->HDFS-->MR(SparkCore)--->HDFS) (*)流式计算:Storm和Spark Streaming, 数据的实时性 ...

2019-04-25 14:24:24 454

原创 大数据学习21:Redis安装配置、基本操作、持久化、Redis事务、主从复制

Redis1、Redis简介和特点 (*) 前身:MemCached (*) 区别:支持持久化:RBD、AOF 丰富的数据类型2、安装配置Redis:需要gcc tar -zxvf redis-3.0.5.tar.gz make make PREFIX=/root/training/redis install 命令脚本 redis-benchmar...

2019-04-24 19:42:18 114

原创 大数据学习20:MemCached

1、NoSQL数据库:Redis基于内存NoSQL数据库前身是MemCached2、大数据的实时计算:Apache Storm集成Storm和Redis一、为什么要把数据存入内存?1、原因:快2、举例:在B/S如何从架构的角度上,提高性能3、常见的内存数据库 (*)MemCached:严格来说,不是数据库,只能叫缓存,因为不支持持久化 (*)Redis:支持持久化(RDB、AOF...

2019-04-24 19:34:11 129

原创 大数据学习19:HDFS的联盟和HA

一、安装配置HUE(待完成)二、利用ZooKeeper实现秒杀系统:分布式锁的功能 private static int mNumber = 5; public static void main(String [] args){ RetryPolicy policy = new ExponentialBackoffRetry(10,1000); //创...

2019-04-22 09:48:26 160

原创 大数据学习18:HUE、Zookeper

管理工具:HUE一、Hadoop中的管理工具HDFS: NameNode网页 http://ip:50070SecondaryNameNode网页: http://ip:50090Yarn: http://ip:8088 HBase: http://ip:16010Hive http://ip:9999/hwi/Spark http://ip:8080二、演示...

2019-04-17 17:52:06 138

原创 大数据学习17:数据分析引擎:Pig

数据分析引擎:Pig一、什么是Pig?安装和配置1、最早由Yahoo开发,后来给Apache2、支持语句PigLatin语句,类似SQL3、翻译器:PigLatin语句 ----> MapReduceSpark(从0.17开始支持)4、安装和配置tar -zxvf pig-0.17.0.tar.gz -C ~/training/设置环境变量PIG_HOME=/root/tr...

2019-04-17 16:35:35 241

原创 大数据学习16:Hive环境搭建及内部表、分区表

大数据分析引擎:Hive大数据的终极目标:使用SQL语句处理大数据1、Hadoop的终极目标:使用SQL语句来处理大数据()Hive:支持SQL;()Pig:支持PigLatin2、Spark的体系架构中:(*)Spark SQL:类似Hive支持SQL、支持DSL语句3、另一个impala一、什么是Hive 1、Hive是基于HDFS之上的一个数据仓库 Hive ...

2019-04-14 01:10:18 228

原创 大数据学习15:Hbase进阶(使用Java操作HBase,搭建HBase全分布)

3、全分布模式:bigdata112 bigdata113 bigdata114 修改文件:hbase-env.sh export JAVA_HOME=/root/training/jdk1.8.0_144 HBASE_MANAGES_ZK true ---> 使用HBase自带的ZK 核心配置文件: conf/hbase-site.xml <!--HBa...

2019-04-10 23:53:41 342

原创 大数据学习14:MapReduce小结

问题:1、偏移量是什么?k1是这一行在文本文件中的位置(字节数)举例=====================================一、课程概述依赖jar包 $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/common/lib $HADOOP_HOME/share/hadoop/mapreduc...

2019-04-10 10:05:43 231

原创 大数据学习13:MapReduce编程案例2(倒排索引,MRUnit)

MapReduce编程案例2文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents)Web Search中的问题主要分为三部分:crawling(gathering web content) ,网页爬虫,收集数据i...

2019-04-08 14:26:28 208

原创 大数据学习12:MapReduce案例1-模拟多表查询(等值连接,自连接)

MapReduce编程案例一、MapReduce的核心:Shuttle 1、Hadoop 3.x以前:会有落地(产生I/o操作)二、MapReduce编程案例:顺便复习关系型数据库的相关知识(SQL等等) 1、数据去重 (*)复习SQL:distinct实现去重,作用于后面所有的列 一个列: ...

2019-04-06 21:52:42 584

原创 大数据学习11:昨晚太累休息

2019年4月2日 星期二1.平安好医生发布全新代餐品牌“瘦满分”,切入千亿级体重管理消费市场2.雄安新区将推动数据资源深度融合和跨领域应用,率先大规模商用5G,全面部署IPV63.唯品会在天津、沈阳、安徽开出3家线下店百度上线情侣智能社交助手“丘比特”,进军社交领域5.娃哈哈:成立机器人公司主要从事智能机器人产品与解决方案的开发...

2019-04-02 09:42:01 99

原创 大数据学习09:MapReduce基础

第六章:MapReduce问题:1、清空HDFS的回收站-expungePermanently delete files in checkpoints older than the retention threshold from trash directory, and create new checkpoint.2、课程回看===========================...

2019-03-31 00:03:01 110

原创 大数据学习08:HDFS的底层原理:代理对象和RPC

Java的代理对象废话不多说上手源码public interface MyBusiness { public void method1(); public void method2();}public class MyBusinessImpl implements MyBusiness { @Override public void method1() { Sys...

2019-03-29 10:19:59 109

原创 大数据学习07:HDFS数据上传及下载流程及原理

HDFS数据上传原理图HDFS数据下载

2019-03-28 10:06:36 237

原创 大数据学习06:操作HDFS

操作HDFS1、Web Console:端口50070 2、命令行:类似Linux命令 (1)操作命令 hdfs dfs ***** -mkdir 创建目录 举例:hdfs dfs -mkdir /aaa hdfs dfs -mkdir -p /bbb/ccc -p 表示如果父目录不存在 先创建父目录 -ls ...

2019-03-27 14:43:12 142

原创 大数据学习05:HDFS数据的存储

HDFS:数据存储(一)HDFS的体系架构1、NameNode:名称节点 (*)职责: (1)是HDFS的主节点、管理员 (2)接收客户端(命令行、Java程序)的请求:创建目录、上传数据、下载数据、删除数据 (3)管理和维护HDFS的日志和元信息 (*)日志文件(edits文件...

2019-03-25 13:58:44 685

原创 大数据学习04:搭建Hadoop环境

搭建Hadoop的环境2019年3月25日 星期一今日头条App多频道超24小时未更新,字节跳动回应:很快恢复京东汽车业务自有品牌“京安途”正式上线,深挖汽车后市场李嘉诚旗下欧洲电信运营商“3公司”力挺华为,禁购将让5G商用推迟一年半复旦大学与BOSS直聘合作,人才大数据助力高校职业教育大学生艺术教育平台「36艺」获Pre-A轮3000万元融资more /etc/...

2019-03-25 13:52:15 205

原创 大数据学习03:MapReduce及Bigtable简单介绍

MapReduce及Bigtable简单介绍MapReduce的编程模型:先拆分、再合并HDFS = NameNode+SecondaryNameNode+DataNode求和:大任务=小任务1+小任务2+......完事再合并BigTable:大表------NoSQL数据库:HBase1、关系型数据库:Oracle、MySql等等----->行式数据库----->i...

2019-03-22 10:10:37 594

转载 转载:APP产品经理必须要懂的30条原则

张小龙演讲PPT:APP产品经理必须要懂的30条原则2014-02-18 14:49 汪汪 分类:产品经理 微信二维码手机是肢体的延伸,和人是一体的(通过各种传感器);而PC是外物,即外部环境。移动互联网产品不是简单的PC到手机的移植。做没有web的移动互联网产品该怎么做?这对中国IT人来说是全新的课题。下面整理出的30条原则中,可以看到一些对于APP产品设计和推识,它们来自微信创始人张小龙的...

2019-03-21 11:25:53 246

原创 大数据学习02:大数据课程概述与大数据背景知识

Hadoop2.X管理与开发每日关注 2019年3月21日 星期四1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言2. 小红书上线“品牌号”,并进行五大模块升级3. 知乎否认内测“知乎百科”产品,“百科”是知乎话题的简介4. 民政部:养老院查询APP“养老通”在北京地区上线一、什么是大数据 举例: 1、电商的推荐系统: (问题1)大量的订单如何存储...

2019-03-21 09:59:44 420

原创 大数据学习01:Linux基础

Linux基础2019年3月20日 星期三1. 网易云课堂和中国大学MOOC并入网易有道,重点聚焦K12培训2. 腾讯回应禁止微信头像昵称用于多闪:无稽之谈,已提起诉讼3. 淘宝将开放购后服务视频,解决商品安装问题4. 字节跳动回应搭建直播大中台:在技术、运营上做统一学习路线和课程简介 1、基础:Java语言(Java SE):变量、循环、if等等 ...

2019-03-20 10:11:20 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除