- 博客(21)
- 收藏
- 关注
原创 机器学习
当前热词解释机器学习基本术语数据集:样例:特征:特征值属性值:(某特征的具体值)缺失数据:补全或删除标签:总的数据量有100W。训练数据取出90w 作为训练数据80w是训练集,用于真正的模型计算(学习)。è得到结论(判断逻辑/模型)10w是验证集,用于验证计算出的模型。è验证结论(模型)--》yes/no测试数据剩余的10W是测试集,用于...
2020-07-02 17:08:27 154
原创 hbase
public class a extends Mapper<LongWritable , Text,NullWritable,Text>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedExcepti...
2020-01-07 15:39:42 198
原创 hbaseAPI1714145080
HBase的java代码开发熟练掌握通过使用java代码实现HBase数据库当中的数据增删改查的操作,特别是各种查询,熟练运用第一步:创建maven工程,导入jar包<repositories><repository><id>cloudera</id><url>https://re...
2020-01-07 08:10:13 183
原创 hbase
hbase 的安装部署1、软件包上传解压2、 配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-ma...
2019-12-17 15:45:10 388
原创 hbase 的安装部署
1、软件包上传解压2、 配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、拷贝co...
2019-12-12 08:03:20 207
原创 Flume安装部署
前提是已有hadoop环境上传安装包到数据源所在节点上上传安装文件并解压1.解压tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/2.进入flume的conf目录cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf3.复制一个flume-...
2019-12-05 15:01:46 110
原创 hive
Hive基本概念是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。Hive的意义是什么背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算。Hive的特性1、扩展性 : Hiv...
2019-11-21 11:09:44 170
原创 hive基本概念
1.1 Hive简介什么是Hive是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。Hive的意义是什么背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算。Hive的特...
2019-11-21 11:06:43 154
原创 hive添加数据时出错
Ended Job = job_1545829388777_0070 with errorsError during job, obtaining debugging information...FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapRedu...
2019-11-21 10:42:03 731
原创 MapReduce计算任务的步骤
MapReduce计算任务的步骤 第1步:InputFormat InputFormat 到hdfs上读取数据 将数据传给Split 第2步:Split //设置读取数据的路径 TextInputFormat.addInputPath(job,new Path("C:\\bbb.txt")); //3、设置Map job.setMapperClass(WordCou...
2019-11-14 20:18:09 237
原创 HDFS
知识回顾 传统服务器系统安装 系统硬盘(100%完全独立,不要存储业务数据) 物理磁盘做raid1(两个硬盘物理备份) /boot 200M /SWAP 内存的1-2被(大数据集群中要关闭) / 所有的空间 数据硬盘 多块小的硬盘 做一个大的硬盘(逻辑卷) 大数据服务器系统安装 系统硬盘(100%完全独立,不要存...
2019-11-07 18:18:05 684
原创 传统服务器 系统安装 和大数据服务器系统安装的区别
传统服务器系统安装系统硬盘(100%完全独立,不要存储业务数据)物理磁盘做raid1(两个硬盘物理备份)/boot 200M/SWAP 内存的1-2被(大数据集群中要关闭)/ 所有的空间数据硬盘多块小的硬盘 做一个大的硬盘(逻辑卷)大数据服务器系统安装系统硬盘(100%完全独立,不要存储业务数据)物理磁盘做raid1(两个硬盘物理备份)/boot 200M/SWAP ...
2019-11-05 16:21:50 299
原创 HDFS
HDFS 特性 1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。 2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。 可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随 之增加)。 3.'大文件存储:DFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储。 ...
2019-11-05 14:43:21 125
原创 大数据技术为什么快(必看,不看后悔)
为什么大数据快,快肯定是对比出来,我们今天就和传统对比一下我们可以从4个方面进行对比1.扩展性2.分布式3.可以性4.模型----------------------------------------------------------------------------------------------------- ...
2019-10-31 11:28:03 686
原创 大数据是什么意思?
什么是大数据? 字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点? 海量化 数据量大(多) 多样化 结构化数据,半结构化数据,和非结构化数据 快速化 数据的增长速度快 高价值 海量数据价值高大数据能做什么? 1、海量数据快速查询 2、海量数据的存储(数据量大,单个大文...
2019-10-23 21:26:48 242
原创 linux集群的部署(标准,进来和我一起努力吧)
linux集群的部署1.在虚拟机中实例三个虚拟机主机,三个虚拟主机需要配置ip, 且两两之间可以ping通.2.关闭防火墙(需要在所有主机中进行设置) /etc/init.d/iptables stop chkconfig iptables off3.关闭selinux(需要在所有主机中进行设置)编辑文件 vi /etc/selinux/config将SELINUX-...
2019-10-21 17:48:13 328
原创 linux系统 新硬挂载到linux 系统(开机自动挂载)
目标:将一个新硬盘能够挂载到linux 系统上(开机自动挂载)第一步:查看当前系统磁盘挂载 查看系统硬盘挂载情况: lsblk -f (老师不离开)sda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0...
2019-10-17 09:29:14 171
原创 linux系统 排序 显示
1.cutcut根据条件 从命令结果中 提取 对应内容head -2 1.txt | cut -c 52. sort 排序3. unique 去重 (只能排序后使用)4. -n 升序5. -n -r 倒序6. -c 去重并且统计出现的次数2.wc 命令作用 :显示指定文件 字节数, 单词数, 行数 信息.3.tee通过 tee 可以将命令...
2019-10-15 21:02:13 435
原创 linux系统 知识积累
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-10-14 20:11:12 439
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人