未烬丶-CSDN博客

原创机器学习

当前热词解释机器学习基本术语数据集：样例：特征：特征值属性值：（某特征的具体值）缺失数据：补全或删除标签：总的数据量有100W。训练数据取出90w 作为训练数据80w是训练集，用于真正的模型计算（学习）。è得到结论（判断逻辑/模型）10w是验证集，用于验证计算出的模型。è验证结论（模型）--》yes/no测试数据剩余的10W是测试集，用于...

2020-07-02 17:08:27 154

原创 hbase

public class a extends Mapper<LongWritable , Text,NullWritable,Text>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedExcepti...

2020-01-07 15:39:42 198

原创 hbaseAPI1714145080

HBase的java代码开发熟练掌握通过使用java代码实现HBase数据库当中的数据增删改查的操作，特别是各种查询，熟练运用第一步：创建maven工程，导入jar包<repositories><repository><id>cloudera</id><url>https://re...

2020-01-07 08:10:13 183

原创 hbase

hbase 的安装部署1、软件包上传解压2、配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-ma...

2019-12-17 15:45:10 388

原创 hbase 的安装部署

1、软件包上传解压2、配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、拷贝co...

2019-12-12 08:03:20 207

原创 Flume安装部署

前提是已有hadoop环境上传安装包到数据源所在节点上上传安装文件并解压1.解压tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /export/servers/2.进入flume的conf目录cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/conf3.复制一个flume-...

2019-12-05 15:01:46 110

原创 hive

Hive基本概念是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能。Hive的意义是什么背景：hadoop是个好东西，但是学习难度大，成本高，坡度陡。意义（目的）：降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算。Hive的特性1、扩展性： Hiv...

2019-11-21 11:09:44 170

原创 hive基本概念

1.1 Hive简介什么是Hive是一个基于hadoop的数据仓库工具，可以将结构化数据映射成一张数据表，并提供类SQL的查询功能。Hive的意义是什么背景：hadoop是个好东西，但是学习难度大，成本高，坡度陡。意义（目的）：降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算。Hive的特...

2019-11-21 11:06:43 154

原创 hive添加数据时出错

Ended Job = job_1545829388777_0070 with errorsError during job, obtaining debugging information...FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskMapRedu...

2019-11-21 10:42:03 731

原创 MapReduce计算任务的步骤

MapReduce计算任务的步骤第1步：InputFormat InputFormat 到hdfs上读取数据将数据传给Split 第2步：Split //设置读取数据的路径 TextInputFormat.addInputPath(job,new Path("C:\\bbb.txt")); //3、设置Map job.setMapperClass(WordCou...

2019-11-14 20:18:09 237

原创 HDFS

知识回顾传统服务器系统安装系统硬盘（100%完全独立，不要存储业务数据）物理磁盘做raid1（两个硬盘物理备份） /boot 200M /SWAP 内存的1-2被（大数据集群中要关闭） / 所有的空间数据硬盘多块小的硬盘做一个大的硬盘（逻辑卷）大数据服务器系统安装系统硬盘（100%完全独立，不要存...

2019-11-07 18:18:05 684

原创 hadoop等集群扩容

集群扩容（添加节点）A : 准备新节点

2019-11-06 17:21:27 218

原创传统服务器系统安装和大数据服务器系统安装的区别

传统服务器系统安装系统硬盘（100%完全独立，不要存储业务数据）物理磁盘做raid1（两个硬盘物理备份）/boot 200M/SWAP 内存的1-2被（大数据集群中要关闭）/ 所有的空间数据硬盘多块小的硬盘做一个大的硬盘（逻辑卷）大数据服务器系统安装系统硬盘（100%完全独立，不要存储业务数据）物理磁盘做raid1（两个硬盘物理备份）/boot 200M/SWAP ...

2019-11-05 16:21:50 299

原创 HDFS

HDFS 特性 1、海量数据存储： HDFS可横向扩展，其存储的文件可以支持PB级别数据。 2、高容错性：节点丢失，系统依然可用，数据保存多个副本，副本丢失后自动恢复。可构建在廉价（与小型机大型机比）的机器上，实现线性扩展(随着节点数量的增加，集群的存储能力，计算能力随之增加)。 3.'大文件存储：DFS采用数据块的方式存储数据，将一个大文件切分成多个小文件，分布存储。 ...

2019-11-05 14:43:21 125

原创大数据技术为什么快(必看,不看后悔)

为什么大数据快,快肯定是对比出来,我们今天就和传统对比一下我们可以从4个方面进行对比1.扩展性2.分布式3.可以性4.模型----------------------------------------------------------------------------------------------------- ...

2019-10-31 11:28:03 686

原创大数据是什么意思?

什么是大数据？字面意思理解：大量的数据，海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点？海量化数据量大（多）多样化结构化数据，半结构化数据，和非结构化数据快速化数据的增长速度快高价值海量数据价值高大数据能做什么？ 1、海量数据快速查询 2、海量数据的存储（数据量大，单个大文...

2019-10-23 21:26:48 242

原创 linux集群的部署(标准,进来和我一起努力吧)

linux集群的部署1.在虚拟机中实例三个虚拟机主机,三个虚拟主机需要配置ip, 且两两之间可以ping通.2.关闭防火墙(需要在所有主机中进行设置) /etc/init.d/iptables stop chkconfig iptables off3.关闭selinux(需要在所有主机中进行设置)编辑文件 vi /etc/selinux/config将SELINUX-...

2019-10-21 17:48:13 328

原创 linux系统新硬挂载到linux 系统（开机自动挂载）

目标：将一个新硬盘能够挂载到linux 系统上（开机自动挂载）第一步：查看当前系统磁盘挂载查看系统硬盘挂载情况： lsblk -f （老师不离开）sda├─sda1 ext4 7cc94e03-8b1a-4845-97fb-49a2c39afd8c /boot├─sda2 ext4 fe1d0...

2019-10-17 09:29:14 171

原创 linux系统排序显示

1.cutcut根据条件从命令结果中提取对应内容head -2 1.txt | cut -c 52. sort 排序3. unique 去重 (只能排序后使用)4. -n 升序5. -n -r 倒序6. -c 去重并且统计出现的次数2.wc 命令作用 :显示指定文件字节数, 单词数, 行数信息.3.tee通过 tee 可以将命令...

2019-10-15 21:02:13 435

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-10-14 20:11:12 439

youyigebug的博客

原创机器学习

原创 hbase

原创 hbaseAPI1714145080

原创 hbase

原创 hbase 的安装部署

原创 Flume安装部署

原创 hive

原创 hive基本概念

原创 hive添加数据时出错

原创 MapReduce计算任务的步骤

原创 HDFS

原创 hadoop等集群扩容

原创传统服务器系统安装和大数据服务器系统安装的区别

原创 HDFS

原创 hdfs 文件写入读出

原创大数据技术为什么快(必看,不看后悔)

原创大数据是什么意思?

原创 linux集群的部署(标准,进来和我一起努力吧)

原创 linux系统新硬挂载到linux 系统（开机自动挂载）

原创 linux系统排序显示

原创 linux系统知识积累

空空如也

空空如也