大数据
文章平均质量分 80
大数据相关知识
香帅_Daniel Wu
Daniel Wu
展开
-
04Hadoop分布式文件系统HDFS(HDFS)
大数据技术之Hadoop(HDFS)原创 2022-06-04 10:50:33 · 526 阅读 · 0 评论 -
02Linux操作系统(三)--shell
第1章 Shell概述Linux与shell的关系Shell 中文意思贝壳,寓意类似内核的壳。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 脚本(shell script)是一种为 shell 编写的脚本程序。常说的shell通常都是指 shell 脚本,但shell和shell script是两个不同的概念。通常原创 2022-05-27 17:18:06 · 695 阅读 · 0 评论 -
07数据导入Sqoop
第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。原创 2022-05-26 00:06:07 · 464 阅读 · 0 评论 -
04Hadoop分布式文件系统HDFS(入门)
第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop发展历史(了解)1.3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache 版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH 。2008Hortonworks文档较好,对应产品HDP 。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP 。原创 2022-05-25 17:29:46 · 617 阅读 · 0 评论 -
02 Linux操作系统(二)
用户管理命令useradd添加用户语法:useradd [选项] 用户名passwd修改密码命令语法:passwd [选项] [用户名]用户密码:生产环境中,用户密码长度8位以上,设置大小写加数字加特殊字符,要定期更换密码。qwhA1/j=userdel(user delete)删除用户 -r 删除账号时同时删除宿主目录(remove)权限管理三种基本权限r 读权限(read)w 写权限(write)x 执行权限 (execute)权限说明所有者 所属组 其他人第原创 2022-05-24 10:57:35 · 206 阅读 · 0 评论 -
02 Linux操作系统(一)
Linux操作系统1 Linux简介UNIX与Linux发展史Unix在1969年,美国贝尔实验室的肯汤普森在DEC PDP-7机器上开发出了UNIX系统。Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯·托瓦兹(Linus Torvalds)和后来加入的众多爱好者共同开发完成 。Linux介绍Linux是一种自由和开放源码的操作系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux内核网站:www.kernel.org基于内核,再增加一些桌面,应用程原创 2022-05-23 19:47:25 · 604 阅读 · 0 评论 -
01安装虚拟机
vmware / virualboxvm => virtual machine1 vmware => n vmredhat / ubuntu / centos7(基于redhat)###新建虚拟机步骤#####1、在电脑中先创建好安装的文件夹vm-env文件下装的是虚拟机工具文件vm-data文件下放置数据文件#2、创建一个文件夹比如single01#3、打开虚拟机,点击新建虚拟机,选择自定义安装,点击下一步如下操作,按图片顺序进行,不再进行文字描述,比较简单。原创 2022-05-16 09:59:01 · 102 阅读 · 0 评论 -
大数据知识目录
第一阶段:安装虚拟机第二阶段:Linux操作系统第三阶段:zookeeper分布式协调服务框架第四阶段:Hadoop分布式文件系统HDFS第五阶段:Hadoop分布式计算Mapreduce和资源管理第六阶段:数据仓库Hive第七阶段:分布式数据仓库Hbase第八阶段:日志采集Flume第九阶段:分布式搜索Elasticsearch第十阶段:缓存数据库Redis第十一阶段:分布式语言Scala第十二阶段:分布式计算框架Spark第十三阶段:大数据任务调度系统Azkaban第十四阶段:原创 2022-05-16 09:46:01 · 298 阅读 · 0 评论