大数据
文章平均质量分 92
月亮不睡,我不睡
黑夜中奔跑
以梦为马 不负韶华
展开
-
大数据 爬取网站并分析数据
1.用scrapy爬取前途无忧网站,我爬了10w多条数据,在存入MongoDB中.# -*- coding: utf-8 -*-import scrapyfrom qianchengwuyou.items import QianchengwuyouItemclass QiangchengSpider(scrapy.Spider): name = 'qiangcheng' allowed_domains = ['51job.com'] start_urls = ["htt原创 2020-07-15 08:17:20 · 4361 阅读 · 1 评论 -
Hadoop 搭建完全分布式
@Hadoop搭建完全分布式建议克隆更快一、 搭建的环境1.操作系统:Centos7机器:虚拟机3台JDK:1.8 Hadoop-2.9.2二、搭建步骤1.每台机器暗转&配置JDK2.创建目录 mkdir /usr/java3.上传jdk安装包到 /usr/java4.追加环境变量 vi /etc/profile5.使环境变量生效 source /etc/profile6.检测jdk正确安装 java -version三级目录...原创 2020-06-09 19:54:40 · 361 阅读 · 1 评论 -
Linux 常用命令
1.history 可以查看历史命令2.Ctrl+p 向上滚动(上键也可以)3.Ctrl+N 向下滚动(下键也可以)4.Crtl+B 光标向前移动5.Ctrl+F 光标向后移动6.Ctrl+A 光标直接跳到行首7.Ctrl+E 光标直接跳到行尾8.Ctrl+H 删除光标前边一个的字符9.Ctrl+D 删除光标后边(盖住)的字符10.Ctrl+U 删除光标前面的字符11.date 查看·时间12.table 自动填充命令 也可以自动填原创 2020-06-06 17:41:07 · 124 阅读 · 0 评论 -
sqoop的安装搭建和基础命令
1.安装包在这里链接:https://pan.baidu.com/s/1HLHQerjsV-1tsSxXpBKm8g提取码:ww052.我是解压到 /usr/sqoop下的我把sqoop-1.4.4.bin__hadoop-2.0.4-alpha改为了sqoop文件,更改命令mv sqoop-1.4.4.bin__hadoop-2.0.4-alpha sqoop3.配置环境变量vi /etc/profile#sqoopexport SQOOP_HOME=/usr/sqoop/s原创 2020-06-04 17:31:36 · 192 阅读 · 0 评论 -
hive 练习影评案列
一、案列说明:现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072,共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adventure|Children’s|Fantasy,共有3883条数据对应原创 2020-06-02 08:10:25 · 1860 阅读 · 0 评论 -
Hive数据类型
1.基本数据类型2.复杂数据类型一、数组类型array案列一:原数据建表语句create external table ex(vals array<int>) row format delimited fields terminated by '\t'collection items terminated by ',' location '/ex';上传数据.load data local inpath '/usr/wenjian/array1.txt' overwr原创 2020-05-29 18:59:49 · 778 阅读 · 0 评论 -
hive 基本指令命令
1.show databases 查看有那些数据库2.创建park数据库,实际上hadoop的HDFS文件系统里创建一个目录节点,统一存在/usr/hive/wareshouse目录下3.进入数据库4.查看当前数据库下的所有表5.创建stu表,以及相关的两个字段在hive中,用的是string,不用char和varchar,此外,所创建的表,也是HDFS里的一个目录节点。在hive里面有一个default数据库,这个hdfs目录结构上是看不到的,凡是在default数据库下建立的表,原创 2020-05-29 15:01:46 · 882 阅读 · 0 评论 -
hive 报错Error:name PCS_STATS_IDX (state=42000,code=1061)
hive中的报错Error: Duplicate key name ‘PCS_STATS_IDX’ (state=42000,code=1061)org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!Underlying cause: java.io.IOException : Schema script fail原创 2020-05-28 08:49:41 · 849 阅读 · 0 评论 -
hadoop 伪分布式的idea基于hadoop插件-HadoopIntellijPlugin
1.导入插件包2.设置hadoop原创 2020-05-27 16:09:39 · 319 阅读 · 1 评论 -
hadoop伪分布式搭建
Hadoop环境搭建分为三种形式:单机模式、伪分布式模式、完全分布模式单机模式—— 在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。伪分布式—— 也是在一台单机上运行,但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上,既当NameNode,又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算,故称为“伪分布式”。完全分布式—— 真正的分布式,由3个及以上的实体机或者虚拟机组成的机群。一个Had原创 2020-05-21 17:43:51 · 290 阅读 · 0 评论 -
hadoop 搭建Hive
1.在mysql中创建hive库2.在usr下创建hive目录,解压hive文件目录3.修改hive名字4.修改配置环境变量 vi /etc/profile5.source /etc/profile使环境变量生效6.查看hive版本,有版本显示表示成功7. 进入cd /usr/hive/hive/conf,修改hive-site.xml,这里没有,我们复制一份cp hiv...原创 2019-12-31 11:05:20 · 183 阅读 · 0 评论 -
linux 搭建虚拟机--克隆
虚拟机搭建一、创建一台虚拟机1.查看IP地址1.1 找到虚拟网络编译器.2.设置IP地址2.1 我们在虚拟机中输入如下命令2.3 我们就可以进行编译,修改如下信息然后我们可以重新启动服务service network restart,在ip addr查看修改的IP一、关闭防火墙1.查看防火墙的状态命令2.暂时关闭防火墙的命令3:永久关闭防火墙4:重启防火墙三、修改config中的配置3.1 我们进...原创 2020-05-07 20:47:28 · 562 阅读 · 0 评论 -
hadoop 将动态IP修改为静态IP
1.在搭建hadoop是应该将动态IP修改为静态IP,要不它IP会变.在虚拟机输入 vi /etc/sysconfig/network-scripts/ifcfg-ens33修改将BOOTPROTO=“dhcp” 修改为BOOTPROTO=“static”添加你的IP和子网IPADDR=192.168.127.137NETMASK=255.255.255.0重新启动service n...原创 2019-12-30 11:19:32 · 1015 阅读 · 0 评论 -
hadoop 搭建mysql数据库
1.首先卸载命令yum remove mariadb-libsyum install perl -y2.在usr中添加mysql目录拖入mysql压缩包 /usr/mysql/3.在虚拟机中进入mysql目录 cd /usr/mysql输入tar -zxvf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar 解压mysql压缩包输入以下命令rpm -...原创 2019-12-30 12:31:06 · 682 阅读 · 0 评论