A.一十五-CSDN博客

原创用scrapy框架爬取历年电影排名和出版

Scrapy简介Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。Scrapy入门请看官方文档：scrapy官方文档本爬虫爬取的是电影排名与放映时间和评分成果图如下：整体思路1、新建项目和爬虫文件2、编写test1文件和main.py代码 3、修改middlewares.py/编写piplines.py 4、修改settings，items文件代码 5、启动1.新建项目和爬虫文件2.编写imdb.py文件注意理解注释。from y...

2021-12-14 11:20:38 851 2

原创 hadoop搭建好Hive-命令使用

在搭建好hive后，我们接下来看看hive的使用。一、连接hive，查看现有多少个数据库；show databasese；以上可以看出我有3个数据库；二、创建数据库；数据库会以文件夹.db的形式存在hdfs里；create database tb202;三、创建表；表会文件夹的形式存在；前提是要先使用你创建的数据库。create table put_class(id string,amount float);四、在表里插入数据，可以看见会自动...

2021-12-04 19:47:22 160 1

原创 Hadoop-伪分布式单节点搭建hive

1.在搭建hadoop完成一台电脑后，hive是利用的MySQL数据库进行操作（推荐与Java技术不好MySQL学的好的学生使用）话不多说操作如下：2.先把hive数据包和MySQL连接jar包放到Linux；3.安装hive到/opt目录下；tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/4.hive安装完后名字太长我们改成hive...

2021-12-01 21:09:43 1676

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 用scrapy框架爬取历年电影排名和出版

原创 hadoop搭建好Hive-命令使用

原创 Hadoop-伪分布式单节点搭建hive

空空如也

空空如也

原创用scrapy框架爬取历年电影排名和出版