- 博客(3)
- 收藏
- 关注
原创 用scrapy框架爬取历年电影排名和出版
Scrapy简介Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy入门请看官方文档:scrapy官方文档本爬虫爬取的是电影排名与放映时间和评分 成果图如下:整体思路1、新建项目和爬虫文件2、编写test1文件和main.py代码 3、修改middlewares.py/编写piplines.py 4、修改settings,items文件代码 5、启动1.新建项目和爬虫文件2.编写imdb.py文件注意理解注释。from y...
2021-12-14 11:20:38
851
2
原创 hadoop搭建好Hive-命令使用
在搭建好hive后,我们接下来看看hive的使用。一、连接hive,查看现有多少个数据库;show databasese;以上可以看出我有3个数据库;二、创建数据库;数据库会以文件夹.db的形式存在hdfs里;create database tb202;三、创建表;表会文件夹的形式存在;前提是要先使用你创建的数据库。create table put_class(id string,amount float);四、在表里插入数据,可以看见会自动...
2021-12-04 19:47:22
160
1
原创 Hadoop-伪分布式单节点搭建hive
1.在搭建hadoop完成一台电脑后,hive是利用的MySQL数据库进行操作(推荐与Java技术不好MySQL学的好的学生使用)话不多说操作如下:2.先把hive数据包和MySQL连接jar包放到Linux;3.安装hive到/opt目录下;tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/4.hive安装完后名字太长我们改成hive...
2021-12-01 21:09:43
1676
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人