![](https://img-blog.csdnimg.cn/20200216155237895.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫
爬虫小白:分享一些平时做过的爬虫案列(主要是scrapy框架)
忌颓废
୧⍤⃝ 缓慢而坚定的生长୧⍤⃝
展开
-
python爬取招聘网站(实习网)并可视化展示
2、处理爬取到的数据import pandas as pddata = pd.read_csv('data/work_data.csv')# 处理城市列,只取前面两个字符data['place'] = data["place"].str[:2]# 去除salary列含有“¥2000/月”的行data=data[~data['salary'].isin(['¥2000/月'])]# people_num列和salary只保留整数,比如¥250/天保留250data['people_num原创 2020-10-25 09:01:04 · 3142 阅读 · 5 评论 -
利用scrapy框架爬取图片并重命名
Scrapy提供了一个 item pipeline ,来下载属于某个特定项目的图片。这条管道,被称作图片管道,在 ImagesPipeline 类中实现,提供了一个方便并具有额外特性的方法,来下载并本地存储图片。1、本文是爬取一个美食的网站:https://www.meishij.net/chinafood/caixi/qingzhencai/2、开发环境及工具介绍python 3.7s...原创 2020-01-06 16:30:20 · 1491 阅读 · 3 评论 -
将scrapy爬取数据保存到mysql数据库和mongodb数据库
前言编写scrapy框架软件:pycharmmysql图形界面工具:navicatmongodb图形界面工具:Robo 3T浏览器:Google谷歌爬取网站:https://china.nba.com/安装pymysql:在命令行:pip install pymysql安装pymongo:在命令行:pip install pymongo一、分析网站我们将爬取NBA网站的首页的要闻...原创 2020-01-14 08:22:34 · 1003 阅读 · 0 评论 -
scrapy爬虫(处理详情页、翻页、空字符串、保存json文件)
目录一、爬虫文件jump.pyimport scrapyfrom Detail.items import DetailItemclass JumpSpider(scrapy.Spider): name = 'jump' allowed_domains = ['meishij.net'] start_urls = ['https://www.meishij.net/...原创 2020-02-15 20:58:53 · 1099 阅读 · 0 评论 -
python爬虫之Request库的使用
目录一、Requests的安装二、Request的使用1、提取目标网站的代码2、Request基本请求方式3、Requests库的get()方法4、Response 对象的属性5、理解Requests库和Response的异常6、爬取网页的通用代码框架7、HTTP协议三、爬取中国大学排名RequestsRequests是用python语言基于urllib编写的,采用...原创 2020-02-16 15:37:44 · 522 阅读 · 0 评论