requests爬虫学习笔记
文章平均质量分 72
天愚
这个作者很懒,什么都没留下…
展开
-
Python requests爬虫爬取小说数据
抓取起点网站的所有小说(未分类抓取),并将提取的数据保存到本地csv文件中。采用requests抓取网页,用BeautifulSoup解析网页,用select方法提取元素(也可以使用find()方法)原创 2017-05-01 16:50:13 · 2084 阅读 · 0 评论 -
python 爬虫工具记录
记录一些常用的爬虫工具:常用爬虫库1、Requests比较简单,常用的爬虫库2、pyspider一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器3、ScrapyScrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不...原创 2018-05-25 17:13:58 · 552 阅读 · 0 评论 -
python3 requests+BeautifulSoup使用多进程爬取妹子图
python3版本,使用requests+BeautifulSoup爬取妹子图,同时采用多进程方法将图片下载保存;下载时,简单判断是否创建了文件夹from multiprocessing import Pool#多进程方法import osimport jsonimport requestsfrom bs4 import BeautifulSoupurl='http://www.2727...原创 2018-03-26 13:43:39 · 1557 阅读 · 0 评论 -
requests分析Ajax来爬取今日头条街拍美图
#参考代码:https://github.com/Germey/TouTiaoimport requestsfrom bs4 import BeautifulSoupfrom urllib.parse import urlencode#可以将字典构造为urlimport reimport jsonimport pymongoimport osfrom multiprocessin原创 2017-11-19 17:12:59 · 2134 阅读 · 0 评论 -
requests和正则爬取猫眼的数据
用requests爬取猫眼网站的top100榜单,再用正则提取所需的数据,并将数据存储#成功抓取所有数据,并存为文件(参考代码:https://github.com/Germey/TouTiao/blob/master/spider.py)import requests import reimport json from multiprocessing import Pool#Pyt原创 2017-11-17 15:32:18 · 704 阅读 · 1 评论 -
解决Requests抓取时中文乱码
requests抓取中文乱码的解决方法转载 2017-07-27 16:47:00 · 1724 阅读 · 1 评论 -
Python requests爬取图片
练习requests爬虫import requestsfrom bs4 import BeautifulSoupimport reimport osimport timeurl="http://www.58gc.cn/xgmn/"def get_all():#获取首页的图片组链接和名字 url="http://www.58gc.cn/dcd/" headers={"...原创 2018-05-16 16:41:20 · 1151 阅读 · 0 评论