爬虫学习记录
文章平均质量分 79
thunderobot7
这个作者很懒,什么都没留下…
展开
-
多线程及普通方法爬取斗图啦
(缺流程图)1.普通方法(xpath)import requestsfrom lxml import etreefrom urllib import requestimport randomimport timefirst = time.time()def parse_html(text): html = etree.HTML(text) pics = html.xpath("//div[@class='page-content text-center']//img[@c原创 2020-10-29 08:52:14 · 12146 阅读 · 0 评论 -
爬取中国天气网的数据(城市,最高温,最低温)
1.使用正则import requestsimport reimport randomimport csvimport time# 设置UA与IPheaders_choice = [{'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50safari 5.1 – Windows'原创 2020-09-01 17:28:39 · 6764 阅读 · 0 评论 -
爬取豆瓣电影信息且写入csv文件
import reimport requestsimport randombase_url = 'https://movie.douban.com/top250'# 随机设置UA与IPheaders_choice = [{'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50safa原创 2020-08-14 17:40:14 · 34066 阅读 · 0 评论 -
requests.exceptions.ChunkedEncodingError: (“Connection broken: ConnectionResetError(10054, ‘远程主机强迫关闭
requests.exceptions.ChunkedEncodingError: (“Connection broken: ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’, None, 10054, None)”, ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’, None, 10054, None))爬取百度极光图片import reimport requestsimport timeimport原创 2020-08-10 21:41:51 · 4253 阅读 · 0 评论 -
爬虫学习记录4:正则表达式及re模块
一.简介1.1什么是正则表达式?1.正则表达式是处理字符串的强大工具2.使用一些特定方式用来表达对字符串的筛选3.是一种过滤逻辑1.2.为什么需要正则表达式?1.在内容过多时,为方便得到所需的内容,便出现了正则表达式2.表单验证(?)(邮箱、手机号等等)、爬虫时会使用到(在后面的练习中通过爬取猫眼电影排名前100来举例)二.正则表达式对python的支持2.1普通字符概念:字母、数字、下划线及无特殊定义的符号,都是普通字符。正则表达式中的普通字符,匹配时,只匹配与自身相同的一个字符。原创 2020-05-16 13:38:10 · 203 阅读 · 0 评论 -
爬虫学习记录3:request库基础用法
1.request库基础用法1.1get()及post()对比解析(发送请求)# 百度举例import requestsurl = 'https://www.baidu.com/'headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KH...原创 2020-05-03 23:16:14 · 729 阅读 · 0 评论 -
爬虫学习记录2:基础模块(urllib.request、urllib.parse)及简单练习
1.urllib.request()1.1版本及使用前提版本:python2:urllib2、urllibpython3:urllib.request(将python2中所有版本合并产生)ps:本文针对于python3使用前提:需先导入import urllib.request1.2基本使用方法import urllib.request# 1.urllib.request.ur...原创 2020-04-30 11:40:05 · 124 阅读 · 0 评论 -
爬虫学习记录1:通讯协议、网络模型、爬虫分类及常见概念
通讯协议、网络模型及分类1.通讯协议1.1端口若把一个ip地址比作一栋房子,那么端口就是进入这座房子的门。为了标识应用程序,所有出现了端口。不同的端口代表不同的应用程序,通过数字来对不同的端口进行标识(此为逻辑端口)。1.2数据通讯的步骤找到ip(定位)–>进入端口(传输数据)–>定义通讯规则(协议)1.3通讯协议定义:计算机通信网络中两台计算机共同遵守的规则国际组...原创 2020-04-28 12:00:22 · 368 阅读 · 0 评论