爬虫
文章平均质量分 64
魚香肉丝盖饭
这个作者很懒,什么都没留下…
展开
-
【python爬虫学习记录 持续更新】多线程多进程,带线程池爬取实例
from concurrent.futures import ThreadPoolExecutor import requests from lxml import etree import time from bs4 import BeautifulSoup as bs import os原创 2022-06-14 22:40:31 · 274 阅读 · 0 评论 -
【python爬虫学习记录 持续更新】数据解析方式 <re> <Beautiful Soup> <Xpath>
Regular Expression:一种使用表达式的方式对字符串进行匹配的语法规则。抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则表达式再适合不过了。正则的优点:速度快,效率高,准确性高。正则的缺点:新手上手难度高语法:使用元字符进行排列组合用来匹配字符串。在线测试正则表达式 量词:控制前面的元字符出现的次数 贪婪匹配和惰性匹配 爬虫用的最多的就是惰性匹配。 re模块中我们需要记住的几个功能 ,匹配字符串中所有符合正则的内容[返回列表] ,全文匹配,找到一个结果就原创 2022-06-14 22:30:05 · 665 阅读 · 0 评论 -
【python爬虫学习记录 持续更新】web请求过程剖析
web请求过程剖析原创 2022-06-14 22:23:22 · 113 阅读 · 0 评论 -
【python爬虫学习记录 持续更新】http协议
http协议把一条消息分为三大块内容,无论是请求还是响应都是三块内容请求: 响应: 在后面我们写爬虫的时候要格外注意请求头和响应头,这两个地方一般都隐含着一些比较重要的内容请求头中最常见的一些重要内容(爬虫需要):响应头中一些重要的内容:请求方式:GET:显式提交POST:隐式提交...原创 2022-06-14 22:20:48 · 126 阅读 · 0 评论