Python爬虫
记录总结爬虫知识
透晓西桥
这个作者很懒,什么都没留下…
展开
-
selenium的使用-爬取天猫商品信息
from selenium import webdriverfrom selenium.webdriver import ChromeOptionsfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byimport timeim原创 2020-07-09 23:02:14 · 689 阅读 · 0 评论 -
selenium的用法总结
文章目录一、声明浏览器对象二、基本方法三、查找节点(一)单个节点(二)多个节点(返回列表)四、节点交互(一)input节点(二)button节点五、节点信息六、切换Frame七、动作链八、执行JS九、Cookies十、延时等待(一)隐式等待(二)显式等待十一、异常十二、防止Selenium被屏蔽十三、不弹出浏览器窗口from selenium import webdriver:导入库一、声明浏览器对象browser = webdriver.Chrome() :谷歌browser = webdriv原创 2020-07-08 22:31:45 · 866 阅读 · 0 评论 -
Ajax-爬取多页图片
文章目录一、目的二、代码三、结果四、关键点一、目的爬取多页图片图片网页地址:https://picsum.photos/images关键点:上述的网页HTML代码中并无图片地址,图片是通过Ajax请求的json数据,我们需要找到图片真正的地址二、代码import requestsimport osdef get_page(url): try: header = { 'user-agent': 'Mozilla/5.0 (Windows原创 2020-07-08 12:56:17 · 327 阅读 · 0 评论 -
pyquery / re的使用-爬取豆瓣Top250
import requestsfrom pyquery import PyQuery as pqimport redef get_page(url): try: header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'} r = requests.原创 2020-07-07 22:37:21 · 350 阅读 · 0 评论 -
Xpath库的用法总结
文章目录一.初始化1.读取字符串初始化2.读取文本文件初始化二.查找节点A.标签匹配1.所有节点: //* 可通过下标索引选择对应的节点2.选取特定子节点: //li/a //li//a ; /只用于获取子节点, //用于获取所有子孙节点B.属性匹配1.属性匹配2.属性多值匹配:通过contains(@class,"key")即可筛选出包含key的标签3.多属性匹配:若多个属性匹配一个节点,可以通过and来并列,如@class="item-0" and @name="li"C.关系匹配1.按序选择节点:原创 2020-07-07 19:08:48 · 328 阅读 · 0 评论 -
pyquery库用法总结
目录一. 导入库二. 初始化1.将url作为参数2.将字符串作为参数3.将文件作为参数三. 查找节点补充:基本CSS选择器A.查找子节点1.使用item.find()即可在子孙中找到对于tag的所有标签2.使用item.children()即可只查找儿子节点B.查找父节点1. 使用item.parent()即可查找某个节点的父节点2. 使用item.parents()即可查找某个节点的祖先节点C. 查找兄弟节点四. 获取信息1.获取属性:a.attr('href') / a.attr.href2.获取文本:原创 2020-07-07 19:01:32 · 300 阅读 · 0 评论 -
BeautifulSoup类的使用-爬取电影票房排行
import requestsfrom bs4 import BeautifulSoup as bsdef get_page(_url): try: header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"} r原创 2020-07-07 14:30:36 · 500 阅读 · 0 评论 -
BeautifulSoup类用法总结
BeautifulSoup可以用来解析Requests库爬取的html代码一、BeautifulSoup的基本使用import requestsfrom bs4 import BeautifulSoup as bsdef get_page(url): try: header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom.原创 2020-07-06 22:22:16 · 500 阅读 · 0 评论 -
Requests库的使用-爬取一张图片
本代码仅仅为Requests库的基本使用,以爬取一张图片作为练习import requestsimport osdef get_img(img_url): try: header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"} r = .原创 2020-07-06 21:18:06 · 680 阅读 · 0 评论 -
Requests库的使用-爬取HTML页面
def get_page(url): try: header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'} r = requests.get(url, headers=header) r.raise_for_status()原创 2020-07-06 20:44:34 · 763 阅读 · 0 评论 -
Requests库的七种方法
requests.request():提交一个request请求,作为其他请求的基础requests.get(): 获取HTML网页代码的方法requests.head():获取HTML网页头部的方法requests.post():向HTML网页提交POST请求的方法requests.put():向HTML网页提交PUT请求方法requests.patch():向HTML网页提交局部修改请求requests.delete():向HTML网页提交修改请求r = re..原创 2020-07-05 20:47:07 · 1402 阅读 · 0 评论 -
Response对象的主要属性和方法
r.status_code:HTTP请求的返回状态,返回值为200即请求正常r.text: HTTP响应内容的字符串形式,即:url对应的页面内容r.encoding: 从HTTP header中猜测的响应内容编码方式r.apparent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)r.content: HTTP响应内容的二进制形式...原创 2020-07-05 21:02:29 · 5918 阅读 · 1 评论