python爬虫链接
阿P的哲学
这个作者很懒,什么都没留下…
展开
-
python如何指定某浏览器打开指定网页?
import timeimport webbrowserimport os# 浏览器运行目录chromePath = r"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe"# 注册浏览器webbrowser.register('chrome', None, webbrowser.BackgroundBrowser(chromePath))# 获取浏览器并打开指定地址webbrowser..原创 2022-02-09 14:59:09 · 3071 阅读 · 2 评论 -
Python爬虫:测试网址是否请求成功
import requestsres = requests.get('https://api.bilibili.com/x/web-interface/popular?ps=20&pn=2')# 打印变量res的响应状态码,以检查请求是否成功print(res.status_code)原创 2022-01-18 16:41:13 · 3336 阅读 · 0 评论 -
Python爬虫:wd参数是一个字典
import requestsheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# 这是目标url# url = 'https://www.baidu.com/s?wd=python'# 最后有没有问号结果都一样url = 'https://www.baidu.原创 2022-01-18 16:22:37 · 915 阅读 · 0 评论 -
Python爬虫:etree.HTML()非本地文件与etree.parse()本地支持文件的区别
def bili_get_img(text): """ 这里定义一个名为bili_get_img的函数,用来解析图片链接,即反馈为链接 同时要求传入一个文本,即bili函数反馈的网页源码 """ text = str(text) reap_xpath = etree.HTML(text) #初处理,并赋值给reap_xpathetree.HTML()与etree.parse()的区别方法 适用于 etree.HTML() .原创 2022-01-18 11:20:26 · 1039 阅读 · 0 评论 -
Python爬虫:通过requests.get()方法获取网站源码
方法 常用参数 requests.get() url=* , headers=* 其中url参数传入的必须为一个字符串类型(str) headers参数传入的必须为一个字典格式(dict),这个参数的传入内容就是反反爬的关键原创 2022-01-18 08:43:26 · 1033 阅读 · 0 评论 -
Python爬虫:需要导入的库
import requests #获取页面数据import pandas as pd #用于数据清洗from bs4 import BeautifulSoup #解析页面import re #用于正则表达式原创 2022-01-17 09:26:17 · 490 阅读 · 0 评论 -
Python爬虫:xpath对HTML文件进行本地读取进行测试
本地文件<html lang="en"><head> <meta charset="UTF-8" /> <title>测试bs4</title></head><body> <div> <p>百里守约</p> </div> <div class="song"> <p>李清照</p> <p>王安石&l原创 2022-01-13 18:29:42 · 991 阅读 · 0 评论 -
Python爬虫:抓取网页内容
import requestsprint(requests.get("https://www.csdn.net/").text)print(requests.get("https://www.csdn.net/").text)原创 2022-01-12 18:12:17 · 424 阅读 · 0 评论 -
Python爬虫:requests库改变编码
import requestsurl = 'https://www.csdn.net/'#原编码为utf-8response = requests.get(url)response.encoding = 'gbk'print(response.encoding)结果gbk原创 2022-01-12 16:55:07 · 2553 阅读 · 0 评论 -
Python爬虫:利用requests库查看编码类型
import requestsurl = 'https://blog.csdn.net/wydyzq12'response = requests.get(url)print(response.encoding)原创 2022-01-12 16:51:02 · 696 阅读 · 0 评论