python爬虫
阿P的哲学
这个作者很懒,什么都没留下…
展开
-
如何实现python自动打开B站视频并点赞?循环版之电脑分辨率1920*1080
import pyautoguiimport timeimport webbrowserimport osrp = 1for rp in range(5): # 浏览器运行目录 chromePath = r"C:\Program Files\Google\Chrome\Application\chrome.exe" # 注册浏览器 webbrowser.register('chrome', None, webbrowser.BackgroundBrowser(.原创 2022-02-09 23:23:50 · 230 阅读 · 0 评论 -
如何实现python自动打开B站视频并点赞?
import pyautoguiimport timeimport webbrowserimport seleniumimport os# 浏览器运行目录chromePath = r"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe"# 注册浏览器webbrowser.register('chrome', None, webbrowser.BackgroundBrowser(chromeP.原创 2022-02-09 17:47:28 · 1289 阅读 · 0 评论 -
python打开指定网页
import webbrowserwebbrowser.open("https://www.bilibili.com/v/life/daily/?spm_id_from=333.5.b_6c6966655f6461696c79.2#/")原创 2022-02-09 11:47:00 · 1001 阅读 · 0 评论 -
python的pyautogui.locateOnScreen找不到(定位不到)图片怎么办?
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-pythoncmd下安装opencv-python库pycharm直接安装opencv-python库原创 2022-02-07 18:08:38 · 4060 阅读 · 0 评论 -
Python爬虫:测试网址是否请求成功
import requestsres = requests.get('https://api.bilibili.com/x/web-interface/popular?ps=20&pn=2')# 打印变量res的响应状态码,以检查请求是否成功print(res.status_code)原创 2022-01-18 16:41:13 · 3336 阅读 · 0 评论 -
Python爬虫:wd参数是一个字典
import requestsheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}# 这是目标url# url = 'https://www.baidu.com/s?wd=python'# 最后有没有问号结果都一样url = 'https://www.baidu.原创 2022-01-18 16:22:37 · 915 阅读 · 0 评论 -
Python爬虫:etree.HTML()非本地文件与etree.parse()本地支持文件的区别
def bili_get_img(text): """ 这里定义一个名为bili_get_img的函数,用来解析图片链接,即反馈为链接 同时要求传入一个文本,即bili函数反馈的网页源码 """ text = str(text) reap_xpath = etree.HTML(text) #初处理,并赋值给reap_xpathetree.HTML()与etree.parse()的区别方法 适用于 etree.HTML() .原创 2022-01-18 11:20:26 · 1039 阅读 · 0 评论 -
Python爬虫:通过requests.get()方法获取网站源码
方法 常用参数 requests.get() url=* , headers=* 其中url参数传入的必须为一个字符串类型(str) headers参数传入的必须为一个字典格式(dict),这个参数的传入内容就是反反爬的关键原创 2022-01-18 08:43:26 · 1033 阅读 · 0 评论 -
Python爬虫:需要导入的库
import requests #获取页面数据import pandas as pd #用于数据清洗from bs4 import BeautifulSoup #解析页面import re #用于正则表达式原创 2022-01-17 09:26:17 · 490 阅读 · 0 评论 -
Python爬虫:xpath对HTML文件进行本地读取进行测试
本地文件<html lang="en"><head> <meta charset="UTF-8" /> <title>测试bs4</title></head><body> <div> <p>百里守约</p> </div> <div class="song"> <p>李清照</p> <p>王安石&l原创 2022-01-13 18:29:42 · 991 阅读 · 0 评论 -
Python爬虫:抓取网页内容
import requestsprint(requests.get("https://www.csdn.net/").text)print(requests.get("https://www.csdn.net/").text)原创 2022-01-12 18:12:17 · 424 阅读 · 0 评论 -
Python爬虫:requests库改变编码
import requestsurl = 'https://www.csdn.net/'#原编码为utf-8response = requests.get(url)response.encoding = 'gbk'print(response.encoding)结果gbk原创 2022-01-12 16:55:07 · 2553 阅读 · 0 评论 -
Python爬虫:利用requests库查看编码类型
import requestsurl = 'https://blog.csdn.net/wydyzq12'response = requests.get(url)print(response.encoding)原创 2022-01-12 16:51:02 · 696 阅读 · 0 评论 -
Python爬虫:代参数网址抓取
import requestsfrom lxml import etreeimport re# allMovieList=[]# for page in range(5):# url = "https://movie.douban.com/top250?start=%s" % (page*25)# print(url)allMovieList = []for page in range(5): url = "https://api.bilibili.com/x/.原创 2022-01-08 18:02:46 · 454 阅读 · 0 评论 -
Python爬虫:返回的是url地址
# 返回的是url地址print(response.geturl())原创 2022-01-07 17:35:23 · 800 阅读 · 0 评论 -
Python爬虫:wd参数
import urllib.parsedata = { 'wd':'罗永浩', 'sex':'男', 'location':'吉林省延边'}a = urllib.parse.urlencode(data)print(a)#运行参数wd=%E7%BD%97%E6%B0%B8%E6%B5%A9&sex=%E7%94%B7&location=%E5%90%89%E6%9E%97%E7%9C%81%E5%BB%B6%E8%BE%B9...原创 2022-01-07 17:06:17 · 748 阅读 · 0 评论 -
Python爬虫:url的组成
# https://www.baidu.com/s?wd=罗永浩# http/https www.baidu.com 80/443 s wd = 罗永浩 ## 协议 主机 端口号 路径 参数 锚点# http 80# https 443# mysql 3306# oracle 1521# redis 6379# mongodb 27017...原创 2022-01-07 17:01:38 · 885 阅读 · 0 评论 -
Python爬虫:如何下载视频并保存?
# 下载视频url_video = 'https://vd4.bdstatic.com/mda-mkb0qbk7b8wtuv5y/sc/cae_h264_nowatermark/1636677244157694231/mda-mkb0qbk7b8wtuv5y.mp4?v_from_s=hkapp-haokan-hbe&auth_key=1641372460-0-0-8ded26e2be8eddd98d05a2bb94185218&bcevod_channel=searchbox_feed.原创 2022-01-05 16:23:40 · 3878 阅读 · 0 评论 -
Python爬虫:如何下载图片并保存?
# 下载图片url_img = 'https://img1.baidu.com/it/u=1126389447,1515809515&fm=26&fmt=auto'## # url代表的是下载的路径 filename文件的名字# # 在python中 可以变量的名字 也可以直接写值urllib.request.urlretrieve(url= url_img,filename='lzf.jpg')...原创 2022-01-05 15:36:43 · 986 阅读 · 0 评论 -
Python爬虫:如何下载网站源码并保存?
import urllib.request# 下载网页url_page = 'http://www.baidu.com'# url代表的是下载的路径 filename文件的名字# 在python中 可以变量的名字 也可以直接写值urllib.request.urlretrieve(url_page,'baidulzf.html')原创 2022-01-04 18:29:38 · 2170 阅读 · 0 评论 -
Python爬虫:如何爬取一个网站的源码?
# 使用urllib来获取百度首页的源码import urllib.request# (1)定义一个url 就是你要访问的地址url = 'http://www.baidu.com'# (2)模拟浏览器向服务器发送请求 response响应response = urllib.request.urlopen(url)# (3)获取响应中的页面的源码 content 内容的意思# read方法 返回的是字节形式的二进制数据# 我们要将二进制的数据转换为字符串# 二进制--》字..原创 2022-01-04 18:22:20 · 3056 阅读 · 0 评论 -
Xpath-helper使用规则
打开和关闭xpath helper的快捷键都是:Ctrl+Shift+X。按住ctrl + shift ,然后移动鼠标就可以选择页面上的元素,被选中的元素会显示不同的颜色<span class="mzZanXbP">span[@class='mzZanXbP']<div class="x+4i3kAc">div[@class='x+4i3kAc']...原创 2022-01-03 17:11:23 · 873 阅读 · 0 评论