![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
requests
执笔写回憶
人生苦短,才学Python!
展开
-
requests模拟请求百度翻译接口api,中文结果是Unicode,需要进行解码
利用百度翻译接口,模拟查询英文单词功能import requestsimport hashlibimport jsonurl = 'https://fanyi-api.baidu.com/api/trans/vip/translate'# sign:签名,salt:随机数,appid:注册成百度开发者的appid,secret_key:注册成百度开发者的密钥secret_key = ''q = 'apple'salt = ''appid = ''# md5加密sign = ha原创 2022-02-23 15:24:05 · 852 阅读 · 0 评论 -
python通过xpath读取html指定的内容并获取该部分html代码
有时候我们并不想要网页中的具体文字内容,而是某一部分的HTML代码:<div class="pageContent"><p style="text-indent:2em;">南方地区...</p></div>这时候可以用到etree.tostringimport requestsfrom lxml import etreeurl = 'http://www.weather.com.cn/index/zxqxgg1/new_wlstyb..原创 2022-02-09 17:02:50 · 2482 阅读 · 0 评论 -
Python3下载文件动态显示进度条和下载时间的实现
import osimport timeimport requestsdef downloader(url,path,title): if not os.path.exists(path): os.makedirs(path) file_path = path + "/" + title start = time.time() size = 0 res = requests.get(url, stream=True) chunk_s.原创 2021-05-10 21:18:13 · 859 阅读 · 0 评论 -
python正则获取站长之家风景图,保存到本地
# -*- coding: utf-8 -*-# !/usr/bin/env python# 获取站长之家风景图:https://sc.chinaz.com/tupian/fengjingtupian.html,长时间爬取会出现图片响应超时的问题。# 首先从第一页中获取第一页所有图片详情页链接和下一页的链接# 对详情页就行解析下载,下载完毕请求下一页,并重复上一步操作,直到最后一页为止。# 在下载图片前,先获取所有已下载的图片名字,如果存在则不下载import os, re, timeim.原创 2020-12-20 17:08:59 · 220 阅读 · 0 评论 -
简单爬取猫眼实时票房数据
https://piaofang.maoyan.com/dashboard# -*- coding: utf-8 -*-#!/usr/bin/env python# 猫眼票房:https://piaofang.maoyan.com/dashboardimport osimport timeimport datetimeimport jsonimport requestsfrom lxml import etreeclass PF(object): def __init__原创 2020-08-11 11:09:56 · 4652 阅读 · 0 评论 -
Python爬取拉勾网招聘信息,解决“您操作太频繁,请稍后访问”
# -*- coding: utf-8 -*-#!/usr/bin/env python# 爬取拉勾网职位信息import time,re,jsonimport requestsfrom urllib.parse import quotefrom lxml import etreeclass LG(object): def __init__(self,city): self.data_list = [] city = quote(city) .原创 2020-08-07 17:44:21 · 503 阅读 · 0 评论 -
python利用cookiejar和requests.session()模拟登录,访问登录后页面操作
import urllib.requestfrom http import cookiejarfrom urllib import parselogin_url = 'https://pos.XXXXX.com/j_spring_security_check'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.原创 2020-07-06 13:21:18 · 622 阅读 · 0 评论 -
获取迁木网QS世界大学排名信息
处理网址:http://www.qianmu.org/ranking/1528.htm# 获取qianmu迁木网QS世界大学排名信息import requestsfrom lxml import etreeimport redef fetch(start_url): '''请求并下载网页''' r = requests.get(start_url) if r.status_code != 200: r.raise_for_status() r原创 2020-07-03 18:06:48 · 439 阅读 · 0 评论 -
urllib中urlparse使用技巧以及iter_content图片边下边存到硬盘使用
import os,requestsfrom urllib.parse import urlparse# 如果获取的链接地址如下,但是我们只想要问号前面的怎么处理url = 'http://i2.chuimg.com/657f715d4ba2439e91e9e67f1c7026b9_1125w_1488h.jpg?imageView2/1/w/215/h/136/interlace/1/q/90'html = urlparse(url)# ParseResult(scheme='http',.原创 2020-06-29 18:45:56 · 298 阅读 · 0 评论 -
requests的一些操作笔记
import requests,jsonurl = 'http://httpbin.org/get'r = requests.get(url)print(r.status_code,r.reason) # 200 okprint(r.text)s = requests.post('http://httpbin.org/post',data={'spam':1})print(type(s.text)) # str类型print((s.json())['form']) # {'spam': '.原创 2020-06-29 11:19:36 · 143 阅读 · 0 评论 -
python3的requests模块下载图片到本地
import requests# 图片地址url = 'http://www.open-open.com/bbs/uploadImg/20160107/20160107133856_341.jpg'html = requests.get(url)# 将图片保存到D盘with open("D:/1.jpg","wb")as f: f.write(html.content)...原创 2018-08-23 12:36:58 · 6690 阅读 · 1 评论 -
获取大麦网孟鹤堂演出数据并播报和在右下角弹窗提示
#!/usr/bin/env python# coding=utf-8#!/usr/bin/env python# coding=utf-8# 获取大麦网孟鹤堂演出数据并播报和在右下角弹窗提示import requestsimport win32com.clientfrom lxml import etreeimport json,timefrom show_msg im...原创 2019-05-13 13:15:38 · 1549 阅读 · 2 评论 -
Python3中关于Max retries exceeded with url 的错误解决
1.http连接太多没有关闭导致的,解决方法:import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址2.访问次数频繁,被禁止访问,解决方法:使用代理import req...原创 2019-04-22 17:19:42 · 19018 阅读 · 0 评论 -
Python中requests模块对代理IP的有效性验证
#!/usr/bin/env python# coding=utf-8# 代理IP验证有效性# https://www.xicidaili.com/nn/# https://www.kuaidaili.com/free/inha/1/import urllib.requestimport threadingdef isActiveProxy(): url = "htt...原创 2019-03-21 14:03:30 · 1336 阅读 · 0 评论 -
python3爬虫Scrapy框架解决URL被重定向无法抓取到数据问题,显示301/302状态码
1.什么是状态码301,302301 Moved Permanently(永久重定向) 被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。比如百度百科:http://baike.baidu.com/fenlei/%E6%94%BF%E6%B2%BB%E4%BA%BA%E7%89%A9解决(一)1.在Request中将scrapy的dont...原创 2018-11-24 16:13:14 · 10039 阅读 · 2 评论 -
改写为普通类方法:python3将pos系统在线产品信息到excel表,以及封面图和详情图下载到本地
1、登录POS后台,获取企业在线的产品信息,包含规格、价格、封面图、详情页图等信息到本地中2、登录成功后需输入要查询的企业名字,然后再根据提示输入相应企业的ID号即可下载 #!/usr/bin/env python# coding=utf-8# 有选择性的获取POS后台企业的产品信息并下载到excel表格中以及图片到本地import requestsimport refrom ...原创 2018-08-24 17:49:24 · 363 阅读 · 0 评论 -
requests实现简单的验证登录以及登陆后获取想要的页面内容--模板
#!/usr/bin/env python# coding=utf-8# 简单的验证登录以及登陆后获取想要的页面内容import requestsfrom lxml import etree# 这个是网站在登录的时候验证密码的界面,一般不是登录的界面,需要抓包获取到post_url = "https://pos.XXXX.com/j_security_check"username...原创 2018-08-17 16:54:41 · 3179 阅读 · 0 评论 -
python3从本地excel表格获取账号,实现后台系统的登录,并获取运费后保存到表格中
1、首先有一个账号的excel文件,里面包含企业名称、登录账号以及登录密码;2、获取账号文件里面的信息,实现模拟登录,登录成功则获取运费,登录失败则提示并且将失败的手机号颜色标红;3、后台网站用XXXX代替。#!/usr/bin/env python# coding=utf-8# 获取后台系统的运费规则,保存到表格中,其中登录账号从本地表格中获取# 增加了退出账号功能和多次尝试...原创 2018-08-03 18:07:04 · 720 阅读 · 0 评论 -
模拟京东登录
#!/usr/bin/env python# coding=utf-8# 模拟京东登录# https://segmentfault.com/a/1190000013170936import osimport requestsfrom bs4 import BeautifulSoupimport timeclass JD_crawl(object): def __init...原创 2018-07-05 17:28:01 · 1929 阅读 · 0 评论