python爬虫
爬虫地小知识点
(๑• . •๑)框
我不爱学习
展开
-
python将图片变成水墨画
from PIL import Imageimport numpy as npa=np.asarray(Image.open("G:/timg.jpg").convert("L")).astype("float")depth=10#深度的范围为0~100,我们先取10这个数grad = np.gradient(a) #取图像灰度的梯度值,有两个grad_x, grad_y = grad ...原创 2020-03-06 23:27:12 · 2593 阅读 · 1 评论 -
python爬虫——利用抓包有道翻译post文件
import urllibimport urllib.requesturl="http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule "key=input("请输入要输入的文字")headers = { "Host" : "fanyi.youdao.com", "Connectio...原创 2020-02-24 23:07:24 · 204 阅读 · 0 评论 -
Python爬虫——总结小知识点
urllib入门mport urllib.request#向指定的url地址发送请求,并返回服务器响应的类文件对象response = urllib.request.urlopen("http://www.baidu.com/")#服务器返回的类文件对象支持python文件对象的操作方法#read()方法就是读取文件里面的全部内容,返回字符串#此方法的缺点是不能构造,headers不能...原创 2020-02-24 21:08:17 · 268 阅读 · 0 评论 -
Python爬虫——疫情地图
import requestsimport jsonfrom pyecharts import Mapfrom lxml import etreeclass S: def __init__(self): self.headers={ "User-Agent" :"Mozilla / 5.0(iPhone;CPUiPhoneOS11_0lik...原创 2020-02-23 19:17:54 · 830 阅读 · 0 评论 -
Python爬虫——美女图片放在文件夹
import requestsimport reimport timeimport osurl1="https://www.vmgirls.com/12985.html"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" ...原创 2020-02-22 19:21:52 · 252 阅读 · 0 评论 -
python爬虫——up主信息——正则
import requestsimport reimport jsonclass BookSpider(object): def __init__(self): kw="博士" self.base_url = "https://search.bilibili.com/all?keyword=" + str(kw) + "&from_sour...原创 2020-02-22 11:43:03 · 144 阅读 · 0 评论 -
Python爬虫——保存至csv
import requestsfrom lxml import etreeimport jsonimport csvclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"U...原创 2020-02-19 12:14:58 · 439 阅读 · 0 评论 -
Python爬虫——allitebooke_bs4
import requestsfrom lxml import etreeimport jsonfrom bs4 import BeautifulSoupclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" ...原创 2020-02-18 23:15:34 · 136 阅读 · 0 评论 -
Python爬虫——allitebooks网站——xpath
import requestsfrom lxml import etreeimport jsonclass BookSpider(object): def __init__(self): self.base_url = "http://www.allitebooks.org/page/{}/" self.headers = {"User-Agent":...原创 2020-02-18 22:43:31 · 161 阅读 · 0 评论 -
Python爬虫——json和csv
import jsonimport csv#需求json中的数据转换成csv文件#1、分别是读,创建文件json_fd = open("02json.json","r")csv_fd=open("03.csv","w")#2、提出表头,表内容#将字符串转化成列表data_list = json.load(json_fd)sheet_title=data_list[0].keys...原创 2020-02-18 19:01:21 · 185 阅读 · 0 评论 -
Python爬虫——豆瓣小链接和小题目
简单的爬虫,此代码具有模板的作用要具有面向对象的特点,所以分开写每一部分import requestsfrom lxml import etreeimport jsonclass BB(object): def __init__(self): self.url="https://www.douban.com" self.headers={ "User-Agent":...原创 2020-02-17 01:17:48 · 131 阅读 · 0 评论 -
python爬虫——requests里面的response对象
import requestsclass R(object): def __init__(self): url="http://www.baidu.com" header = { # 浏览器的版本 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64...原创 2020-02-14 13:55:32 · 684 阅读 · 0 评论 -
python爬虫——付费ip两种方式
第一种方式import urllib.requests#付费的代理发送#用户名密码带着def money_proxy_use(): money_proxy = { "http":"username:[email protected]:1233" } #创建代理的处理器 proxy_handler = urllib.requests.ProxyHandler(money_proxy...原创 2020-02-13 23:13:52 · 746 阅读 · 0 评论 -
python爬虫——设置多个ip代理
import urllib.requestsdef proxy_user(): proxy_list=[#自己去网上搜免费的或者是付费的 {"http":"183.154.55.162:9999"}, {"http":"117.88.177.141:3000"}, {"http":"222.189.191.165:9999"}, {"http":"121.237.148.59:...原创 2020-02-13 18:10:33 · 6599 阅读 · 0 评论 -
python爬虫——重写urlopen(为设置多个ip做准备)
import urllib.requestsdef handle_openner():#urllib.request.urlopen()#虽然封装好,但是系统的urlopen并没有添加代理功能,需要我们在定义函数改这个功能#安全套阶层也就是http和https的区别,ssl是第三方的CA数字正数,相当于加密了一层#http80端口 https332#把urlopen拆开为(为什么可以...原创 2020-02-13 16:25:13 · 272 阅读 · 0 评论 -
PYTHON爬虫——json和xml
1、xml是json的前身,他是重量级的(加标签),而json是轻量级的他们都是用于数据交互的格式,而html是给用户看的展示数据2、json 数据交互格式简单理解就是一个字典或者是一个列表语法:不能写注释 keyvalue必须是双引号 末尾不能写逗号 整个文件有且仅有一个字典或列表...原创 2020-02-18 18:16:06 · 193 阅读 · 0 评论 -
Python爬虫——bs4
from bs4 import BeautifulSoupimport requestsurl="https://www.douban.com/?p=1"headers = { "User-Agent": "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11" }c...原创 2020-02-17 11:49:34 · 247 阅读 · 0 评论 -
Python爬虫——xpath的几种查询
1、直接查找一个或多个的内容title_list = x_data.xpath("//a[@class=‘rec_topics_name’]/text()")2、模糊查询(一群id里面前半部分一样,后半部分不一样)title_list = x_data.xpath("//a[contains(@id=‘rec_topics_name’)]/text()")3、平级关系的下一个节点foll...原创 2020-02-17 10:26:20 · 221 阅读 · 0 评论 -
Python爬虫——xpath
import requestsfrom lxml import etreeurl = "https://news.baidu.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"}data = requests.get(url,headers...原创 2020-02-16 23:09:00 · 100 阅读 · 0 评论 -
Python爬虫re——常用方法
import reone = 'abc 123'patter = re.compile(' ')result = patter.split(one)print(result)#从头开始匹配patter = re.compile('\d+')result=patter.match(one)print(result)#从任意位置开始匹配result = patter.search...原创 2020-02-15 17:16:23 · 232 阅读 · 0 评论 -
Python爬虫re——贪心和点
贪婪和非贪婪import re#贪婪模式#非贪婪one = "meesdfgfnsdekkn"two ='2.5'pattern = re.compile('m(.*)n')pattern1 = re.compile('m(.*?)n')pattern2 = re.compile('2\.5')result = pattern.findall(one)result1 = pat...原创 2020-02-15 16:47:57 · 128 阅读 · 0 评论 -
python爬虫——访问公司内网ip
import urllib.requestdef auth_nei_wang(): #1用户名密码 user ="admin" pwd = "admin123" nei_url = "http://192.168.179.66" #2创建密码管理器 pwd_manager = urllib.request.HTTPPasswordMgrWithPr...原创 2020-02-13 23:24:07 · 2666 阅读 · 1 评论 -
python urllib网址与字典的拼接
import urllib.requestimport stringimport urllib.parsedef get_params(): url="https://www.baidu.com/s?" params={ "wd":"中文", "key":"zhang", "value":"san"}str_params =...原创 2020-02-12 23:52:36 · 778 阅读 · 0 评论 -
python urllib-get传参
拼接网站import urllib.requestimport urllib.parseimport stringdef get_method(): url="http://www.baidu.com/s?wd="#注意很乱的那部分网址没用,自行删除 #拼接字符串 name-"美女" final_url=url+name print(final_url) #以下发现此处报错...原创 2020-02-12 23:23:06 · 272 阅读 · 0 评论 -
Python爬虫re——match
match方法 是否匹配成功 从头开始 匹配一次`import reone=""" qwiyrutoyuhjfhgjfa 12345678A"""two="wwww"pattern = re.compile('q(.*)a',re.S|re.I)pattern1 = re.compile('^w+$')#match方法 是否匹配成功 从头开始 匹配一次re...原创 2020-02-15 17:08:01 · 99 阅读 · 0 评论 -
Python爬虫——cookie代码登陆
import requests#请求数据的urlheaders = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"}#session类可以自动保存cookies==cookiesjarseeion = requests.session()#1、代码登陆mene...原创 2020-02-15 12:57:21 · 149 阅读 · 0 评论 -
Python爬虫——cookies
cookie认证时,直接粘贴复制过来是不行的,因为是字符串,而requests里面需要的是字典转成字典的两种方式import requests#请求数据的urlmeneber_url="https://www.douban.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.1...原创 2020-02-15 12:31:36 · 187 阅读 · 0 评论 -
Python爬虫——忽略ssl认证
当打开一个网站时,可能会出现网页不安全,用户需要点开下面的高级认证再跳转到该页面,则需要忽略ssl的操作,才能爬取数据import requestsurl= "https://www.12306.cn/"headers = { "User-Agent":"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"...原创 2020-02-15 10:53:14 · 1184 阅读 · 0 评论 -
Python爬虫——requests ip代理
注意可能会出错的几个地方1、网上的代理ip,要看好是https还是http2、网址前带着http或者是https3、可能是User-Agent响应出错,可以换个其他的(当初我用的是谷歌出错了)import requestsurl = "http://www.baidu.com"headers = { "User-Agent":"Opera/9.80 (Windows NT 6...原创 2020-02-15 10:26:12 · 697 阅读 · 0 评论 -
python爬虫——cookies
1、添加cookie(1)登陆成功 手动登陆(2)点击twork抓包 黏贴复制 登陆成功之后cookie(3)headers = {cookie:}(4)Request(headers=)import urllib.request#1、数据urlurl="http://www.yaozh.com/member/"#2、添加请求头headers = { "User-Age...原创 2020-02-14 12:38:51 · 380 阅读 · 0 评论 -
python爬虫——useragent
我们知道即使我们把header换成某个浏览器,但是一直用这个浏览器访问,也会被认定位爬虫,所以要及时更换浏览器import urllib.requestimport randomdef load_baidu(): url="http://www.baidu.com" user_agent_list=[ "Mozilla / 5.0(Windows;U;WindowsNT6.1;en -...原创 2020-02-13 13:02:16 · 124 阅读 · 0 评论 -
python urllib访问百度
import urllib.requestdef load_data(): url="http://www.baidu.com"/#这里注意是http还是https response = urllib.request.urlopen(url) print(reponse)#发现只是输出一个对象,并没有代码 #将response对象读取 data = response.read() p...原创 2020-02-12 23:10:13 · 726 阅读 · 0 评论 -
python爬虫——淘宝书包
import reimport requestsdef getHTMLText(url): try: headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809....原创 2020-02-11 12:40:16 · 534 阅读 · 0 评论 -
Python爬虫——Ajax豆瓣json
import urllibimport urllib.requesturl="https://movie.douban.com/j/new_search_subjects?sort=U"headers = { "User-Agent": "Mozilla / 5.0(iPhone;CPUiPhoneOS11_0likeMacOSX) AppleWebKit / 604.1.38(...原创 2020-02-25 20:23:33 · 215 阅读 · 0 评论