![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
weixin_46061565
这个作者很懒,什么都没留下…
展开
-
【廖雪峰】python爬虫-------学习记录day08(数据存储)
数据存储1、json原创 2021-05-21 22:16:46 · 63 阅读 · 0 评论 -
爬取起点网站图书信息(书名、作者、简介、图片url)
# 爬取qidian网站图书信息(书名、作者、简介、图片url)import requestsfrom lxml import etreeimport jsonclass BookSpider(object): def __init__(self): self.url = 'https://www.qidian.com/finish?action=hidden&orderId=&style=1&pageSize=20&siteid=1&原创 2021-05-21 22:11:13 · 1713 阅读 · 0 评论 -
【廖雪峰】python爬虫-----------学习记录day02(User-Agent、proxy_handler)
【廖雪峰】python爬虫-----------学习记录day02(User-Agent、proxy_handler)'''import urllib.requestdef load_data(): url = 'https://www.baidu.com/' response = urllib.request.urlopen(url) print(response) data = response.read() str_data = data.de原创 2021-04-24 23:29:30 · 97 阅读 · 0 评论 -
【廖雪峰】python爬虫------------------学习记录day04(爬取“个人中心”、request 模块)
## 爬取“个人中心”1、添加cookie登陆成功 手动登录点击Network珠宝 粘贴复制 登录成功后的cookieheaders = {‘cookie’:’’}Request(headers=)"""爬取“个人中心”1、添加cookie登陆成功 手动登录点击Network珠宝 粘贴复制 登录成功后的cookieheaders = {'cookie':''}Request(headers=)"""import urllib.request#1、数据urlurl = "h原创 2021-04-27 00:18:26 · 213 阅读 · 0 评论 -
【廖雪峰】python爬虫-------------学习记录day03(付费代理发送)
# import urllib.request## #付费代理发送# #用户名密码(带着)# #通过验证的处理器发送## def money_proxy_use():# #第一种方式发送付费的IP地址# # #1、代理IP# # money_proxy = {"http":"username:pwd@192.168.12.11:8080"}# # #2、代理的处理器# # proxy_handler = urllib.request.ProxyH原创 2021-04-26 23:04:48 · 115 阅读 · 1 评论 -
【廖雪峰】python爬虫--------学习记录day07(bs4)
from bs4 import BeautifulSouphtml_doc = """<html><head><title>The Dormouse's story</title></head><body><p class="title"><b>The Dormouse's story</b></p><p class="story">Once upon a tim原创 2021-05-08 21:32:22 · 118 阅读 · 0 评论 -
【廖雪峰】python爬虫---------学习记录day01(基本概念)
【廖雪峰】python爬虫---------学习记录 day01(基本概念)'''import urllib.requestdef load_data(): url = 'https://www.baidu.com/' response = urllib.request.urlopen(url) print(response) data = response.read() str_data = data.decode('utf8') pri原创 2021-04-24 23:27:40 · 105 阅读 · 1 评论 -
【廖雪峰】python爬虫------------学习记录day06(xpath)
import requestsfrom lxml import etreeurl = 'http://news.baidu.com/'headers = { "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0'}data = requests.get(url,headers=headers).content.decode()# 1.转解析类型xpat原创 2021-05-07 23:33:01 · 87 阅读 · 0 评论 -
【廖雪峰】python爬虫------------学习记录day05(正则re)
正则表达式re模块1、贪婪模式、非贪婪模式import re# 贪婪模式 从开头匹配到结尾 默认# 非贪婪one = 'mdfsdsfffdsn12345656n'two = "a\d"pattern = re.compile('a\b')# pattern = re.compile('m(.*?)n')result = pattern.findall(two)print(result)2、 . 除了 换行符号\n 之外的 匹配import re# . 除了 换行符号\原创 2021-05-04 17:58:54 · 133 阅读 · 0 评论